このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240809となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 再生カーネルバナッハ空間の無限和による一層ニューラルネットワークの分解
Decomposition of one-layer neural networks via the infinite sum of reproducing kernel Banach spaces ( http://arxiv.org/abs/2409.18132v1 ) ライセンス: Link先を確認 | Seungcheol Shin, Myungjoo Kang, | (参考訳) 本稿では、RKBS の評価定理を用いて、RKBS の和を定義し、RKBS の和が特徴空間の直和と一致することを示す。
さらに、積分 RKBS を$p$-norm RKBS の和に分解する。
最後に、積分RKBSクラスの構造的理解のためのアプリケーションを提供する。
In this paper, we define the sum of RKBSs using the characterization theorem of RKBSs and show that the sum of RKBSs is compatible with the direct sum of feature spaces. Moreover, we decompose the integral RKBS into the sum of $p$-norm RKBSs. Finally, we provide applications for the structural understanding of the integral RKBS class. | 翻訳日:2024-11-06 15:51:02 公開日:2024-08-09 |
# 学習スタイルに基づくeラーナーの同種グループ化による教育カスタマイズ
Educational Customization by Homogenous Grouping of e-Learners based on their Learning Styles ( http://arxiv.org/abs/2408.12619v1 ) ライセンス: Link先を確認 | Mohammadreza amiri, GholamAli montazer, Ebrahim Mousavi, | (参考訳) E-ラーニング環境は対面インタラクションよりも柔軟性が高く、e-コンテントのパーソナライズとカスタマイズと教育プロセスを通じて、学習者の個人のニーズと能力を満たすために教育コンテンツを適用することができる。
このアプローチの利点にもかかわらず、学習環境をカスタマイズすることで、類似学習者の学習システムのコストを削減できる。
学習者をグループ化するための様々な指標が存在するが、それらの多くは概念的で、不確実であり、時間とともに変化する。
本稿では,学習スタイルに基づくFelder-Silvermanモデルを用いて,類似学習者のグループ化を提案する。
さらに、ファジィ集合論(FST)を用いて、ネットワーク環境におけるeラーナーの挙動と動作をモデル化する。
学習者の学習スタイルを特定した後、共用的な学習グループを形成し、各グループが好み、ニーズ、才能、能力に基づいて適応的なコンテンツを受け取る。
実験群と制御群を比較し,提案手法の有効性を検証した。
教育的成功」の観点では、実験グループの重み付き平均スコアは20点中17.65点、制御グループは20点中12.6点である。
さらに,実験群の「教育満足度」は67%,コントロールグループの満足度は37%であった。
The E-learning environment offers greater flexibility compared to face-to-face interactions, allowing for adapting educational content to meet learners' individual needs and abilities through personalization and customization of e-content and the educational process. Despite the advantages of this approach, customizing the learning environment can reduce the costs of tutoring systems for similar learners by utilizing the same content and process for co-like learning groups. Various indicators for grouping learners exist, but many of them are conceptual, uncertain, and subject to change over time. In this article, we propose using the Felder-Silverman model, which is based on learning styles, to group similar learners. Additionally, we model the behaviors and actions of e-learners in a network environment using Fuzzy Set Theory (FST). After identifying the learning styles of the learners, co-like learning groups are formed, and each group receives adaptive content based on their preferences, needs, talents, and abilities. By comparing the results of the experimental and control groups, we determine the effectiveness of the proposed grouping method. In terms of "educational success," the weighted average score of the experimental group is 17.65 out of 20, while the control group achieves a score of 12.6 out of 20. Furthermore, the "educational satisfaction" of the experimental group is 67%, whereas the control group's satisfaction level is 37%. | 翻訳日:2024-09-01 17:02:13 公開日:2024-08-09 |
# 量子生成逆数ネットワーク:量子生成物状態の生成と検出
Quantum Generative Adversarial Networks: Generating and Detecting Quantum Product States ( http://arxiv.org/abs/2408.12620v1 ) ライセンス: Link先を確認 | James E. Steck, Elizabeth C. Behrman, | (参考訳) 機械学習は、非アルゴリズム的に量子コンピュータをプログラムする体系的な方法として使用できる。
量子機械学習により、アルゴリズムをゲートビルディングブロックに分割することなく計算を実行でき、その困難なステップを排除し、不要な複雑さを軽減できます。
さらに、機械学習アプローチはノイズとデコヒーレンスの両方に対して堅牢であり、これは本質的にノイズの多いNISQデバイス上で動作するのに理想的であり、誤り訂正に利用可能なキュービット数に制限がある。
本稿では,Kerras が開発した古典的スタイルネット GAN の量子アナログである QGAN を画像生成と分類に応用する。
量子系はジェネレータとして使用され、別の量子系は判別器として使用される。
ジェネレータハミルトン量子パラメータは、Kerrasが使用するスタイルパラメータの役割を担う量子スタイルパラメータによって拡張される。
どちらのジェネレータパラメータも、識別器ハミルトニアンの量子パラメータとともに、GAN MinMax問題で訓練される。
純粋に量子情報を持つQGANを実証する問題を選択する。
この課題は、量子積状態の生成と識別である。
実積状態は、量子発生器によって生成された偽の量子積状態から検出され分離される。
量子積状態を検出する問題は、純粋に量子力学としてよく知られたQGANを実証するために選択され、古典的なアナログを持たず、2キュービット以上の量子積状態に対してはオープンな問題である。
画像画素を密度行列として量子状態に適切に符号化することにより、GAN画像生成と検出に適用でき、量子コンピュータの性質を活用できる。
Machine learning can be used as a systematic method to non-algorithmically program quantum computers. Quantum machine learning enables us to perform computations without breaking down an algorithm into its gate building blocks, eliminating that difficult step and potentially reducing unnecessary complexity. In addition, the machine learning approach is robust to both noise and to decoherence, which is ideal for running on inherently noisy NISQ devices which are limited in the number of qubits available for error correction. Here we apply our prior work in quantum machine learning technique, to create a QGAN, a quantum analog to the classical Stylenet GANs developed by Kerras for image generation and classification. A quantum system is used as a generator and a separate quantum system is used as a discriminator. The generator Hamiltonian quantum parameters are augmented by quantum style parameters which play the role of the style parameters used by Kerras. Both generator parameters are trained in a GAN MinMax problem along with quantum parameters of the discriminator Hamiltonian. We choose a problem to demonstrate the QGAN that has purely quantum information. The task is to generate and discriminate quantum product states. Real product states are generated to be detected and separated from fake quantum product states generated by the quantum generator. The problem of detecting quantum product states is chosen to demonstrate the QGAN because is well known as purely quantum mechanical, has no classical analog and is an open problem for quantum product states of more than 2 qubits. With proper encoding of image pixels into quantum states as density matrices, the method demonstrated here is applicable to GAN image generation and detection that can be hosted on and take advantage of the nature of quantum computers. | 翻訳日:2024-09-01 17:02:13 公開日:2024-08-09 |
# STG3Netを用いたマルチスライス空間トラノドミクスデータ統合解析
Multi-Slice Spatial Transcriptomics Data Integration Analysis with STG3Net ( http://arxiv.org/abs/2408.15246v1 ) ライセンス: Link先を確認 | Donghai Fang, Fangfang Zhu, Wenwen Min, | (参考訳) 組織断面における遺伝子発現のマッピングを可能にする最新の空間分解トランスクリプトミクス(SRT)技術の急速な発展に伴い、複数のSRTデータの統合解析がますます重要になっている。
しかし、複数のスライス間のバッチ効果は、SRTデータを解析する上で大きな課題となる。
これらの課題に対処するため,G2N(Global Nearest Neighbor)アンカーペア選択という,プラグアンドプレイによるバッチ補正手法を開発した。
G2Nは、スライス間で代表アンカーペアを選択することにより、バッチ効果を効果的に緩和する。
G2Nをベースとして,マスク付きグラフ畳み込みオートエンコーダをバックボーンモジュールとして巧みに組み合わせたSTG3Netを提案する。
これらのオートエンコーダは生成的逆数学習と統合され、STG3Netは堅牢なマルチスライス空間領域識別とバッチ補正を実現する。
精度,一貫性,F1LISI測定値(バッチ効果補正効率の測定値)を考慮し,STG3Netの異なるプラットフォームからの3つのSRTデータセットの有効性を総合的に評価した。
既存の方法と比較して、STG3Netは生物の多様性とスライス間の接続性を保ちながら、全体的な性能を最高のものにしている。
この論文で使用されるソースコードとすべての公開データセットは、https://github.com/wenwenmin/STG3Netとhttps://zenodo.org/records/12737170で入手できる。
With the rapid development of the latest Spatially Resolved Transcriptomics (SRT) technology, which allows for the mapping of gene expression within tissue sections, the integrative analysis of multiple SRT data has become increasingly important. However, batch effects between multiple slices pose significant challenges in analyzing SRT data. To address these challenges, we have developed a plug-and-play batch correction method called Global Nearest Neighbor (G2N) anchor pairs selection. G2N effectively mitigates batch effects by selecting representative anchor pairs across slices. Building upon G2N, we propose STG3Net, which cleverly combines masked graph convolutional autoencoders as backbone modules. These autoencoders, integrated with generative adversarial learning, enable STG3Net to achieve robust multi-slice spatial domain identification and batch correction. We comprehensively evaluate the feasibility of STG3Net on three multiple SRT datasets from different platforms, considering accuracy, consistency, and the F1LISI metric (a measure of batch effect correction efficiency). Compared to existing methods, STG3Net achieves the best overall performance while preserving the biological variability and connectivity between slices. Source code and all public datasets used in this paper are available at https://github.com/wenwenmin/STG3Net and https://zenodo.org/records/12737170. | 翻訳日:2024-09-01 16:52:18 公開日:2024-08-09 |
# AutoGen Studio:マルチエージェントシステムの構築とデバッグのためのノーコード開発者ツール
AutoGen Studio: A No-Code Developer Tool for Building and Debugging Multi-Agent Systems ( http://arxiv.org/abs/2408.15247v1 ) ライセンス: Link先を確認 | Victor Dibia, Jingya Chen, Gagan Bansal, Suff Syed, Adam Fourney, Erkang Zhu, Chi Wang, Saleema Amershi, | (参考訳) 複数のエージェント(生成AIモデルとツール)が協力するマルチエージェントシステムは、多くのドメインで長時間実行される複雑なタスクを解決する効果的なパターンとして現れています。
しかしながら、パラメータ(モデル、ツール、オーケストレーションメカニズムなど)を指定してデバッグすることは、ほとんどの開発者にとって依然として困難である。
この課題に対処するため、AUTOGENフレームワーク上に構築されたマルチエージェントワークフローを高速にプロトタイピング、デバッグ、評価するためのノーコード開発ツールであるAUTOGEN STUDIOを紹介した。
AUTOGEN STUDIOは宣言型(JSONベースの)仕様を使用してLLM対応エージェントを表現するためのWebインターフェースとPython APIを提供する。
エージェントワークフロー仕様のための直感的なドラッグ&ドロップUI、ワークフローのインタラクティブな評価とデバッグ、再利用可能なエージェントコンポーネントのギャラリーを提供する。
ノーコードマルチエージェント開発ツールの4つの設計原則を強調し、https://github.com/microsoft/autogen/tree/main/samples/apps/autogen-studioでオープンソース実装に貢献しました。
Multi-agent systems, where multiple agents (generative AI models + tools) collaborate, are emerging as an effective pattern for solving long-running, complex tasks in numerous domains. However, specifying their parameters (such as models, tools, and orchestration mechanisms etc,.) and debugging them remains challenging for most developers. To address this challenge, we present AUTOGEN STUDIO, a no-code developer tool for rapidly prototyping, debugging, and evaluating multi-agent workflows built upon the AUTOGEN framework. AUTOGEN STUDIO offers a web interface and a Python API for representing LLM-enabled agents using a declarative (JSON-based) specification. It provides an intuitive drag-and-drop UI for agent workflow specification, interactive evaluation and debugging of workflows, and a gallery of reusable agent components. We highlight four design principles for no-code multi-agent developer tools and contribute an open-source implementation at https://github.com/microsoft/autogen/tree/main/samples/apps/autogen-studio | 翻訳日:2024-09-01 16:52:18 公開日:2024-08-09 |
# リハビリテーションハンドエクソスケルトンのためのAI駆動カメラとセンサ
AI-Powered Camera and Sensors for the Rehabilitation Hand Exoskeleton ( http://arxiv.org/abs/2408.15248v1 ) ライセンス: Link先を確認 | Md Abdul Baset Sarker, Juan Pablo Sola-thomas, Masudul H. Imtiaz, | (参考訳) 運動ニューロン疾患のため、多くの人口は世界中で機能しておらず、その独立性と生活の質に悪影響を及ぼす。
通常は手と前腕の筋肉の弱さが伴うため、筆記やシャツのボタン、物体のグリップといった運動の細かい作業が困難になる。
本研究は,障害者の手の動きを支援する視覚機能付きリハビリテーション・ハンド・エキソスケルトンを提案する。
設計目標は、トレーニングを必要とせずにシンプルなインターフェイスを利用できるツールを作ることだった。
このプロトタイプは市販のグローブの上に作られており、カメラと組み込みプロセッサが統合され、空気圧を使って手を開閉し、物体をつかむのに役立つ。
加速度計も実装され、特徴的な手の動きを検出して、必要に応じてオブジェクトを解放する。
この受動的視覚に基づく制御は、個別の訓練を必要としないため、アクティブなEMGベースの設計とは異なる。
研究の継続は、大量実施を促進するため、コスト、重量、消費電力を削減します。
Due to Motor Neurone Diseases, a large population remains disabled worldwide, negatively impacting their independence and quality of life. This typically involves a weakness in the hand and forearm muscles, making it difficult to perform fine motor tasks such as writing, buttoning a shirt, or gripping objects. This project presents a vision-enabled rehabilitation hand exoskeleton to assist disabled persons in their hand movements. The design goal was to create an accessible tool to help with a simple interface requiring no training. This prototype is built on a commercially available glove where a camera and embedded processor were integrated to help open and close the hand, using air pressure, thus grabbing an object. An accelerometer is also implemented to detect the characteristic hand gesture to release the object when desired. This passive vision-based control differs from active EMG-based designs as it does not require individualized training. Continuing the research will reduce the cost, weight, and power consumption to facilitate mass implementation. | 翻訳日:2024-09-01 16:52:18 公開日:2024-08-09 |
# 変圧器を用いた行動クラスタリングとデータ駆動型到達可能性解析を用いた歩行者運動予測
Pedestrian Motion Prediction Using Transformer-based Behavior Clustering and Data-Driven Reachability Analysis ( http://arxiv.org/abs/2408.15250v1 ) ライセンス: Link先を確認 | Kleio Fragkedaki, Frank J. Jiang, Karl H. Johansson, Jonas Mårtensson, | (参考訳) 本研究では,クラスタ化された歴史的軌跡データに基づいて,将来の歩行者状態を予測するためのトランスフォーマーベースのフレームワークを提案する。
従来の研究では、手作業によるラベルを用いて歩行者の行動や意図を分類することにより、歩行者の軌道予測の強化が提案されている。
しかしながら、これらのアプローチはしばしば限られた歩行者行動のみを捉え、予測に人間の偏見をもたらす。
手作業で作成したラベルへの依存性を軽減するために,階層的な密度に基づくクラスタリングと組み合わせたトランスフォーマーエンコーダを使用して,多様な動作パターンを自動的に識別し,これらのクラスタをデータ駆動型リーチビリティ解析に利用する。
変圧器をベースとしたアプローチにより,歩行者軌道の表現を強化し,その後,異なる「行動」クラスタに軌跡を分類するために使用される特徴や特徴を明らかにする。
これらの行動クラスタは、歩行者の将来の動きを予測するために、エンドツーエンドのデータ駆動アプローチによって、データ駆動の到達可能性分析に使用できることを示す。
我々は,実際の歩行者行動予測において,その有効性を示すために,実際の歩行者データセット上でのアプローチを訓練し,評価する。
In this work, we present a transformer-based framework for predicting future pedestrian states based on clustered historical trajectory data. In previous studies, researchers propose enhancing pedestrian trajectory predictions by using manually crafted labels to categorize pedestrian behaviors and intentions. However, these approaches often only capture a limited range of pedestrian behaviors and introduce human bias into the predictions. To alleviate the dependency on manually crafted labels, we utilize a transformer encoder coupled with hierarchical density-based clustering to automatically identify diverse behavior patterns, and use these clusters in data-driven reachability analysis. By using a transformer-based approach, we seek to enhance the representation of pedestrian trajectories and uncover characteristics or features that are subsequently used to group trajectories into different "behavior" clusters. We show that these behavior clusters can be used with data-driven reachability analysis, yielding an end-to-end data-driven approach to predicting the future motion of pedestrians. We train and evaluate our approach on a real pedestrian dataset, showcasing its effectiveness in forecasting pedestrian movements. | 翻訳日:2024-09-01 16:42:01 公開日:2024-08-09 |
# TrajFM: 地域とタスク転送性のための自動車軌道基礎モデル
TrajFM: A Vehicle Trajectory Foundation Model for Region and Task Transferability ( http://arxiv.org/abs/2408.15251v1 ) ライセンス: Link先を確認 | Yan Lin, Tonglong Wei, Zeyu Zhou, Haomin Wen, Jilin Hu, Shengnan Guo, Youfang Lin, Huaiyu Wan, | (参考訳) 車両軌道は、様々な下流タスクをサポートし、現実世界のアプリケーションに力を与える貴重な移動情報を提供する。
所望の軌道学習モデルは、再訓練せずに異なる領域とタスク間で移動すべきであり、限られた訓練データを用いて計算効率と効率を向上させる。
しかし, 車両の移動パターンと密接な関係を持ち, 一般化が困難である各領域の空間的特徴やPOI配置によって, モデルが各領域に移動する能力は制限される。
さらに,様々なタスクに要求される生成方式が異なるため,タスク転送可能性の達成は困難である。
移動可能性への既存の取り組みは、主に軌道の埋め込みベクトルを学習することであり、これは地域移動が不十分であり、なおもタスク移動の予測モジュールの再訓練を必要としている。
これらの課題に対処するため,TrajFMを提案する。
領域転送性については、TrajFM内の主要な学習可能なモデルとしてSTRFormerを導入する。
トラジェクトリの空間的、時間的、およびPOIモダリティを統合し、領域間のPOIアレンジメントの変動を効果的に管理し、空間的特徴を扱うための学習可能な時空間ロータリー位置埋め込みモジュールを含む。
タスクの伝達性について,トラジェクトリマスキングとリカバリ方式を提案する。
このスキームは、様々なタスクの生成プロセスをマスキングとサブトラジェクトリに統一し、TrajFMを1度だけ事前トレーニングし、再トレーニングすることなく異なるタスクに転送することができる。
様々な環境下での2つの実世界の車両軌道データセットの実験は、TrajFMの有効性を実証している。
コードはhttps://anonymous.4open.science/r/TrajFM-30E4で公開されている。
Vehicle trajectories provide valuable movement information that supports various downstream tasks and powers real-world applications. A desirable trajectory learning model should transfer between different regions and tasks without retraining, thus improving computational efficiency and effectiveness with limited training data. However, a model's ability to transfer across regions is limited by the unique spatial features and POI arrangements of each region, which are closely linked to vehicle movement patterns and difficult to generalize. Additionally, achieving task transferability is challenging due to the differing generation schemes required for various tasks. Existing efforts towards transferability primarily involve learning embedding vectors for trajectories, which perform poorly in region transfer and still require retraining of prediction modules for task transfer. To address these challenges, we propose TrajFM, a vehicle trajectory foundation model that excels in both region and task transferability. For region transferability, we introduce STRFormer as the main learnable model within TrajFM. It integrates spatial, temporal, and POI modalities of trajectories to effectively manage variations in POI arrangements across regions and includes a learnable spatio-temporal Rotary position embedding module for handling spatial features. For task transferability, we propose a trajectory masking and recovery scheme. This scheme unifies the generation processes of various tasks into the masking and recovery of modalities and sub-trajectories, allowing TrajFM to be pre-trained once and transferred to different tasks without retraining. Experiments on two real-world vehicle trajectory datasets under various settings demonstrate the effectiveness of TrajFM. Code is available at https://anonymous.4open.science/r/TrajFM-30E4. | 翻訳日:2024-09-01 16:42:01 公開日:2024-08-09 |
# SpectrumNet上の生成AI: マルチバンド3Dラジオマップのオープンベンチマーク
Generative AI on SpectrumNet: An Open Benchmark of Multiband 3D Radio Maps ( http://arxiv.org/abs/2408.15252v1 ) ライセンス: Link先を確認 | Shuhang Zhang, Shuai Jiang, Wanjie Lin, Zheng Fang, Kangjun Liu, Hongliang Zhang, Ke Chen, | (参考訳) 無線マップは、特定の領域内で無線信号のカバレッジを視覚的に表示するための効率的なデモンストレーションである。
無線ノードがより混雑し、複雑になりつつあるため、将来の無線ネットワークの第6世代(6G)にとってますます役立つものと考えられている。
しかし,高分解能無線マップの構築は,実用システムにおけるスパースサンプリングのため,非常に困難である。
実空間計測におけるギャップを埋めるために合成データを作成することができる生成人工知能(AI)は、高精度な無線地図を構築するのに有効な手法である。
現在、無線地図構築のための生成モデルは、都市シナリオにおける2次元(2次元)シングルバンド無線地図を用いて訓練されており、多様な地形シナリオ、スペクトル帯域、高さの一般化が不十分である。
この問題に対処するために、地形や気候情報を考慮したマルチバンド3次元3次元無線地図データセット、SpectrumNetを提供する。
3つの空間次元、5つの周波数帯、11の地形シナリオ、および3つの気候シナリオの電波マップを含む。
本稿では、SpectrumNetデータセット生成のためのパラメータと設定を紹介し、SpectrumNetデータセットに基づいて、無線マップ構築のための3つのベースライン手法を評価する。
実験では、空間、周波数、シナリオドメインを強く一般化したトレーニングモデルのためのSpectrumNetデータセットの必要性が示されている。
SpectrumNetデータセットに関する今後の研究は、データセットの拡張と校正、およびSpectrumNetデータセットに基づいた無線マップ構築のための生成モデルの拡張などについても議論されている。
Radio map is an efficient demonstration for visually displaying the wireless signal coverage within a certain region. It has been considered to be increasingly helpful for the future sixth generation (6G) of wireless networks, as wireless nodes are becoming more crowded and complicated. However, the construction of high resolution radio map is very challenging due to the sparse sampling in practical systems. Generative artificial intelligence (AI), which is capable to create synthetic data to fill in gaps in real-world measurements, is an effective technique to construct high precision radio maps. Currently, generative models for radio map construction are trained with two-dimension (2D) single band radio maps in urban scenario, which has poor generalization in diverse terrain scenarios, spectrum bands, and heights. To tackle this problem, we provide a multiband three-dimension (3D) radio map dataset with consideration of terrain and climate information, named SpectrumNet. It is the largest radio map dataset in terms of dimensions and scale, which contains the radio map of 3 spacial dimensions, 5 frequency bands, 11 terrain scenarios, and 3 climate scenarios. We introduce the parameters and settings for the SpectrumNet dataset generation, and evaluate three baseline methods for radio map construction based on the SpectrumNet dataset. Experiments show the necessity of the SpectrumNet dataset for training models with strong generalization in spacial, frequency, and scenario domains. Future works on the SpectrumNet dataset are also discussed, including the dataset expansion and calibration, as well as the extended studies on generative models for radio map construction based on the SpectrumNet dataset. | 翻訳日:2024-09-01 16:42:01 公開日:2024-08-09 |
# 任意のセンサ入力による5クラス睡眠ステージ作成のための生成基礎モデル
A generative foundation model for five-class sleep staging with arbitrary sensor input ( http://arxiv.org/abs/2408.15253v1 ) ライセンス: Link先を確認 | Hans van Gorp, Merel M. van Gilst, Pedro Fonseca, Fokke B. van Meulen, Johannes P. van Dijk, Sebastiaan Overeem, Ruud J. G. van Sloun, | (参考訳) 人間の技術者が行うゴールド標準睡眠スコアは、脳波、EOG、EMGといったPSG信号のサブセットに基づいている。
しかし、PSGは、心臓や呼吸の調節など、睡眠のステージングに使える可能性のある、さらに多くのシグナルの導出から成り立っている。
この多様性を信号に活用することで、信頼性の向上、信号損失に対するレジリエンスの向上、長期的な非閉塞性記録への応用といったメリットが期待できる。
本稿では,複数のセンサからの完全自動睡眠ステージ作成のための深層生成基盤モデルとその組み合わせを提案する。
1947年,神経学的,心臓的,呼吸的信号を含む36種類の信号を用いた,専門家による夜間睡眠記録のデータセットを用いて,変圧器バックボーンを用いたスコアベース拡散モデルを訓練した。
センサ間のスコア関数を新しいベイズ因子化することにより,任意のセンサに対してゼロショット推論を実現する。
単一チャネルEEGでは,PSG間合意(5クラス精度85.6%,カッパ0.791)で性能限界に達する。
同時に、この方法は、例えば指PPG、鼻カンナラ、胸部ベルト(5-class accuracy 79.0%, kappa of 0.697)を含む家庭記録や、ティビリスやステノクレイドマストイドEMG(5-class accuracy 71.0%, 0.575)のような睡眠ステージングに一般的に使われない誘導体を組み合わせることで、他のモードから派生したセンサーセットを使用するための完全な柔軟性を提供する。
さらに,センサごとの情報ゲインの観点から新しい解釈可能性指標を提案し,分類性能と線形に相関していることを示す。
最後に,本モデルでは,新たな入力に対して,スコア推定器を訓練するだけで,全く新しいセンサモードを付加することができる。
Gold-standard sleep scoring as performed by human technicians is based on a subset of PSG signals, namely the EEG, EOG, and EMG. The PSG, however, consists of many more signal derivations that could potentially be used to perform sleep staging, including cardiac and respiratory modalities. Leveraging this variety in signals would offer advantages, for example by increasing reliability, resilience to signal loss, and application to long-term non-obtrusive recordings. This paper proposes a deep generative foundation model for fully automatic sleep staging from a plurality of sensors and any combination thereof. We trained a score-based diffusion model with a transformer backbone using a dataset of 1947 expert-labeled overnight sleep recordings with 36 different signals, including neurological, cardiac, and respiratory signals. We achieve zero-shot inference on any sensor set by using a novel Bayesian factorization of the score function across the sensors, i.e., it does not require retraining on specific combinations of signals. On single-channel EEG, our method reaches the performance limit in terms of PSG inter-rater agreement (5-class accuracy 85.6%, kappa 0.791). At the same time, the method offers full flexibility to use any sensor set derived from other modalities, for example, as typically used in home recordings that include finger PPG, nasal cannula and thoracic belt (5-class accuracy 79.0%, kappa of 0.697), or by combining derivations not typically used for sleep staging such as the tibialis and sternocleidomastoid EMG (5-class accuracy 71.0%, kappa of 0.575). Additionally, we propose a novel interpretability metric in terms of information gain per sensor and show that this is linearly correlated with classification performance. Lastly, our foundation model allows for post-hoc addition of entirely new sensor modalities by merely training a score estimator on the novel input. | 翻訳日:2024-09-01 16:42:01 公開日:2024-08-09 |
# vFusedSeg3D:セマンティックセグメンテーションにおける2024年のWaymoオープンデータセットチャレンジのための第3位ソリューション
vFusedSeg3D: 3rd Place Solution for 2024 Waymo Open Dataset Challenge in Semantic Segmentation ( http://arxiv.org/abs/2408.15254v1 ) ライセンス: Link先を確認 | Osama Amjad, Ammad Nadeem, | (参考訳) 本稿では,VFusedSeg3Dを紹介する。VFusedSeg3Dは,カメラとLiDARデータを組み合わせて3D知覚の精度を大幅に向上させる,VisionRDチームが開発した,革新的なマルチモーダル融合システムである。
VFusedSeg3Dは、カメラ画像のリッチなセマンティックコンテンツと、LiDARの正確な深度検知を使用して、各モードに固有の制約に対処する、強力で包括的な環境理解を生成する。
異なる段階でこれらの情報を整列してマージする、慎重に検討されたネットワークアーキテクチャを通じて、我々の新しい特徴融合技術は、LiDAR点雲の幾何学的特徴とカメラ画像のセマンティック特徴を組み合わせる。
マルチモダリティ技術を使用することで、パフォーマンスが大幅に向上し、以前の70.51%とは対照的に、検証セットで72.46%の最先端のmIoUが得られる。
VFusedSeg3Dは新しいベンチマークを3Dセグメンテーションの精度で設定する。
正確な環境認識を必要とするアプリケーションにとって 理想的な解決策です
In this technical study, we introduce VFusedSeg3D, an innovative multi-modal fusion system created by the VisionRD team that combines camera and LiDAR data to significantly enhance the accuracy of 3D perception. VFusedSeg3D uses the rich semantic content of the camera pictures and the accurate depth sensing of LiDAR to generate a strong and comprehensive environmental understanding, addressing the constraints inherent in each modality. Through a carefully thought-out network architecture that aligns and merges these information at different stages, our novel feature fusion technique combines geometric features from LiDAR point clouds with semantic features from camera images. With the use of multi-modality techniques, performance has significantly improved, yielding a state-of-the-art mIoU of 72.46% on the validation set as opposed to the prior 70.51%.VFusedSeg3D sets a new benchmark in 3D segmentation accuracy. making it an ideal solution for applications requiring precise environmental perception. | 翻訳日:2024-09-01 16:42:01 公開日:2024-08-09 |
# HiSTNを用いたマルチチャネル脳波信号からの感情分類:階層グラフに基づく時空間的アプローチ
Emotion Classification from Multi-Channel EEG Signals Using HiSTN: A Hierarchical Graph-based Spatial-Temporal Approach ( http://arxiv.org/abs/2408.15255v1 ) ライセンス: Link先を確認 | Dongyang Kuang, Xinyue Song, Craig Michoski, | (参考訳) 本研究では,多チャンネル脳波データを用いた感情分類のためのパラメータ効率の高い階層型時空間ネットワーク(HiSTN)を提案する。
このネットワークにはボトムアップから様々な抽象化レベルで構築されたグラフ階層が組み込まれており、タスク関連の深い特徴抽出と軽量な設計の2つの利点を提供している。
このモデルの有効性は、提案したユニークなラベル平滑化手法と併用することでさらに増幅される。
総合的なベンチマーク実験により、この組み合わせは量的および定性的な予測の両方の観点から高い、バランスの取れた性能をもたらすことが明らかになった。
約1,000のパラメータを持つHiSTNは、DREAMERデータセットからほとんど使われていない5つの分類タスク問題に対する被検者依存テストにおいて、96.82%(原子価)と95.62%(原子価)の平均F1スコアを達成している。
被験者に依存しない設定では、同じモデルで平均F1スコアが78.34%、興奮81.59%となる。
シークエンシャルトップ2ヒットレート(Seq2HR)メトリクスの採用は、通常のワンホットラベルによるトレーニングと比較して、我々のアプローチによって達成された予測に対するモデルの量的および質的なバランスの点で、重要な改善点を浮き彫りにしている。
これらの改善は、主観非依存タスクの50%以上、主観非依存タスクの30%を超えている。
この研究は、関連するアブレーション研究やケーススタディも含み、提案モデルの動作をさらに解明し、解釈可能性を高める。
This study introduces a parameter-efficient Hierarchical Spatial Temporal Network (HiSTN) specifically designed for the task of emotion classification using multi-channel electroencephalogram data. The network incorporates a graph hierarchy constructed from bottom-up at various abstraction levels, offering the dual advantages of enhanced task-relevant deep feature extraction and a lightweight design. The model's effectiveness is further amplified when used in conjunction with a proposed unique label smoothing method. Comprehensive benchmark experiments reveal that this combined approach yields high, balanced performance in terms of both quantitative and qualitative predictions. HiSTN, which has approximately 1,000 parameters, achieves mean F1 scores of 96.82% (valence) and 95.62% (arousal) in subject-dependent tests on the rarely-utilized 5-classification task problem from the DREAMER dataset. In the subject-independent settings, the same model yields mean F1 scores of 78.34% for valence and 81.59% for arousal. The adoption of the Sequential Top-2 Hit Rate (Seq2HR) metric highlights the significant enhancements in terms of the balance between model's quantitative and qualitative for predictions achieved through our approach when compared to training with regular one-hot labels. These improvements surpass 50% in subject-dependent tasks and 30% in subject-independent tasks. The study also includes relevant ablation studies and case explorations to further elucidate the workings of the proposed model and enhance its interpretability. | 翻訳日:2024-09-01 16:42:01 公開日:2024-08-09 |
# グラフニューラルネットワークを用いたテキスト分類最適化アルゴリズム
Text classification optimization algorithm based on graph neural network ( http://arxiv.org/abs/2408.15257v1 ) ライセンス: Link先を確認 | Erdi Gao, Haowei Yang, Dan Sun, Haohao Xia, Yuhan Ma, Yuanjing Zhu, | (参考訳) 自然言語処理の分野では、テキスト分類は基本的な課題であり、重要な研究価値と応用可能性を持っている。
従来のテキスト分類法は、通常、単語の袋やTF-IDFのような特徴表現に依存しており、単語間の意味的な関係を見落とし、テキストの深い構造的詳細を理解するのが困難である。
近年,非ユークリッドデータを効率的に処理する能力のおかげで,GNNはテキスト分類タスクにとって貴重な資産であることが証明されている。
しかし、GNNに基づく既存のテキスト分類手法は、複雑なグラフ構造の構築やモデルトレーニングの高コスト化といった課題に直面している。
本稿では,グラフニューラルネットワークを用いたテキスト分類最適化アルゴリズムを提案する。
適応的なグラフ構築戦略と効率的なグラフ畳み込み演算を導入することにより、テキスト分類の精度と効率を効果的に向上する。
実験の結果,提案手法は複数の公開データセットにまたがる従来のアプローチや既存のGNNモデルよりも優れており,テキスト分類タスクの性能と実現可能性を強調している。
In the field of natural language processing, text classification, as a basic task, has important research value and application prospects. Traditional text classification methods usually rely on feature representations such as the bag of words model or TF-IDF, which overlook the semantic connections between words and make it challenging to grasp the deep structural details of the text. Recently, GNNs have proven to be a valuable asset for text classification tasks, thanks to their capability to handle non-Euclidean data efficiently. However, the existing text classification methods based on GNN still face challenges such as complex graph structure construction and high cost of model training. This paper introduces a text classification optimization algorithm utilizing graph neural networks. By introducing adaptive graph construction strategy and efficient graph convolution operation, the accuracy and efficiency of text classification are effectively improved. The experimental results demonstrate that the proposed method surpasses traditional approaches and existing GNN models across multiple public datasets, highlighting its superior performance and feasibility for text classification tasks. | 翻訳日:2024-09-01 16:42:01 公開日:2024-08-09 |
# 大規模言語モデルの創発による探索探索による探索学習の促進
Enhancing Exploratory Learning through Exploratory Search with the Emergence of Large Language Models ( http://arxiv.org/abs/2408.08894v1 ) ライセンス: Link先を確認 | Yiming Luo, Patrick Cheong-Iao, Shanton Chang, | (参考訳) 情報時代において,学習者が情報の発見,評価,有効利用を行う方法が課題となっている。特に,学習者が情報検索や検索活動においてさらに混乱する大規模言語モデル(LLM)の複雑さが増している。
本研究は,探索学習理論と探索探索戦略を組み合わせて,学生の学習の観点から探索学習の新たな理論的モデルを構築することで,この複雑さを解き放つ試みである。
本研究は,高頻度探索とフィードバックループを取り入れたKolbの学習モデルに適応し,学生の深い認知・高次認知スキル開発を促進することを目的としている。
さらに,情報検索と情報理論に高度に統合されたLLMが,探索的探索において学生をいかに支援できるかを論じ,理論的に学生とコンピュータの相互作用を促進し,LLMとの新たな時代における学習の旅を支援することに寄与するかを論じる。
In the information era, how learners find, evaluate, and effectively use information has become a challenging issue, especially with the added complexity of large language models (LLMs) that have further confused learners in their information retrieval and search activities. This study attempts to unpack this complexity by combining exploratory search strategies with the theories of exploratory learning to form a new theoretical model of exploratory learning from the perspective of students' learning. Our work adapts Kolb's learning model by incorporating high-frequency exploration and feedback loops, aiming to promote deep cognitive and higher-order cognitive skill development in students. Additionally, this paper discusses and suggests how advanced LLMs integrated into information retrieval and information theory can support students in their exploratory searches, contributing theoretically to promoting student-computer interaction and supporting their learning journeys in the new era with LLMs. | 翻訳日:2024-08-25 14:30:57 公開日:2024-08-09 |
# ServerFi: ゲームとプレイヤーの共生関係
ServerFi: A New Symbiotic Relationship Between Games and Players ( http://arxiv.org/abs/2408.08895v1 ) ライセンス: Link先を確認 | Pavun Shetty, | (参考訳) ブロックチェーンベースのゲームは、従来のゲームと分散所有権と金銭的インセンティブを融合した新しい経済モデルを導入し、GameFiセクターの急速な台頭につながった。
しかし、革新的な魅力にもかかわらず、これらのゲームは、特に市場の安定、プレイヤーの維持、トークン価値の持続性の観点から、重大な課題に直面している。
本稿では,ブロックチェーンゲームの進化を考察し,エントロピー増加理論を用いた現在のトケノミクスモデルにおける重要な欠点を明らかにする。
本稿では,アセット合成によるプライバタイズを重視したServerFiと,ハイレテンションプレイヤーのためのContinuous Rewardsに着目したモデルを提案する。
これらのモデルは数学的フレームワークに形式化され、グループ行動シミュレーション実験によって検証される。
我々の調査結果は、ServerFiがプレイヤーのエンゲージメントを維持し、ゲームエコシステムの長期的な生存性を確保するのに特に効果的であることを示し、将来のブロックチェーンゲーム開発に有望な方向を提供する。
Blockchain-based games have introduced novel economic models that blend traditional gaming with decentralized ownership and financial incentives, leading to the rapid emergence of the GameFi sector. However, despite their innovative appeal, these games face significant challenges, particularly in terms of market stability, player retention, and the sustainability of token value. This paper explores the evolution of blockchain games and identifies key shortcomings in current tokenomics models using entropy increase theory. We propose two new models - ServerFi, which emphasizes Privatization through Asset Synthesis, and a model focused on Continuous Rewards for High-Retention Players. These models are formalized into mathematical frameworks and validated through group behavior simulation experiments. Our findings indicate that the ServerFi is particularly effective in maintaining player engagement and ensuring the long-term viability of the gaming ecosystem, offering a promising direction for future blockchain game development. | 翻訳日:2024-08-25 14:30:57 公開日:2024-08-09 |
# 対話型T2S:大規模言語モデルを用いたテキスト間SQLのためのマルチTurnインタラクション
Interactive-T2S: Multi-Turn Interactions for Text-to-SQL with Large Language Models ( http://arxiv.org/abs/2408.11062v1 ) ライセンス: Link先を確認 | Guanming Xiong, Junwei Bao, Hongfei Jiang, Yang Song, Wen Zhao, | (参考訳) 本研究では,大規模言語モデル(LLM)の強力な推論能力を活用することによって,テキストからSQLへの解析について検討する。
近年の進歩にもかかわらず、既存のLCMベースの手法はスケーラビリティに十分対応していない。
さらに、現在のインタラクションベースのアプローチには、ステップバイステップで解釈可能なSQL生成プロセスがないか、効率的で普遍的なインタラクション設計を提供していないかのどちらかがあります。
これらの課題に対処するため,データベースとの直接対話を通じてSQLクエリを生成するフレームワークであるInteractive-T2Sを紹介した。
このフレームワークは、LLMによる能動的かつ効率的な情報検索を容易にする4つの汎用ツールを含んでいる。
さらに、我々はフレームワーク内のステップワイズ推論プロセスを示すための詳細な例を開発しました。
BIRD-Devデータセットを用いた実験により,本手法は2つの例に過ぎず,その有効性とロバスト性を実証した。
This study explores text-to-SQL parsing by leveraging the powerful reasoning capabilities of large language models (LLMs). Despite recent advancements, existing LLM-based methods have not adequately addressed scalability, leading to inefficiencies when processing wide tables. Furthermore, current interaction-based approaches either lack a step-by-step, interpretable SQL generation process or fail to provide an efficient and universally applicable interaction design. To address these challenges, we introduce Interactive-T2S, a framework that generates SQL queries through direct interactions with databases. This framework includes four general tools that facilitate proactive and efficient information retrieval by the LLM. Additionally, we have developed detailed exemplars to demonstrate the step-wise reasoning processes within our framework. Our experiments on the BIRD-Dev dataset, employing a setting without oracle knowledge, reveal that our method achieves state-of-the-art results with only two exemplars, underscoring the effectiveness and robustness of our framework. | 翻訳日:2024-08-25 14:11:11 公開日:2024-08-09 |
# プロンプティング LLM を用いたタブラルトランスファー学習
Tabular Transfer Learning via Prompting LLMs ( http://arxiv.org/abs/2408.11063v1 ) ライセンス: Link先を確認 | Jaehyun Nam, Woomin Song, Seong Hyeon Park, Jihoon Tack, Sukmin Yun, Jaehyung Kim, Kyu Hwan Oh, Jinwoo Shin, | (参考訳) ラベル付きデータの限られた数での学習は、アノテーションを得るのにしばしばコストがかかるため、機械学習の現実的な応用における中心的な問題である。
ラベル付きデータの不足に対処するため、転送学習は従来のアプローチであり、他の複数のソースからニューラルネットワークをトレーニングすることで、転送可能な知識を学ぶことを提案している。
本稿では,他の領域,例えば視覚や言語と比較して,文学においてあまり研究され成功していない表型タスクの伝達学習について検討する。
これはテーブルが本質的に不均一であるため、すなわち、異なる列や特徴空間を含むため、転送学習が困難になるためである。
一方,近年の自然言語処理の進歩は,大規模言語モデル(LLM)の文脈内学習機能を利用することで,ラベル不足を軽減できることを示唆している。
このことや、LLMが統一言語空間内でテーブルを処理できるという事実に着想を得て、特に、ソースとターゲットのデータセットが異なるフォーマットのシナリオにおいて、LLMが表型変換学習に有効かどうかを問う。
肯定的な回答として,ラベル付き(あるいは異種)ソースデータとLLMを併用した新しい表型変換学習フレームワークであるPrompt to Transfer (P2T)を提案する。
具体的には、P2Tは、ターゲットタスクの特徴と強く相関しているソースデータセットの列の特徴を特定し、ターゲットタスクに関連する例を作成し、プロンプトの擬似宣言を生成する。
実験の結果、P2Tは様々な表型学習ベンチマークにおいて従来の手法よりも優れており、重要で未探索の表型移動学習問題に良い期待が持てることが示された。
コードはhttps://github.com/jaehyun513/P2Tで入手できる。
Learning with a limited number of labeled data is a central problem in real-world applications of machine learning, as it is often expensive to obtain annotations. To deal with the scarcity of labeled data, transfer learning is a conventional approach; it suggests to learn a transferable knowledge by training a neural network from multiple other sources. In this paper, we investigate transfer learning of tabular tasks, which has been less studied and successful in the literature, compared to other domains, e.g., vision and language. This is because tables are inherently heterogeneous, i.e., they contain different columns and feature spaces, making transfer learning difficult. On the other hand, recent advances in natural language processing suggest that the label scarcity issue can be mitigated by utilizing in-context learning capability of large language models (LLMs). Inspired by this and the fact that LLMs can also process tables within a unified language space, we ask whether LLMs can be effective for tabular transfer learning, in particular, under the scenarios where the source and target datasets are of different format. As a positive answer, we propose a novel tabular transfer learning framework, coined Prompt to Transfer (P2T), that utilizes unlabeled (or heterogeneous) source data with LLMs. Specifically, P2T identifies a column feature in a source dataset that is strongly correlated with a target task feature to create examples relevant to the target task, thus creating pseudo-demonstrations for prompts. Experimental results demonstrate that P2T outperforms previous methods on various tabular learning benchmarks, showing good promise for the important, yet underexplored tabular transfer learning problem. Code is available at https://github.com/jaehyun513/P2T. | 翻訳日:2024-08-25 14:11:11 公開日:2024-08-09 |
# フォワードパスのみの復号化によるLLaMAによる句読影復元
LLaMA based Punctuation Restoration With Forward Pass Only Decoding ( http://arxiv.org/abs/2408.11845v1 ) ライセンス: Link先を確認 | Yutong Pang, Debjyoti Paul, Kevin Jiang, Xuedong Zhang, Xin Lei, | (参考訳) 本稿では,大言語モデルアノテーションの分野における2つの進歩を紹介し,句読点復元作業に焦点をあてる。
最初のコントリビューションは、LLaMAの句読点復元への応用であり、確立されたベンチマークよりも優れた性能を示している。
優れた品質にもかかわらず、LLaMAは推論速度と幻覚に関する課題に直面している。
2つ目のコントリビューションでは、アノテーションタスクのための新しいデコーディングアプローチであるフォワードパス専用デコーディング(FPOD)を紹介します。
この手法は、推論速度を大幅に19.8倍改善し、重要なボトルネックに効果的に対処し、幻覚のない大規模データアノテーションタスクにおけるLLaMAの実用性を向上する。
これらのコントリビューションの組み合わせは、LLaMAを句読点復元の強力なツールとしてだけでなく、FPODをスピード制約を克服するための重要な戦略として強調する。
This paper introduces two advancements in the field of Large Language Model Annotation with a focus on punctuation restoration tasks. Our first contribution is the application of LLaMA for punctuation restoration, which demonstrates superior performance compared to the established benchmark. Despite its impressive quality, LLaMA faces challenges regarding inference speed and hallucinations. To address this, our second contribution presents Forward Pass Only Decoding (FPOD), a novel decoding approach for annotation tasks. This innovative method results in a substantial 19.8x improvement in inference speed, effectively addressing a critical bottleneck and enhancing the practical utility of LLaMA for large-scale data annotation tasks without hallucinations. The combination of these contributions not only solidifies LLaMA as a powerful tool for punctuation restoration but also highlights FPOD as a crucial strategy for overcoming speed constraints. | 翻訳日:2024-08-25 13:51:32 公開日:2024-08-09 |
# 新しい時空間結合グラフ畳み込みネットワーク
A Novel Spatiotemporal Coupling Graph Convolutional Network ( http://arxiv.org/abs/2408.07087v1 ) ライセンス: Link先を確認 | Fanghui Bi, | (参考訳) 動的品質・オブ・サービス(QoS)データは、サービス選択とユーザ行動理解に不可欠な情報源である。
潜在特徴分析(LFA)に基づくアプローチは、QoSデータに有効な時間パターンを発見するのに有用であることが示されている。
しかし、既存の手法では、統一形式での動的相互作用に暗示される空間性や時間性をうまくモデル化できないため、QoS推定の欠如に対して十分な精度の損失が生じる。
そこで本研究では,新しいグラフ畳み込みネットワーク(GCN)に基づく動的QoS推定器,すなわち時空間結合GCN(SCG)モデルを提案する。
まず、SCGは、空間パターンと時間パターンの統一モデリングのための一般化テンソル積フレームワークを取り入れた動的グラフ畳み込み規則を構築する。
第二に、SCGはヘテロジニアスGCN層をテンソル因子化と組み合わせ、二部的ユーザサービスグラフの効果的な表現学習を行う。
第3に、動的GCN構造をさらに単純化して、トレーニングの困難を減らします。
スループットと応答時間を記述する大規模な2つのQoSデータセットに対して、大規模な実験が行われた。
その結果、SCGは最先端技術と比較してQoS推定精度が高く、ユーザやクラウドサービスに強力な表現を学習できることを示した。
Dynamic Quality-of-Service (QoS) data capturing temporal variations in user-service interactions, are essential source for service selection and user behavior understanding. Approaches based on Latent Feature Analysis (LFA) have shown to be beneficial for discovering effective temporal patterns in QoS data. However, existing methods cannot well model the spatiality and temporality implied in dynamic interactions in a unified form, causing abundant accuracy loss for missing QoS estimation. To address the problem, this paper presents a novel Graph Convolutional Networks (GCNs)-based dynamic QoS estimator namely Spatiotemporal Coupling GCN (SCG) model with the three-fold ideas as below. First, SCG builds its dynamic graph convolution rules by incorporating generalized tensor product framework, for unified modeling of spatial and temporal patterns. Second, SCG combines the heterogeneous GCN layer with tensor factorization, for effective representation learning on bipartite user-service graphs. Third, it further simplifies the dynamic GCN structure to lower the training difficulties. Extensive experiments have been conducted on two large-scale widely-adopted QoS datasets describing throughput and response time. The results demonstrate that SCG realizes higher QoS estimation accuracy compared with the state-of-the-arts, illustrating it can learn powerful representations to users and cloud services. | 翻訳日:2024-08-15 15:18:29 公開日:2024-08-09 |
# 帰納的関係予測のための学習規則に基づく部分グラフ表現
Learning Rule-Induced Subgraph Representations for Inductive Relation Prediction ( http://arxiv.org/abs/2408.07088v1 ) ライセンス: Link先を確認 | Tianyu Liu, Qitan Lv, Jie Wang, Shuling Yang, Hanzhu Chen, | (参考訳) 帰納的関係予測(IRP) -- トレーニングと推論の間にエンティティが異なる可能性がある -- は、進化する知識グラフを完成させる大きな力を示している。
既存の研究は主に、グラフニューラルネットワーク(GNN)を使用して、ターゲットリンクから誘導されるサブグラフの表現を学ぶことに焦点を当てている。
しかし、これらの手法は、メッセージパッシング中にターゲットリンクやその他のリンクを区別できないため、最終的なサブグラフ表現は、ターゲットリンクに無関係なルール情報を含むことになる。
この問題に対処するため,新しいGNNモデルを提案し,関連するルールを符号化し,サブグラフ内の無関係なルールを除去する。
具体的には,ターゲットリンクに対してのみエッジ機能を初期化するための‘textit{single-source}初期化アプローチを提案し,マイニングされたルールとターゲットリンクの関連性を保証する。
次に, マイニングされたルールの逐次特性をモデル化するために, メッセージパッシングのための RNN ベースの関数をいくつか提案する。
REST はシンプルで効果的なアプローチであり、理論的なサポートによって \textit{rule-induced subgraph representation} を学ぶことができます。
さらに、RESTはノードラベリングを必要としないため、サブグラフ前処理時間を最大でtextbf{11.66$\times$} まで大幅に高速化する。
帰納的関係予測ベンチマークの実験は、RESTの有効性を示しています。
私たちのコードはhttps://github.com/smart-lty/RESTで利用可能です。
Inductive relation prediction (IRP) -- where entities can be different during training and inference -- has shown great power for completing evolving knowledge graphs. Existing works mainly focus on using graph neural networks (GNNs) to learn the representation of the subgraph induced from the target link, which can be seen as an implicit rule-mining process to measure the plausibility of the target link. However, these methods cannot differentiate the target link and other links during message passing, hence the final subgraph representation will contain irrelevant rule information to the target link, which reduces the reasoning performance and severely hinders the applications for real-world scenarios. To tackle this problem, we propose a novel \textit{single-source edge-wise} GNN model to learn the \textbf{R}ule-induc\textbf{E}d \textbf{S}ubgraph represen\textbf{T}ations (\textbf{REST}), which encodes relevant rules and eliminates irrelevant rules within the subgraph. Specifically, we propose a \textit{single-source} initialization approach to initialize edge features only for the target link, which guarantees the relevance of mined rules and target link. Then we propose several RNN-based functions for \textit{edge-wise} message passing to model the sequential property of mined rules. REST is a simple and effective approach with theoretical support to learn the \textit{rule-induced subgraph representation}. Moreover, REST does not need node labeling, which significantly accelerates the subgraph preprocessing time by up to \textbf{11.66$\times$}. Experiments on inductive relation prediction benchmarks demonstrate the effectiveness of our REST. Our code is available at https://github.com/smart-lty/REST. | 翻訳日:2024-08-15 15:18:29 公開日:2024-08-09 |
# InfinityMATH: プログラム数学的推論におけるスケーラブルなインストラクションチューニングデータセット
InfinityMATH: A Scalable Instruction Tuning Dataset in Programmatic Mathematical Reasoning ( http://arxiv.org/abs/2408.07089v1 ) ライセンス: Link先を確認 | Bo-Wen Zhang, Yan Yan, Lin Li, Guang Liu, | (参考訳) CoT(Chain-of-Thoughts)法とPoT(Program-of-Thoughts)法の最近の進歩は、言語モデルの数学的推論能力を大幅に向上させ、LLMを用いた命令チューニングデータセットへの統合を容易にした。
しかし、大規模なデータセット作成のための既存の手法では、大量のシードデータと高い計算コストがデータ合成に必要であり、スケーラビリティにとって大きな課題となっている。
InfinityMATHは、プログラム数学的推論のためのスケーラブルな命令チューニングデータセットである。
構成パイプラインは、数値を数学的問題から切り離して、数に依存しないプログラムを合成し、特定の数値への依存を最小限に抑えながら、効率的で柔軟なスケーリングを可能にする。
オープンソースの言語とLlama2やCodeLlamaといったコードモデルによる微調整実験は、InfinityMATHの実用的メリットを実証している。
これらの微調整されたモデルは、ドメイン内ベンチマークとドメイン外ベンチマークの両方で、平均184.7%から514.3%に大幅に改善された。
さらに、これらのモデルはGSM8K+とMATH+のベンチマークで高いロバスト性を示し、これは単に数字のバリエーションで拡張されたテストセットである。
InfinityMATHは、モデルが幅広い数学的問題に対してより汎用的で効果的であることを保証する。
データはhttps://huggingface.co/datasets/flagopen/InfinityMATHで公開されている。
Recent advancements in Chain-of-Thoughts (CoT) and Program-of-Thoughts (PoT) methods have greatly enhanced language models' mathematical reasoning capabilities, facilitating their integration into instruction tuning datasets with LLMs. However, existing methods for large-scale dataset creation require substantial seed data and high computational costs for data synthesis, posing significant challenges for scalability. We introduce InfinityMATH, a scalable instruction tuning dataset for programmatic mathematical reasoning. The construction pipeline emphasizes decoupling numbers from mathematical problems to synthesize number-independent programs, enabling efficient and flexible scaling while minimizing dependency on specific numerical values. Fine-tuning experiments with open-source language and code models, such as Llama2 and CodeLlama, demonstrate the practical benefits of InfinityMATH. These fine-tuned models, showed significant relative improvements on both in-domain and out-of-domain benchmarks, ranging from 184.7% to 514.3% on average. Additionally, these models exhibited high robustness on the GSM8K+ and MATH+ benchmarks, which are enhanced version of test sets with simply the number variations. InfinityMATH ensures that models are more versatile and effective across a broader range of mathematical problems. The data is available at https://huggingface.co/datasets/flagopen/InfinityMATH. | 翻訳日:2024-08-15 15:18:29 公開日:2024-08-09 |
# パーシステンスカーネルの分類 : 比較研究
Persistence kernels for classification: A comparative study ( http://arxiv.org/abs/2408.07090v1 ) ライセンス: Link先を確認 | Cinzia Bandiziol, Stefano De Marchi, | (参考訳) 本研究の目的は、様々な分類問題に適用される異なる永続カーネルの比較研究である。
ホモロジーとパーシステンス・ダイアグラムに関するいくつかの必要な予備研究の後、我々は5つの異なるカーネルを導入し、様々なデータセットの分類性能を比較した。
また、結果の再現性のためのPythonコードも提供します。
The aim of the present work is a comparative study of different persistence kernels applied to various classification problems. After some necessary preliminaries on homology and persistence diagrams, we introduce five different kernels that are then used to compare their performances of classification on various datasets. We also provide the Python codes for the reproducibility of results. | 翻訳日:2024-08-15 15:18:29 公開日:2024-08-09 |
# Node Level Graph Autoencoder: テキストグラフ学習のための統一プレトレーニング
Node Level Graph Autoencoder: Unified Pretraining for Textual Graph Learning ( http://arxiv.org/abs/2408.07091v1 ) ライセンス: Link先を確認 | Wenbin Hu, Huihao Jing, Qi Hu, Haoran Li, Yangqiu Song, | (参考訳) テキストグラフは、様々な分野にわたる高度な研究を可能にする複雑な関係を持つリッチテキスト情報を特徴とする、現実世界のアプリケーションではユビキタスである。
テキストグラフ表現学習は、下流タスクの性能を向上させることができるテキストグラフから低次元の特徴埋め込みを生成することを目的としている。
高品質な機能埋め込みは、テキストグラフの構造情報とテキスト情報の両方を効果的にキャプチャする。
しかしながら、ほとんどのテキストグラフデータセットベンチマークは、機能埋め込みを生成するために word2vec 技術に依存している。
テキストグラフ表現学習に関する最近の研究は、教師なしと教師なしの2つの方法に分類できる。
ラベル付きデータが少ない場合に限られた機能を持つラベル付きノード上で言語モデルを微調整する。
一方、教師なしの手法では、複雑なトレーニングパイプラインを開発することで特徴埋め込みを抽出する。
これらの制約に対処するため,Node Level Graph AutoEncoder (NodeGAE) という,新しいアン教師なし学習オートエンコーダフレームワークを提案する。
我々は、自動エンコーダのバックボーンとして言語モデルを使用し、テキスト再構成を事前訓練する。
さらに、局所的なグラフ構造に特徴を埋め込むために補助的損失項を加える。
本手法は,学習過程における単純さを維持し,多種多様なテキストグラフや下流タスクの一般化性を示す。
本稿では,ノード分類とリンク予測という,下流タスクを学習する2つのコアグラフ表現について評価する。
総合的な実験により,本手法は複数のテキストグラフデータセットにまたがる多様なグラフニューラルネットワーク(GNN)の性能を大幅に向上させることが示された。
Textual graphs are ubiquitous in real-world applications, featuring rich text information with complex relationships, which enables advanced research across various fields. Textual graph representation learning aims to generate low-dimensional feature embeddings from textual graphs that can improve the performance of downstream tasks. A high-quality feature embedding should effectively capture both the structural and the textual information in a textual graph. However, most textual graph dataset benchmarks rely on word2vec techniques to generate feature embeddings, which inherently limits their capabilities. Recent works on textual graph representation learning can be categorized into two folds: supervised and unsupervised methods. Supervised methods finetune a language model on labeled nodes, which have limited capabilities when labeled data is scarce. Unsupervised methods, on the other hand, extract feature embeddings by developing complex training pipelines. To address these limitations, we propose a novel unified unsupervised learning autoencoder framework, named Node Level Graph AutoEncoder (NodeGAE). We employ language models as the backbone of the autoencoder, with pretraining on text reconstruction. Additionally, we add an auxiliary loss term to make the feature embeddings aware of the local graph structure. Our method maintains simplicity in the training process and demonstrates generalizability across diverse textual graphs and downstream tasks. We evaluate our method on two core graph representation learning downstream tasks: node classification and link prediction. Comprehensive experiments demonstrate that our approach substantially enhances the performance of diverse graph neural networks (GNNs) across multiple textual graph datasets. | 翻訳日:2024-08-15 15:18:29 公開日:2024-08-09 |
# k$陽性写像のキャラクタリゼーション
Characterization of $k$-positive maps ( http://arxiv.org/abs/2104.14058v5 ) ライセンス: Link先を確認 | Marcin Marciniak, Tomasz Młynik, Hiroyuki Osaka, | (参考訳) ここでは、正の写像に対する k-正の一般的な性質を、関連する完全正の写像のクラウス作用素から構築された行列の Ky Fan ノルムの推定の観点から述べる。
これを高崎と富山が与えた結果と組み合わせることで、パラメータによって異なる次元の行列代数の間の正の写像の族を構築する。
k$-正のパラメータの見積もり境界は、Cru\'sci\'nski と Kossakowski が考えるスペクトル条件から導出した値よりも優れている。
さらに、分解性のある領域に正確な境界を与える場合について、特に注意を払って検討する。
We present a general characterization of k-positivity for a positive map in terms of the estimation of the Ky Fan norm of the matrix constructed from the Kraus operators of the associated completely positive map. Combining this with the result given by Takasaki and Tomiyama we construct a family of positive maps between matrix algebras of different dimensions depending on a parameter. The estimate bounds on the parameter to obtain the $k$-positivity are better than those derived from the spectral conditions considered by Chru\'sci\'nski and Kossakowski. We further look with special attention at the case where we give the precise bound for the regions of decomposability. | 翻訳日:2024-08-14 23:45:34 公開日:2024-08-09 |
# テレビ番組のマルチモーダル要約のためのモジュール的アプローチ
A Modular Approach for Multimodal Summarization of TV Shows ( http://arxiv.org/abs/2403.03823v8 ) ライセンス: Link先を確認 | Louis Mahon, Mirella Lapata, | (参考訳) 本稿では,複雑な推論,複数モーダル性,長い物語など,AI研究の重要な領域に触発するテレビ番組を要約する作業について述べる。
本稿では,各コンポーネントが個別のサブタスクを実行するモジュール方式を提案する。
我々のモジュールは、シーン境界の検出、異なるイベント間のカット回数の最小化、視覚情報をテキストに変換すること、各シーンの対話を要約すること、シーン要約をエピソード全体の最終要約に融合することを含む。
PRISMA(Precision and Recall EvaluatIon of Summary FActs)は、生成した要約の精度とリコールを計測し、原子的な事実に分解する。
最近リリースされたSummScreen3Dデータセットを用いて、ROUGEと新しいファクトベースメトリクスを用いて、比較モデルよりも高品質な要約を生成するとともに、人間の評価者によって評価される。
In this paper we address the task of summarizing television shows, which touches key areas in AI research: complex reasoning, multiple modalities, and long narratives. We present a modular approach where separate components perform specialized sub-tasks which we argue affords greater flexibility compared to end-to-end methods. Our modules involve detecting scene boundaries, reordering scenes so as to minimize the number of cuts between different events, converting visual information to text, summarizing the dialogue in each scene, and fusing the scene summaries into a final summary for the entire episode. We also present a new metric, PRISMA (Precision and Recall EvaluatIon of Summary FActs), to measure both precision and recall of generated summaries, which we decompose into atomic facts. Tested on the recently released SummScreen3D dataset, our method produces higher quality summaries than comparison models, as measured with ROUGE and our new fact-based metric, and as assessed by human evaluators. | 翻訳日:2024-08-14 22:45:05 公開日:2024-08-09 |
# 空間分解トランスクリプトミクスデータに対するコントラスト拡張を用いたマスク付きグラフオートエンコーダ
Masked Graph Autoencoders with Contrastive Augmentation for Spatially Resolved Transcriptomics Data ( http://arxiv.org/abs/2408.06377v1 ) ライセンス: Link先を確認 | Donghai Fang, Fangfang Zhu, Dongting Xie, Wenwen Min, | (参考訳) 空間分解トランスクリプトミクス(SRT)技術の急速な進歩により、組織の空間的文脈を保ちながら遺伝子転写を包括的に測定することが可能になった。
SRTデータ解析において、空間領域の同定と遺伝子分解が重要な目的である。
ドメイン識別のための低次元潜在表現を学習するために,StMGAC (Contrastively Augmented Masked Graph Autoencoder) を提案する。
潜伏空間において、表現のための永続的な信号は自己蒸留によって得られ、自己教師付きマッチングを誘導する。
同時に、三重項学習を用いて正と負のアンカーペアを構築し、識別能力を増強する。
5つのデータセット上でSTMGACの性能を評価し,既存のベースライン法よりも優れた結果を得た。
この論文で使用されるすべてのコードと公開データセットは、https://github.com/wenwenmin/STMGACとhttps://zenodo.org/records/13253801で入手できる。
With the rapid advancement of Spatial Resolved Transcriptomics (SRT) technology, it is now possible to comprehensively measure gene transcription while preserving the spatial context of tissues. Spatial domain identification and gene denoising are key objectives in SRT data analysis. We propose a Contrastively Augmented Masked Graph Autoencoder (STMGAC) to learn low-dimensional latent representations for domain identification. In the latent space, persistent signals for representations are obtained through self-distillation to guide self-supervised matching. At the same time, positive and negative anchor pairs are constructed using triplet learning to augment the discriminative ability. We evaluated the performance of STMGAC on five datasets, achieving results superior to those of existing baseline methods. All code and public datasets used in this paper are available at https://github.com/wenwenmin/STMGAC and https://zenodo.org/records/13253801. | 翻訳日:2024-08-14 19:48:49 公開日:2024-08-09 |
# 確率論的世界II : 古典統計学からの量子力学
The probabilistic world II : Quantum mechanics from classical statistics ( http://arxiv.org/abs/2408.06379v1 ) ライセンス: Link先を確認 | C. Wetterich, | (参考訳) 本研究では、量子系が古典統計系のサブシステムとしてどのように得られるかという簡単な例について論じる。
任意のハミルトニアンを持つ単一量子ビットと、調和ポテンシャルを持つ量子粒子に対して、これらの量子系が、常にイベントの「古典的」確率分布から従う方法のすべてのステップを明示的に提供する。この全体的な確率分布は、量子力学や量子場理論を定義する関数積分の類似物である。我々の場合、アクションと関連する重み係数は、古典的確率的システムを定義する。しかし、波動関数のユニタリ時間進化は、適切なシステム、特に確率的オートマトンにおいて実現可能である。これらの知見に基づいて、量子コンピュータの極端な分離を必要としない相関コンピューティングの新たな側面について論じる。確率的環境内の活動状態や静かな状態のニューロンに基づく単純な神経型コンピュータは、量子力学の量子力学系における一様変換を学習することができる。
概念的には、我々のアプローチは、非局所性、因果性、文脈性、多くの世界、その他の追加概念を呼び出すことなく、全体の確率分布から始まる直接的な導出である。
すべての量子法則は古典的確率の標準的な性質から直接従う。
This work discusses simple examples how quantum systems are obtained as subsystems of classical statistical systems. For a single qubit with arbitrary Hamiltonian and for the quantum particle in a harmonic potential we provide explicitly all steps how these quantum systems follow from an overall ''classical" probability distribution for events at all times. This overall probability distribution is the analogue of Feynman's functional integral for quantum mechanics or for the functional integral defining a quantum field theory. In our case the action and associated weight factor are real, however, defining a classical probabilistic system. Nevertheless, a unitary time-evolution of wave functions can be realized for suitable systems, in particular probabilistic automata. Based on these insights we discuss novel aspects for correlated computing not requiring the extreme isolation of quantum computers. A simple neuromorphic computer based on neurons in an active or quiet state within a probabilistic environment can learn the unitary transformations of an entangled two-qubit system. Our explicit constructions constitute a proof that no-go theorems for the embedding of quantum mechanics in classical statistics are circumvented. We show in detail how subsystems of classical statistical systems can explain various ``quantum mysteries". Conceptually our approach is a straightforward derivation starting from an overall probability distribution without invoking non-locality, acausality, contextuality, many worlds or other additional concepts. All quantum laws follow directly from the standard properties of classical probabilities. | 翻訳日:2024-08-14 19:48:49 公開日:2024-08-09 |
# 腎臓病における細胞核AIファンデーションモデルの評価
Assessment of Cell Nuclei AI Foundation Models in Kidney Pathology ( http://arxiv.org/abs/2408.06381v1 ) ライセンス: Link先を確認 | Junlin Guo, Siqi Lu, Can Cui, Ruining Deng, Tianyuan Yao, Zhewen Tao, Yizhe Lin, Marilyn Lionts, Quan Liu, Juming Xiong, Catie Chang, Mitchell Wilkes, Mengmeng Yin, Haichun Yang, Yuankai Huo, | (参考訳) 細胞核のインスタンス・セグメンテーションは、デジタル腎臓病理学において重要な課題である。
従来の自動セグメンテーション手法は、目に見えないデータセットに適用する場合、一般化性に欠けることが多い。
近年、ファンデーションモデル(FM)の成功により、より一般化可能なソリューションが提供され、任意の細胞タイプのセグメンテーションが可能になった。
本研究では,SOTA細胞核基盤モデル(Cellpose,StarDist,CellViT)の大規模評価を行った。
具体的には,ヒトおよびげっ歯類ソースから収集した2,542個の腎臓全スライド画像(WSI)からなり,組織の種類,サイズ,染色方法を含む,高度に多様な評価データセットを作成した。
われわれの知る限り、これはこれまでで最大の評価だ。
予測分布の定量的解析により,腎病理における持続的なパフォーマンスギャップが明らかとなった。
評価モデルのうち,CellViTは腎病理におけるセグメンテーション核の優れた性能を示した。
しかし、どの基礎モデルも完璧ではなく、腎臓病理学の一般的な核分割における性能ギャップが残っている。
Cell nuclei instance segmentation is a crucial task in digital kidney pathology. Traditional automatic segmentation methods often lack generalizability when applied to unseen datasets. Recently, the success of foundation models (FMs) has provided a more generalizable solution, potentially enabling the segmentation of any cell type. In this study, we perform a large-scale evaluation of three widely used state-of-the-art (SOTA) cell nuclei foundation models (Cellpose, StarDist, and CellViT). Specifically, we created a highly diverse evaluation dataset consisting of 2,542 kidney whole slide images (WSIs) collected from both human and rodent sources, encompassing various tissue types, sizes, and staining methods. To our knowledge, this is the largest-scale evaluation of its kind to date. Our quantitative analysis of the prediction distribution reveals a persistent performance gap in kidney pathology. Among the evaluated models, CellViT demonstrated superior performance in segmenting nuclei in kidney pathology. However, none of the foundation models are perfect; a performance gap remains in general nuclei segmentation for kidney pathology. | 翻訳日:2024-08-14 19:48:49 公開日:2024-08-09 |
# 検証可能な分散IPFSクラスタ:オフチェーンストレージのための信頼できるデータ永続性
Verifiable Decentralized IPFS Cluster: Unlocking Trustworthy Data Permanency for Off-Chain Storage ( http://arxiv.org/abs/2408.07023v1 ) ライセンス: Link先を確認 | Sid Lamichhane, Patrick Herbke, | (参考訳) 分散アプリケーションでは、IPFS(InterPlanetary File System)のようなオフチェーンストレージソリューションが、ブロックチェーンストレージの制限を克服するために不可欠である。
しかし、IPFSにおけるデータ永続性の保証は、信頼性の問題と潜在的な単一障害点が伴うデータのピンニングに依存している。
本稿では、検証可能なデータ永続性保証により、オフチェーンストレージの信頼性を高めるために、VDIC(Verible Decentralized IPFS Clusters)を提案する。
VDICは分散識別子、検証クレデンシャル、IPFSクラスタを活用して、ピン付きデータのストレージが透明で検証可能な信頼できるエコシステムを構築する。
性能評価は、VDICが従来のピンニングサービスと競合していることを示している。
実生活におけるユースケースは、データ永続性を保証することに焦点を当てた分散アプリケーションプロバイダの実現可能性と実用性を検証する。
In Decentralized Applications, off-chain storage solutions such as the InterPlanetary File System (IPFS) are crucial in overcoming Blockchain storage limitations. However, the assurance of data permanency in IPFS relies on the pinning of data, which comes with trust issues and potential single points of failure. This paper introduces Verifiable Decentralized IPFS Clusters (VDICs) to enhance off-chain storage reliability with verifiable data permanency guarantees. VDICs leverage Decentralized Identifier, Verifiable Credentials, and IPFS Clusters to create a trustworthy ecosystem where the storage of pinned data is transparent and verifiable. Performance evaluations demonstrate that VDICs are competitive with traditional pinning services. Real-life use cases validate their feasibility and practicality for providers of Decentralized Applications focused on ensuring data permanency. | 翻訳日:2024-08-14 16:55:31 公開日:2024-08-09 |
# フィードバックグラフを用いた協調オンライン学習
Cooperative Online Learning with Feedback Graphs ( http://arxiv.org/abs/2106.04982v5 ) ライセンス: Link先を確認 | Nicolò Cesa-Bianchi, Tommaso R. Cesari, Riccardo Della Vecchia, | (参考訳) 協調的なオンライン学習環境におけるコミュニケーションとフィードバックの相互作用について検討し,コミュニケーションエージェントのネットワークがフィードバックグラフを通して共通のシーケンシャルな意思決定タスクを学習する。
我々は、通信ネットワークとフィードバックグラフの間の強力なプロダクトの独立性の点で、ネットワークを後悔している。
我々の分析は、専門家や盗賊のフィードバックによる協調的なオンライン学習のための、これまでに知られていた多くの境界として回復する。
また,症例ベースの下限を証明し,病理症例以外は正の値が即効しないことを示した。
合成データに関する実験は、我々の理論的な発見を裏付けるものである。
We study the interplay between communication and feedback in a cooperative online learning setting, where a network of communicating agents learn a common sequential decision-making task through a feedback graph. We bound the network regret in terms of the independence number of the strong product between the communication network and the feedback graph. Our analysis recovers as special cases many previously known bounds for cooperative online learning with expert or bandit feedback. We also prove an instance-based lower bound, demonstrating that our positive results are not improvable except in pathological cases. Experiments on synthetic data confirm our theoretical findings. | 翻訳日:2024-08-14 01:37:20 公開日:2024-08-09 |
# AutoTemplate: 語彙的に制約のあるテキスト生成のためのシンプルなレシピ
AutoTemplate: A Simple Recipe for Lexically Constrained Text Generation ( http://arxiv.org/abs/2211.08387v2 ) ライセンス: Link先を確認 | Hayate Iso, | (参考訳) 語彙制約付きテキスト生成は制約付きテキスト生成タスクの1つであり、与えられた制約レキシコンをすべてカバーするテキストを生成することを目的としている。
既存の手法では、非自己回帰復号法を用いて、語彙制約付きビームサーチアルゴリズムや専用モデルを用いてこの問題に対処するが、生成したテキスト品質とハード制約満足度との間にはトレードオフがある。
本稿では,テンプレート生成タスクと語彙化タスクに分割した,シンプルで効果的な語彙制約付きテキスト生成フレームワークであるAutoTemplateを紹介する。
テンプレート生成は、プレースホルダーでテキストを生成することであり、レキシカル化はそれらを制約レキシコンに置き換えて、レキシカルに制約されたテキスト生成を実行する。
我々は,キーワードから文への世代生成とエンティティ誘導の要約という2つのタスクについて実験を行った。
実験結果から,AutoTemplateは両タスクの競合ベースラインより優れ,難解な語彙制約を満たすことがわかった。
コードはhttps://github.com/megagonlabs/autotemplateで入手できる。
Lexically constrained text generation is one of the constrained text generation tasks, which aims to generate text that covers all the given constraint lexicons. While the existing approaches tackle this problem using a lexically constrained beam search algorithm or dedicated model using non-autoregressive decoding, there is a trade-off between the generated text quality and the hard constraint satisfaction. We introduce AutoTemplate, a simple yet effective lexically constrained text generation framework divided into template generation and lexicalization tasks. The template generation is to generate the text with the placeholders, and lexicalization replaces them into the constraint lexicons to perform lexically constrained text generation. We conducted the experiments on two tasks: keywords-to-sentence generations and entity-guided summarization. Experimental results show that the AutoTemplate outperforms the competitive baselines on both tasks while satisfying the hard lexical constraints. The code is available at https://github.com/megagonlabs/autotemplate | 翻訳日:2024-08-14 01:29:38 公開日:2024-08-09 |
# スティル化オピニオン要約のためのノイズペアリングと部分スーパービジョン
Noisy Pairing and Partial Supervision for Stylized Opinion Summarization ( http://arxiv.org/abs/2211.08723v2 ) ライセンス: Link先を確認 | Hayate Iso, Xiaolan Wang, Yoshi Suhara, | (参考訳) 意見要約研究は、主に、顧客レビューから重要な意見を反映した要約を、執筆スタイルにはあまり注意を払わずに作成することに焦点を当てている。
本稿では,顧客レビューの要約を所望の(例えばプロフェッショナルな)書き方で作成することを目的とした,スタイル化された意見要約タスクを提案する。
顧客と専門家のレビューペアを集めることの難しさに対処するため,非並列の顧客と専門家のレビューセットからスタイル化された意見要約システムを訓練する非並列のトレーニングフレームワークであるノイズピアリングと部分的スーパービジョン(NAPA)を開発した。
YelpとMichelinから顧客とプロフェッショナルのレビューを収集することで、ProSumのベンチマークを作成します。
ProSumとFewSumの実験結果によると、我々の非並列トレーニングフレームワークは、自動評価と人的評価の両方を一貫して改善し、顧客レビューから専門的な要約を生成できるスタイル化された意見要約モデルの構築に成功した。
コードはhttps://github.com/megagonlabs/napaで入手できる。
Opinion summarization research has primarily focused on generating summaries reflecting important opinions from customer reviews without paying much attention to the writing style. In this paper, we propose the stylized opinion summarization task, which aims to generate a summary of customer reviews in the desired (e.g., professional) writing style. To tackle the difficulty in collecting customer and professional review pairs, we develop a non-parallel training framework, Noisy Pairing and Partial Supervision (NAPA), which trains a stylized opinion summarization system from non-parallel customer and professional review sets. We create a benchmark ProSum by collecting customer and professional reviews from Yelp and Michelin. Experimental results on ProSum and FewSum demonstrate that our non-parallel training framework consistently improves both automatic and human evaluations, successfully building a stylized opinion summarization model that can generate professionally-written summaries from customer reviews. The code is available at https://github.com/megagonlabs/napa | 翻訳日:2024-08-14 01:29:38 公開日:2024-08-09 |
# 電気駆動型スピン量子ビットと共振器の縦方向結合
Longitudinal coupling between electrically driven spin-qubits and a resonator ( http://arxiv.org/abs/2301.10163v2 ) ライセンス: Link先を確認 | Sarath Prem, Pei-Xin Shen, Marcin M. Wysokiński, Mircea Trif, | (参考訳) 半伝導性スピン量子ビットの成功の核心は、スピン-軌道相互作用によって、それらを電気的に操作する能力である。
しかし、ほとんどの実装ではスピン量子ビットを定義するために外部磁場を必要とするため、様々な電荷ノイズ機構が活性化される。
ここでは、電場によって周期的に駆動されマイクロ波共振器に結合されるゼロ磁場における量子ドットに閉じ込められたスピン量子ビットについて検討する。
フロケ理論を用いて、運転のない最低縮退スピン状態から導かれるよく定義されたフロケスピン量子ビットを同定する。
Floquetスピンキュービットと共振器との間の横方向結合と縦方向結合は、駆動周波数を変化させることで選択的に活性化できる。
これらの結合によって高速な量子ビット読み出しと2量子CPHASEゲートの実装が容易になることを示す。
最後に、スピン-光子結合はスピン-軌道相互作用によって与えられる状態の非アベリア幾何学に由来することを実証するために断熱摂動理論を用い、これらの知見を一般化し、幅広い固体スピン量子ビットに適用できることを示した。
At the core of the success of semiconducting spin qubits is the ability to manipulate them electrically, enabled by the spin-orbit interactions. However, most implementations require external magnetic fields to define the spin qubit, which in turn activate various charge-noise mechanisms. Here we study spin qubits confined in quantum dots at zero magnetic fields that are driven periodically by electrical fields and are coupled to a microwave resonator. Using Floquet theory, we identify a well-defined Floquet spin-qubit originating from the lowest degenerate spin states in the absence of driving. We find both transverse and longitudinal couplings between the Floquet spin qubit and the resonator, which can be selectively activated by modifying the driving frequency. We show how these couplings can facilitate fast qubit readout and the implementation of a two-qubit CPHASE gate. Finally, we use adiabatic perturbation theory to demonstrate that the spin-photon couplings originate from the non-Abelian geometry of states endowed by the spin-orbit interactions, rendering these findings general and applicable to a wide range of solid-state spin qubits. | 翻訳日:2024-08-14 01:29:38 公開日:2024-08-09 |
# コミュニティ学習と包括的ネットワークによるソフトウェア工学
Software Engineering Through Community-Engaged Learning and an Inclusive Network ( http://arxiv.org/abs/2302.07100v2 ) ライセンス: Link先を確認 | Nowshin Nawar Arony, Kezia Devathasan, Ze Shi Li, Daniela Damian, | (参考訳) コンピュータサイエンスとソフトウェア工学のプログラムにおいて、多様で表現の浅い学生を保持することは、大学にとって重要な関心事である。
本章では,カナダ・ビクトリア大学のSTEM for Social Impact Programについて述べる。このプログラムは,持続可能性やコミュニティ主導の問題にアプローチするために,女性や他の過小評価されたグループを活用するための戦略設計において,自己決定理論の能力,関連性,自律性の3つの原則を活用するものである。
また、30人以上の学生、6人のコミュニティパートナー(サステナビリティ問題所有者)、20人以上の業界や学術メンターが参加し、私たちのコミュニティで200人以上のソリューションエンドユーザーと接触した初年度から学んだ教訓についても説明します。
最後に、私たちのアプローチを採用したいかもしれない大学や組織に対してレコメンデーションを提供します。
プログラムでは、24人の多様な学生(性別、性的指向、民族性、学術的地位、バックグラウンド)が、6つのコミュニティパートナーと組んで、社会に影響を及ぼす問題を解決し、多くのコミュニティパートナーのためのソリューションを開発した。
各チームは、プログラム全体を通じて、経験豊富な上級生と業界やコミュニティのメンターによって支援された。
このプログラムの経験的学習アプローチにより、学生は社会的および/または環境への影響のあるソリューションを開発しながら、様々なソフトおよび技術スキルを学ぶことができた。
多様なチームを持ち、実際のエンドユーザーのためのソリューションを作成することで、学生は仲間、コミュニティパートナー、メンターと積極的に協力し、包括的ネットワークの開発へと繋がった。
思慮深い人々のネットワークは、不足している個人に力を与え、コンピュータ科学とソフトウェア工学の分野に留まるよう促すのに不可欠である。
Retaining diverse, underrepresented students in computer science and software engineering programs is a significant concern for universities. In this chapter, we describe the INSPIRE: STEM for Social Impact program at the University of Victoria, Canada, which leverages the three principles of self-determination theory competence, relatedness, and autonomy in the design of strategies to empower women and other underrepresented groups in using software and other engineering solutions to approach sustainability, community-driven problems. We also describe lessons learned from a first successful year that involved over 30 students, 6 community partners (sustainability problem owners), and over 20 industry and academic mentors and reached out to more than 200 solution end users in our communities. Finally, we provide recommendations for universities and organizations who may want to adopt our approach. In the program 24 diverse students (in terms of gender, sexual orientation, ethnicity, academic standing, and background) divided into six teams paired with six community partners worked on solving society impactful problems and developed solutions for a number of respective community partners. Each team was supported by an experienced upper year student and mentors from industry and community throughout the program. The experiential learning approach of the program allowed the students to learn a variety of soft and technical skills while developing a solution that has a social and/or environmental impact. Having a diverse team and creating a solution for real end users motivated the students to actively collaborate with their peers, community partners, and mentors resulting in the development of an inclusive network. A network of like minded people is crucial in empowering underrepresented individuals and inspiring them to remain in the computer science and software engineering fields. | 翻訳日:2024-08-14 01:29:38 公開日:2024-08-09 |
# 言語モデルにおける知識表現の検査と編集
Inspecting and Editing Knowledge Representations in Language Models ( http://arxiv.org/abs/2304.00740v3 ) ライセンス: Link先を確認 | Evan Hernandez, Belinda Z. Li, Jacob Andreas, | (参考訳) ニューラル言語モデル(英語版)(LM)は、テキストによって記述された世界に関する事実を表す。
これらの事実はトレーニングデータ(ほとんどのLMではバナナが果物であるという事実を「バナナ」という言葉で表している)に由来することもある。
時々、事実は入力テキスト自体に由来する("I poured the bottle"という文の表現は、ボトルが空になったという事実をエンコードしている)。
本稿では,自然言語におけるステートメントを,LMの内部表現システムにおけるファクトエンコーディングにマッピングする方法であるREMEDIについて述べる。
REMEDIエンコーディングは知識エディタとして使用することができ、LMに隠された表現を追加すると、下流の生成を新しい事実に整合するように修正する。
REMEDIエンコーディングはプローブとしても用いられる: LM表現と比較すると、LMが既に言及されたエンティティに関連付けられているプロパティが明らかになる。
したがって、REMEDIは、探索、プロンプト、およびLM編集の研究をリンクし、LMにおける知識のきめ細かい検査と制御のための一般的なツールへのステップを提供する。
Neural language models (LMs) represent facts about the world described by text. Sometimes these facts derive from training data (in most LMs, a representation of the word "banana" encodes the fact that bananas are fruits). Sometimes facts derive from input text itself (a representation of the sentence "I poured out the bottle" encodes the fact that the bottle became empty). We describe REMEDI, a method for learning to map statements in natural language to fact encodings in an LM's internal representation system. REMEDI encodings can be used as knowledge editors: when added to LM hidden representations, they modify downstream generation to be consistent with new facts. REMEDI encodings may also be used as probes: when compared to LM representations, they reveal which properties LMs already attribute to mentioned entities, in some cases making it possible to predict when LMs will generate outputs that conflict with background knowledge or input text. REMEDI thus links work on probing, prompting, and LM editing, and offers steps toward general tools for fine-grained inspection and control of knowledge in LMs. | 翻訳日:2024-08-14 01:18:22 公開日:2024-08-09 |
# 身体的制約を伴うシンボリック回帰のアクティブラーニング
Active Learning in Symbolic Regression with Physical Constraints ( http://arxiv.org/abs/2305.10379v3 ) ライセンス: Link先を確認 | Jorge Medina, Andrew D. White, | (参考訳) 進化的記号回帰(SR)は記号方程式をデータに適合させ、簡潔な解釈可能なモデルを与える。
本研究では,身体的制約のあるアクティブな学習環境において,どのデータを収集すべきかをSRを用いて提案する。
積極的学習を伴うSRは次にどの実験を行うかを提案する。
アクティブラーニングは委員会によるクエリによって行われ、そこでは方程式のパレートフロンティアが委員会である。
物理的制約は、非常に低いデータ設定で提案された方程式を改善する。
これらのアプローチは、SRに必要なデータを削減し、既知の方程式を再発見するために必要なデータの最先端結果を達成する。
Evolutionary symbolic regression (SR) fits a symbolic equation to data, which gives a concise interpretable model. We explore using SR as a method to propose which data to gather in an active learning setting with physical constraints. SR with active learning proposes which experiments to do next. Active learning is done with query by committee, where the Pareto frontier of equations is the committee. The physical constraints improve proposed equations in very low data settings. These approaches reduce the data required for SR and achieves state of the art results in data required to rediscover known equations. | 翻訳日:2024-08-14 01:18:22 公開日:2024-08-09 |
# 多粒性ハンドアクション検出
Multi-Granularity Hand Action Detection ( http://arxiv.org/abs/2306.10858v2 ) ライセンス: Link先を確認 | Ting Zhe, Jing Zhang, Yongqian Li, Yong Luo, Han Hu, Dacheng Tao, | (参考訳) ビデオ中の手の動きを検出することは、ビデオコンテンツを理解するのに不可欠であり、様々な現実世界の応用がある。
既存のアプローチは、ボディ全体のアクションや粗粒度のアクションカテゴリに焦点を合わせ、細かい手動のローカライゼーション情報を欠いていることが多い。
このギャップを埋めるために、我々はFHA-Kitchensデータセット(Kitchen ScenesのFine-Grained Hand Actions)を導入し、ローカライゼーションアノテーションとともに、粗い手アクションときめ細かな手アクションのカテゴリを提供する。
このデータセットは2,377のビデオクリップと30,047フレームで構成され、約200kのバウンディングボックスと880のアクションカテゴリが注釈付けされている。
FHA-Kitchensにおける既存の動作検出手法の評価は、粒度によって異なる一般化能力を示す。
ハンドアクションにおける多粒度処理を行うために,エンド・ツー・エンドの多粒度ハンドアクション検出法MG-HADを提案する。
多次元Action QueriesとCoarse-Fine Contrastive Denoisingという2つの新しいデザインが組み込まれている。
大規模な実験では、MG-HADが多粒性ハンドアクション検出に有効であることを示し、将来の研究や実世界の応用におけるFHA-Kitchensの重要性を強調している。
データセットとソースコードはhttps://github.com/superZ678/MG-HADで入手できる。
Detecting hand actions in videos is crucial for understanding video content and has diverse real-world applications. Existing approaches often focus on whole-body actions or coarse-grained action categories, lacking fine-grained hand-action localization information. To fill this gap, we introduce the FHA-Kitchens (Fine-Grained Hand Actions in Kitchen Scenes) dataset, providing both coarse- and fine-grained hand action categories along with localization annotations. This dataset comprises 2,377 video clips and 30,047 frames, annotated with approximately 200k bounding boxes and 880 action categories. Evaluation of existing action detection methods on FHA-Kitchens reveals varying generalization capabilities across different granularities. To handle multi-granularity in hand actions, we propose MG-HAD, an End-to-End Multi-Granularity Hand Action Detection method. It incorporates two new designs: Multi-dimensional Action Queries and Coarse-Fine Contrastive Denoising. Extensive experiments demonstrate MG-HAD's effectiveness for multi-granularity hand action detection, highlighting the significance of FHA-Kitchens for future research and real-world applications. The dataset and source code are available at https://github.com/superZ678/MG-HAD. | 翻訳日:2024-08-14 01:08:32 公開日:2024-08-09 |
# マルチ水平時系列予測のためのプログレッシブニューラルネットワーク
Progressive Neural Network for Multi-Horizon Time Series Forecasting ( http://arxiv.org/abs/2310.19322v2 ) ライセンス: Link先を確認 | Yang Lin, | (参考訳) 本稿では,マルチ水平時系列予測のための新しいディープラーニング手法であるProNetを紹介し,自己回帰(AR)と非自己回帰(NAR)戦略を適応的にブレンドする。
本手法では,予測水平線をセグメントに分割し,非自己回帰的に各セグメントの最も重要なステップを予測し,残りのステップを自己回帰的に行う。
分節過程は潜時変数に依存しており、変分推論によって個々の時間ステップの意義を効果的に捉えている。
ARモデルと比較して、ProNetは顕著なアドバンテージを示し、ARイテレーションを少なくし、予測速度を高速化し、エラーの蓄積を軽減している。
一方、NARモデルと比較すると、ProNetは出力空間における予測の相互依存性を考慮に入れ、予測精度が向上する。
4つの大きなデータセットを含む包括的評価とアブレーション研究は、ProNetの有効性を示し、精度と予測速度の点で優れた性能を示し、最先端のARおよびNAA予測モデルより優れています。
In this paper, we introduce ProNet, an novel deep learning approach designed for multi-horizon time series forecasting, adaptively blending autoregressive (AR) and non-autoregressive (NAR) strategies. Our method involves dividing the forecasting horizon into segments, predicting the most crucial steps in each segment non-autoregressively, and the remaining steps autoregressively. The segmentation process relies on latent variables, which effectively capture the significance of individual time steps through variational inference. In comparison to AR models, ProNet showcases remarkable advantages, requiring fewer AR iterations, resulting in faster prediction speed, and mitigating error accumulation. On the other hand, when compared to NAR models, ProNet takes into account the interdependency of predictions in the output space, leading to improved forecasting accuracy. Our comprehensive evaluation, encompassing four large datasets, and an ablation study, demonstrate the effectiveness of ProNet, highlighting its superior performance in terms of accuracy and prediction speed, outperforming state-of-the-art AR and NAR forecasting models. | 翻訳日:2024-08-14 00:48:29 公開日:2024-08-09 |
# マニピュレーションのための任意のリファインメントによる定時運動計画
Constant-time Motion Planning with Anytime Refinement for Manipulation ( http://arxiv.org/abs/2311.00837v2 ) ライセンス: Link先を確認 | Itamar Mishani, Hayden Feddock, Maxim Likhachev, | (参考訳) ロボットマニピュレータは将来の自律システムには不可欠だが、彼らの自律性への信頼は厳格でタスク固有のシステムに制限されている。
マニピュレータの複雑な構成空間は、障害物回避と制約満足度の課題と相まって、信頼性と適応可能な自律性を達成するためのボトルネックとなる。
近年,CTMP (Constant-time Motion Planner) が導入された。
これらのプランナーは事前処理フェーズを使用してデータ構造を計算し、オンラインプランニングにより、ユーザが定義した時間境界内で、潜在的に最適化された、モーションプランを生成する能力が確実に保証される。
このフレームワークは、多くの時間クリティカルなタスクで有効であることが示されている。
しかし、ロボットシステムは、CTMPのオンライン部分よりも計画のために割り当てられる時間が多い。
そこで本研究では,CTMPアルゴリズムと組み合わせたリアルタイム改良手法を提案する。
提案するフレームワークは,定数時間アルゴリズムとして動作するため,ユーザ定義時間しきい値内の初期解を高速に生成する。
さらに、任意の時間アルゴリズムとして機能し、割り当てられた時間予算内でソリューションの品質を反復的に改善する。
これにより、我々のアプローチは、保証された高速プラン生成と時間の経過とともに最適化の追求のバランスをとることができる。
我々は、その解析的性質を解明し、最適解への任意の成分の収束を示すことによって、我々のアプローチを支持する。
さらに,組立領域に適用した6自由度ロボットマニピュレータのシミュレーションと実世界の実演による実証検証を行った。
Robotic manipulators are essential for future autonomous systems, yet limited trust in their autonomy has confined them to rigid, task-specific systems. The intricate configuration space of manipulators, coupled with the challenges of obstacle avoidance and constraint satisfaction, often makes motion planning the bottleneck for achieving reliable and adaptable autonomy. Recently, a class of constant-time motion planners (CTMP) was introduced. These planners employ a preprocessing phase to compute data structures that enable online planning provably guarantee the ability to generate motion plans, potentially sub-optimal, within a user defined time bound. This framework has been demonstrated to be effective in a number of time-critical tasks. However, robotic systems often have more time allotted for planning than the online portion of CTMP requires, time that can be used to improve the solution. To this end, we propose an anytime refinement approach that works in combination with CTMP algorithms. Our proposed framework, as it operates as a constant time algorithm, rapidly generates an initial solution within a user-defined time threshold. Furthermore, functioning as an anytime algorithm, it iteratively refines the solution's quality within the allocated time budget. This enables our approach to strike a balance between guaranteed fast plan generation and the pursuit of optimization over time. We support our approach by elucidating its analytical properties, showing the convergence of the anytime component towards optimal solutions. Additionally, we provide empirical validation through simulation and real-world demonstrations on a 6 degree-of-freedom robot manipulator, applied to an assembly domain. | 翻訳日:2024-08-14 00:38:36 公開日:2024-08-09 |
# 科学計算のための量子アルゴリズム
Quantum algorithms for scientific computing ( http://arxiv.org/abs/2312.14904v3 ) ライセンス: Link先を確認 | R. Au-Yeung, B. Camino, O. Rathore, V. Kendon, | (参考訳) 量子コンピューティングは、様々なアプリケーション分野の計算能力の次のステップを提供すると約束している。
本稿では、量子ハイプの背景にある科学と、現実の応用において真の量子優位を達成するために必要なブレークスルーについて検討する。
ハイパフォーマンスコンピューティング(HPC)に最も影響を与える可能性のある分野には、量子システムのシミュレーション、最適化、機械学習などがある。
我々は、HPCの現在の科学・工学的利用のかなりの部分を占める電子構造計算と計算流体力学から例を挙げる。
潜在的な課題としては、量子デバイス用の古典データのエンコーディングと復号化、古典プロセッサと量子プロセッサ間のクロック速度のミスマッチなどが挙げられる。
現代の古典的技術に対する控えめな量子増強でさえ、気象予報、工学、航空宇宙、薬物設計、持続可能な開発のための「グリーン」材料の設計といった分野において、はるかに大きな影響を及ぼすことになる。
これは計算科学、工学、量子コンピューティングのコミュニティの協力による多大な努力を必要とする。
Quantum computing promises to provide the next step up in computational power for diverse application areas. In this review, we examine the science behind the quantum hype, and the breakthroughs required to achieve true quantum advantage in real world applications. Areas that are likely to have the greatest impact on high performance computing (HPC) include simulation of quantum systems, optimization, and machine learning. We draw our examples from electronic structure calculations and computational fluid dynamics which account for a large fraction of current scientific and engineering use of HPC. Potential challenges include encoding and decoding classical data for quantum devices, and mismatched clock speeds between classical and quantum processors. Even a modest quantum enhancement to current classical techniques would have far-reaching impacts in areas such as weather forecasting, engineering, aerospace, drug design, and the design of "green" materials for sustainable development. This requires significant effort from the computational science, engineering and quantum computing communities working together. | 翻訳日:2024-08-14 00:18:18 公開日:2024-08-09 |
# テキストからマルチモーダルへ:質問応答システムにおける逆例生成に関する調査
From text to multimodal: a survey of adversarial example generation in question answering systems ( http://arxiv.org/abs/2312.16156v2 ) ライセンス: Link先を確認 | Gulsum Yigit, Mehmet Fatih Amasyali, | (参考訳) 敵対的機械学習と質問回答システムを統合することは、これらのシステムの脆弱性と堅牢性を理解する上で重要な領域として現れている。
本稿では,テキスト・マルチモーダル・コンテキストを含むQA分野における敵対的事例生成手法を包括的にレビューすることを目的とする。
本稿では,系統分類による手法について検討し,包括的かつ構造化されたレビューを提供する。
従来のQAモデルの概要から、規則に基づく摂動と高度な生成モデルを探ることで、逆の例生成を横切る。
次に、マルチモーダルQAシステムを含め、様々な手法で分析し、生成モデル、Seq2seqアーキテクチャ、ハイブリッド方法論について検討する。
我々の研究は、異なる防衛戦略、敵のデータセット、評価指標にまで成長し、敵のQAに関する総合的な文献を示している。
最後に, 敵対的質問生成の今後の展望を考察し, 敵対的課題の文脈において, テキストおよびマルチモーダルQAシステムを前進させる潜在的研究の方向性を明らかにする。
Integrating adversarial machine learning with Question Answering (QA) systems has emerged as a critical area for understanding the vulnerabilities and robustness of these systems. This article aims to comprehensively review adversarial example-generation techniques in the QA field, including textual and multimodal contexts. We examine the techniques employed through systematic categorization, providing a comprehensive, structured review. Beginning with an overview of traditional QA models, we traverse the adversarial example generation by exploring rule-based perturbations and advanced generative models. We then extend our research to include multimodal QA systems, analyze them across various methods, and examine generative models, seq2seq architectures, and hybrid methodologies. Our research grows to different defense strategies, adversarial datasets, and evaluation metrics and illustrates the comprehensive literature on adversarial QA. Finally, the paper considers the future landscape of adversarial question generation, highlighting potential research directions that can advance textual and multimodal QA systems in the context of adversarial challenges. | 翻訳日:2024-08-14 00:18:18 公開日:2024-08-09 |
# 超強結合系の真空中における光-物質相互作用
Light-matter interactions in the vacuum of ultra-strongly coupled systems ( http://arxiv.org/abs/2312.16287v2 ) ライセンス: Link先を確認 | Daniele De Bernardis, Gian Marcello Andolina, Iacopo Carusotto, | (参考訳) 超強結合系の真空状態の特異性が基本的な光-物質相互作用過程にどのように影響するかを理論的に検討する。
この非伝統的な電磁環境では、追加のエミッタは、もはや裸の空洞光子に結合するのではなく、超強結合から生じる偏光子モードに結合する。
そのため、実効的な光-物質相互作用強度は歪んだ真空状態の性質に敏感である。
真空状態における量子ゆらぎの変化と、古典的電磁磁気学における放射反応の観点から、我々の予測の異なる解釈を批判的に議論する。
半導体デバイスにおけるサブバンド間ポーラリトンの実験的なケースに焦点が当てられているが、我々のフレームワークは完全に汎用的であり、汎用材料システムに適用できる。
We theoretically study how the peculiar properties of the vacuum state of an ultra-strongly coupled system can affect basic light-matter interaction processes. In this unconventional electromagnetic environment, an additional emitter no longer couples to the bare cavity photons, but rather to the polariton modes emerging from the ultra-strong coupling. As such, the effective light-matter interaction strength is sensitive to the properties of the distorted vacuum state. Different interpretations of our predictions in terms of modified quantum fluctuations in the vacuum state and of radiative reaction in classical electromagnetism are critically discussed. Whereas our discussion is focused on the experimentally most relevant case of intersubband polaritons in semiconductor devices, our framework is fully general and applies to generic material systems. | 翻訳日:2024-08-14 00:18:18 公開日:2024-08-09 |
# 解釈型学習による機能的応答をもつメタマテリアルの逆設計
Generative Inverse Design of Metamaterials with Functional Responses by Interpretable Learning ( http://arxiv.org/abs/2401.00003v3 ) ライセンス: Link先を確認 | Wei "Wayne" Chen, Rachel Sun, Doksoo Lee, Carlos M. Portela, Wei Chen, | (参考訳) 外部刺激下での波動応答や変形誘起特性の変化などの機能的応答を持つメタマテリアルは、異なる条件下での様々な特性や機能を示すことができる。
本稿では,これらのメタマテリアルの迅速な逆設計を目標とした定性的機能的挙動を満たすことを目的とする。
この逆問題は、その難易度と非特異解の存在により困難である。
過去の研究は主に、データオンデマンドで、時間を要するトレーニングとハイパーパラメータチューニングを必要とし、解釈不可能なディープラーニングベースの手法に重点を置いてきた。
これらの制約を克服するために,Random-forest-based Interpretable Generative Inverse Design (RIGID)を提案する。
多くの既存手法とは異なり、ランダムな森の解釈可能性を活用することにより、設計に対する逆モデルマッピング応答をトレーニングする必要がなくなる。
トレーニングされたフォワードモデルから得られた目標満足度の可能性に基づいて、マルコフ連鎖モンテカルロ法を用いて設計ソリューションをサンプリングすることができる。
したがって、RIGID法は、設計対象が与えられた満足解の条件分布をキャプチャする生成モデルとして機能する。
本稿では,RIGIDの音響的および光学的メタマテリアル設計問題に対する有効性と有効性を示す。
合成設計問題は、RIGIDにおける仮説推定のメカニズムをさらに説明し、検証するために作成される。
この研究は、オンデマンドの逆設計問題を解決するための新しい視点を提供し、解釈可能な機械学習を生成設計に組み込む可能性を示し、その大規模なデータ要求を排除している。
Metamaterials with functional responses, such as wave-based responses or deformation-induced property variation under external stimuli, can exhibit varying properties or functionalities under different conditions. Herein, we aim at rapid inverse design of these metamaterials to meet target qualitative functional behaviors. This inverse problem is challenging due to its intractability and the existence of non-unique solutions. Past works mainly focus on deep-learning-based methods that are data-demanding, require time-consuming training and hyperparameter tuning, and are non-interpretable. To overcome these limitations, we propose the Random-forest-based Interpretable Generative Inverse Design (RIGID), an iteration-free, single-shot inverse design method to achieve the fast generation of metamaterial designs with on-demand functional behaviors. Unlike most existing methods, by exploiting the interpretability of the random forest, we eliminate the need to train an inverse model mapping responses to designs. Based on the likelihood of target satisfaction derived from the trained forward model, one can sample design solutions using Markov chain Monte Carlo methods. The RIGID method therefore functions as a generative model that captures the conditional distribution of satisfying solutions given a design target. We demonstrate the effectiveness and efficiency of RIGID on both acoustic and optical metamaterial design problems where only small datasets (less than 250 training samples) are available. Synthetic design problems are created to further illustrate and validate the mechanism of likelihood estimation in RIGID. This work offers a new perspective on solving on-demand inverse design problems, showcasing the potential for incorporating interpretable machine learning into generative design and eliminating its large data requirement. | 翻訳日:2024-08-14 00:18:18 公開日:2024-08-09 |
# ベクトル・超複素値ニューラルネットワークの普遍近似理論
Universal Approximation Theorem for Vector- and Hypercomplex-Valued Neural Networks ( http://arxiv.org/abs/2401.02277v2 ) ライセンス: Link先を確認 | Marcos Eduardo Valle, Wington L. Vital, Guilherme Vieira, | (参考訳) 普遍近似定理は、1つの隠れた層を持つニューラルネットワークが任意の所望の精度でコンパクト集合上の連続関数を近似できることを示している。
この定理は、回帰や分類タスクを含む様々な応用にニューラルネットワークを使用するのをサポートする。
さらに、実数値ニューラルネットワークや、複素数、四元数、テッサリン数、クリフォード数重ニューラルネットワークなどの超複素数重ニューラルネットワークにも有効である。
しかし、超複素数値ニューラルネットワーク(英: hypercomplex-valued neural network)は、代数的または幾何学的性質が加わった代数上で定義されるベクトル値ニューラルネットワークの一種である。
本稿では,超複素数値モデルを含む,幅広いベクトル値ニューラルネットワークに対する普遍近似定理を拡張した。
正確には、非退化代数の概念を導入し、そのような代数上で定義されたニューラルネットワークに対する普遍近似定理を述べる。
The universal approximation theorem states that a neural network with one hidden layer can approximate continuous functions on compact sets with any desired precision. This theorem supports using neural networks for various applications, including regression and classification tasks. Furthermore, it is valid for real-valued neural networks and some hypercomplex-valued neural networks such as complex-, quaternion-, tessarine-, and Clifford-valued neural networks. However, hypercomplex-valued neural networks are a type of vector-valued neural network defined on an algebra with additional algebraic or geometric properties. This paper extends the universal approximation theorem for a wide range of vector-valued neural networks, including hypercomplex-valued models as particular instances. Precisely, we introduce the concept of non-degenerate algebra and state the universal approximation theorem for neural networks defined on such algebras. | 翻訳日:2024-08-14 00:18:18 公開日:2024-08-09 |
# MambaByte: Token-free Selective State Space Model
MambaByte: Token-free Selective State Space Model ( http://arxiv.org/abs/2401.13660v3 ) ライセンス: Link先を確認 | Junxiong Wang, Tushaar Gangavarapu, Jing Nathan Yan, Alexander M. Rush, | (参考訳) トークンフリー言語モデルは、生のバイトから直接学習し、サブワードトークン化の帰納バイアスを取り除く。
しかしバイトを操作すると、配列が大幅に長くなる。
この設定では、必要な有効メモリがシーケンス長とともに増加するにつれて、標準の自己回帰変換器はスケールが悪くなる。
最近開発されたMamba状態空間モデル(SSM)は、固定サイズのメモリ状態と効率的なデコードを備えた魅力的な代替手法を提供する。
本稿では,バイトシーケンスに基づいて自己回帰的にトレーニングされたMamba SSMのトークンフリー適応であるMambaByteを提案する。
モデリングの面では、MambaByteは、堅牢性やノイズといったトークンフリーな言語モデルの利点を維持しつつ、言語モデリングタスクにおいて、最先端のサブワードトランスフォーマーよりも優れ、さらに優れています。
効率の面では、トークン化された起草とバイトレベルの検証による投機的復号化の適応を開発する。
これにより、標準のMambaByte実装に対する$2.6\times$推論が高速化され、サブワードのMambaと同様の復号効率が示された。
これらの結果から,トークンフリー言語モデリングにおけるSSMの実現可能性が確認された。
Token-free language models learn directly from raw bytes and remove the inductive bias of subword tokenization. Operating on bytes, however, results in significantly longer sequences. In this setting, standard autoregressive Transformers scale poorly as the effective memory required grows with sequence length. The recent development of the Mamba state space model (SSM) offers an appealing alternative approach with a fixed-sized memory state and efficient decoding. We propose MambaByte, a token-free adaptation of the Mamba SSM trained autoregressively on byte sequences. In terms of modeling, we show MambaByte to be competitive with, and even to outperform, state-of-the-art subword Transformers on language modeling tasks while maintaining the benefits of token-free language models, such as robustness to noise. In terms of efficiency, we develop an adaptation of speculative decoding with tokenized drafting and byte-level verification. This results in a $2.6\times$ inference speedup to the standard MambaByte implementation, showing similar decoding efficiency as the subword Mamba. These findings establish the viability of SSMs in enabling token-free language modeling. | 翻訳日:2024-08-14 00:18:18 公開日:2024-08-09 |
# 量子タイプ:量子ビットと量子ゲートを超える
Quantum types: going beyond qubits and quantum gates ( http://arxiv.org/abs/2401.15073v5 ) ライセンス: Link先を確認 | Tamás Varga, Yaiza Aragonés-Soria, Manuel Oriol, | (参考訳) 量子コンピューティングは、大きな潜在的な応用を持つ成長分野である。
量子プログラムのコーディング方法を学ぶことは、量子ビットの動作方法を理解し、量子ゲートの使用を学ぶことを意味する。
これは論理ゲートとビットを使って古典的なアルゴリズムを作成するのに似ている。
すべての概念を学習した後でも、ほとんどの開発者が量子プログラミングを受け入れるのを妨げる新しいアルゴリズムを作成するのは難しい。
この記事では、高レベルの抽象化の必要性を概説し、Rhymeという開発者フレンドリーなプログラミング言語でそれらをいくつか提案する。
新しい量子型は、ビット、整数、フロート、文字、配列、文字列を含む古典型の拡張である。
このような型をコードスニペットでどのように使うかを示します。
Quantum computing is a growing field with significant potential applications. Learning how to code quantum programs means understanding how qubits work and learning to use quantum gates. This is analogous to creating classical algorithms using logic gates and bits. Even after learning all concepts, it is difficult to create new algorithms, which hinders the acceptance of quantum programming by most developers. This article outlines the need for higher-level abstractions and proposes some of them in a developer-friendly programming language called Rhyme. The new quantum types are extensions of classical types, including bits, integers, floats, characters, arrays, and strings. We show how to use such types with code snippets. | 翻訳日:2024-08-14 00:07:59 公開日:2024-08-09 |
# キラル巨大原子によるマルコビアン性制御
Controlling Markovianity with Chiral Giant Atoms ( http://arxiv.org/abs/2402.15556v2 ) ライセンス: Link先を確認 | Federico Roccati, Dario Cilluffo, | (参考訳) 巨大人工原子はアナログ量子シミュレータの実装のために有望で柔軟なビルディングブロックである。
それらは、2レベル系の多局所的な結合パターンから導波路、または2次元フォトニックバスへと実現される。
巨大原子物理学の目印は、非マルコフ的特性であり、自己コヒーレントなフィードバックの形で、例えば、非指数的原子崩壊へと導かれる。
それらの非マルコビアン性の時間スケールは、本質的には様々な結合点間の距離に比例する時間遅延によって与えられる。
並行して、最先端の実験装置により、原子-光結合の複雑な位相を設計することができる。
このような位相は人工磁場をシミュレートし、原子-光系のキラルな挙動をもたらす。
ここでは、巨大な原子のキラリティーがマルコビアン性を制御することを示すために、これら2つの無関係な巨大原子の特徴の間の驚くべき関係を報告します。
特に、カップリングの位相を調整することで、巨大原子は本質的に時間遅延に拘わらず正反対のマルコフ状態に入ることができる。
本稿では,この機構を干渉過程および衝突モデル図を用いて記述する。
我々の発見は、巨大原子物理学の理解を著しく前進させ、量子ナノフォトニクスネットワークの制御のための新たな道を開いた。
Giant artificial atoms are promising and flexible building blocks for the implementation of analog quantum simulators. They are realized via a multi-local pattern of couplings of two-level systems to a waveguide, or to a two-dimensional photonic bath. A hallmark of giant-atom physics is their non-Markovian character in the form of self-coherent feedback, leading, e.g., to non-exponential atomic decay. The timescale of their non-Markovianity is essentially given by the time delay proportional to the distance between the various coupling points. In parallel, with the state-of-the-art experimental setups, it is possible to engineer complex phases in the atom-light couplings. Such phases simulate an artificial magnetic field, yielding a chiral behavior of the atom-light system. Here, we report a surprising connection between these two seemingly unrelated features of giant atoms, showing that the chirality of a giant atom controls its Markovianity. In particular, by adjusting the couplings' phases, a giant atom can, counterintuitively, enter an exact Markovian regime irrespectively of any inherent time delay. We illustrate this mechanism as an interference process and via a collision model picture. Our findings significantly advance the understanding of giant atom physics, and open new avenues for the control of quantum nanophotonic networks. | 翻訳日:2024-08-13 23:57:57 公開日:2024-08-09 |
# 超伝導量子ビットのゲート操作と非マルコビアン性
Gate Operations for Superconducting Qubits and Non-Markovianity ( http://arxiv.org/abs/2402.18518v2 ) ライセンス: Link先を確認 | Kiyoto Nakamura, Joachim Ankerhold, | (参考訳) 量子ビット演算の精度は過去10年間に大幅に改善されてきたが、最終的な目標であるフォールトトレラントな量子コンピュータは、従来のコンピュータよりも現実の問題を効率的に解くことができる。
クビット・貯留層相関や非マルコフ力学といった環境ノイズの微妙な効果が増大するにつれて、回路設計と制御の両方に焦点が当てられるようになる。
進行を導くため,広帯域のノイズ源とゲート操作の全シーケンスが存在する場合の単一量子力学の包括的図面を,数値的に厳密な方法で明らかにした。
Ohmic から Deep $1/f^{\varepsilon}$-like sub-Ohmic behavior は超伝導量子ビットの現実的なシナリオを模倣すると考えられている。
動的特徴とは別に、シーケンス全体のキュービット性能の忠実度をメリットの図形として分析する。
遅延フィードバックと長距離クビット・貯留層相関の関連性を定量的に示し、現在のデバイスの性能限界を深く理解し、将来のデバイスの設計を導く。
While the accuracy of qubit operations has been greatly improved in the last decade, further development is demanded to achieve the ultimate goal: a fault-tolerant quantum computer that can solve real-world problems more efficiently than classical computers. With growing fidelities even subtle effects of environmental noise such as qubit-reservoir correlations and non-Markovian dynamics turn into the focus for both circuit design and control. To guide progress, we disclose, in a numerically rigorous manner, a comprehensive picture of the single-qubit dynamics in presence of a broad class of noise sources and for entire sequences of gate operations. Thermal reservoirs ranging from Ohmic to deep $1/f^{\varepsilon}$-like sub-Ohmic behavior are considered to imitate realistic scenarios for superconducting qubits. Apart from dynamical features, fidelities of the qubit performance over entire sequences are analyzed as a figure of merit. The relevance of retarded feedback and long-range qubit-reservoir correlations is demonstrated on a quantitative level, thus, providing a deeper understanding of the limitations of performances for current devices and guiding the design of future ones. | 翻訳日:2024-08-13 23:48:12 公開日:2024-08-09 |
# leave no Contexthind: Infini-attention 付き効率的な Infinite Context Transformer
Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention ( http://arxiv.org/abs/2404.07143v2 ) ライセンス: Link先を確認 | Tsendsuren Munkhdalai, Manaal Faruqui, Siddharth Gopal, | (参考訳) 本研究では,トランスフォーマーをベースとしたLarge Language Model (LLM) を,メモリと計算を境界とした無限長入力に拡張する効率的な手法を提案する。
提案手法の重要な要素は、Infini-attentionと呼ばれる新しい注意手法である。
Infiniアテンションは圧縮メモリをバニラアテンション機構に組み込み、マスクされた局所アテンションと1つのトランスフォーマーブロックの長期リニアアテンション機構の両方に構築する。
長文言語モデリングベンチマーク,1Mシーケンス長のパスキーコンテキストブロック検索,および1Bおよび8B LLMを用いた500K長さの書籍要約タスクにおいて,提案手法の有効性を実証した。
提案手法は最小限のメモリパラメータを導入し,LLMの高速なストリーミング推論を可能にする。
This work introduces an efficient method to scale Transformer-based Large Language Models (LLMs) to infinitely long inputs with bounded memory and computation. A key component in our proposed approach is a new attention technique dubbed Infini-attention. The Infini-attention incorporates a compressive memory into the vanilla attention mechanism and builds in both masked local attention and long-term linear attention mechanisms in a single Transformer block. We demonstrate the effectiveness of our approach on long-context language modeling benchmarks, 1M sequence length passkey context block retrieval and 500K length book summarization tasks with 1B and 8B LLMs. Our approach introduces minimal bounded memory parameters and enables fast streaming inference for LLMs. | 翻訳日:2024-08-13 23:27:39 公開日:2024-08-09 |
# AIris:視覚障害者のためのAIを利用したウェアラブル補助デバイス
AIris: An AI-powered Wearable Assistive Device for the Visually Impaired ( http://arxiv.org/abs/2405.07606v2 ) ライセンス: Link先を確認 | Dionysia Danai Brilli, Evangelos Georgaras, Stefania Tsilivaki, Nikos Melanitis, Konstantina Nikita, | (参考訳) 視覚障害者のための補助技術は、複雑でダイナミックな世界との相互作用を促進するために進化してきた。
本稿では,視覚障害者に環境認識とインタラクション機能を提供する,AIを活用したウェアラブルデバイスであるAIrisを紹介する。
AIrisは、眼鏡に装着された洗練されたカメラと自然言語処理インターフェースを組み合わせることで、ユーザーは周囲の聴覚的記述をリアルタイムで受信することができる。
我々は,実環境下で効果的に動作する機能プロトタイプシステムを開発した。
AIrisは、オブジェクトを正確に識別し、シーンを解釈する能力を示し、従来の補助装置では達成不可能な空間認識をユーザに提供する。
このシステムは費用対効果が高くユーザフレンドリで、顔認識、シーン記述、テキスト読取、オブジェクト認識、マネーカウント、メモ取り、バーコードスキャンといった、一般的および特殊なタスクをサポートするように設計されている。
AIrisは変革的なステップであり、AIの強化を補助技術に持ち込み、人間のような感覚とリッチな対話を可能にする。
Assistive technologies for the visually impaired have evolved to facilitate interaction with a complex and dynamic world. In this paper, we introduce AIris, an AI-powered wearable device that provides environmental awareness and interaction capabilities to visually impaired users. AIris combines a sophisticated camera mounted on eyewear with a natural language processing interface, enabling users to receive real-time auditory descriptions of their surroundings. We have created a functional prototype system that operates effectively in real-world conditions. AIris demonstrates the ability to accurately identify objects and interpret scenes, providing users with a sense of spatial awareness previously unattainable with traditional assistive devices. The system is designed to be cost-effective and user-friendly, supporting general and specialized tasks: face recognition, scene description, text reading, object recognition, money counting, note-taking, and barcode scanning. AIris marks a transformative step, bringing AI enhancements to assistive technology, enabling rich interactions with a human-like feel. | 翻訳日:2024-08-13 23:07:09 公開日:2024-08-09 |
# オントロジを活用してデータのバイアスを文書化する
Leveraging Ontologies to Document Bias in Data ( http://arxiv.org/abs/2407.00509v2 ) ライセンス: Link先を確認 | Mayra Russo, Maria-Esther Vidal, | (参考訳) 機械学習(ML)システムは再生可能であり、しばしば望ましくないバイアスを増幅する。
このことは、MLパイプラインの本質的な特性の研究と理解を可能にするプラクティスの下での運用の重要性を強調し、'バイアスに対するあらゆる救済は、その存在を意識することから始まる'という考え方でドキュメントフレームワークの出現を促している。
しかし、検出されたバイアスの観点からこれらのパイプラインを正式に記述できるリソースは、いまだ無意味である。
このギャップを埋めるために、Doc-BiasOオントロジー(Doc-BiasO ontology)という、‘textit{fair-ML} 文学で定義されたバイアスの語彙とそれらの測度を統合化し、関連する用語とそれらの関係を組み込むためのリソースを提示する。
オントロジーエンジニアリングのベストプラクティスを見越して、私たちは、機械学習とAIに関する既存の語彙を再使用し、その研究、開発、規制などに関わるアクター間の知識共有と相互運用性を促進します。
全体として、私たちの主な目的は、AIのあらゆる領域に急速に拡大するにつれて、バイアス研究に関する既存の用語を明確にすることへの貢献であり、データや下流の影響に対するバイアスの解釈を改善することにあります。
Machine Learning (ML) systems are capable of reproducing and often amplifying undesired biases. This puts emphasis on the importance of operating under practices that enable the study and understanding of the intrinsic characteristics of ML pipelines, prompting the emergence of documentation frameworks with the idea that ``any remedy for bias starts with awareness of its existence''. However, a resource that can formally describe these pipelines in terms of biases detected is still amiss. To fill this gap, we present the Doc-BiasO ontology, a resource that aims to create an integrated vocabulary of biases defined in the \textit{fair-ML} literature and their measures, as well as to incorporate relevant terminology and the relationships between them. Overseeing ontology engineering best practices, we re-use existing vocabulary on machine learning and AI, to foster knowledge sharing and interoperability between the actors concerned with its research, development, regulation, among others. Overall, our main objective is to contribute towards clarifying existing terminology on bias research as it rapidly expands to all areas of AI and to improve the interpretation of bias in data and downstream impact. | 翻訳日:2024-08-13 20:53:08 公開日:2024-08-09 |
# ビデオとシミュレーションからの学習行動と推論中心画像編集
Learning Action and Reasoning-Centric Image Editing from Videos and Simulations ( http://arxiv.org/abs/2407.03471v2 ) ライセンス: Link先を確認 | Benno Krojer, Dheeraj Vattikonda, Luis Lara, Varun Jampani, Eva Portelance, Christopher Pal, Siva Reddy, | (参考訳) 画像編集モデルは、オブジェクトの置換、属性やスタイルの変更、アクションやムーブメントの実行など、さまざまな形式の推論を必要とするさまざまな編集を行うことができるべきである。
現在の一般的な命令誘導編集モデルは、アクションや推論中心の編集に重大な欠点がある。
オブジェクト、属性、スタイリスティックな変更は、視覚的に静的なデータセットから学ぶことができる。
一方、アクションや推論中心の編集のための高品質なデータは乏しく、物理的ダイナミクス、時間性、空間的推論などをカバーする全く異なるソースから来る必要がある。
この目的のために,ビデオやシミュレーションエンジンから,高品質なトレーニングデータを集めたAURORAデータセット(Action-Reasoning-Object-Attribute)を慎重にキュレートする。
我々は、高品質なトレーニングデータの重要な側面に焦点を当てる:三脚(ソースイメージ、プロンプト、ターゲットイメージ)には、プロンプトによって記述された1つの意味のある視覚的変化、すなわち、ソースとターゲットイメージの真に最小限の変更が含まれている。
AURORA-Bench(AURORA-Bench)を用いて,8種類の編集タスクを対象としたAURORA-fintunedモデルの評価を行った。
我々のモデルは従来の編集モデルよりもはるかに優れており、人間のレーティングによって判断される。
自動評価では、過去のメトリクスに重要な欠陥を見つけ、セマンティックにハードな編集作業に使用することを注意する。
代わりに、差別的理解に焦点を当てた新しい自動尺度を提案する。
我々は,(1)品質トレーニングデータセットと評価ベンチマークのキュレーション,(2)批判的評価の展開,(3)最先端のモデルをリリースすることで,画像編集のさらなる進歩を期待する。
An image editing model should be able to perform diverse edits, ranging from object replacement, changing attributes or style, to performing actions or movement, which require many forms of reasoning. Current general instruction-guided editing models have significant shortcomings with action and reasoning-centric edits. Object, attribute or stylistic changes can be learned from visually static datasets. On the other hand, high-quality data for action and reasoning-centric edits is scarce and has to come from entirely different sources that cover e.g. physical dynamics, temporality and spatial reasoning. To this end, we meticulously curate the AURORA Dataset (Action-Reasoning-Object-Attribute), a collection of high-quality training data, human-annotated and curated from videos and simulation engines. We focus on a key aspect of quality training data: triplets (source image, prompt, target image) contain a single meaningful visual change described by the prompt, i.e., truly minimal changes between source and target images. To demonstrate the value of our dataset, we evaluate an AURORA-finetuned model on a new expert-curated benchmark (AURORA-Bench) covering 8 diverse editing tasks. Our model significantly outperforms previous editing models as judged by human raters. For automatic evaluations, we find important flaws in previous metrics and caution their use for semantically hard editing tasks. Instead, we propose a new automatic metric that focuses on discriminative understanding. We hope that our efforts : (1) curating a quality training dataset and an evaluation benchmark, (2) developing critical evaluations, and (3) releasing a state-of-the-art model, will fuel further progress on general image editing. | 翻訳日:2024-08-13 20:53:08 公開日:2024-08-09 |
# 分類の誤用:一部のクラスは、他のクラスよりも分類の誤用が多い
The Misclassification Likelihood Matrix: Some Classes Are More Likely To Be Misclassified Than Others ( http://arxiv.org/abs/2407.07818v2 ) ライセンス: Link先を確認 | Daniel Sikar, Artur Garcez, Robin Bloomfield, Tillman Weyde, Kaleem Peeroo, Naman Singh, Maeve Hutchinson, Dany Laksono, Mirela Reljan-Delaney, | (参考訳) 本研究では、分散シフト下でのニューラルネットワーク予測の信頼性を定量化するための新しいツールとして、MLM(Misclassification Likelihood Matrix)を紹介した。
MLMは、訓練されたニューラルネットワークとクラスセントロイドの予測との距離を測定するために、ソフトマックス出力とクラスタリング技術を活用して得られる。
これらの距離を分析することで、MDMはモデルの分類ミスの傾向を包括的に把握し、意思決定者が最も一般的で重要なエラーの原因を特定することを可能にする。
MLMは、モデル改善の優先順位付けと許容されるリスクレベルに基づく決定しきい値の設定を可能にする。
このアプローチは、分散シフトをシミュレートするために、畳み込みニューラルネットワーク(CNN)とデータセットの摂動バージョンを使用して、MNISTデータセット上で評価される。
その結果、予測の信頼性を評価する上でのMLMの有効性を実証し、ニューラルネットワークの解釈可能性やリスク軽減能力を高める可能性を強調した。
この研究の意義は、複雑な現実世界の環境における意思決定の安全性と信頼性を改善するために、自動運転車などの自動運転システムで進行中の応用において、画像分類を超えて拡張されている。
This study introduces the Misclassification Likelihood Matrix (MLM) as a novel tool for quantifying the reliability of neural network predictions under distribution shifts. The MLM is obtained by leveraging softmax outputs and clustering techniques to measure the distances between the predictions of a trained neural network and class centroids. By analyzing these distances, the MLM provides a comprehensive view of the model's misclassification tendencies, enabling decision-makers to identify the most common and critical sources of errors. The MLM allows for the prioritization of model improvements and the establishment of decision thresholds based on acceptable risk levels. The approach is evaluated on the MNIST dataset using a Convolutional Neural Network (CNN) and a perturbed version of the dataset to simulate distribution shifts. The results demonstrate the effectiveness of the MLM in assessing the reliability of predictions and highlight its potential in enhancing the interpretability and risk mitigation capabilities of neural networks. The implications of this work extend beyond image classification, with ongoing applications in autonomous systems, such as self-driving cars, to improve the safety and reliability of decision-making in complex, real-world environments. | 翻訳日:2024-08-13 20:43:18 公開日:2024-08-09 |
# 深部機能手術 : 高精度かつ効率的なマルチエグジットネットワークを目指して
Deep Feature Surgery: Towards Accurate and Efficient Multi-Exit Networks ( http://arxiv.org/abs/2407.13986v2 ) ライセンス: Link先を確認 | Cheng Gong, Yao Chen, Qiuyang Luo, Ye Lu, Tao Li, Yuzhi Zhang, Yufei Sun, Le Zhang, | (参考訳) マルチエグジットネットワークは、バックボーンネットワークと重みを複数のエグジット間で共有することで、効率的なモデル推論のための有望なアーキテクチャである。
しかし、共有重みの勾配の衝突は準最適精度をもたらす。
本稿では,マルチエクイットネットワークのトレーニングにおいて,機能分割と機能参照アプローチを併用したDeep Feature Surgery(\methodname)を提案する。
特徴分断は、すべての出口間の深さ軸に沿った共有特徴を分離し、各出口の合同最適化を同時に促進する。
その後、特徴参照により、様々な深さにまたがる異なる出口のマルチスケール機能を強化し、モデルの精度を向上する。
さらに、‘methodname~reduces the training operations with the reduce complexity of backpropagation。
Cifar100およびImageNetデータセットの実験結果によると、‘methodname~provides to a \textbf{50.00\%} reduce in training time, and a \textbf{6.94\%} enhancement in accuracy when contrast with baseline method across various model and task。
MSDNetの予算バッチ分類評価は、DFSがCifar100のベースラインメソッドと同じ分類精度を達成するために、画像あたりの平均FLOPを約$\mathbf{2}\boldsymbol{\times}$より少なくしていることを示している。
コードはhttps://github.com/GongCheng1919/dfsで入手できる。
Multi-exit network is a promising architecture for efficient model inference by sharing backbone networks and weights among multiple exits. However, the gradient conflict of the shared weights results in sub-optimal accuracy. This paper introduces Deep Feature Surgery (\methodname), which consists of feature partitioning and feature referencing approaches to resolve gradient conflict issues during the training of multi-exit networks. The feature partitioning separates shared features along the depth axis among all exits to alleviate gradient conflict while simultaneously promoting joint optimization for each exit. Subsequently, feature referencing enhances multi-scale features for distinct exits across varying depths to improve the model accuracy. Furthermore, \methodname~reduces the training operations with the reduced complexity of backpropagation. Experimental results on Cifar100 and ImageNet datasets exhibit that \methodname~provides up to a \textbf{50.00\%} reduction in training time and attains up to a \textbf{6.94\%} enhancement in accuracy when contrasted with baseline methods across diverse models and tasks. Budgeted batch classification evaluation on MSDNet demonstrates that DFS uses about $\mathbf{2}\boldsymbol{\times}$ fewer average FLOPs per image to achieve the same classification accuracy as baseline methods on Cifar100. The code is available at https://github.com/GongCheng1919/dfs. | 翻訳日:2024-08-13 20:33:33 公開日:2024-08-09 |
# ニューロモルフィックモードレジームを用いた交流潮流中の微粒なリモート情報の推定
Inferring Ingrained Remote Information in AC Power Flows Using Neuromorphic Modality Regime ( http://arxiv.org/abs/2407.14883v2 ) ライセンス: Link先を確認 | Xiaoguang Diao, Yubo Song, Subham Sahoo, | (参考訳) 本稿では、電力変換器の効率的な配電のためのグリッドエッジ技術として、スパイキングニューラルネットワーク(SNN)を用いた交流電力流の変化に伴う遠隔電圧やオンライン電流などの遠隔計測を推定する。
この研究は、エネルギー効率のよいニューロモルフィック学習とイベント駆動非同期データ収集を用いたスパイクの形で、マルチモーダルな構造を用いたデータ正規化の手段として、電力と情報を統一する。
まず,各エッジにおける同期実測値を整理し,非同期スパイクに基づくイベントに変換し,各エッジにおけるSNNのトレーニングのためのスパースデータを収集する。
誤差依存型教師付きデータ駆動学習理論に頼る代わりに、遅延駆動型非教師付きヘッビアン学習規則を用いて、グリッド障害を局所的に理解し、グローバル協調のための明示的なインフラを必要とせずに操作を適応できる電力電子変換器のスイッチングのための変調パルスを得る。
この哲学は、サイバーレイヤを排除することによって、サイバー攻撃者の外因性パスの到着を阻止するだけでなく、システム再構成やパラメータミスマッチ問題へのコンバータ適応も必要である。
本研究は,IEEE 14-busシステムの改良や実験条件など,様々なシステムサイズで,そのエネルギー効率と効果的なオンライン学習性能を検証することで,本研究を結論付けている。
In this paper, we infer remote measurements such as remote voltages and currents online with change in AC power flows using spiking neural network (SNN) as grid-edge technology for efficient coordination of power electronic converters. This work unifies power and information as a means of data normalization using a multi-modal regime in the form of spikes using energy-efficient neuromorphic learning and event-driven asynchronous data collection. Firstly, we organize the synchronous real-valued measurements at each edge and translate them into asynchronous spike-based events to collect sparse data for training of SNN at each edge. Instead of relying on error-dependent supervised data-driven learning theory, we exploit the latency-driven unsupervised Hebbian learning rule to obtain modulation pulses for switching of power electronic converters that can now comprehend grid disturbances locally and adapt their operation without requiring explicit infrastructure for global coordination. Not only does this philosophy block exogenous path arrival for cyber attackers by dismissing the cyber layer, it also entails converter adaptation to system reconfiguration and parameter mismatch issues. We conclude this work by validating its energy-efficient and effective online learning performance under various scenarios in different system sizes, including modified IEEE 14-bus system and under experimental conditions. | 翻訳日:2024-08-13 20:33:33 公開日:2024-08-09 |
# scASDC: 単一セルRNA-seqデータのための構造的深層クラスタリング
scASDC: Attention Enhanced Structural Deep Clustering for Single-cell RNA-seq Data ( http://arxiv.org/abs/2408.05258v1 ) ライセンス: Link先を確認 | Wenwen Min, Zhen Wang, Fangfang Zhu, Taosheng Xu, Shunfang Wang, | (参考訳) 単細胞RNAシークエンシング(scRNA-seq)データ解析は、細胞不均一性を理解する上で重要である。
しかし、scRNA-seqデータに固有の高空間性および複雑なノイズパターンは、従来のクラスタリング手法において重要な課題である。
本稿では,クラスタリングの精度とロバスト性を改善するために,複数の高度なモジュールを統合した深層クラスタリング手法であるAttention-Enhanced Structure Deep Embedding Graph Clustering (scASDC)を提案する。
GCNの過度な問題を軽減するため、ZINBベースのオートエンコーダモジュールを導入し、データからコンテンツ情報を抽出し、遺伝子発現の潜在表現を学習する。
これらのモジュールは、注意融合機構を通じてさらに統合され、GCNの各層における遺伝子発現と構造情報の効果的な組み合わせが保証される。
さらに、学習した埋め込みの堅牢性を高めるために、自己教師付き学習モジュールが組み込まれている。
大規模な実験により、SCASDCは既存の最先端の手法よりも優れており、シングルセルクラスタリングタスクに対して堅牢で効果的なソリューションを提供する。
本手法は、単細胞RNAシークエンシングデータのより正確かつ有意義な解析方法であり、細胞の不均一性と生物学的プロセスの理解に寄与する。
この論文で使用されるすべてのコードと公開データセットは、 \url{https://github.com/wenwenmin/scASDC} と \url{https://zenodo.org/records/12814320} で利用可能である。
Single-cell RNA sequencing (scRNA-seq) data analysis is pivotal for understanding cellular heterogeneity. However, the high sparsity and complex noise patterns inherent in scRNA-seq data present significant challenges for traditional clustering methods. To address these issues, we propose a deep clustering method, Attention-Enhanced Structural Deep Embedding Graph Clustering (scASDC), which integrates multiple advanced modules to improve clustering accuracy and robustness.Our approach employs a multi-layer graph convolutional network (GCN) to capture high-order structural relationships between cells, termed as the graph autoencoder module. To mitigate the oversmoothing issue in GCNs, we introduce a ZINB-based autoencoder module that extracts content information from the data and learns latent representations of gene expression. These modules are further integrated through an attention fusion mechanism, ensuring effective combination of gene expression and structural information at each layer of the GCN. Additionally, a self-supervised learning module is incorporated to enhance the robustness of the learned embeddings. Extensive experiments demonstrate that scASDC outperforms existing state-of-the-art methods, providing a robust and effective solution for single-cell clustering tasks. Our method paves the way for more accurate and meaningful analysis of single-cell RNA sequencing data, contributing to better understanding of cellular heterogeneity and biological processes. All code and public datasets used in this paper are available at \url{https://github.com/wenwenmin/scASDC} and \url{https://zenodo.org/records/12814320}. | 翻訳日:2024-08-13 19:44:18 公開日:2024-08-09 |
# フォールトトレラント量子入出力
Fault-tolerant quantum input/output ( http://arxiv.org/abs/2408.05260v1 ) ライセンス: Link先を確認 | Matthias Christandl, Omar Fawzi, Ashutosh Goswami, | (参考訳) フォールトトレラント計算の一般的なシナリオは、Shorのファクタリングアルゴリズムのような古典関数を計算する量子アルゴリズムのフォールトトレラントな実現に関するものである。
特にこれは、量子アルゴリズムへの入力と出力が古典的であることを意味する。
スタンドアローンのシングルコア量子コンピュータとは対照的に、多くの分散シナリオでは、量子情報は1つの量子情報処理システムから別の量子に渡さなければならない。
このような状況では、量子情報処理装置は量子入力、量子出力、あるいはその両方を持ち、互いに量子ビットを渡す。
このようなシナリオは、Christandl と M{\"u}ller-Hermes, IEEE Trans によるポイントツーポイント通信の文脈で最初に検討されている。
インフ。
Th!
2024年。
北エフのフォールトトレラントフレームワークで作業し、量子入力による量子計算と回路ノイズに対して堅牢な量子出力を実現するための一般的なツールを提供する。
このフレームワークはステートメントの直接的な構成を可能にし、汎用的な将来のアプリケーションを可能にします。
具体的な応用として、任意の線形距離通信符号に対して、一般的なノイズ(コヒーレントエラーを含む)に影響を受けるエンコーダとデコーダを構築することができることを示す。
より弱いが標準的な局所確率雑音のモデルでは、効率的な符号化回路のファミリを含む実用的な通信符号のためのエンコーダとデコーダが得られる。
Usual scenarios of fault-tolerant computation are concerned with the fault-tolerant realization of quantum algorithms that compute classical functions, such as Shor's algorithm for factoring. In particular, this means that input and output to the quantum algorithm are classical. In contrast to stand-alone single-core quantum computers, in many distributed scenarios, quantum information might have to be passed on from one quantum information processing system to another one, possibly via noisy quantum communication channels with noise levels above fault-tolerant thresholds. In such situations, quantum information processing devices will have quantum inputs, quantum outputs or even both, which pass qubits among each other. Such a scenario has first been considered in the context of point-to-point communication by Christandl and M{\"u}ller-Hermes, IEEE Trans. Inf. Th. 2024. Working in the fault-tolerant framework of Kitaev we provide general tools for making quantum computation with quantum input and quantum output robust against circuit noise. The framework allows the direct composition of the statements, enabling versatile future application. As concrete applications, we show that encoders and decoders affected by general noise (including coherent errors) can be constructed for arbitrary linear distance communication codes. For the weaker, but standard, model of local stochastic noise, we obtain such encoders and decoders for practical communication codes, which include families of efficient coding circuits. | 翻訳日:2024-08-13 19:44:18 公開日:2024-08-09 |
# 量子ジャンプダイナミクスにおける位相遷移:隠れた例外点
Topological transitions in quantum jump dynamics: Hidden exceptional points ( http://arxiv.org/abs/2408.05270v1 ) ライセンス: Link先を確認 | Andrei I. Pavlov, Yuval Gefen, Alexander Shnirman, | (参考訳) 散逸性量子系の複素スペクトルは、例外点(EPs)として知られる退化を示すことがある。
これらの点において、システムのダイナミクスは劇的に変化する可能性がある。
EPと関連する現象とその応用は、超伝導回路を含む様々な実験プラットフォームに関して広く研究されている。
システムパラメータの変動によって現れるEPに焦点が当てられているが、システム全体のカウント統計に現れるEPに焦点が当てられている。
計測された3レベル系を考慮し、数え上げ場の関数と見なされるリンドブラディアン固有値に複数のEPを求める。
これらのEPは、ブレイド理論の観点で厳密に特徴づけられる異なる位相クラス間の遷移を表すことを実証する。
さらに, これらの遷移によって影響を受ける動的観測変数を同定し, 実験的に測定された量子ジャンプ分布から基礎となるトポロジをいかに回収できるかを示す。
さらに、数え上げ場に関してリンドブラディアンのあるEP間の双対性を確立する。
これにより、ポストセレクションスキームを適用することなく任意のタイミングで、通常システムのリウヴィリア力学によって隠されたEP遷移を実験的に観察することができる。
Complex spectra of dissipative quantum systems may exhibit degeneracies known as exceptional points (EPs). At these points the systems' dynamics may undergo a drastic change. Phenomena associated with EPs and their applications have been extensively studied in relation to various experimental platforms, including, i.a., the superconducting circuits. While most of the studies focus on EPs appearing due to the variation of the system's parameters, we focus on EPs emerging in the full counting statistics of the system. We consider a monitored three level system and find multiple EPs in the Lindbladian eigenvalues considered as functions of a counting field. We demonstrate that these EPs signify transitions between different topological classes which are rigorously characterized in terms of the braid theory. Furthermore, we identify dynamical observables affected by these transitions and demonstrate how the underlying topology can be recovered from experimentally measured quantum jump distributions. Additionally, we establish a duality between certain EPs in the Lindbladian with regard to the counting field. This allows for an experimental observation of the EP transitions, normally hidden by the Liouvillian dynamics of the system, at arbitrary times without applying postselection schemes. | 翻訳日:2024-08-13 19:44:18 公開日:2024-08-09 |
# 絡み合った行列からの最小領域
Minimal Areas from Entangled Matrices ( http://arxiv.org/abs/2408.05274v1 ) ライセンス: Link先を確認 | Jackson R. Fliss, Alexander Frenkel, Sean A. Hartnoll, Ronak M Soni, | (参考訳) 行列量子力学の理論における部分系の関係性の概念を定義し、対応する絡み合いエントロピーが最小化としてどのように与えられるかを示し、龍高柳公式と多くの類似点を示す。
我々の構成は、エンタングルメントエッジモード、非可換幾何学、および量子内部参照フレームの物理を結合させ、縮退状態が(ほぼ)異なる空間部分領域に対応する密度行列の不整和である部分系を定義する。
半古典行列から幾何学が現れる状態において、この和は最小境界領域を持つ部分領域に支配されることを示す。
龍高柳式と同様に、亜地域を決定する絡み合いの計算である。
微視的導出には粗粒化が不可欠であることが判明し,高度に湾曲した非幾何学的部分領域の増殖を制御した。
We define a relational notion of a subsystem in theories of matrix quantum mechanics and show how the corresponding entanglement entropy can be given as a minimisation, exhibiting many similarities to the Ryu-Takayanagi formula. Our construction brings together the physics of entanglement edge modes, noncommutative geometry and quantum internal reference frames, to define a subsystem whose reduced state is (approximately) an incoherent sum of density matrices, corresponding to distinct spatial subregions. We show that in states where geometry emerges from semiclassical matrices, this sum is dominated by the subregion with minimal boundary area. As in the Ryu-Takayanagi formula, it is the computation of the entanglement that determines the subregion. We find that coarse-graining is essential in our microscopic derivation, in order to control the proliferation of highly curved and disconnected non-geometric subregions in the sum. | 翻訳日:2024-08-13 19:44:18 公開日:2024-08-09 |
# 対称性を持つ古典的な影
Classical shadows with symmetries ( http://arxiv.org/abs/2408.05279v1 ) ライセンス: Link先を確認 | Frederic Sauvage, Martin Larocca, | (参考訳) 古典的シャドウ(CS)は、ランダムな測定と古典的な後処理に基づいて量子状態の多くの特性を推定する強力な方法として登場した。
元の定式化では、一般的な状態と一般的な可観測性に対して最適な(あるいは近い)サンプリングの複雑さを保証する。
それでも、根底にある状態または観測可能な状態に関する事前知識を備えた場合、サンプリング要求をさらに低くなると期待するのは自然なことです。
ここでは、未知の状態や観測可能な状態の対称性の観点から、そのような知識が提供される場合について考察する。
対称影の基準とガイドラインが提供される。
具体例として、置換不変性(PI)の事例と、PI-CSのいくつかのファミリーの詳細な構成に焦点を当てる。
特に、PI量子トモグラフィーの分野で得られた結果に基づいて、浅いPI-CSプロトコルを開発し研究する。
これらの対称CSの利点は、改良された性能を示す確立されたCSプロトコルと比較して実証される。
Classical shadows (CS) have emerged as a powerful way to estimate many properties of quantum states based on random measurements and classical post-processing. In their original formulation, they come with optimal (or close to) sampling complexity guarantees for generic states and generic observables. Still, it is natural to expect to even further lower sampling requirements when equipped with a priori knowledge regarding either the underlying state or the observables. Here, we consider the case where such knowledge is provided in terms of symmetries of the unknown state or of the observables. Criterion and guidelines for symmetric shadows are provided. As a concrete example we focus on the case of permutation invariance (PI), and detail constructions of several families of PI-CSs. In particular, building on results obtained in the field of PI quantum tomography, we develop and study shallow PI-CS protocol. Benefits of these symmetric CS are demonstrated compared to established CS protocols showcasing vastly improved performances. | 翻訳日:2024-08-13 19:44:18 公開日:2024-08-09 |
# MUSE: エッジをマルチ知識でパスし、知識グラフの補完を強化
MUSE: Multi-Knowledge Passing on the Edges, Boosting Knowledge Graph Completion ( http://arxiv.org/abs/2408.05283v1 ) ライセンス: Link先を確認 | Pengjie Liu, | (参考訳) 知識グラフ補完(KGC)は、(ヘッドエンティティ)-(リレーション)-(テールエンティティ)三重項の不足情報を予測することを目的としている。
ディープニューラルネットワークは関係予測タスクにおいて大きな進歩を遂げている。
しかし、既存のほとんどのKGCメソッドは、単一の機能(エンティティIDなど)とサブグラフアグリゲーション(サブグラフアグリゲーション)に焦点を当てており、知識グラフ(KG)のすべての機能を完全に探索することはできず、外部意味的な知識注入を無視する。
これらの問題に対処するために,多知識表現学習機構を用いて,関係予測の欠如に対して,3次元で適切な埋め込み空間を学習する知識認識推論モデル MUSE を提案する。
私たちのMUSEは3つの並列コンポーネントから構成されています。
1)細調整BERTによる三重項の意味表現の強化のための事前知識学習
2)KGのコンテキストメッセージを強化するコンテキストメッセージパッシング
3) 経路表現をヘッドエンティティからテールエンティティへ拡張するためのリレーショナルパス集約
NELL995データセットの5.50%以上のH@1の改善と4.20%のMRRの改善など、MUSEが4つの公開データセットで他のベースラインを著しく上回ることを示す実験結果を得た。
コードとすべてのデータセットはhttps://github.com/NxxTGT/MUSEで公開される。
Knowledge Graph Completion (KGC) aims to predict the missing information in the (head entity)-[relation]-(tail entity) triplet. Deep Neural Networks have achieved significant progress in the relation prediction task. However, most existing KGC methods focus on single features (e.g., entity IDs) and sub-graph aggregation, which cannot fully explore all the features in the Knowledge Graph (KG), and neglect the external semantic knowledge injection. To address these problems, we propose MUSE, a knowledge-aware reasoning model to learn a tailored embedding space in three dimensions for missing relation prediction through a multi-knowledge representation learning mechanism. Our MUSE consists of three parallel components: 1) Prior Knowledge Learning for enhancing the triplets' semantic representation by fine-tuning BERT; 2) Context Message Passing for enhancing the context messages of KG; 3) Relational Path Aggregation for enhancing the path representation from the head entity to the tail entity. Our experimental results show that MUSE significantly outperforms other baselines on four public datasets, such as over 5.50% improvement in H@1 and 4.20% improvement in MRR on the NELL995 dataset. The code and all datasets will be released via https://github.com/NxxTGT/MUSE. | 翻訳日:2024-08-13 19:44:18 公開日:2024-08-09 |
# ベイジアンオラクルはハームをエージェントから防ぐことができるか?
Can a Bayesian Oracle Prevent Harm from an Agent? ( http://arxiv.org/abs/2408.05284v1 ) ライセンス: Link先を確認 | Yoshua Bengio, Michael K. Cohen, Nikolay Malkin, Matt MacDermott, Damiano Fornasiere, Pietro Greiner, Younesse Kaddar, | (参考訳) 確率論的安全性を保証する機械学習手法に基づいた強力なAIシステムを設計する方法はあるだろうか?
各文脈に適用可能な確率的保証を得るという長期的な目標を掲げて、所定の安全仕様に違反する確率に基づいて文脈依存境界を推定することを検討する。
このようなリスク評価は、AIの危険な行動に対するガードレールを提供するために、実行時に実施する必要がある。
世界の異なる仮説が全く異なる結果をもたらす可能性があることに注意し、どの仮説が正しいかわからないので、真だが未知の仮説の下で予測される安全違反確率の限界を導出する。
このような境界は、潜在的に危険な行為を拒絶するために用いられる。
本研究の主な成果は,ベイジアン後部を仮説として用いた最大化によって得られた,慎重だが妥当な仮説の探索である。
iidの場合と非idの場合の2つの形態を考察し、そのような理論結果を実用的なAIガードレールに変換するためのオープンな問題に結論付ける。
Is there a way to design powerful AI systems based on machine learning methods that would satisfy probabilistic safety guarantees? With the long-term goal of obtaining a probabilistic guarantee that would apply in every context, we consider estimating a context-dependent bound on the probability of violating a given safety specification. Such a risk evaluation would need to be performed at run-time to provide a guardrail against dangerous actions of an AI. Noting that different plausible hypotheses about the world could produce very different outcomes, and because we do not know which one is right, we derive bounds on the safety violation probability predicted under the true but unknown hypothesis. Such bounds could be used to reject potentially dangerous actions. Our main results involve searching for cautious but plausible hypotheses, obtained by a maximization that involves Bayesian posteriors over hypotheses. We consider two forms of this result, in the iid case and in the non-iid case, and conclude with open problems towards turning such theoretical results into practical AI guardrails. | 翻訳日:2024-08-13 19:44:18 公開日:2024-08-09 |
# セミスーパービジョンワンショット模倣学習
Semi-Supervised One-Shot Imitation Learning ( http://arxiv.org/abs/2408.05285v1 ) ライセンス: Link先を確認 | Philipp Wu, Kourosh Hakhamaneshi, Yuqing Du, Igor Mordatch, Aravind Rajeswaran, Pieter Abbeel, | (参考訳) One-shot Imitation Learning~(OSIL)は、AIエージェントに1つのデモから新しいタスクを学ぶ能力を持たせることを目的としている。
学習を監督するためには、OSILは通常、同じ意味タスクの異なるバリエーションに対応する軌跡として、非常に多くのペアの専門家によるデモンストレーションを必要とする。
この制限を克服するために,学習エージェントにタスクラベルのない大量のトラジェクトリデータセット(未ペアデータセット)とセマンティックタスク毎の複数のデモンストレーションデータセット(ペアデータセット)を提示する,半教師付きOSIL問題設定を導入する。
これは、より現実的で実践的な、数発の学習の実施を示し、エージェントは、大きなトラジェクトリのデータセットからの弱い監督を効果的に活用する必要がある。
次に,この半教師付きOSIL設定に適用可能なアルゴリズムを開発した。
我々のアプローチはまず、異なるタスクが一意にクラスタされる埋め込み空間を学習する。
我々は、この埋め込み空間と、それがサポートするクラスタリングを利用して、大きな未ペアデータセットの軌跡間のペアリングを自己生成する。
シミュレーション制御タスクの実証的な結果から,このような自己生成ペアリングで訓練されたOSILモデルと,地上構造ラベルで訓練されたOSILモデルとの競合が示され,OSILのラベル効率の大幅な向上が示されている。
One-shot Imitation Learning~(OSIL) aims to imbue AI agents with the ability to learn a new task from a single demonstration. To supervise the learning, OSIL typically requires a prohibitively large number of paired expert demonstrations -- i.e. trajectories corresponding to different variations of the same semantic task. To overcome this limitation, we introduce the semi-supervised OSIL problem setting, where the learning agent is presented with a large dataset of trajectories with no task labels (i.e. an unpaired dataset), along with a small dataset of multiple demonstrations per semantic task (i.e. a paired dataset). This presents a more realistic and practical embodiment of few-shot learning and requires the agent to effectively leverage weak supervision from a large dataset of trajectories. Subsequently, we develop an algorithm specifically applicable to this semi-supervised OSIL setting. Our approach first learns an embedding space where different tasks cluster uniquely. We utilize this embedding space and the clustering it supports to self-generate pairings between trajectories in the large unpaired dataset. Through empirical results on simulated control tasks, we demonstrate that OSIL models trained on such self-generated pairings are competitive with OSIL models trained with ground-truth labels, presenting a major advancement in the label-efficiency of OSIL. | 翻訳日:2024-08-13 19:44:18 公開日:2024-08-09 |
# 内部変動がディープラーニング気候エミュレータのベンチマークに及ぼす影響
The impact of internal variability on benchmarking deep learning climate emulators ( http://arxiv.org/abs/2408.05288v1 ) ライセンス: Link先を確認 | Björn Lütjens, Raffaele Ferrari, Duncan Watson-Parris, Noelle Selin, | (参考訳) 完全複雑地球系モデル(ESM)は計算に非常に高価であり、複数の放出経路の気候結果の探索に使用を制限している。
ESMを近似したより効率的なエミュレータは、排出ガスを直接気候の結果にマッピングすることができ、ベンチマークを使用して標準化されたタスクやデータセットの精度を評価する。
我々は、データ駆動型気候エミュレーションの一般的なベンチマークであるClimateBenchを調査し、ディープラーニングベースのエミュレータが現在、最高のパフォーマンスを実現している。
パターンスケーリングに類似した線形回帰型エミュレータを実装し,現生100Mパラメータ深層学習基盤モデルであるClimaXを4つの局所分解層気候変数のうち3つで上回った。
表面温度のエミュレートは、主に線形であることが期待されているが、この結果は降水のエミュレーションには驚きである。
この結果は,ベンチマーク対象における内部変動のレベルが高い結果であることが確認された。
内部の変動に対処するため,放射経路当たりの3つの気候シミュレーションではなく,50個を含むMPI-ESM1.2-LRモデルを用いて,ベンチマークターゲットをアンサンブル平均で更新する。
新しいターゲットを用いて、線形パターンのスケーリングは温度でより正確であり続けるが、降水をエミュレートする深層学習モデルにより性能が向上することを示した。
github.com/blutjens/climate-emulator.comでコード、データ、インタラクティブなチュートリアルを公開しています。
Full-complexity Earth system models (ESMs) are computationally very expensive, limiting their use in exploring the climate outcomes of multiple emission pathways. More efficient emulators that approximate ESMs can directly map emissions onto climate outcomes, and benchmarks are being used to evaluate their accuracy on standardized tasks and datasets. We investigate a popular benchmark in data-driven climate emulation, ClimateBench, on which deep learning-based emulators are currently achieving the best performance. We implement a linear regression-based emulator, akin to pattern scaling, and find that it outperforms the incumbent 100M-parameter deep learning foundation model, ClimaX, on 3 out of 4 regionally-resolved surface-level climate variables. While emulating surface temperature is expected to be predominantly linear, this result is surprising for emulating precipitation. We identify that this outcome is a result of high levels of internal variability in the benchmark targets. To address internal variability, we update the benchmark targets with ensemble averages from the MPI-ESM1.2-LR model that contain 50 instead of 3 climate simulations per emission pathway. Using the new targets, we show that linear pattern scaling continues to be more accurate on temperature, but can be outperformed by a deep learning-based model for emulating precipitation. We publish our code, data, and an interactive tutorial at github.com/blutjens/climate-emulator. | 翻訳日:2024-08-13 19:44:18 公開日:2024-08-09 |
# 超電導ボゾン系におけるエコー条件変位ゲートのパルス形状の最適化
Optimizing Pulse Shapes of an Echoed Conditional Displacement Gate in a Superconducting Bosonic System ( http://arxiv.org/abs/2408.05299v1 ) ライセンス: Link先を確認 | Maxime Lapointe-Major, Yongchao Tang, Mehmet Canturk, Pooya Ronagh, | (参考訳) ボソニック系のエコー条件変位(ECD)ゲートは、破壊点を超えたリアルタイム量子誤差補正の鍵となる。
これらのゲートは 1 つの複素パラメータ $\beta$ で特徴づけられ、ガウスパルスと自由進化を用いて、補助的なトランペットキュービットの助けを借りて構築することができる。
ECDゲートの標準構成において,ゲート時間に対する上限が低いことを示す。
本研究では, パルス整形法を用いて, 実験制約の組を考慮し, ECDゲートのパルス形状を最適化する手法を提案する。
我々の最適化パルス形状は対称のままであり、振幅のみをチューニングすることによって、目標値の$\beta$の範囲に適用することができる。
標準構成で使用されるプリミティブの非オーバーラップ制約を緩和するか、最適制御法により、CDゲートのゲート時間を$\beta$の小さい値で削減できることを実証する。
最適制御法の利点として,$|+Z_\mathrm{GKP}>$論理状態が$\thicksim$10\%$で減少することを示す。
Echoed conditional displacement (ECD) gates for bosonic systems have become the key element for real-time quantum error correction beyond the break-even point. These gates are characterized by a single complex parameter $\beta$, and can be constructed using Gaussian pulses and free evolutions with the help of an ancillary transmon qubit. We show that there is a lower bound for the gate time in the standard construction of an ECD gate. We present a method for optimizing the pulse shape of an ECD gate using a pulse-shaping technique subject to a set of experimental constraints. Our optimized pulse shapes remain symmetric, and can be applied to a range of target values of $\beta$ by tuning only the amplitude. We demonstrate that the total gate time of an ECD gate for a small value of $\beta$ can be reduced either by relaxing the no-overlap constraint on the primitives used in the standard construction or via our optimal-control method. We show a slight advantage of the optimal-control method by demonstrating a reduction in the preparation time of a $|+Z_\mathrm{GKP}>$ logical state by $\thicksim$$10\%$. | 翻訳日:2024-08-13 19:44:18 公開日:2024-08-09 |
# 一般非平衡定常状態に対するリンドブラディアンのリバースエンジニアリング:スケーラブルなヌル空間アプローチ
Lindbladian reverse engineering for general non-equilibrium steady states: A scalable null-space approach ( http://arxiv.org/abs/2408.05302v1 ) ライセンス: Link先を確認 | Leonardo da Silva Souza, Fernando Iemini, | (参考訳) オープン・システム・ダイナミクスの研究は、その基本的な側面と量子技術における潜在的な応用の両方から重要視されている。
より単純でよく研究される場合、系の力学はリンドブラッド・マスター方程式によって記述できる。
しかしながら、一般の非平衡定常状態(NESS)につながるリンドブラディアンを特定することは、通常、非自明で困難な課題である。
ここでは,NESSを対象とするリンドブラディアン逆工学(Lindbladian Reverse Engineering)(\mathcal{L}$RE)アプローチを用いて,対応するリンドバルディアンマスター方程式を再構成する手法を提案する。
本手法は,再構成タスクを単純な線形問題にマッピングする。
具体的には、NESS観測可能元であり、ハミルトン(リンドブラッドジャンプ作用素)アンサッツの項数と(最も二次的に)線形にスケールする相関行列の対角化についてである。
相関行列の核(ヌル空間)はリンドブラディアン解に対応する。
さらに、この写像は必要条件と十分条件の両方として機能する$\mathcal{L}$RE の iff 条件を定義するので、可能であれば、NESS に導かれるリンドバルディアン進化を定義できるだけでなく、提案された設定でそのような進化の実現可能性も決定できる。
ボソニックガウスから散逸駆動の集合スピンまで、様々なシステムでこの方法を説明する。
また、再構成リンドバルディアンのマルコフ性を取り戻すための非マルコフ効果と可能な形式についても論じる。
The study of open system dynamics is of paramount importance both from its fundamental aspects as well as from its potential applications in quantum technologies. In the simpler and most commonly studied case, the dynamics of the system can be described by a Lindblad master equation. However, identifying the Lindbladian that leads to general non-equilibrium steady states (NESS) is usually a non-trivial and challenging task. Here we introduce a method for reconstructing the corresponding Lindbaldian master equation given any target NESS, i.e., a Lindbladian Reverse Engineering ($\mathcal{L}$RE) approach. The method maps the reconstruction task to a simple linear problem. Specifically, to the diagonalization of a correlation matrix whose elements are NESS observables and whose size scales linearly (at most quadratically) with the number of terms in the Hamiltonian (Lindblad jump operator) ansatz. The kernel (null-space) of the correlation matrix corresponds to Lindbladian solutions. Moreover, the map defines an iff condition for $\mathcal{L}$RE, which works as both a necessary and a sufficient condition; thus, it not only defines, if possible, Lindbaldian evolutions leading to the target NESS, but also determines the feasibility of such evolutions in a proposed setup. We illustrate the method in different systems, ranging from bosonic Gaussian to dissipative-driven collective spins. We also discuss non-Markovian effects and possible forms to recover Markovianity in the reconstructed Lindbaldian. | 翻訳日:2024-08-13 19:44:18 公開日:2024-08-09 |
# 多様性を超えて:包括的ソフトウェアのための計算
Beyond Diversity:Computing for Inclusive Software ( http://arxiv.org/abs/2408.05304v1 ) ライセンス: Link先を確認 | Kezia Devathasan, Nowshin Nawar Arony, Daniela Damian, | (参考訳) この章では、ビクトリア大学における多様性と包摂性に基づくSTEMプログラムの文脈における包摂的ソフトウェアの研究から、社会影響のためのSTEM(以下、インスパイア)について紹介する。
テクノロジへの依存がますます高まっている社会では、ソフトウェア開発プロセスやプラクティスがエンドユーザの特定のグループを無意識に疎外しているという事実を無視することが多い。
Inspireプログラムと2022年の最初のイテレーションは、CHAPTER 26で詳しく説明されていますが、ここでは、チームが使用している開発プロセスとプラクティスの分析から得た洞察について述べます。
共感に基づく要件収集のテクニックと、ソフトウェア開発チームのモチベーションレベルへの影響は、チームが包括的ソフトウェアを構築する能力に影響を与えます。
この章は、インスパイアプログラムの説明と'インクルーシブ・ソフトウェア'という言葉が実際に私たちの文脈で何を意味するかについての議論から始まり、インクルーシブ・ソフトウェアの設計に有用なプラクティスを強調します。
This chapter presents, from our research on inclusive software within the context of a diversity and inclusion based STEM program at the University of Victoria, INSPIRE: STEM for Social Impact (hereafter Inspire). In a society with an ever increasing reliance on technology, we often neglect the fact that software development processes and practices unintentionally marginalize certain groups of end users. While the Inspire program and its first iteration in 2022 are described in detail in CHAPTER 26, here we describe our insights from an analysis of the development processes and practices used by the teams. We found that empathy-based requirements gathering techniques and certain influences on the software development teams' motivation levels impact the teams' ability to build inclusive software. This chapter begins with an explanation of the Inspire program and a discussion on what the term ``inclusive software'' actually means in our context before highlighting useful practices for designing inclusive software. | 翻訳日:2024-08-13 19:32:21 公開日:2024-08-09 |
# レーザー添加物製造における機械学習を用いたその場監視のための音響・視覚的クロスモーダル知識伝達
Audio-visual cross-modality knowledge transfer for machine learning-based in-situ monitoring in laser additive manufacturing ( http://arxiv.org/abs/2408.05307v1 ) ライセンス: Link先を確認 | Jiarui Xie, Mutahar Safdar, Lequn Chen, Seung Ki Moon, Yaoyao Fiona Zhao, | (参考訳) レーザー添加性製造(LAM)プロセス異常や欠陥を検出するために、機械学習(ML)ベースのその場監視システムを開発した。
マルチモーダル融合は、視覚データや音声データを含む複数のモーダルからのデータを取得し、統合することにより、その場での監視性能を向上させることができる。
しかし、マルチモーダル融合は異なるタイプの複数のセンサーを使用し、より高いハードウェア、計算、運用コストをもたらす。
本稿では,資源から目標モダリティへ知識を伝達する相互モダリティ・ナレッジ・トランスファー(CMKT)手法を提案する。
CMKTは、トレーニングフェーズ中にターゲットモーダリティから抽出した特徴の有用性を高め、予測フェーズ中にソースモーダリティのセンサを除去する。
本稿では,意味的アライメント,完全教師付きマッピング,半教師付きマッピングという3つのCMKT手法を提案する。
意味的アライメントは、知識伝達を促進するためにモダリティ間の共有エンコード空間を確立する。
セマンティックアライメントの損失を利用して、同じクラスの分布(例えば、視覚欠陥クラスとオーディオ欠陥クラス)をアライメントし、分離損失を使って異なるクラスの分布(例えば、視覚欠陥クラスとオーディオ欠陥なしクラス)を分離する。
この2つのマッピング手法は,教師付きおよび半教師付き学習を用いて,1つのモダリティの特徴を他のモダリティから導き出すことによって知識を伝達する。
CMKT法とマルチモーダル・オーディオ・視覚融合との比較を行った。
セマンティックアライメント法は、予測フェーズ中に音声モダリティを除去しながら98.4%の精度を達成し、これはマルチモーダル融合の精度(98.2%)に匹敵する。
Various machine learning (ML)-based in-situ monitoring systems have been developed to detect laser additive manufacturing (LAM) process anomalies and defects. Multimodal fusion can improve in-situ monitoring performance by acquiring and integrating data from multiple modalities, including visual and audio data. However, multimodal fusion employs multiple sensors of different types, which leads to higher hardware, computational, and operational costs. This paper proposes a cross-modality knowledge transfer (CMKT) methodology that transfers knowledge from a source to a target modality for LAM in-situ monitoring. CMKT enhances the usefulness of the features extracted from the target modality during the training phase and removes the sensors of the source modality during the prediction phase. This paper proposes three CMKT methods: semantic alignment, fully supervised mapping, and semi-supervised mapping. Semantic alignment establishes a shared encoded space between modalities to facilitate knowledge transfer. It utilizes a semantic alignment loss to align the distributions of the same classes (e.g., visual defective and audio defective classes) and a separation loss to separate the distributions of different classes (e.g., visual defective and audio defect-free classes). The two mapping methods transfer knowledge by deriving the features of one modality from the other modality using fully supervised and semi-supervised learning. The proposed CMKT methods were implemented and compared with multimodal audio-visual fusion in an LAM in-situ anomaly detection case study. The semantic alignment method achieves a 98.4% accuracy while removing the audio modality during the prediction phase, which is comparable to the accuracy of multimodal fusion (98.2%). | 翻訳日:2024-08-13 19:32:21 公開日:2024-08-09 |
# rule4ml:FPGA上のMLモデルのリソース利用とレイテンシ推定のためのオープンソースツール
rule4ml: An Open-Source Tool for Resource Utilization and Latency Estimation for ML Models on FPGA ( http://arxiv.org/abs/2408.05314v1 ) ライセンス: Link先を確認 | Mohammad Mehdi Rahimifar, Hamza Ezzaoui Rahali, Audrey C. Therrien, | (参考訳) Field-Programmable Gate Arrays (FPGA)上での機械学習(ML)モデルの実装は、検出器を継続的に改善することによって生成される大きなデータレートを管理するための低レイテンシで低消費電力のソリューションとして、さまざまな領域で人気が高まっている。
しかし、FPGAのMLモデルの開発には時間がかかり、最適化にはFPGAの面積と遅延を評価するための合成が必要であるため、プロセスは遅く反復的である。
本稿では、FPGA上での合成と実装に先立って、ニューラルネットワーク(NN)のリソース利用と推論遅延を予測する新しい手法を提案する。
我々は、NNを高レベルな合成(HLS)コードに変換するツールフローであるHLS4MLを活用し、さまざまなNNアーキテクチャのデータセットを合成し、リソース利用と推論遅延予測をトレーニングする。
HLS4MLは、リソースとレイテンシの洞察を得るために完全な合成を必要とするが、本手法は訓練された回帰モデルを用いて即時前合成予測を行う。
予測モデルは、Block RAM(BRAM)、DSP(Digital Signal Processors)、FF(Flip-Flops)、Look-Up Tables(LUT)、および推論クロックサイクルを推定する。
これらの予測器は, 合成および既存ベンチマークアーキテクチャの両方で評価され, R2 スコアは 0.8 から 0.98 まで, sMAPE 値は 10% から 30% の精度で評価された。
提案手法は,FPGA上でのNNの実現可能性と効率を迅速に評価し,開発および展開プロセスの高速化を可能にする。
オープンソースリポジトリはhttps://github.com/IMPETUS-UdeS/rule4mlで、データセットはhttps://borealisdata.ca/dataverse/rule4mlで公開されている。
Implementing Machine Learning (ML) models on Field-Programmable Gate Arrays (FPGAs) is becoming increasingly popular across various domains as a low-latency and low-power solution that helps manage large data rates generated by continuously improving detectors. However, developing ML models for FPGAs is time-consuming, as optimization requires synthesis to evaluate FPGA area and latency, making the process slow and repetitive. This paper introduces a novel method to predict the resource utilization and inference latency of Neural Networks (NNs) before their synthesis and implementation on FPGA. We leverage HLS4ML, a tool-flow that helps translate NNs into high-level synthesis (HLS) code, to synthesize a diverse dataset of NN architectures and train resource utilization and inference latency predictors. While HLS4ML requires full synthesis to obtain resource and latency insights, our method uses trained regression models for immediate pre-synthesis predictions. The prediction models estimate the usage of Block RAM (BRAM), Digital Signal Processors (DSP), Flip-Flops (FF), and Look-Up Tables (LUT), as well as the inference clock cycles. The predictors were evaluated on both synthetic and existing benchmark architectures and demonstrated high accuracy with R2 scores ranging between 0.8 and 0.98 on the validation set and sMAPE values between 10% and 30%. Overall, our approach provides valuable preliminary insights, enabling users to quickly assess the feasibility and efficiency of NNs on FPGAs, accelerating the development and deployment processes. The open-source repository can be found at https://github.com/IMPETUS-UdeS/rule4ml, while the datasets are publicly available at https://borealisdata.ca/dataverse/rule4ml. | 翻訳日:2024-08-13 19:32:21 公開日:2024-08-09 |
# イベントベースオブジェクト検出のためのリカレントYOLOv8ベースのフレームワーク
A Recurrent YOLOv8-based framework for Event-Based Object Detection ( http://arxiv.org/abs/2408.05321v1 ) ライセンス: Link先を確認 | Diego A. Silva, Kamilya Smagulova, Ahmed Elsheikh, Mohammed E. Fouda, Ahmed M. Eltawil, | (参考訳) オブジェクト検出は、自動運転車や高度なロボティクスシステムなど、さまざまな最先端のアプリケーションにおいて重要であり、主に従来のフレームベースのRGBセンサーのデータに依存している。
しかし、これらのセンサーは、動作のぼやけや照明条件の難しさといった問題に悩まされることが多い。
これらの課題に応えて、イベントベースのカメラが革新的なパラダイムとして登場した。
これらのカメラは人間の目に似ており、速い動きと極端な照明条件のある環境では優れた性能を示し、消費電力は少ない。
本研究では,時空間モデリング機能を備えた先進的なフレームベース検出システムであるReYOLOv8を紹介する。
イベントデータを符号化する低レイテンシでメモリ効率の手法を実装し,システムの性能を向上した。
また、イベントデータのユニークな属性を利用するように調整された新しいデータ拡張手法を開発し、検出精度を向上した。
本モデルでは, 平均精度(mAP)を5%, 2.8%, 2.5%, ナノ, 小, 中規模でそれぞれ改善し, トレーニング可能なパラメータを平均4.43%削減し, リアルタイム処理速度を9.2msから15.5msに向上させた。
ロボット工学を対象とするPEDRoデータセットでは,14.5xと3.8xの小さなモデルで,平均速度が1.67倍に向上し,9%から18%のmAP改善が見られた。
Object detection is crucial in various cutting-edge applications, such as autonomous vehicles and advanced robotics systems, primarily relying on data from conventional frame-based RGB sensors. However, these sensors often struggle with issues like motion blur and poor performance in challenging lighting conditions. In response to these challenges, event-based cameras have emerged as an innovative paradigm. These cameras, mimicking the human eye, demonstrate superior performance in environments with fast motion and extreme lighting conditions while consuming less power. This study introduces ReYOLOv8, an advanced object detection framework that enhances a leading frame-based detection system with spatiotemporal modeling capabilities. We implemented a low-latency, memory-efficient method for encoding event data to boost the system's performance. We also developed a novel data augmentation technique tailored to leverage the unique attributes of event data, thus improving detection accuracy. Our models outperformed all comparable approaches in the GEN1 dataset, focusing on automotive applications, achieving mean Average Precision (mAP) improvements of 5%, 2.8%, and 2.5% across nano, small, and medium scales, respectively.These enhancements were achieved while reducing the number of trainable parameters by an average of 4.43% and maintaining real-time processing speeds between 9.2ms and 15.5ms. On the PEDRo dataset, which targets robotics applications, our models showed mAP improvements ranging from 9% to 18%, with 14.5x and 3.8x smaller models and an average speed enhancement of 1.67x. | 翻訳日:2024-08-13 19:32:21 公開日:2024-08-09 |
# 心理学に基づくカリキュラム学習のための統一動的フレームワーク
A Psychology-based Unified Dynamic Framework for Curriculum Learning ( http://arxiv.org/abs/2408.05326v1 ) ライセンス: Link先を確認 | Guangyu Meng, Qingkai Zeng, John P. Lalor, Hong Yu, | (参考訳) ランダムな難易度の例から直接学習することは、人間と機械学習モデルの両方にとってしばしば困難である。
より効果的な戦略は、学習者を進歩的な順序で例に公開することである。
機械学習モデルトレーニングにおいて、この戦略を実装するために、カリキュラム学習(CL)が提案されている。
しかし、CLフレームワーク設計における2つの重要な課題は、トレーニングデータの難しさを定義し、各トレーニングステップで入力するデータの適切な量を決定することである。
本稿では,心理学に基づくカリキュラム学習のための統一動的フレームワーク(PUDF)を提案する。
本研究では,Ac(Artificial Crowds)からの応答にIRT(Item Response Theory)を適用することで,データトレーニングの難しさを定量化する。
この理論駆動のIRT-ACアプローチは、大域的(すなわちモデルに依存しない)かつ解釈可能な困難値をもたらす。
IRTを活用することで、モデルトレーニング中に適切な量のデータをスケジュールするためのモデル能力推定(DDS-MAE)戦略を提案する。
我々の難易度ラベル付けとモデル能力推定は、一貫した理論、すなわちIRTに基づいているため、それらの値は同じスコープ内で同等であり、他のCLメソッドと比較してより高速な収束につながる可能性がある。
実験結果から,PUDFを用いた微調整事前学習言語モデルによりGLUEベンチマークの性能が向上することが示された。
さらに、PUDFはGLUEベンチマークの他の最先端(SOTA)のCLメソッドを上回っている。
さらに,PUDFのコンポーネントであるIRT-ACとDDS-MAEを質的かつ定量的に検討する。
最後に,PUDFのどの成分がより早く収束し,高精度に寄与するかを明らかにするためのアブレーション研究を行った。
Directly learning from examples of random difficulty levels is often challenging for both humans and machine learning models. A more effective strategy involves exposing learners to examples in a progressive order, from easy to difficult. Curriculum Learning (CL) has been proposed to implement this strategy in machine learning model training. However, two key challenges persist in CL framework design: defining the difficulty of training data and determining the appropriate amount of data to input at each training step. This paper presents a Psychology-based Unified Dynamic Framework for Curriculum Learning (PUDF), drawing inspiration from psychometrics. We quantify the difficulty of training data by applying Item Response Theory (IRT) to responses from Artificial Crowds (AC). This theory-driven IRT-AC approach leads to global (i.e., model-independent) and interpretable difficulty values. Leveraging IRT, we propose a Dynamic Data Selection via Model Ability Estimation (DDS-MAE) strategy to schedule the appropriate amount of data during model training. Since our difficulty labeling and model ability estimation are based on a consistent theory, namely IRT, their values are comparable within the same scope, potentially leading to a faster convergence compared to the other CL methods. Experimental results demonstrate that fine-tuning pre-trained language models with PUDF enhances their performance on the GLUE benchmark. Moreover, PUDF surpasses other state-of-the-art (SOTA) CL methods on the GLUE benchmark. We further explore the components of PUDF, namely the difficulty measurer (IRT-AC) and the training scheduler (DDS-MAE) qualitatively and quantitatively. Lastly, we conduct an ablation study to clarify which components of PUDF contribute to faster convergence and higher accuracy. | 翻訳日:2024-08-13 19:32:21 公開日:2024-08-09 |
# テキストからインサイトへ:大規模言語モデルの活用による管理のパフォーマンス評価
From Text to Insight: Leveraging Large Language Models for Performance Evaluation in Management ( http://arxiv.org/abs/2408.05328v1 ) ライセンス: Link先を確認 | Ning Li, Huaikang Zhou, Mingze Xu, | (参考訳) 本研究では,大規模言語モデル(LLM),特にGPT-4の可能性を探り,組織的タスクパフォーマンス評価における客観性を高める。
各種タスクパフォーマンスアウトプットを含む2つの研究の比較分析により,LLMは知識労働者にとって重要な貢献である知識に基づくパフォーマンスアウトプットの評価において,人間のレーダに対して信頼性があり,さらに優れた代替手段として機能することが実証された。
以上の結果から,GPT評価は人間の評価に匹敵するが,一貫性と信頼性が高いことが示唆された。
さらに,複数のGPTレーティングを同一性能出力に組み合わせることで,評価文献におけるコンセンサス原理に類似した,集約された人のパフォーマンスレーティングと強い相関関係を示した。
しかし、LLMはハロ効果や人間の評価バイアスを反映するなど、文脈バイアスに起因していることも判明した。
LLMはテキストベースのデータから意味のある構成物を抽出できるが、その範囲は特定のパフォーマンス評価形式に限定されている。
LLMの可能性と限界を両立させることで、経営研究におけるAIの役割に関する談話に貢献し、経営学におけるAI理論および実践的応用を洗練するための将来の研究の基盤を確立する。
This study explores the potential of Large Language Models (LLMs), specifically GPT-4, to enhance objectivity in organizational task performance evaluations. Through comparative analyses across two studies, including various task performance outputs, we demonstrate that LLMs can serve as a reliable and even superior alternative to human raters in evaluating knowledge-based performance outputs, which are a key contribution of knowledge workers. Our results suggest that GPT ratings are comparable to human ratings but exhibit higher consistency and reliability. Additionally, combined multiple GPT ratings on the same performance output show strong correlations with aggregated human performance ratings, akin to the consensus principle observed in performance evaluation literature. However, we also find that LLMs are prone to contextual biases, such as the halo effect, mirroring human evaluative biases. Our research suggests that while LLMs are capable of extracting meaningful constructs from text-based data, their scope is currently limited to specific forms of performance evaluation. By highlighting both the potential and limitations of LLMs, our study contributes to the discourse on AI role in management studies and sets a foundation for future research to refine AI theoretical and practical applications in management. | 翻訳日:2024-08-13 19:32:21 公開日:2024-08-09 |
# ニューラルマシンアングレード
Neural Machine Unranking ( http://arxiv.org/abs/2408.05330v1 ) ライセンス: Link先を確認 | Jingrui Hou, Axel Finke, Georgina Cosma, | (参考訳) ニューラル・マシン・アンランキング(ニューラル・マシン・アンランキング、NuMuR)と呼ばれる、ニューラルネットワーク検索における機械学習の問題に取り組む。
機械学習における主要なタスクやモデルに依存しないアプローチの多くは、分類タスクのために設計された。
まず,これらの手法がニューラル情報検索によって引き起こされる独特な課題により,NuMuRのタスクに対して不十分に動作することを示す。
次に,NuMuR における Contrastive and Consistent Loss (CoCoL) という手法を開発し,データ忘れることの目的と性能保持を効果的にバランスさせる。
実験により,CoCoLは既存の技術よりも効率的かつ制御可能なデータ除去を容易にすることが示された。
We tackle the problem of machine unlearning within neural information retrieval, termed Neural Machine UnRanking (NuMuR) for short. Many of the mainstream task- or model-agnostic approaches for machine unlearning were designed for classification tasks. First, we demonstrate that these methods perform poorly on NuMuR tasks due to the unique challenges posed by neural information retrieval. Then, we develop a methodology for NuMuR named Contrastive and Consistent Loss (CoCoL), which effectively balances the objectives of data forgetting and model performance retention. Experimental results demonstrate that CoCoL facilitates more effective and controllable data removal than existing techniques. | 翻訳日:2024-08-13 19:32:21 公開日:2024-08-09 |
# 量子ソフトウェアバグレポートにおけるフレキネスの自動検出
Automated flakiness detection in quantum software bug reports ( http://arxiv.org/abs/2408.05331v1 ) ライセンス: Link先を確認 | Lei Zhang, Andriy Miranskyy, | (参考訳) 不安定なテストは反復によって一貫性のない結果をもたらし、ソフトウェア開発者にとって大きな課題となる。
量子コンピュータソフトウェアではなく、古典的なコンピュータソフトウェアにおいて、それらの存在と特性について広範な研究がなされている。
本稿では,量子ソフトウェアのバグレポートにおけるフレキなテストの自動検出の課題と可能性について概説する。
我々は、量子ソフトウェアにおけるフレキネスの認識を高め、この新たな課題を解決するために、ソフトウェアエンジニアリングコミュニティが協力して働くことを奨励することを目的としています。
A flaky test yields inconsistent results upon repetition, posing a significant challenge to software developers. An extensive study of their presence and characteristics has been done in classical computer software but not quantum computer software. In this paper, we outline challenges and potential solutions for the automated detection of flaky tests in bug reports of quantum software. We aim to raise awareness of flakiness in quantum software and encourage the software engineering community to work collaboratively to solve this emerging challenge. | 翻訳日:2024-08-13 19:32:21 公開日:2024-08-09 |
# Monero Traceability Heuristics: Wallet Application Bugs and the Mordinal-P2Pool Perspective
Monero Traceability Heuristics: Wallet Application Bugs and the Mordinal-P2Pool Perspective ( http://arxiv.org/abs/2408.05332v1 ) ライセンス: Link先を確認 | Nada Hammad, Friedhelm Victor, | (参考訳) Moneroのようなプライバシー重視の暗号通貨は、意図的に追跡するのが難しい。
長年にわたり、トレーサビリティ・ヒューリスティック(英語版)が提案され、そのほとんどはその後のプロトコルのアップグレードでは効果が無かった。
2019年から2023年にかけて、Moneroのウォレットアプリケーションバグ“Differ By One”と“10 Block Decoy Bug”が、Moneroコミュニティで発見され、議論されている。
さらに、P2Poolという名前の分権的な鉱業プールが増加しており、モルディナルスとして知られるUTXO NFTの模倣がモネロのために試みられている。
本稿では,これらの発展から生じたトレーサビリティ・ヒューリスティックスを体系的に記述し,その質を基礎的事実とペア比較により評価する。
また、時間的視点を探求し、これらのヒューリスティックのどれが過去数年にわたって適用されてきたか、どの数のデコイを除去できるのか、そして残りの有効環のサイズは何かを示す。
以上の結果から,「10ブロックデコイバグ」と「Coinbaseデコイ識別ヒューリスティックス」は,2019年から2023年の間に最も影響を受けており,また,その期間に適用可能な場合,前者が将来のヒューリスティックスを評価するために使用できることが示唆された。
Privacy-focused cryptoassets like Monero are intentionally difficult to trace. Over the years, several traceability heuristics have been proposed, most of which have been rendered ineffective with subsequent protocol upgrades. Between 2019 and 2023, Monero wallet application bugs "Differ By One" and "10 Block Decoy Bug" have been observed and identified and discussed in the Monero community. In addition, a decentralized mining pool named P2Pool has proliferated, and a controversial UTXO NFT imitation known as Mordinals has been tried for Monero. In this paper, we systematically describe the traceability heuristics that have emerged from these developments, and evaluate their quality based on ground truth, and through pairwise comparisons. We also explore the temporal perspective, and show which of these heuristics have been applicable over the past years, what fraction of decoys could be eliminated and what the remaining effective ring size is. Our findings illustrate that most of the heuristics have a high precision, that the "10 Block Decoy Bug" and the Coinbase decoy identification heuristics have had the most impact between 2019 and 2023, and that the former could be used to evaluate future heuristics, if they are also applicable during that time frame. | 翻訳日:2024-08-13 19:32:21 公開日:2024-08-09 |
# マルチモードLCM評価の再検討
Revisiting Multi-Modal LLM Evaluation ( http://arxiv.org/abs/2408.05334v1 ) ライセンス: Link先を確認 | Jian Lu, Shikhar Srivastava, Junyu Chen, Robik Shrestha, Manoj Acharya, Kushal Kafle, Christopher Kanan, | (参考訳) MLLM(Multi-modal large language model)の出現に伴い、視覚的質問応答(VQA)と参照表現理解のためのデータセットが復活した。
しかし、MLLMを評価するために使われる最も一般的なデータセットは、最も初期のものの一部であり、極端なバイアス、素早い相関、きめ細かい分析を許さないことなど、多くの既知の問題がある。
本稿では,最近のMLLM(LLaVA 1.5, LLaVA-NeXT, BLIP2, InstructBLIP, GPT-4V, GPT-4o)を,以前のMLLMの弱点に対処するためのデータセット上で評価した。
VQAデータセットを3つ評価する。
1 TDIUCは、12種類の質問に対してきめ細かい分析を可能にする。
2TallyQAは、単純で複雑で数えきれない質問を有する。
3)DVQAは、チャート理解のための光学的文字認識を必要とする。
また、与えられたクエリを満たすすべての画像領域を特定する必要のあるデータセットであるVQDv1についても検討する。
これまでに報告されていない多くのMLLMの弱点を明らかにした。
我々のコードはMLLM評価のために広く使われているLAVISフレームワークに統合されており、将来のMLLMの迅速な評価を可能にしている。
プロジェクトWebページ: https://kevinlujian.github.io/MLLM_Evaluations/
With the advent of multi-modal large language models (MLLMs), datasets used for visual question answering (VQA) and referring expression comprehension have seen a resurgence. However, the most popular datasets used to evaluate MLLMs are some of the earliest ones created, and they have many known problems, including extreme bias, spurious correlations, and an inability to permit fine-grained analysis. In this paper, we pioneer evaluating recent MLLMs (LLaVA 1.5, LLaVA-NeXT, BLIP2, InstructBLIP, GPT-4V, and GPT-4o) on datasets designed to address weaknesses in earlier ones. We assess three VQA datasets: 1) TDIUC, which permits fine-grained analysis on 12 question types; 2) TallyQA, which has simple and complex counting questions; and 3) DVQA, which requires optical character recognition for chart understanding. We also study VQDv1, a dataset that requires identifying all image regions that satisfy a given query. Our experiments reveal the weaknesses of many MLLMs that have not previously been reported. Our code is integrated into the widely used LAVIS framework for MLLM evaluation, enabling the rapid assessment of future MLLMs. Project webpage: https://kevinlujian.github.io/MLLM_Evaluations/ | 翻訳日:2024-08-13 19:32:21 公開日:2024-08-09 |
# 二重層ファンデルワールス材料における非線形フォノンによるジアロシンスキイ-モリヤ相互作用
Interlayer Dzyaloshinskii-Moriya interactions induced via non-linear phononics in bilayer van der Waals materials ( http://arxiv.org/abs/2408.05335v1 ) ライセンス: Link先を確認 | Ze-Xun Lin, Bowen Ma, Wesley Roberts, Martin Rodriguez-Vega, Gregory A. Fiete, | (参考訳) 非線形フォニックスによる光駆動構造変化が、無振動二層膜ファンデルワールス材料の磁気秩序に及ぼす影響を理論的に研究する。
AA-stacked twolayer honeycomb latticeの例を考察し、選択されたフォノンと共鳴して高強度光が大きな振幅フォノン変位を誘導し、系の磁気ハミルトニアンを変化させることを示す。
我々はハニカム二層膜の振動モードとそれら間の非線形結合を強く駆動された状態で同定するグループ理論解析を行った。
強駆動状態における構造変化は、平衡格子に対する対称性を低下させ、局所的なモーメント間の磁気的相互作用の変化を生じさせる。
特に格子対称性の変化は、非ゼロ層間ジアロシンスキー-モリヤ相互作用を許容し、缶状局所モーメントと磁気状態を引き起こす。
新しい磁気配置に関するスピン波解析を用いて、マグノンスペクトルの対応する変化を研究し、非線形フォニックスと外部磁場の組み合わせによるトポロジカルバンド遷移のプロトコルを同定する。
本研究は, 層状ファンデルワールス材料群におけるダイザロシンスキー-モリヤ層間相互作用を誘導する戦略を示唆するものであり, 磁気基底状態, マグノン分散, およびトポロジ不変量を含む関連するバンド幾何学的性質を改良する効果を示す。
We theoretically study the impact of light-driven structural changes via nonlinear phononics on the magnetic order of untwisted bilayer van der Waals materials. We consider an illustrative example of the AA-stacked bilayer honeycomb lattice and show that high-intensity light in resonance with selected phonons induces large amplitude phonon displacements that modify the magnetic Hamiltonian of the system. We performed a group theory analysis to identify the vibrational modes of the honeycomb bilayer and the nonlinear couplings among them in the strongly driven regime. We find that the structural changes in the strongly driven regime lower the symmetry relative to the equilibrium lattice and produce changes in the magnetic interactions between the local moments. In particular, the lattice symmetry changes permit a non-zero interlayer Dzyaloshinskii-Moriya interaction that induces a magnetic state with canted local moments. Using a spin-wave analysis about the new magnetic configuration we study the corresponding changes in the magnon spectrum and identify a protocol for engineering topological band transitions using a combination of nonlinear phononics and an external magnetic field. Our work suggests a strategy to induce interlayer Dyzaloshinskii-Moriya interactions in a class of layered van der Waals materials, the effect of which is to modify the magnetic ground state, magnon dispersions, and related band geometric properties, including topological invariants. | 翻訳日:2024-08-13 19:32:21 公開日:2024-08-09 |
# 知覚行動計画のための論理的制約付きロボットトランス
Logically Constrained Robotics Transformers for Enhanced Perception-Action Planning ( http://arxiv.org/abs/2408.05336v1 ) ライセンス: Link先を確認 | Parv Kapoor, Sai Vemprala, Ashish Kapoor, | (参考訳) 大規模なファンデーションモデルに基づく計画の出現に伴い、ステークホルダーの意図とアウトプットの整合性を確保する必要がある。
これらのモデルが現実世界に展開されると、予期せぬ相違により、生命とインフラに潜在的なコストがかかるため、アライメントの必要性が増大する。
時間論理の仕様は長い間、システムの振る舞いを制約する手段を提供してきました。
本研究では、軌道計画のための自己回帰型トランスフォーマーモデルを用いて、信号時相論理仕様の因子について新しいアプローチを提案する。
また,基礎モデルの事前学習と評価のための軌道データセットも提供する。
提案手法はベースラインよりも74.3%高い仕様満足度を達成できる。
With the advent of large foundation model based planning, there is a dire need to ensure their output aligns with the stakeholder's intent. When these models are deployed in the real world, the need for alignment is magnified due to the potential cost to life and infrastructure due to unexpected faliures. Temporal Logic specifications have long provided a way to constrain system behaviors and are a natural fit for these use cases. In this work, we propose a novel approach to factor in signal temporal logic specifications while using autoregressive transformer models for trajectory planning. We also provide a trajectory dataset for pretraining and evaluating foundation models. Our proposed technique acheives 74.3 % higher specification satisfaction over the baselines. | 翻訳日:2024-08-13 19:32:21 公開日:2024-08-09 |
# コーディを用いたAI支援コーディング: コード推薦のためのコンテキスト検索と評価から学んだこと
AI-assisted Coding with Cody: Lessons from Context Retrieval and Evaluation for Code Recommendations ( http://arxiv.org/abs/2408.05344v1 ) ライセンス: Link先を確認 | Jan Hartman, Rishabh Mehrotra, Hitesh Sagtani, Dominic Cooney, Rafal Gajdulewicz, Beyang Liu, Julie Tibshirani, Quinn Slack, | (参考訳) 本稿では,LLMベースのコーディングアシスタントとして,最近普及しているリコメンデータシステムについて論じる。
複数のフォーマットでコードレコメンデーションを提供するタスクと従来のRecSysの課題を結びつけることで、ドメイン固有のいくつかの類似点と相違点を概説する。
このユースケースにおいて、LLMに関連するコンテキストを提供することの重要性を強調し、文脈拡張から学んだ教訓と、このようなAI支援コーディングシステムのオフラインおよびオンライン評価について議論する。
In this work, we discuss a recently popular type of recommender system: an LLM-based coding assistant. Connecting the task of providing code recommendations in multiple formats to traditional RecSys challenges, we outline several similarities and differences due to domain specifics. We emphasize the importance of providing relevant context to an LLM for this use case and discuss lessons learned from context enhancements & offline and online evaluation of such AI-assisted coding systems. | 翻訳日:2024-08-13 19:32:21 公開日:2024-08-09 |
# 説明可能なAIのリロード - 大規模言語モデルの時代におけるXAIの現状
Explainable AI Reloaded: Challenging the XAI Status Quo in the Era of Large Language Models ( http://arxiv.org/abs/2408.05345v1 ) ライセンス: Link先を確認 | Upol Ehsan, Mark O. Riedl, | (参考訳) Explainable(XAI)の最初のビジョンが具体化されたとき、最も一般的なフレーミングは、内部の動作を理解するために、AIの(プロバイバルな)"ブラックボックス"を開くことだった。
大規模言語モデル(LLM)の出現により、特にAIの専門家でないエンドユーザにとっては、ブラックボックスをオープンする能力はますます制限されている。
本稿では,LLM時代のブラックボックスの「オープン化」を前提として,XAI期待の変化を論じる。
アルゴリズム中心のXAIビューの認識的盲点を高く評価することで、人間中心の視点が前進の道であると論じる。
我々は,XAI研究をブラックボックスの外側の説明可能性,ブラックボックスの端辺の説明可能性,インフラの縫い目を利用した説明可能性の3つの次元に沿って合成することによって,議論を運用する。
我々は、XAIをドメインとして反射的に通知するテイクアウトで締めくくります。
When the initial vision of Explainable (XAI) was articulated, the most popular framing was to open the (proverbial) "black-box" of AI so that we could understand the inner workings. With the advent of Large Language Models (LLMs), the very ability to open the black-box is increasingly limited especially when it comes to non-AI expert end-users. In this paper, we challenge the assumption of "opening" the black-box in the LLM era and argue for a shift in our XAI expectations. Highlighting the epistemic blind spots of an algorithm-centered XAI view, we argue that a human-centered perspective can be a path forward. We operationalize the argument by synthesizing XAI research along three dimensions: explainability outside the black-box, explainability around the edges of the black box, and explainability that leverages infrastructural seams. We conclude with takeaways that reflexively inform XAI as a domain. | 翻訳日:2024-08-13 19:32:21 公開日:2024-08-09 |
# DataNarrative: 可視化とテキストによるデータ駆動ストーリテリングの自動化
DataNarrative: Automated Data-Driven Storytelling with Visualizations and Texts ( http://arxiv.org/abs/2408.05346v1 ) ライセンス: Link先を確認 | Mohammed Saidul Islam, Enamul Hoque, Shafiq Joty, Md Tahmid Rahman Laskar, Md Rizwan Parvez, | (参考訳) データ駆動型ストーリーテリングは、物語技法と可視化とテキストを組み合わせることで洞察を伝達する強力な方法である。
これらのストーリーには、ハイライトされたバーやチャートの行などの視覚的補助と、洞察を説明するテキストアノテーションが組み込まれている。
しかし、そのような物語を作るには、データと綿密な物語計画の深い理解が必要であり、しばしば人間の介入を必要とする。
LLM(Large Language Models)は様々なNLPタスクに優れていますが、一貫性のある包括的なデータストーリーを生成する能力はまだ未定です。
本研究では,データストーリ生成のための新しいタスクと,さまざまなソースから1,449件のストーリを含むベンチマークを紹介する。
一貫性のあるデータストーリーを作成する上での課題に対処するために,人間のストーリーテリングプロセスを再現する2つのLLMエージェントを用いたマルチエージェントフレームワークを提案する。
我々のエージェント・フレームワークは一般的にモデルベースと人的評価の両方において非エージェント・フレームワークよりも優れていますが、結果はデータ・ストーリー・ジェネレーションにおける独特な課題を明らかにします。
Data-driven storytelling is a powerful method for conveying insights by combining narrative techniques with visualizations and text. These stories integrate visual aids, such as highlighted bars and lines in charts, along with textual annotations explaining insights. However, creating such stories requires a deep understanding of the data and meticulous narrative planning, often necessitating human intervention, which can be time-consuming and mentally taxing. While Large Language Models (LLMs) excel in various NLP tasks, their ability to generate coherent and comprehensive data stories remains underexplored. In this work, we introduce a novel task for data story generation and a benchmark containing 1,449 stories from diverse sources. To address the challenges of crafting coherent data stories, we propose a multiagent framework employing two LLM agents designed to replicate the human storytelling process: one for understanding and describing the data (Reflection), generating the outline, and narration, and another for verification at each intermediary step. While our agentic framework generally outperforms non-agentic counterparts in both model-based and human evaluations, the results also reveal unique challenges in data story generation. | 翻訳日:2024-08-13 19:32:21 公開日:2024-08-09 |
# 早期パンデミック症例同定のためのハイブリッド非教師付き異常検出法
Hybrid Efficient Unsupervised Anomaly Detection for Early Pandemic Case Identification ( http://arxiv.org/abs/2408.05347v1 ) ライセンス: Link先を確認 | Ghazal Ghajari, Mithun Kumar PK, Fathi Amsaad, | (参考訳) 教師なし異常検出は、ラベル付きトレーニング例を必要とせずに、データの異常パターンを特定するための有望なテクニックである。
この手法は、特に早期データが少ない場合、疫病管理における早期症例検出に特に有用である。
本研究は, 距離と密度の計測を併用し, 各種感染症に対する適用性を向上する, 異常検出のための新しいハイブリッド手法を提案する。
新型コロナウイルスの感染拡大に伴うパンデミック(パンデミック)の状況に特に関係している。
本手法の有効性は,新型コロナウイルスの胸部X線データを用いて評価した。
AUCは77.43%、AUCは73.66%、KNNは52.93%である。
これらの結果は,多様な流行シナリオにおける早期検出能力を向上し,より効果的かつタイムリーな応答を促進するために,我々のハイブリッド異常検出法の可能性を強調した。
Unsupervised anomaly detection is a promising technique for identifying unusual patterns in data without the need for labeled training examples. This approach is particularly valuable for early case detection in epidemic management, especially when early-stage data are scarce. This research introduces a novel hybrid method for anomaly detection that combines distance and density measures, enhancing its applicability across various infectious diseases. Our method is especially relevant in pandemic situations, as demonstrated during the COVID-19 crisis, where traditional supervised classification methods fall short due to limited data. The efficacy of our method is evaluated using COVID-19 chest X-ray data, where it significantly outperforms established unsupervised techniques. It achieves an average AUC of 77.43%, surpassing the AUC of Isolation Forest at 73.66% and KNN at 52.93%. These results highlight the potential of our hybrid anomaly detection method to improve early detection capabilities in diverse epidemic scenarios, thereby facilitating more effective and timely responses. | 翻訳日:2024-08-13 19:21:55 公開日:2024-08-09 |
# 化学応用のための分散量子コンピューティング
Distributed Quantum Computing for Chemical Applications ( http://arxiv.org/abs/2408.05351v1 ) ライセンス: Link先を確認 | Grier M. Jones, Hans-Arno Jacobsen, | (参考訳) 近年、量子ハードウェアとアルゴリズムの技術進歩により、量子コンピューティングへの関心が高まっている。
量子アドバンテージの約束にもかかわらず、量子デバイスの適用性は、ノイズによるデコヒーレンスを経験するハードウェア上の数量子ビットに制限されている。
この課題を解決する方法のひとつに分散量子コンピューティング(DQC)がある。
古典的な分散コンピューティングと同様に、DQCは計算処理を多くのデバイスに分散させることで計算能力を高めることを目的としており、量子デバイスに必要なノイズと回路深度を最小限にすることを目的としている。
本稿では、DQCの基本概念を概説し、DQCの分野が化学の分野に対してどこにあるのかについての洞察を与える。
In recent years, interest in quantum computing has increased due to technological advances in quantum hardware and algorithms. Despite the promises of quantum advantage, the applicability of quantum devices has been limited to few qubits on hardware that experiences decoherence due to noise. One proposed method to get around this challenge is distributed quantum computing (DQC). Like classical distributed computing, DQC aims at increasing compute power by spreading the compute processes across many devices, with the goal to minimize the noise and circuit depth required by quantum devices. In this paper, we cover the fundamental concepts of DQC and provide insight into where the field of DQC stands with respect to the field of chemistry -- a field which can potentially be used to demonstrate quantum advantage on noisy-intermediate scale quantum devices. | 翻訳日:2024-08-13 19:21:55 公開日:2024-08-09 |
# ShiELD: 電気自動車のバッテリサプライチェーン破壊における予測分析のためのLCM駆動型スキーマ誘導
SHIELD: LLM-Driven Schema Induction for Predictive Analytics in EV Battery Supply Chain Disruptions ( http://arxiv.org/abs/2408.05357v1 ) ライセンス: Link先を確認 | Zhi-Qi Cheng, Yifei Dong, Aike Shi, Wei Liu, Yuzhi Hu, Jason O'Connor, Alexander Hauptmann, Kate Whitefoot, | (参考訳) 電気自動車(EV)バッテリーサプライチェーンの破壊に対する脆弱性は、高度な予測分析を必要とする。
本稿では,大言語モデル(LLM)とEVバッテリサプライチェーンリスク評価分野の専門知識を統合するシステムであるShiELD(Schema-based Hierarchical induction for EV supply chain Disruption)を紹介する。
ShiELD は,(1) 総合的な知識ライブラリを構築するための LLM 駆動型スキーマ学習,(2) イベント抽出のための微調整言語モデル,スキーママッチングのための多次元類似性マッチング,およびグラフ畳み込みネットワーク(GCN) を論理的制約付きで組み合わせ,(3) 結果を可視化し,専門家のフィードバックを取り入れて意思決定を強化する,インタラクティブなインタフェースを備える。
365の資料(2022-2023)から12,070段落を評価したところ、ShiELDは破壊予測においてベースラインGCNとLLM+prompt法(例:GPT-4o)より優れていた。
これらの結果は,LLM能力とドメイン知識を併用したサプライチェーンリスク評価の有効性を示すものである。
The electric vehicle (EV) battery supply chain's vulnerability to disruptions necessitates advanced predictive analytics. We present SHIELD (Schema-based Hierarchical Induction for EV supply chain Disruption), a system integrating Large Language Models (LLMs) with domain expertise for EV battery supply chain risk assessment. SHIELD combines: (1) LLM-driven schema learning to construct a comprehensive knowledge library, (2) a disruption analysis system utilizing fine-tuned language models for event extraction, multi-dimensional similarity matching for schema matching, and Graph Convolutional Networks (GCNs) with logical constraints for prediction, and (3) an interactive interface for visualizing results and incorporating expert feedback to enhance decision-making. Evaluated on 12,070 paragraphs from 365 sources (2022-2023), SHIELD outperforms baseline GCNs and LLM+prompt methods (e.g., GPT-4o) in disruption prediction. These results demonstrate SHIELD's effectiveness in combining LLM capabilities with domain expertise for enhanced supply chain risk assessment. | 翻訳日:2024-08-13 19:21:55 公開日:2024-08-09 |
# エゴセントリックビデオにおける球状ワールドロックによる音像定位
Spherical World-Locking for Audio-Visual Localization in Egocentric Videos ( http://arxiv.org/abs/2408.05364v1 ) ライセンス: Link先を確認 | Heeseung Yun, Ruohan Gao, Ishwarya Ananthabhotla, Anurag Kumar, Jacob Donley, Chao Li, Gunhee Kim, Vamsi Krishna Ithapu, Calvin Murdock, | (参考訳) エゴセントリックなビデオは、ユーザとシーンの理解のための包括的なコンテキストを提供し、多感的な知覚から行動的相互作用にまたがる。
本研究では,自己中心的なシーン表現のための一般的なフレームワークとして,球状世界ロッキング(SWL)を提案する。
従来の2次元平面場を持つ自己中心表現と比較して、SWLは自己運動によって生じる課題を効果的にオフセットし、入力モダリティ間の空間的同期を改善することができる。
ワールドロックされた球面上の多感覚埋め込みを用いて、画像と世界座標系の間の高価な投影を必要とせず、シーン表現の球面構造を保存する統一エンコーダ・デコーダ変換アーキテクチャを設計する。
本研究では,音声-視覚的アクティブな話者定位,聴覚球面音源定位,日常生活における行動予測など,エゴセントリックな映像理解のための複数のベンチマークタスクにおけるフレームワークの有効性を評価する。
Egocentric videos provide comprehensive contexts for user and scene understanding, spanning multisensory perception to behavioral interaction. We propose Spherical World-Locking (SWL) as a general framework for egocentric scene representation, which implicitly transforms multisensory streams with respect to measurements of head orientation. Compared to conventional head-locked egocentric representations with a 2D planar field-of-view, SWL effectively offsets challenges posed by self-motion, allowing for improved spatial synchronization between input modalities. Using a set of multisensory embeddings on a worldlocked sphere, we design a unified encoder-decoder transformer architecture that preserves the spherical structure of the scene representation, without requiring expensive projections between image and world coordinate systems. We evaluate the effectiveness of the proposed framework on multiple benchmark tasks for egocentric video understanding, including audio-visual active speaker localization, auditory spherical source localization, and behavior anticipation in everyday activities. | 翻訳日:2024-08-13 19:21:55 公開日:2024-08-09 |
# FST-Financial Style Transfer with Hallucination and Creativity Control Framework
FiST-Financial Style Transfer with Hallucination and Creativity Control Framework ( http://arxiv.org/abs/2408.05365v1 ) ライセンス: Link先を確認 | Sohini Roychowdhury, Marko Krema, Brian Moore, Xingjian Lai, Dike Effedua, Bharat Jethwani, | (参考訳) 汎用的な大言語モデルを用いた財務報告生成は、複合文の欠如や幻覚の欠如など、2つの大きな課題を提起する。
高度なプロンプトエンジニアリングと検索拡張生成(RAG)技術は、書き込みスタイルの相違を治すことができない。
本研究では,公共ドメインの財務報告を即時補完に処理し,簡単なLCMプロンプトを用いて拡張し,最小限の命令と表データ入力を用いて区間的な財務報告生成を可能にする,新たな2段階微調整プロセスを提案する。
提案した微調整フレームワークは,正しい質問の回答数を2倍にし,幻覚を50%以上低減する。
さらに、2段階の微調整モデルでは、難易度が低く、ROUGE、TER、BLEUスコアが向上し、創造性と知識密度が向上し、不確実性とクロスエントロピーが低下した。
Financial report generation using general purpose large language models pose two major challenges, including the lack of compound sentences and hallucinations. Advanced prompt engineering and retrieval augmented generation (RAG) techniques are incapable of curing the writing style discrepancies. In this work we propose a novel two-stage fine-tuning process wherein public domain financial reports are processed into prompt-completions and augmented using simple LLM prompts to then enable sectional financial report generation using minimal instructions and tabular data inputs. Our proposed fine-tuning framework results doubles the number of correct questions answers and reduces hallucinations by over 50%. Additionally, the two-stage fine tuned models have lower perplexity, improved ROUGE, TER and BLEU scores, higher creativity and knowledge density with lower uncertainty and cross entropy. | 翻訳日:2024-08-13 19:21:55 公開日:2024-08-09 |
# DeepSpeak Dataset v1.0
DeepSpeak Dataset v1.0 ( http://arxiv.org/abs/2408.05366v1 ) ライセンス: Link先を確認 | Sarah Barrington, Matyas Bohacek, Hany Farid, | (参考訳) ウェブカメラの前で話し、身振りで示す人々の実像とディープフェイク映像の大規模なデータセット、-{\em DeepSpeak}について説明する。
このデータセットの最初のバージョンにおける実際のビデオは、20ドル(約2万2000円)の個人による9ドル(約9400円)の映像で構成されている。
25時間以上の映像で構成されたフェイクビデオは、さまざまな最先端のフェイススワップと、自然とAIが生成する音声によるリップシンクのディープフェイクで構成されている。
私たちは、このデータセットの将来バージョンを、異なる、そして更新されたディープフェイク技術でリリースする予定です。
このデータセットは、研究および非商用用途で自由に利用でき、商用利用の要求も考慮される。
We describe a large-scale dataset--{\em DeepSpeak}--of real and deepfake footage of people talking and gesturing in front of their webcams. The real videos in this first version of the dataset consist of $9$ hours of footage from $220$ diverse individuals. Constituting more than 25 hours of footage, the fake videos consist of a range of different state-of-the-art face-swap and lip-sync deepfakes with natural and AI-generated voices. We expect to release future versions of this dataset with different and updated deepfake technologies. This dataset is made freely available for research and non-commercial uses; requests for commercial use will be considered. | 翻訳日:2024-08-13 19:21:55 公開日:2024-08-09 |
# 低雑音増幅器を用いたキャビティ予冷却による室温マイクロ波測定の熱雑音限界の克服と時間分解型電子パラ磁気共鳴への応用
Overcoming the Thermal-Noise Limit of Room-Temperature Microwave Measurements by Cavity Pre-cooling with a Low-Noise Amplifier. Application to Time-resolved Electron Paramagnetic Resonance ( http://arxiv.org/abs/2408.05371v1 ) ライセンス: Link先を確認 | Kuan-Cheng Chen, Mark Oxborrow, | (参考訳) 室温でマイクロ波空洞(またはrf共振器の一種)の電磁モードを占有する劣化熱光子の大部分が、測定を行う直前に除去する、安価なベンチトップ法を実証した。
HEMTをベースとした商用低雑音増幅器 (LNA) の入力を再利用し, 一時的に空洞に過結合した光子吸収型コールドロードとして機能する。
LNAと空洞のカップリングポートとの間にアイソレータは挿入されない。
コンセプション・オブ・コンセプト実験では, 室温以下から108Kまでのマイクロ波モードのノイズ温度が低下し, 予冷却可能なキャビティを時間分解型(tr-)EPR分光計に組み込むと, 同じ精度および感度の室温での従来のtr-EPR測定よりも5倍の速度で信号対雑音比の複合的な改善が観測された。
シミュレーションでは、空洞のモードの温度を数十Kまで冷却する現実的なQ因子とカップリングの実現可能性を示し、空洞とその内容がマイクロ波トーンまたはパルスシーケンスによって最適に問合せされる間、この寒さは数十マイクロ秒持続することを示す。
この方法は、パルスまたは時間分解EPR分光法、量子検出法、および室温付近で実施された他の放射測定における感度および/または読み出し速度を改善するために、一般的に適用され、非常に便利なアプローチを提供する。
また、マイクロ波光子の第一段冷蔵装置も備えており、より深い冷却方法が利用できる。
We demonstrate an inexpensive, bench-top method, which we here name cavity pre-cooling (CPC), for removing, just prior to performing a measurement, a large fraction of the deleterious thermal photons that would otherwise occupy the electromagnetic modes of a microwave cavity (or some alternative form of rf resonator) at room temperature. Our method repurposes the input of a commercial HEMT-based low-noise amplifier (LNA) to serve as a photon-absorbing cold load that is temporarily over-coupled to the cavity. No isolator is inserted between the LNA and the coupling port of the cavity. In a proof-of-concept experiment, the noise temperature of a monitored microwave mode drops from a little below room temperature to approx 108 K. Upon incorporating our pre-coolable cavity into a time-resolved (tr-) EPR spectrometer, a commensurate improvement in the signal-to-noise ratio is observed, corresponding to a factor-of-5 speed up over a conventional tr-EPR measurement at room temperature for the same precision and/or sensitivity. Simulations indicate the feasibility, for realistic Q factors and couplings, of cooling the temperatures of the modes of a cavity down to a few tens of K, and for this coldness to last several tens of microseconds whilst the cavity and its contents are optimally interrogated by a microwave tone or pulse sequence. The method thus provides a generally applicable and extremely convenient approach to improving the sensitivity and/or read-out speed in pulsed or time-resolved EPR spectroscopy, quantum detection and other radiometric measurements performed at or near room temperature. It also provides a first-stage cold reservoir (of microwave photons) for deeper cooling methods to work from. | 翻訳日:2024-08-13 19:21:55 公開日:2024-08-09 |
# PRISM Lite:超音波における対話型3次元胎盤セグメンテーションのための軽量モデル
PRISM Lite: A lightweight model for interactive 3D placenta segmentation in ultrasound ( http://arxiv.org/abs/2408.05372v1 ) ライセンス: Link先を確認 | Hao Li, Baris Oguz, Gabriel Arenas, Xing Yao, Jiacheng Wang, Alison Pouch, Brett Byram, Nadav Schwartz, Ipek Oguz, | (参考訳) 3次元超音波(3DUS)画像から測定した胎盤体積は成長軌跡を追跡する重要なツールであり、妊娠の結果と関連している。
手動セグメンテーションは金の標準であるが、時間がかかり主観的である。
完全に自動化されたディープラーニングアルゴリズムはよく機能するが、それぞれのケースで常に高品質な結果が得られるとは限らない。
インタラクティブセグメンテーションモデルはこの問題に対処できる。
しかし、胎盤の対話的セグメンテーションモデルについては限定的な研究がなされている。
セグメンテーションの精度にもかかわらず、これらの手法は比較的大きな計算能力を必要とするため、低リソース環境やモバイルデバイスでは特に禁止される可能性があるため、臨床用途では実現不可能である。
本稿では,3DUS画像から胎盤をリアルタイムでインタラクティブに分割するための,臨床利用を目的とした軽量なインタラクティブセグメンテーションモデルを提案する。
提案モデルでは,初期化のための完全自動モデルからのセグメンテーションを採用し,反復的な改善を実現するために,人間-イン-ザ-ループ方式で設計する。
Diceスコアと正規化表面Diceは評価指標として使用される。
その結果,本モデルでは,パラメータを著しく少なくしてセグメント化性能が向上できることが示唆された。
さらに、提案したモデルは推論よりもはるかに高速で、初期マスクの貧弱さに対して堅牢である。
コードはhttps://github.com/MedICL-VU/PRISM-placentaで公開されている。
Placenta volume measured from 3D ultrasound (3DUS) images is an important tool for tracking the growth trajectory and is associated with pregnancy outcomes. Manual segmentation is the gold standard, but it is time-consuming and subjective. Although fully automated deep learning algorithms perform well, they do not always yield high-quality results for each case. Interactive segmentation models could address this issue. However, there is limited work on interactive segmentation models for the placenta. Despite their segmentation accuracy, these methods may not be feasible for clinical use as they require relatively large computational power which may be especially prohibitive in low-resource environments, or on mobile devices. In this paper, we propose a lightweight interactive segmentation model aiming for clinical use to interactively segment the placenta from 3DUS images in real-time. The proposed model adopts the segmentation from our fully automated model for initialization and is designed in a human-in-the-loop manner to achieve iterative improvements. The Dice score and normalized surface Dice are used as evaluation metrics. The results show that our model can achieve superior performance in segmentation compared to state-of-the-art models while using significantly fewer parameters. Additionally, the proposed model is much faster for inference and robust to poor initial masks. The code is available at https://github.com/MedICL-VU/PRISM-placenta. | 翻訳日:2024-08-13 19:21:55 公開日:2024-08-09 |
# 協力を促進する進化的メカニズムは社会福祉を促進できない
Evolutionary mechanisms that promote cooperation may not promote social welfare ( http://arxiv.org/abs/2408.05373v1 ) ライセンス: Link先を確認 | The Anh Han, Manh Hong Duong, Matjaz Perc, | (参考訳) 利己的な個人間の社会的行動の出現を理解することは、多くの科学分野において重要な問題である。
このような行動の進化を説明するための様々なメカニズムが提案されている。
これらのメカニズムは通常、個人の報酬を変更するコストを含むため、高いレベルの協力を目指すことは社会福祉にとって有害である可能性がある。
ここでは、社会的行動、すなわちピアインセンティブと制度インセンティブの2つの確立されたメカニズムの確率論的進化モデルから得られた社会福祉と協力のレベルを、相対的に分析することにより、正確にそれを実証する。
協力度を最大化する目的や社会福祉を最大化する目的は、しばしば不一致であることを示す。
社会・集団商品の進化的メカニズムを設計・実装する際に,社会福祉を主目的とする必要性を論じる。
Understanding the emergence of prosocial behaviours among self-interested individuals is an important problem in many scientific disciplines. Various mechanisms have been proposed to explain the evolution of such behaviours, primarily seeking the conditions under which a given mechanism can induce highest levels of cooperation. As these mechanisms usually involve costs that alter individual payoffs, it is however possible that aiming for highest levels of cooperation might be detrimental for social welfare -- the later broadly defined as the total population payoff, taking into account all costs involved for inducing increased prosocial behaviours. Herein, by comparatively analysing the social welfare and cooperation levels obtained from stochastic evolutionary models of two well-established mechanisms of prosocial behaviour, namely, peer and institutional incentives, we demonstrate exactly that. We show that the objectives of maximising cooperation levels and the objectives of maximising social welfare are often misaligned. We argue for the need of adopting social welfare as the main optimisation objective when designing and implementing evolutionary mechanisms for social and collective goods. | 翻訳日:2024-08-13 19:21:55 公開日:2024-08-09 |
# 多体量子システムによる定時間量子探索
Constant-Time Quantum Search with a Many-Body Quantum System ( http://arxiv.org/abs/2408.05376v1 ) ライセンス: Link先を確認 | Benjamin DalFavero, Alexander Meill, David A. Meyer, Thomas G. Wong, Jonathan P. Wrubel, | (参考訳) データベースを探索する量子コンピュータの最適実行は、一般的に、グロバーのアルゴリズムによって達成されたデータベースの項目数の平方根として言及される。
しかし、平行なオラクルでは、これよりも速く検索することが可能である。
並列クエリに自然に影響を及ぼす多体量子系を考察し、そのパラメータを十分な数の相互作用粒子を仮定して、一定の時間でデータベースを探索するように調整できることを示す。
特に、ボース=アインシュタインは平均場極限における対対および三体相互作用で凝縮し、立方およびクインティック非線形性を持つ非線形シュル・オーディンガー方程式によって効果的に進化すると考える。
連続時間量子ウォークとして定式化された非構造探索問題を一定時間で全グラフを探索する。
しかし、マークされた頂点の数によっては、成功確率は急上昇し、このピークでシステムの観測に高精度な測定が必要である。
これに対して、立方体項とクインティック項の相対係数は、成功確率のピークを拡大したり、プラトーを持つことによって、高時間計測精度の必要をなくすために調整可能であることを証明した。
最後に、実効非線形性によって進化する多体系に必要な原子数に対する低い境界を導出する。
The optimal runtime of a quantum computer searching a database is typically cited as the square root of the number of items in the database, which is famously achieved by Grover's algorithm. With parallel oracles, however, it is possible to search faster than this. We consider a many-body quantum system that naturally effects parallel queries, and we show that its parameters can be tuned to search a database in constant time, assuming a sufficient number of interacting particles. In particular, we consider Bose-Einstein condensates with pairwise and three-body interactions in the mean-field limit, which effectively evolve by a nonlinear Schr\"odinger equation with cubic and quintic nonlinearities. We solve the unstructured search problem formulated as a continuous-time quantum walk searching the complete graph in constant time. Depending on the number of marked vertices, however, the success probability can peak sharply, necessitating high precision time measurement to observe the system at this peak. Overcoming this, we prove that the relative coefficients of the cubic and quintic terms can be tuned to eliminate the need for high time-measurement precision by widening the peak in success probability or having it plateau. Finally, we derive a lower bound on the number of atoms needed for the many-body system to evolve by the effective nonlinearity. | 翻訳日:2024-08-13 19:21:55 公開日:2024-08-09 |
# 燃えるようなDockerファイルの時間的解析と修復
Temporal Analysis and Repair of Flaky Dockerfiles ( http://arxiv.org/abs/2408.05379v1 ) ライセンス: Link先を確認 | Taha Shabani, Noor Nashid, Parsa Alian, Ali Mesbah, | (参考訳) Dockerfile flakinessは、Dockerfileやプロジェクトソースコードの変更なしに、一貫性のないビルド動作を特徴とするもので、継続的インテグレーションとデリバリ(CI/CD)パイプラインにおいて大きな課題を提起している。
この問題は、信頼性の低いデプロイメントやデバッグ作業の増加につながる可能性があるが、現在の調査では未検討である。
Dockerfileのフレキネスを体系的に分析し、依存関係関連のエラーやサーバ接続の問題を含む、一般的なフレキネスカテゴリの包括的な分類を提示する。
さらに,大規模な言語モデルと検索拡張生成技術を活用した動的解析ツールであるFrakiDockと,不安定なDockerfileを自動的に修復するための反復的なフィードバックループも紹介した。
評価の結果,FrakiDockの修理精度は73.55%で,PARFUMの12,581%,GPT-4の94.63%を突破した。
これらの結果は、Dockerfileのフレキネスに対処し、ビルドの信頼性を向上させる上で、FrakiDockの有効性を強調している。
Dockerfile flakiness, characterized by inconsistent build behavior without Dockerfile or project source code changes, poses significant challenges in Continuous Integration and Delivery (CI/CD) pipelines. This issue can lead to unreliable deployments and increased debugging efforts, yet it remains underexplored in current research. We conduct a systematic analysis of Dockerfile flakiness, presenting a comprehensive taxonomy of common flakiness categories, including dependency-related errors and server connectivity issues. Furthermore, we introduce FlakiDock, a tool leveraging large language models and retrieval-augmented generation techniques with dynamic analysis and an iterative feedback loop to automatically repair flaky Dockerfiles. Our evaluation shows that FlakiDock achieves a 73.55% repair accuracy, outperforming existing tools such as PARFUM by 12,581% and GPT-4-based prompting by 94.63%. These results underscore the effectiveness of FlakiDock in addressing Dockerfile flakiness and improving build reliability. | 翻訳日:2024-08-13 19:21:55 公開日:2024-08-09 |
# 双方向トランザクションとレンタルによるPortfolioの最適化 - 強化学習フレームワーク
Optimizing Portfolio with Two-Sided Transactions and Lending: A Reinforcement Learning Framework ( http://arxiv.org/abs/2408.05382v1 ) ライセンス: Link先を確認 | Ali Habibnia, Mahdi Soltanzadeh, | (参考訳) 本研究では、リスクの高い環境に合わせた強化学習(RL)に基づくポートフォリオ管理モデルを提案し、従来のRLモデルの限界に対処し、一方的な取引や融資を通じて市場機会を活用する。
提案手法は,新たな環境定式化とPnLに基づく報酬関数を統合し,リスク管理と資本最適化におけるRLエージェントの能力を高める。
我々は,マルチヘッド・アテンション(CNN-MHA)を用いた畳み込みニューラルネットワークを用いて,ソフトアクタ・クリティカル(SAC)エージェントを用いてモデルを実装した。
このセットアップは、Binance Perpetual Futures Marketにおける多様化した12暗号資産ポートフォリオを効果的に管理し、USDTを利用してローンの付与と受け取りを4時間ごとに行い、前の48時間からの市場データを活用する。
市場のボラティリティ(変動性)が変化する2カ月間にわたってテストされたこのモデルでは、特に高ボラティリティシナリオにおいて、高いリターン・ツー・リスク比を達成し、堅牢な利益性を示すベンチマークが著しく上回った。
これらの結果は、暗号通貨市場のような揮発性環境における市場ダイナミクスの活用とリスク管理におけるモデルの有効性を裏付けるものである。
This study presents a Reinforcement Learning (RL)-based portfolio management model tailored for high-risk environments, addressing the limitations of traditional RL models and exploiting market opportunities through two-sided transactions and lending. Our approach integrates a new environmental formulation with a Profit and Loss (PnL)-based reward function, enhancing the RL agent's ability in downside risk management and capital optimization. We implemented the model using the Soft Actor-Critic (SAC) agent with a Convolutional Neural Network with Multi-Head Attention (CNN-MHA). This setup effectively manages a diversified 12-crypto asset portfolio in the Binance perpetual futures market, leveraging USDT for both granting and receiving loans and rebalancing every 4 hours, utilizing market data from the preceding 48 hours. Tested over two 16-month periods of varying market volatility, the model significantly outperformed benchmarks, particularly in high-volatility scenarios, achieving higher return-to-risk ratios and demonstrating robust profitability. These results confirm the model's effectiveness in leveraging market dynamics and managing risks in volatile environments like the cryptocurrency market. | 翻訳日:2024-08-13 19:21:55 公開日:2024-08-09 |
# 2ステップQAOA:QUBO定式化における1ホット制約の分解による量子最適化の強化
Two-Step QAOA: Enhancing Quantum Optimization by Decomposing One-Hot Constraints in QUBO Formulations ( http://arxiv.org/abs/2408.05383v1 ) ライセンス: Link先を確認 | Yuichiro Minato, | (参考訳) 量子近似最適化アルゴリズム(Quantum Approximate Optimization Algorithm, QAOA)は、量子計算力を利用して組合せ最適化問題を解決することを約束している。
本稿では,QUBO (Quadratic Unconstrained Binary Optimization) の定式化による問題を分解することで,QAOAの有効性を向上させるための簡単なアプローチである Two-Step QAOA を提案する。
問題を2段階に分け,ソフト制約をハード制約に変換し,初期条件の生成を簡略化し,より効率的な最適化を実現する。
この手法は複雑な制約構造を伴う複雑な社会問題に対処するのに特に有用である。
The Quantum Approximate Optimization Algorithm (QAOA) has shown promise in solving combinatorial optimization problems by leveraging quantum computational power. We propose a simple approach, the Two-Step QAOA, which aims to improve the effectiveness of QAOA by decomposing problems with one-hot encoding QUBO (Quadratic Unconstrained Binary Optimization) formulations. By identifying and separating the problem into two stages, we transform soft constraints into hard constraints, simplifying the generation of initial conditions and enabling more efficient optimization. The method is particularly beneficial for tackling complex societal problems that often involve intricate constraint structures. | 翻訳日:2024-08-13 19:21:55 公開日:2024-08-09 |
# EclipseNETs:不規則な日食条件の異なる説明
EclipseNETs: a differentiable description of irregular eclipse conditions ( http://arxiv.org/abs/2408.05387v1 ) ライセンス: Link先を確認 | Giacomo Acciarini, Francesco Biscani, Dario Izzo, | (参考訳) 宇宙飛行力学と天体力学の分野では、日食領域を決定することは頻繁にかつ重要な課題である。
この決定は、太陽放射圧による加速、宇宙船の電力入力、そしてその熱状態など、ミッション設計の様々な段階で考慮しなければならない様々な要因に影響を及ぼす。
本研究では、近年のニューラル画像処理の進歩を利用して、非常に不規則な天体に対する日食領域の完全微分可能なモデルを開発する。
433 Eros, 25143 Itokawa, 67P/Churyumov-Gerasimenko, 10 1955 Bennuなどの太陽系の天体が以前に訪れたテストケースを利用して、太陽の方向に基づいて日食円錐の形状を定義する暗黙のニューラルネットワークアーキテクチャを提案し、研究した。
周期的活性化関数を用いて、日食条件のモデル化において高精度を実現する。
さらに、宇宙飛行力学計算におけるこれらの微分可能なモデルの可能性について論じる。
In the field of spaceflight mechanics and astrodynamics, determining eclipse regions is a frequent and critical challenge. This determination impacts various factors, including the acceleration induced by solar radiation pressure, the spacecraft power input, and its thermal state all of which must be accounted for in various phases of the mission design. This study leverages recent advances in neural image processing to develop fully differentiable models of eclipse regions for highly irregular celestial bodies. By utilizing test cases involving Solar System bodies previously visited by spacecraft, such as 433 Eros, 25143 Itokawa, 67P/Churyumov--Gerasimenko, and 101955 Bennu, we propose and study an implicit neural architecture defining the shape of the eclipse cone based on the Sun's direction. Employing periodic activation functions, we achieve high precision in modeling eclipse conditions. Furthermore, we discuss the potential applications of these differentiable models in spaceflight mechanics computations. | 翻訳日:2024-08-13 19:21:55 公開日:2024-08-09 |
# L4DR:LiDAR-4DRadar Fusion for Weather-Robust 3D Object Detection
L4DR: LiDAR-4DRadar Fusion for Weather-Robust 3D Object Detection ( http://arxiv.org/abs/2408.03677v2 ) ライセンス: Link先を確認 | Xun Huang, Ziyu Xu, Hai Wu, Jinlong Wang, Qiming Xia, Yan Xia, Jonathan Li, Kyle Gao, Chenglu Wen, Cheng Wang, | (参考訳) LiDARベースの視覚システムは3Dオブジェクト検出に不可欠であり、自律的なナビゲーションには不可欠である。
しかし、LiDAR点雲の品質劣化により、悪天候下での性能劣化に悩まされる。
LiDARと4Dレーダーセンサーを融合させることで、この問題を解決することが期待されている。
しかし、LiDARと4Dレーダの融合は、データ品質と悪天候の劣化度で大きく異なるため、困難である。
これらの問題に対処するために,L4DRという,LiDARと4Dレーダ融合を効果的に実現した気象破砕型3次元物体検出手法を導入する。
我々のL4DRには、LiDARと4Dレーダの初期の融合の相補性の最初の調査であるセンサギャップを分解するMMEとFAD技術が含まれています。
さらに, マルチスケールGated Fusion (MSGF) モジュールと組み合わせた並列特徴抽出バックボーンを設計し, 悪天候下でのセンサ劣化の度合いの変動に対処する。
霧を模擬したVoDデータセットの実験的評価により,L4DRは気象条件の変化に適応可能であることが示された。
霧のレベルによってパフォーマンスが大幅に向上し、3D mAPは従来のLiDARのみのアプローチよりも最大20.0%向上した。
さらに,K-Radarデータセットを用いて,現実の悪天候条件下でのL4DRの性能改善を検証した。
LiDAR-based vision systems are integral for 3D object detection, which is crucial for autonomous navigation. However, they suffer from performance degradation in adverse weather conditions due to the quality deterioration of LiDAR point clouds. Fusing LiDAR with the weather-robust 4D radar sensor is expected to solve this problem. However, the fusion of LiDAR and 4D radar is challenging because they differ significantly in terms of data quality and the degree of degradation in adverse weather. To address these issues, we introduce L4DR, a weather-robust 3D object detection method that effectively achieves LiDAR and 4D Radar fusion. Our L4DR includes Multi-Modal Encoding (MME) and Foreground-Aware Denoising (FAD) technique to reconcile sensor gaps, which is the first exploration of the complementarity of early fusion between LiDAR and 4D radar. Additionally, we design an Inter-Modal and Intra-Modal ({IM}2 ) parallel feature extraction backbone coupled with a Multi-Scale Gated Fusion (MSGF) module to counteract the varying degrees of sensor degradation under adverse weather conditions. Experimental evaluation on a VoD dataset with simulated fog proves that L4DR is more adaptable to changing weather conditions. It delivers a significant performance increase under different fog levels, improving the 3D mAP by up to 20.0% over the traditional LiDAR-only approach. Moreover, the results on the K-Radar dataset validate the consistent performance improvement of L4DR in real-world adverse weather conditions. | 翻訳日:2024-08-13 10:59:25 公開日:2024-08-09 |
# シャープネスに基づく最適化は医用画像解析の一般化を改善するか?
Do Sharpness-based Optimizers Improve Generalization in Medical Image Analysis? ( http://arxiv.org/abs/2408.04065v2 ) ライセンス: Link先を確認 | Mohamed Hassan, Aleksandar Vakanski, Min Xian, | (参考訳) 医療におけるディープラーニングモデルの効果的な臨床展開は、正確な診断と治療計画を確保するために、高い一般化性能を必要とする。
近年,ロスランドスケープのシャープネスを規則化し,ディープラーニングモデルの一般化に重点を置いている。
シャープネス・アウェアの最小化(SAM)は、シャープネスを明示的に最小化する最適化手法の中で、一般領域画像データセットの一般化性能を高める可能性を示している。
この成功により、Adaptive SAM、Surrogate-Gap SAM、Weighted SAM、Curvature Regularized SAMといったSAMの限界に対処する先進的なシャープネスベースのアルゴリズムが開発された。
これらのシャープネスに基づくオプティマイザは、従来の確率勾配降下オプティマイザや一般領域画像データセットの変種と比較して、モデル一般化の改善を示すが、医療画像では十分に評価されていない。
本研究は, 深層学習ネットワークの一般化に関する最近のシャープネスに基づく手法を概観し, 医療用胸部超音波画像上での性能評価を行う。
提案手法は,様々な深層学習モデルの一般化に有効であることが示唆された。
Adaptive SAMは畳み込みニューラルネットワークの一般化を改善するが、ビジョントランスフォーマーでは実現できない。
しかし、他のシャープネスベースのオプティマイザは一貫性のある結果を示さない。
結果は,非医療領域における発見とは対照的に,SAMは医用画像解析における一般化を一貫して改善する唯一の推奨シャープネスベース最適化器であり,SAMの変種を改良して,この分野における一般化性能を高めるためには,さらなる研究が必要であることを明らかにした。
Effective clinical deployment of deep learning models in healthcare demands high generalization performance to ensure accurate diagnosis and treatment planning. In recent years, significant research has focused on improving the generalization of deep learning models by regularizing the sharpness of the loss landscape. Among the optimization approaches that explicitly minimize sharpness, Sharpness-Aware Minimization (SAM) has shown potential in enhancing generalization performance on general domain image datasets. This success has led to the development of several advanced sharpness-based algorithms aimed at addressing the limitations of SAM, such as Adaptive SAM, surrogate-Gap SAM, Weighted SAM, and Curvature Regularized SAM. These sharpness-based optimizers have shown improvements in model generalization compared to conventional stochastic gradient descent optimizers and their variants on general domain image datasets, but they have not been thoroughly evaluated on medical images. This work provides a review of recent sharpness-based methods for improving the generalization of deep learning networks and evaluates the methods performance on medical breast ultrasound images. Our findings indicate that the initial SAM method successfully enhances the generalization of various deep learning models. While Adaptive SAM improves generalization of convolutional neural networks, it fails to do so for vision transformers. Other sharpness-based optimizers, however, do not demonstrate consistent results. The results reveal that, contrary to findings in the non-medical domain, SAM is the only recommended sharpness-based optimizer that consistently improves generalization in medical image analysis, and further research is necessary to refine the variants of SAM to enhance generalization performance in this field | 翻訳日:2024-08-13 10:59:25 公開日:2024-08-09 |
# 教育カリキュラムにおけるグラウンド化による言語モデル数学推論の評価
Evaluating Language Model Math Reasoning via Grounding in Educational Curricula ( http://arxiv.org/abs/2408.04226v2 ) ライセンス: Link先を確認 | Li Lucy, Tal August, Rose E. Wang, Luca Soldaini, Courtney Allison, Kyle Lo, | (参考訳) 本研究は,言語モデル(LM)の数学的能力を評価するために,数学的内容によって実現されるスキルや概念を識別できるかどうかを考察する。
1つは、Achieve the Core(ATC)のK-12数学のスキルと概念、あるいは標準を385のきめ細かい記述からなり、もう1つは、これらの標準(MathFish)でラベル付けされた9.9K問題である。
経験豊富な教師と一緒に働くと、LMは問題に関連する標準をタグ付けして検証するのに苦労し、代わりに、真実に近いが微妙な方法で異なるラベルを予測することに気付きます。
また、LMはプロンプトで記述された標準と完全に一致しない問題が発生することもしばしば示している。
最後に、GSM8kの問題を数学標準を用いて分類し、なぜ他のモデルよりも解決が難しいのかをよりよく理解する。
Our work presents a novel angle for evaluating language models' (LMs) mathematical abilities, by investigating whether they can discern skills and concepts enabled by math content. We contribute two datasets: one consisting of 385 fine-grained descriptions of K-12 math skills and concepts, or standards, from Achieve the Core (ATC), and another of 9.9K problems labeled with these standards (MathFish). Working with experienced teachers, we find that LMs struggle to tag and verify standards linked to problems, and instead predict labels that are close to ground truth, but differ in subtle ways. We also show that LMs often generate problems that do not fully align with standards described in prompts. Finally, we categorize problems in GSM8k using math standards, allowing us to better understand why some problems are more difficult to solve for models than others. | 翻訳日:2024-08-13 10:59:25 公開日:2024-08-09 |
# レジリエントかつ効率的なLCMを目指して:効率性, 性能, 対向ロバスト性の比較研究
Towards Resilient and Efficient LLMs: A Comparative Study of Efficiency, Performance, and Adversarial Robustness ( http://arxiv.org/abs/2408.04585v2 ) ライセンス: Link先を確認 | Xiaojing Fan, Chunliang Tao, | (参考訳) LLM(Large Language Models)の実用的応用に対する需要が高まっているため、性能と計算コストのバランスをとるために多くの注意効率の高いモデルが開発されている。
しかし、これらのモデルの敵対的堅牢性はいまだ探索されていない。
本研究では,GLUEデータセットとAdvGLUEデータセットを用いて,Transformer++,Gated Linear Attention (GLA) Transformer,MatMul-Free LMという3つの著名なモデルと,複雑性と効率のレベルが異なる3つのモデルを比較することにより,LCMの効率性,性能,対向ロバスト性の間のトレードオフを検討するフレームワークを設計する。
AdvGLUEデータセットはGLUEデータセットを拡張し、モデルの堅牢性に挑戦するために設計された逆サンプルを使用する。
その結果,GLA Transformer と MatMul-Free LM は GLUE タスクではわずかに精度が低いが,AdvGLUE タスクでは,異なる攻撃レベルにおける Transformer++ と比較して高い効率と高いロバスト性を示した。
これらの発見は、効率性、パフォーマンス、および敵の堅牢性の間の説得力のあるバランスを達成するために単純化されたアーキテクチャの可能性を強調し、敵の攻撃に対するリソースの制約とレジリエンスが重要となるアプリケーションに貴重な洞察を提供する。
With the increasing demand for practical applications of Large Language Models (LLMs), many attention-efficient models have been developed to balance performance and computational cost. However, the adversarial robustness of these models remains under-explored. In this work, we design a framework to investigate the trade-off between efficiency, performance, and adversarial robustness of LLMs by comparing three prominent models with varying levels of complexity and efficiency -- Transformer++, Gated Linear Attention (GLA) Transformer, and MatMul-Free LM -- utilizing the GLUE and AdvGLUE datasets. The AdvGLUE dataset extends the GLUE dataset with adversarial samples designed to challenge model robustness. Our results show that while the GLA Transformer and MatMul-Free LM achieve slightly lower accuracy on GLUE tasks, they demonstrate higher efficiency and either superior or comparative robustness on AdvGLUE tasks compared to Transformer++ across different attack levels. These findings highlight the potential of simplified architectures to achieve a compelling balance between efficiency, performance, and adversarial robustness, offering valuable insights for applications where resource constraints and resilience to adversarial attacks are critical. | 翻訳日:2024-08-13 10:59:25 公開日:2024-08-09 |
# 派生形態学のためのパラダイムコンプリート
Paradigm Completion for Derivational Morphology ( http://arxiv.org/abs/1708.09151v2 ) ライセンス: Link先を確認 | Ryan Cotterell, Ekaterina Vylomova, Huda Khayrallah, Christo Kirov, David Yarowsky, | (参考訳) 複雑な派生語形式の生成は、NLPでは見過ごされている問題であり、タスクにニューラルシーケンス・ツー・シーケンスモデルを適用することで、このギャップを埋める。
導出的形態学のパラダイム的処理の理論的動機を概説し、導出的パラダイム完備化の課題を帰納的パラダイム完備化の並列化として紹介する。
インフレクションタスクから適応した最先端のニューラルモデルは、様々な派生パターンを学習することができ、非神経ベースラインを16.4%上回る。
しかし、導出形態学に関わる意味論的、歴史的、語彙的考察により、屈折発生システムと性能の同等性を達成するためには、今後の研究が必要である。
The generation of complex derived word forms has been an overlooked problem in NLP; we fill this gap by applying neural sequence-to-sequence models to the task. We overview the theoretical motivation for a paradigmatic treatment of derivational morphology, and introduce the task of derivational paradigm completion as a parallel to inflectional paradigm completion. State-of-the-art neural models, adapted from the inflection task, are able to learn a range of derivation patterns, and outperform a non-neural baseline by 16.4%. However, due to semantic, historical, and lexical considerations involved in derivational morphology, future work will be needed to achieve performance parity with inflection-generating systems. | 翻訳日:2024-08-12 21:17:20 公開日:2024-08-09 |
# 浅い回路出力のエントロピーの推定について
On estimating the entropy of shallow circuit outputs ( http://arxiv.org/abs/2002.12814v2 ) ライセンス: Link先を確認 | Alexandru Gheorghiu, Matty J. Hoban, | (参考訳) 確率分布と量子状態のエントロピーを推定することは情報処理の基本的な課題である。
本稿では,浅部回路が生成する確率分布や量子状態の場合には,このタスクの硬さについて検討する。
具体的には,有界ファンインとアンバウンドファンアウトのゲートを持つ対数深度回路あるいは定数深度回路のいずれかによって生成された分布や状態に対するエントロピー推定は,少なくともLearning with Errors(LWE)問題と同等に困難であり,効率的な量子計算においても難解であると考えられる。
このことは量子回路がエントロピーの計算を難しいタスクとするために複雑である必要はないことを示している。
また、この対数深度回路の問題は、一般的な多項式サイズの回路と同等に難しくなく、中間硬度を占有しているように見えるという複雑性理論的な証拠を与える。
最後に,AdS/CFTのバルク・ツー・バウンダリ辞書の複雑さに関連して,量子重力研究への応用の可能性について検討する。
Estimating the entropy of probability distributions and quantum states is a fundamental task in information processing. Here, we examine the hardness of this task for the case of probability distributions or quantum states produced by shallow circuits. Specifically, we show that entropy estimation for distributions or states produced by either log-depth circuits or constant-depth circuits with gates of bounded fan-in and unbounded fan-out is at least as hard as the Learning with Errors (LWE) problem, and thus believed to be intractable even for efficient quantum computation. This illustrates that quantum circuits do not need to be complex to render the computation of entropy a difficult task. We also give complexity-theoretic evidence that this problem for log-depth circuits is not as hard as its counterpart with general polynomial-size circuits, seemingly occupying an intermediate hardness regime. Finally, we discuss potential future applications of our work for quantum gravity research by relating our results to the complexity of the bulk-to-boundary dictionary of AdS/CFT. | 翻訳日:2024-08-12 21:17:20 公開日:2024-08-09 |
# EmoWrite: テキスト変換に対する感性分析に基づく思考 - 検証研究
EmoWrite: A Sentiment Analysis-Based Thought to Text Conversion -- A Validation Study ( http://arxiv.org/abs/2103.02238v3 ) ライセンス: Link先を確認 | Imran Raza, Syed Asad Hussain, Muhammad Hasan Jamal, Isabel de la Torre Diez, Carmen Lili Rodriguez Velasco, Jose Manuel Brenosa, Imran Ashraf, | (参考訳) 目的-本研究の目的は、既存のBCIベースのシステムの限界に対処することを目的とした、新しい脳-コンピュータインタフェース(BCI)システムであるEmoWriteの導入である。
具体的には、BCI技術のコンテキスト内でのタイピング速度、精度、ユーザ利便性、感情状態のキャプチャ、感情分析を改善することを含む。
方法- この手法は、ユーザ中心のリカレントニューラルネットワーク(RNN)を用いて、思考からテキストへの変換を行うEmoWriteの開発と実装を含む。
このシステムは視覚フィードバックを取り入れ、文脈適応的な文字外観を持つ動的キーボードを導入する。
精度,タイピング速度,感情分析,感情状態のキャプチャ,ユーザインターフェースのレイテンシなど,さまざまな指標を考慮した既存手法に対する総合的な評価と比較を行う。
この実験に必要なデータは18歳から40歳までの72名のボランティア(男性40名、女性32名)から得られた。EmoWriteは、タイピング速度が6.6ワード/分(WPM)と31.9文字/分(CPM)で90.36%高い。
感情状態の取得に優れており、コマンドは87.55ビット/分、文字は72.52ビット/分であり、他のシステムを上回っている。
さらに、レイテンシが2.685秒の直感的なユーザーインターフェイスを提供する。
結論- EmoWriteの導入は、BCIのユーザビリティと感情統合を強化するための重要な一歩である。
この結果は、EmoWriteが、運動障害のある人のためのコミュニケーション援助に革命をもたらす有望な可能性を秘めていることを示唆している。
Objective- The objective of this study is to introduce EmoWrite, a novel brain-computer interface (BCI) system aimed at addressing the limitations of existing BCI-based systems. Specifically, the objective includes improving typing speed, accuracy, user convenience, emotional state capturing, and sentiment analysis within the context of BCI technology. Method- The method involves the development and implementation of EmoWrite, utilizing a user-centric Recurrent Neural Network (RNN) for thought-to-text conversion. The system incorporates visual feedback and introduces a dynamic keyboard with a contextually adaptive character appearance. Comprehensive evaluation and comparison against existing approaches are conducted, considering various metrics such as accuracy, typing speed, sentiment analysis, emotional state capturing, and user interface latency. The data required for this experiment was obtained from a total of 72 volunteers (40 male and 32 female) aged between 18 and 40 Results- EmoWrite achieves notable results, including a typing speed of 6.6 Words Per Minute (WPM) and 31.9 Characters Per Minute (CPM) with a high accuracy rate of 90.36%. It excels in capturing emotional states, with an Information Transfer Rate (ITR) of 87.55 bits/min for commands and 72.52 bits/min for letters, surpassing other systems. Additionally, it offers an intuitive user interface with low latency of 2.685 seconds. Conclusion- The introduction of EmoWrite represents a significant stride towards enhancing BCI usability and emotional integration. The findings suggest that EmoWrite holds promising potential for revolutionizing communication aids for individuals with motor disabilities. | 翻訳日:2024-08-12 21:11:46 公開日:2024-08-09 |
# 2つの観測可能な未知の純量子状態の定式化
Determination of All Unknown Pure Quantum States with Two Observables ( http://arxiv.org/abs/2108.05752v4 ) ライセンス: Link先を確認 | Yu Wang, | (参考訳) 主系上の極小観測値を用いて純粋量子状態から情報を効率的に抽出することは、量子情報理論における長年の根本的問題である。
位置と運動量の確率分布が波動関数を一意に特定できないにもかかわらず、ペレスは2つの相補的な可観測物が位置と運動量に類似しており、直交基底への射影測度として実現された離散バージョンを予想した。
その後の発見では、2つの直交基底を持つ測度ゼロ集合を無視しても、$d$-dimenisonal pure 状態が一意に決定できないことが判明し、ペレスの予想も$d=3$に対して正しいが$d=4$については正しくない。
本研究では,2つの直交基底が,測度ゼロの集合を無視することで,基底係数の複素数を伴わずに,最大2^{d-1}$有限候補を効果的にフィルタリングできることを示す。
さらに、2つの相補観測器を用いて波動関数の目標係数を直接計算するために、逐次測定からインスピレーションを得た結果、ほぼ全ての純クォーディットは、中央にPOVMを適応的に組み込んだ上で、その相補観測器の測定によって一意に決定できることを示した。
Efficiently extracting information from pure quantum states using minimal observables on the main system is a longstanding and fundamental issue in quantum information theory. Despite the inability of probability distributions of position and momentum to uniquely specify a wavefunction, Peres conjectured a discrete version wherein two complementary observables, analogous to position and momentum and realized as projective measurements onto orthogonal bases, can determine all pure qudits up to a finite set of ambiguities. Subsequent findings revealed the impossibility of uniquely determining $d$-dimenisonal pure states even when neglecting a measure-zero set with any two orthogonal bases, and Peres's conjecture is also correct for $d=3$ but not for $d=4$. In this study, we show that two orthogonal bases are capable of effectively filtering up to $2^{d-1}$ finite candidates by disregarding a measure-zero set, without involving complex numbers in the bases' coefficients. Additionally, drawing inspiration from sequential measurements to directly calculate the target coefficients of the wavefunction using two complementary observables, we show that almost all pure qudits can be uniquely determined by adaptively incorporating a POVM in the middle, followed by measuring the complementary observable. | 翻訳日:2024-08-12 21:11:46 公開日:2024-08-09 |
# 深層学習理論の展望:基本的な概念と特徴
Envisioning Future Deep Learning Theories: Some Basic Concepts and Characteristics ( http://arxiv.org/abs/2112.09741v2 ) ライセンス: Link先を確認 | Weijie J. Su, | (参考訳) 今後10年間にディープラーニングの方法論を進歩させるためには、現代のニューラルネットワークを推論するための理論的枠組みが必要である。
深層学習がなぜこれほど効果的であるかを謎解き明かす努力が増えているが、包括的イメージは依然として欠如しており、より良い理論が可能であることを示唆している。
我々は、将来のディープラーニング理論が、構造化ネットワークアーキテクチャー、確率的勾配に基づく手法を用いて最適化されたパラメーター \textit{iteratively}、および \textit{compressively} を進化させるデータから得られる情報という3つの特徴を継承すべきであると主張している。
インスタンス化として、これらの特徴を \textit{neurashed} と呼ばれるグラフィカルモデルに統合する。
このモデルは、ディープラーニングにおける一般的な経験的パターンを効果的に説明します。
特にニューアッシュドは、暗黙の正規化、情報のボトルネック、局所的な弾力性に関する洞察を可能にする。
最後に,ニューロッシュドが深層学習理論の発展をいかに導くかについて議論する。
To advance deep learning methodologies in the next decade, a theoretical framework for reasoning about modern neural networks is needed. While efforts are increasing toward demystifying why deep learning is so effective, a comprehensive picture remains lacking, suggesting that a better theory is possible. We argue that a future deep learning theory should inherit three characteristics: a \textit{hierarchically} structured network architecture, parameters \textit{iteratively} optimized using stochastic gradient-based methods, and information from the data that evolves \textit{compressively}. As an instantiation, we integrate these characteristics into a graphical model called \textit{neurashed}. This model effectively explains some common empirical patterns in deep learning. In particular, neurashed enables insights into implicit regularization, information bottleneck, and local elasticity. Finally, we discuss how neurashed can guide the development of deep learning theories. | 翻訳日:2024-08-12 21:11:46 公開日:2024-08-09 |
# 画像領域における特徴帰属手法の評価
Evaluating Feature Attribution Methods in the Image Domain ( http://arxiv.org/abs/2202.12270v2 ) ライセンス: Link先を確認 | Arne Gevaert, Axel-Jan Rousseau, Thijs Becker, Dirk Valkenborg, Tijl De Bie, Yvan Saeys, | (参考訳) 特徴属性マップ(Feature Attribution Map)は、与えられたモデルの予測のために画像内の最も重要なピクセルをハイライトする一般的なアプローチである。
近年の人気が高まり,利用できる方法が増えているにもかかわらず,このような属性マップの客観的評価にはほとんど注意が払われていない。
この領域における過去の研究に基づいて、既存のメトリクスを調査し、属性マップの評価のための新しいメトリクスの変種を提案する。
近年の研究では、異なる属性指標が属性マップの根底にある概念を計測しているように見えることが確認されており、この指標をより広い属性指標に拡張している。
また、あるデータセット上の計量結果が必ずしも他のデータセットに一般化されるとは限らないことや、DeepSHAPのような望ましい理論的特性を持つ手法は、必ずしも計算的に安価な代替手段より優れているとは限らないことも見出した。
これらの知見に基づき, 与えられたユースケースに対する理想的な特徴属性法を特定するための, 一般的なベンチマーク手法を提案する。
属性メトリクスの実装と実験はオンラインで利用可能です。
Feature attribution maps are a popular approach to highlight the most important pixels in an image for a given prediction of a model. Despite a recent growth in popularity and available methods, little attention is given to the objective evaluation of such attribution maps. Building on previous work in this domain, we investigate existing metrics and propose new variants of metrics for the evaluation of attribution maps. We confirm a recent finding that different attribution metrics seem to measure different underlying concepts of attribution maps, and extend this finding to a larger selection of attribution metrics. We also find that metric results on one dataset do not necessarily generalize to other datasets, and methods with desirable theoretical properties such as DeepSHAP do not necessarily outperform computationally cheaper alternatives. Based on these findings, we propose a general benchmarking approach to identify the ideal feature attribution method for a given use case. Implementations of attribution metrics and our experiments are available online. | 翻訳日:2024-08-12 21:11:46 公開日:2024-08-09 |
# 擬似不変予測器の学習
Learning Counterfactually Invariant Predictors ( http://arxiv.org/abs/2207.09768v4 ) ライセンス: Link先を確認 | Francesco Quinzan, Cecilia Casolo, Krikamol Muandet, Yucen Luo, Niki Kilbertus, | (参考訳) 反事実不変性(CI)の表記は、現実の世界において公平で堅牢で一般化可能な予測者にとって不可欠であることが証明されている。
本稿では,観測分布における条件独立性の観点から,予測器が反実的に不変となるための十分な条件を与えるグラフィカルな基準を提案する。
このような予測器を学習するために,Hilbert-Schmidt条件独立基準(HSCIC)に基づくCIP(Counterfactual Invariant Prediction)と呼ばれる,カーネルベースの条件依存尺度を提案する。
実験により,スカラーおよび多変量設定を含む実世界の各種データセットに対して,CIPによる逆実測的不変性を強制する効果が示された。
Notions of counterfactual invariance (CI) have proven essential for predictors that are fair, robust, and generalizable in the real world. We propose graphical criteria that yield a sufficient condition for a predictor to be counterfactually invariant in terms of a conditional independence in the observational distribution. In order to learn such predictors, we propose a model-agnostic framework, called Counterfactually Invariant Prediction (CIP), building on the Hilbert-Schmidt Conditional Independence Criterion (HSCIC), a kernel-based conditional dependence measure. Our experimental results demonstrate the effectiveness of CIP in enforcing counterfactual invariance across various simulated and real-world datasets including scalar and multi-variate settings. | 翻訳日:2024-08-12 21:11:46 公開日:2024-08-09 |
# 完成するな! 生産的で持続可能なニューラルコード補完システムのための不必要なコード補完の防止
Don't Complete It! Preventing Unhelpful Code Completion for Productive and Sustainable Neural Code Completion Systems ( http://arxiv.org/abs/2209.05948v3 ) ライセンス: Link先を確認 | Zhensu Sun, Xiaoning Du, Fu Song, Shangwen Wang, Mingze Ni, Li Li, David Lo, | (参考訳) 現在、大きな事前訓練された言語モデルは、ニューラルコード補完システムに広く適用されている。
大きなコードモデルは、より小さなコードよりも大幅に優れているが、Github Copilotの表示されたコード補完の約70%は、開発者に受け入れられていない。
レビューされているが受け入れられていないため、開発者生産性への支援はかなり制限されており、サービスが有効になったら開発者が入力アウトすると、コード補完が自動的に、最先端のコード補完システムでアクティブに生成されるため、逆に開発者の作業量が増加する可能性がある。
さらに悪いことに、大規模なコードモデルの高コストを考えると、AI技術の持続可能な開発原理に強く反対する、計算資源とエネルギーの膨大な無駄である。
しかしながら、そのような無駄は、ニューラルネットワークの完成の研究コミュニティにおいて、効果的に対処されたことは言うまでもなく、一度も実現されていない。
したがって、このような不必要なコード補完がコストに優しい方法で起こらないようにすることは、緊急に必要です。
この大きなギャップを埋めるために、私たちはまず、"low-return prompts"と呼ばれる、不完全なコード補完のプロンプトを調査します。
低リターンプロンプトにおける観測可能な4つのパターンを実証的に同定し、それぞれに必要な情報がないため、モデルの精度の向上だけでは対処が困難である。
これは、そのプロンプト自体に基づいて、そのような低リターンプロンプトを識別できる可能性を示している。
この発見を動機として,コード補完品質を予見することで,低リターンプロンプトを停止させる早期リジェクション機構を提案する。
不完全なコード補完を受けると見積もられるプロンプトは、モデルに送信されない。
さらに,本機構の実現可能性を示す5種類の推定器について検討した。
実験の結果、推定器は97.4%の精度でコード補完要求の20%を拒否できることがわかった。
Currently, large pre-trained language models are widely applied in neural code completion systems. Though large code models significantly outperform their smaller counterparts, around 70\% of displayed code completions from Github Copilot are not accepted by developers. Being reviewed but not accepted, their help to developer productivity is considerably limited and may conversely aggravate the workload of developers, as the code completions are automatically and actively generated in state-of-the-art code completion systems as developers type out once the service is enabled. Even worse, considering the high cost of the large code models, it is a huge waste of computing resources and energy, which severely goes against the sustainable development principle of AI technologies. However, such waste has never been realized, not to mention effectively addressed, in the research community for neural code completion. Hence, preventing such unhelpful code completions from happening in a cost-friendly way is of urgent need. To fill this significant gap, we first investigate the prompts of unhelpful code completions, called "low-return prompts". We empirically identify four observable patterns in low-return prompts, each lacking necessary information, making it difficult to address through enhancements to the model's accuracy alone. This demonstrates the feasibility of identifying such low-return prompts based on the prompts themselves. Motivated by this finding, we propose an early-rejection mechanism to turn down low-return prompts by foretelling the code completion qualities. The prompts that are estimated to receive unhelpful code completions will not be sent to the model. Furthermore, we investigated five types of estimators to demonstrate the feasibility of the mechanism. The experimental results show that the estimator can reject 20% of code completion requests with a 97.4% Precision. | 翻訳日:2024-08-12 21:11:46 公開日:2024-08-09 |
# 量子ネットワークコードによるテレポーテーションの実証
Demonstration of teleportation across a quantum network code ( http://arxiv.org/abs/2210.02878v2 ) ライセンス: Link先を確認 | Hjalmar Rall, Mark Tame, | (参考訳) 量子ネットワークにおける重要なゴールは、量子情報の転送と通信のためのリソース要求を減らすことである。
量子ネットワーク符号化は、通常競合を示すネットワークに絡み合った状態を分散することで、このような方法を示す。
本研究では,特にノイズの多い中間規模量子デバイスに適したプロトコルであるMQNCについて検討する。
特に, MQNCを最先端の超伝導プロセッサに適応させる技術を開発し, その後量子情報のテレポーテーションに成功した。
実演におけるテレポーテーションは、ブロッホ球の極冠からの量子ビットを考慮し、古典的な方法で達成できる以上の忠実度で起こることが示されている。
また、ヘビーヘックスプロセッサレイアウトへの単純なマッピングと、提案した論理誤り訂正レイアウトへの直接マッピングによるMQNCの一般化を提案する。
私たちの研究は、量子ネットワークのコーディングをテストし、うまく実行するためのいくつかの有用な技術を提供します。
In quantum networks an important goal is to reduce resource requirements for the transport and communication of quantum information. Quantum network coding presents a way of doing this by distributing entangled states over a network that would ordinarily exhibit contention. In this work, we study measurement-based quantum network coding (MQNC), which is a protocol particularly suitable for noisy intermediate-scale quantum devices. In particular, we develop techniques to adapt MQNC to state-of-the-art superconducting processors and subsequently demonstrate successful teleportation of quantum information, giving new insight into MQNC in this context after a previous study was not able to produce a useful degree of entanglement. The teleportation in our demonstration is shown to occur with fidelity higher than could be achieved via classical means, made possible by considering qubits from a polar cap of the Bloch Sphere. We also present a generalization of MQNC with a simple mapping onto the heavy-hex processor layout and a direct mapping onto a proposed logical error-corrected layout. Our work provides some useful techniques for testing and successfully carrying out quantum network coding. | 翻訳日:2024-08-12 21:11:46 公開日:2024-08-09 |
# テトラ拡散:三次元形状生成のためのテトラドラル拡散モデル
TetraDiffusion: Tetrahedral Diffusion Models for 3D Shape Generation ( http://arxiv.org/abs/2211.13220v3 ) ライセンス: Link先を確認 | Nikolai Kalischek, Torben Peters, Jan D. Wegner, Konrad Schindler, | (参考訳) 確率的退化拡散モデル (DDM) は2次元画像生成の新しい標準を定めている。
3Dコンテンツ作成のためのDDMの拡張は、研究の活発な分野である。
本稿では, 3次元空間を四面体分割した拡散モデルTetraDiffusionを提案し, 効率よく高分解能な3次元形状生成を実現する。
我々のモデルは、四面体分割に直接作用する畳み込みと転置畳み込みの演算子を導入し、色などの付加属性をシームレスに含める。
注目すべきは、TetraDiffusionは前例のない解像度で、ほぼリアルタイムで詳細な3Dオブジェクトの迅速なサンプリングを可能にすることだ。
また、2D画像に条件付けされた3D形状の生成にも適しています。
既存の3Dメッシュ拡散技術と比較して,提案手法は推論速度の最大200倍高速で,標準のコンシューマハードウェア上で動作し,優れた結果が得られる。
Probabilistic denoising diffusion models (DDMs) have set a new standard for 2D image generation. Extending DDMs for 3D content creation is an active field of research. Here, we propose TetraDiffusion, a diffusion model that operates on a tetrahedral partitioning of 3D space to enable efficient, high-resolution 3D shape generation. Our model introduces operators for convolution and transpose convolution that act directly on the tetrahedral partition, and seamlessly includes additional attributes such as color. Remarkably, TetraDiffusion enables rapid sampling of detailed 3D objects in nearly real-time with unprecedented resolution. It's also adaptable for generating 3D shapes conditioned on 2D images. Compared to existing 3D mesh diffusion techniques, our method is up to 200 times faster in inference speed, works on standard consumer hardware, and delivers superior results. | 翻訳日:2024-08-12 21:11:46 公開日:2024-08-09 |
# グループエンベロープ規則化を用いたkレベル構造スパースニューラルネットワークの学習
Learning k-Level Structured Sparse Neural Networks Using Group Envelope Regularization ( http://arxiv.org/abs/2212.12921v4 ) ライセンス: Link先を確認 | Yehonathan Refael, Iftach Arbel, Wasim Huleihel, | (参考訳) 計算リソースの広範なニーズは、リソースの制約のあるデバイスに大規模ディープニューラルネットワーク(DNN)をデプロイする上で、大きな障害となる。
同時に、研究はこれらのDNNパラメータのかなりの数が冗長で外在性であることを示した。
本稿では,DNNハードウェア展開課題のブリッジ化を目的とした,構造化されたスパースニューラルネットワークの学習手法を提案する。
Weighted Group Sparse Envelope Function (WGSEF) と呼ばれる新しい正規化手法を開発し、Sparse Envelop Function (SEF) を一般化し、ニューロン群を選択(または無効化)し、冗長性を低減し、計算効率を向上させる。
この方法は推論時間を短縮し、フィルタ、チャネル、フィルタ形状、層深さ、単一のパラメータ(非構造化)など、あらゆるハードウェアがグループ定義を指定できるため、メモリ需要と消費電力の削減を目指している。
WGSEFの特性は、トレーニング収束時に所望の空間レベルの事前定義を可能にする。
冗長パラメータの場合、この手法は無視可能なネットワーク精度の劣化を維持するか、あるいは精度の向上につながる可能性がある。
提案手法は,WGSEF正則化器とその近位演算子を,グループ変数の数に対して最悪の線形複雑度で効率的に計算する。
近似勾配に基づく最適化手法を用いてモデルをトレーニングし、ニューラルネットワーク損失とWGSEFを取り入れた非凸最小化問題に取り組む。
最後に,提案手法の有効性を,圧縮率,精度,推論遅延の観点から実験的に検証した。
The extensive need for computational resources poses a significant obstacle to deploying large-scale Deep Neural Networks (DNN) on devices with constrained resources. At the same time, studies have demonstrated that a significant number of these DNN parameters are redundant and extraneous. In this paper, we introduce a novel approach for learning structured sparse neural networks, aimed at bridging the DNN hardware deployment challenges. We develop a novel regularization technique, termed Weighted Group Sparse Envelope Function (WGSEF), generalizing the Sparse Envelop Function (SEF), to select (or nullify) neuron groups, thereby reducing redundancy and enhancing computational efficiency. The method speeds up inference time and aims to reduce memory demand and power consumption, thanks to its adaptability which lets any hardware specify group definitions, such as filters, channels, filter shapes, layer depths, a single parameter (unstructured), etc. The properties of the WGSEF enable the pre-definition of a desired sparsity level to be achieved at the training convergence. In the case of redundant parameters, this approach maintains negligible network accuracy degradation or can even lead to improvements in accuracy. Our method efficiently computes the WGSEF regularizer and its proximal operator, in a worst-case linear complexity relative to the number of group variables. Employing a proximal-gradient-based optimization technique, to train the model, it tackles the non-convex minimization problem incorporating the neural network loss and the WGSEF. Finally, we experiment and illustrate the efficiency of our proposed method in terms of the compression ratio, accuracy, and inference latency. | 翻訳日:2024-08-12 21:11:46 公開日:2024-08-09 |
# 等価・拡張型ニューラルネットワークの最適化ダイナミクス
Optimization Dynamics of Equivariant and Augmented Neural Networks ( http://arxiv.org/abs/2303.13458v4 ) ライセンス: Link先を確認 | Oskar Nordenfors, Fredrik Ohlsson, Axel Flinth, | (参考訳) 本稿では、対称データに対するニューラルネットワークの最適化について検討し、データ拡張を用いたアーキテクチャの制約戦略について比較する。
解析の結果,許容層と同変層の相対幾何学が重要な役割を担っていることが明らかとなった。
データ、ネットワーク、損失、対称性の群に関する自然な仮定の下で、対応する直交射影が可換であるという意味で、許容層と同変層の空間の整合性は、2つの戦略に対して同変定常点の集合が同一であることを示す。
ネットワークの線形層にもユニタリパラメトリゼーションが与えられる場合、同変層の集合は拡張モデルの勾配流の下でも不変である。
しかし, 後者の状況においても, 定常点は, 明らかな同変モデルに対して安定であるにもかかわらず, 強化訓練において不安定である可能性が示唆された。
We investigate the optimization of neural networks on symmetric data, and compare the strategy of constraining the architecture to be equivariant to that of using data augmentation. Our analysis reveals that that the relative geometry of the admissible and the equivariant layers, respectively, plays a key role. Under natural assumptions on the data, network, loss, and group of symmetries, we show that compatibility of the spaces of admissible layers and equivariant layers, in the sense that the corresponding orthogonal projections commute, implies that the sets of equivariant stationary points are identical for the two strategies. If the linear layers of the network also are given a unitary parametrization, the set of equivariant layers is even invariant under the gradient flow for augmented models. Our analysis however also reveals that even in the latter situation, stationary points may be unstable for augmented training although they are stable for the manifestly equivariant models. | 翻訳日:2024-08-12 21:11:46 公開日:2024-08-09 |
# 類似した線形表現から学ぶ:適応性、極小性、ロバスト性
Learning from Similar Linear Representations: Adaptivity, Minimaxity, and Robustness ( http://arxiv.org/abs/2303.17765v3 ) ライセンス: Link先を確認 | Ye Tian, Yuqi Gu, Yang Feng, | (参考訳) MTL(Representation Multi-task Learning)は,実践において大きな成功を収めている。
しかし、これらの手法の理論的理解はいまだに欠如している。
既存の理論的な研究のほとんどは、全てのタスクが同じ表現を共有している場合に焦点を当てており、MTLは常に性能を改善していると主張している。
それでも、タスクの数が増えるにつれて、すべてのタスクが同じ表現を共有していると仮定すると、非現実的である。
さらに、経験的発見は、共有表現が必ずしもシングルタスク学習性能を向上しないことを示すことが多い。
本稿では,不規則なタスクを扱いながら,‘textit{similar’の線形表現を用いてタスクから学習する方法を理解することを目的とする。
そこで本研究では,経験的リスク最小化法とスペクトル法を提案し,類似性構造と類似性構造との類似性について検討した。
どちらのアルゴリズムも、タスク間の表現が十分に似ていて、外れたタスクの割合が小さい場合、シングルタスク学習より優れている。
さらに、表現が異なっていたとしても、少なくともシングルタスク学習と同様に、常に実行されます。
我々は,両手法が大局的にほぼ最適であることを示すために,情報理論の下限を提供し,スペクトル法は外乱タスクの欠如において最適であることを示した。
さらに,未知の固有次元に適応するしきい値アルゴリズムを導入する。
理論的な結果を検証するため,広範囲な数値実験を行った。
Representation multi-task learning (MTL) has achieved tremendous success in practice. However, the theoretical understanding of these methods is still lacking. Most existing theoretical works focus on cases where all tasks share the same representation, and claim that MTL almost always improves performance. Nevertheless, as the number of tasks grows, assuming all tasks share the same representation is unrealistic. Furthermore, empirical findings often indicate that a shared representation does not necessarily improve single-task learning performance. In this paper, we aim to understand how to learn from tasks with \textit{similar but not exactly the same} linear representations, while dealing with outlier tasks. Assuming a known intrinsic dimension, we proposed a penalized empirical risk minimization method and a spectral method that are \textit{adaptive} to the similarity structure and \textit{robust} to outlier tasks. Both algorithms outperform single-task learning when representations across tasks are sufficiently similar and the proportion of outlier tasks is small. Moreover, they always perform at least as well as single-task learning, even when the representations are dissimilar. We provided information-theoretic lower bounds to demonstrate that both methods are nearly \textit{minimax} optimal in a large regime, with the spectral method being optimal in the absence of outlier tasks. Additionally, we introduce a thresholding algorithm to adapt to an unknown intrinsic dimension. We conducted extensive numerical experiments to validate our theoretical findings. | 翻訳日:2024-08-12 21:11:46 公開日:2024-08-09 |
# 多レベル肺動脈に対する高能率自動分節法 : PARSEの課題
Efficient automatic segmentation for multi-level pulmonary arteries: The PARSE challenge ( http://arxiv.org/abs/2304.03708v2 ) ライセンス: Link先を確認 | Gongning Luo, Kuanquan Wang, Jun Liu, Shuo Li, Xinjie Liang, Xiangyu Li, Shaowei Gan, Wei Wang, Suyu Dong, Wenyi Wang, Pengxin Yu, Enyou Liu, Hongrong Wei, Na Wang, Jia Guo, Huiqi Li, Zhao Zhang, Ziwei Zhao, Na Gao, Nan An, Ashkan Pakzad, Bojidar Rangelov, Jiaqi Dou, Song Tian, Zeyu Liu, Yi Wang, Ampatishan Sivalingam, Kumaradevan Punithakumar, Zhaowen Qiu, Xin Gao, | (参考訳) CTPA画像における多値肺動脈(本枝,分枝)の自動分画は臨床応用において重要な役割を担っている。
しかし、既存のほとんどの手法は、メインPAまたはブランチPAセグメンテーションのみに集中し、セグメンテーション効率を無視する。
さらに、PAセグメンテーションにフォーカスしたパブリックな大規模データセットは存在しないため、異なるメソッドを比較することは極めて困難である。
マルチレベルPAセグメンテーションアルゴリズムをベンチマークするために、最初の \textbf{P}ulmonary \textbf{AR}tery \textbf{SE}gmentation (PARSE) 課題を整理した。
一方、メインのPAとブランチのPAセグメンテーションの両方に焦点を当てます。
一方, 臨床応用性の向上のために, PAセグメンテーション精度を確保しつつ, 同じスコア重みをセグメンテーション効率(主に推論時の動作時間とGPUメモリ消費)に割り当てる。
本稿では,上位アルゴリズムの要約と,効率的かつ高精度なマルチレベルPA自動セグメンテーションを提案する。
我々は、コミュニティが将来のアルゴリズム開発をベンチマークするためのオープンアクセスとしてのPARSEチャレンジを、 \url{https://parse2022.grand-challenge.org/Parse2022/}で提供します。
Efficient automatic segmentation of multi-level (i.e. main and branch) pulmonary arteries (PA) in CTPA images plays a significant role in clinical applications. However, most existing methods concentrate only on main PA or branch PA segmentation separately and ignore segmentation efficiency. Besides, there is no public large-scale dataset focused on PA segmentation, which makes it highly challenging to compare the different methods. To benchmark multi-level PA segmentation algorithms, we organized the first \textbf{P}ulmonary \textbf{AR}tery \textbf{SE}gmentation (PARSE) challenge. On the one hand, we focus on both the main PA and the branch PA segmentation. On the other hand, for better clinical application, we assign the same score weight to segmentation efficiency (mainly running time and GPU memory consumption during inference) while ensuring PA segmentation accuracy. We present a summary of the top algorithms and offer some suggestions for efficient and accurate multi-level PA automatic segmentation. We provide the PARSE challenge as open-access for the community to benchmark future algorithm developments at \url{https://parse2022.grand-challenge.org/Parse2022/}. | 翻訳日:2024-08-12 21:11:46 公開日:2024-08-09 |
# CREMP: 機械学習のための多環ペプチドコンフォーマーアンサンブル
CREMP: Conformer-rotamer ensembles of macrocyclic peptides for machine learning ( http://arxiv.org/abs/2305.08057v2 ) ライセンス: Link先を確認 | Colin A. Grambow, Hayley Weir, Christian N. Cunningham, Tommaso Biancalani, Kangway V. Chuang, | (参考訳) 大環状ペプチドのコンフォメーションランドスケープをモデル化するための計算および機械学習アプローチは、合理的な設計と最適化を可能にする可能性がある。
しかし、マクロサイクル測地をモデル化するための正確で高速でスケーラブルな手法は、いまだ解明されていない。
近年の深層学習アプローチはタンパク質の構造予測と小分子コンフォメーションアンサンブルの生成を著しく加速させてきたが、その特異性からマクロ環状ペプチドについては類似の進歩はなされていない。
本稿では,マクロ環状ペプチドの機械学習モデルの開発と評価のための資源であるCREMPを紹介する。
CREMPは36,198個のマクロ環状ペプチドと、Conformer-Rotamer Ensemble Sampling Tool (CREST)を用いて生成された高品質な構造アンサンブルを含む。
さらに、この新しいデータセットには3130万近いユニークなマクロサイクルのジオメトリが含まれており、それぞれが半経験的拡張タイトバインディング(xTB)DFT計算から導かれるエネルギーでアノテートされている。
さらに,2つのコンフォメーションアンサンブルを実験するために,受動透過性データを報告した3,258個のマクロサイクルを含む。
このデータセットは、新しい治療のためのペプチド設計と最適化を改善する機械学習モデルの開発を可能にすることを期待する。
Computational and machine learning approaches to model the conformational landscape of macrocyclic peptides have the potential to enable rational design and optimization. However, accurate, fast, and scalable methods for modeling macrocycle geometries remain elusive. Recent deep learning approaches have significantly accelerated protein structure prediction and the generation of small-molecule conformational ensembles, yet similar progress has not been made for macrocyclic peptides due to their unique properties. Here, we introduce CREMP, a resource generated for the rapid development and evaluation of machine learning models for macrocyclic peptides. CREMP contains 36,198 unique macrocyclic peptides and their high-quality structural ensembles generated using the Conformer-Rotamer Ensemble Sampling Tool (CREST). Altogether, this new dataset contains nearly 31.3 million unique macrocycle geometries, each annotated with energies derived from semi-empirical extended tight-binding (xTB) DFT calculations. Additionally, we include 3,258 macrocycles with reported passive permeability data to couple conformational ensembles to experiment. We anticipate that this dataset will enable the development of machine learning models that can improve peptide design and optimization for novel therapeutics. | 翻訳日:2024-08-12 21:11:46 公開日:2024-08-09 |
# ログ解析がディープラーニングに基づく異常検出に及ぼす影響
Impact of Log Parsing on Deep Learning-Based Anomaly Detection ( http://arxiv.org/abs/2305.15897v3 ) ライセンス: Link先を確認 | Zanis Ali Khan, Donghwan Shin, Domenico Bianculli, Lionel Briand, | (参考訳) ソフトウェアシステムは大量のデータをログし、重要な実行時情報を記録します。
このようなログは、例えばログに記録された情報を処理することで、分析中のシステムの異常な振る舞いを自動的に検出することを目的として、ログベースの異常検出に使用される。
ディープラーニングモデルに基づくログベースの異常検出技術には、ログ解析と呼ばれる前処理ステップがある。
しかし, ログ解析が異常検出手法の精度に与える影響を理解することは, これまでにほとんど注目されていない。
したがって、ログ解析のキーとなるプロパティが何であるかを調べるには、理想的には異常検出を支援する必要がある。
本稿では, ログ解析が異常検出精度に与える影響について, 13のログ解析技術, 7の異常検出技術(ディープラーニングに基づく5つ, 従来の機械学習に基づく2つ)を用いて, 3つの公開ログデータセット上での総合的研究を行った。
実験結果から,ログ解析の精度と異常検出の精度との間には,ログ解析の精度を測る基準によらず,強い相関関係は認められなかった。
さらに, 従来の理論結果から, 正確な異常検出を行う上で重要な役割を担う精度に対して, ログ解析結果の識別可能性を示す性質を実験的に検証した。
Software systems log massive amounts of data, recording important runtime information. Such logs are used, for example, for log-based anomaly detection, which aims to automatically detect abnormal behaviors of the system under analysis by processing the information recorded in its logs. Many log-based anomaly detection techniques based on deep learning models include a pre-processing step called log parsing. However, understanding the impact of log parsing on the accuracy of anomaly detection techniques has received surprisingly little attention so far. Investigating what are the key properties log parsing techniques should ideally have to help anomaly detection is therefore warranted. In this paper, we report on a comprehensive empirical study on the impact of log parsing on anomaly detection accuracy, using 13 log parsing techniques, seven anomaly detection techniques (five based on deep learning and two based on traditional machine learning) on three publicly available log datasets. Our empirical results show that, despite what is widely assumed, there is no strong correlation between log parsing accuracy and anomaly detection accuracy, regardless of the metric used for measuring log parsing accuracy. Moreover, we experimentally confirm existing theoretical results showing that it is a property that we refer to as distinguishability in log parsing results as opposed to their accuracy that plays an essential role in achieving accurate anomaly detection. | 翻訳日:2024-08-12 21:01:50 公開日:2024-08-09 |
# 曲率誘導サンプリングと不確かさ拡張表現による表面ニューラルインプリシタンス向上
Enhancing Surface Neural Implicits with Curvature-Guided Sampling and Uncertainty-Augmented Representations ( http://arxiv.org/abs/2306.02099v4 ) ライセンス: Link先を確認 | Lu Sang, Abhishek Saroha, Maolin Gao, Daniel Cremers, | (参考訳) ニューラルな暗黙表現は、その解像度への適応性や複雑なトポロジーのサポートにより、曲面をモデル化するのに一般的な選択肢となっている。
過去の研究は、地上の真理点雲やメッシュ上でのトレーニングによって、印象的な再構築品質を達成したが、データ取得については議論せず、再構築時の入力品質やサンプリング方法の影響を無視することが多い。
本稿では,高忠実度3D再構成作業において,深度画像を直接消化する手法を提案する。
この目的のために、入力深度画像に基づいて直接計算される微分可能な幾何学的特徴を限界計算コストのみで組み込んで、高効率なトレーニングデータを生成するための単純なサンプリング戦略を提案する。
その単純さのため、我々のサンプリング戦略は様々な一般的な手法に簡単に組み込むことができ、トレーニングプロセスをより安定して効率的にすることができる。
その単純さにもかかわらず、本手法は古典的および学習的ベースラインの両方を上回り、合成と実世界の両方のデータセットで最先端の結果を示す。
Neural implicit representations have become a popular choice for modeling surfaces due to their adaptability in resolution and support for complex topology. While previous works have achieved impressive reconstruction quality by training on ground truth point clouds or meshes, they often do not discuss the data acquisition and ignore the effect of input quality and sampling methods during reconstruction. In this paper, we introduce a method that directly digests depth images for the task of high-fidelity 3D reconstruction. To this end, a simple sampling strategy is proposed to generate highly effective training data, by incorporating differentiable geometric features computed directly based on the input depth images with only marginal computational cost. Due to its simplicity, our sampling strategy can be easily incorporated into diverse popular methods, allowing their training process to be more stable and efficient. Despite its simplicity, our method outperforms a range of both classical and learning-based baselines and demonstrates state-of-the-art results in both synthetic and real-world datasets. | 翻訳日:2024-08-12 21:01:50 公開日:2024-08-09 |
# 時系列グラフニューラルネットワークに関する調査:予測,分類,インプット,異常検出
A Survey on Graph Neural Networks for Time Series: Forecasting, Classification, Imputation, and Anomaly Detection ( http://arxiv.org/abs/2307.03759v3 ) ライセンス: Link先を確認 | Ming Jin, Huan Yee Koh, Qingsong Wen, Daniele Zambon, Cesare Alippi, Geoffrey I. Webb, Irwin King, Shirui Pan, | (参考訳) 時系列は、物理センサーとオンラインプロセス(仮想センサー)の両方によって生成され、動的システム計測を記録するのに使用される主要なデータタイプである。
そのため、時系列分析は、利用可能なデータに暗黙的な情報の富を解放するために不可欠である。
グラフニューラルネットワーク(GNN)の最近の進歩により、時系列分析のためのGNNベースのアプローチが急増している。
これらのアプローチは、従来のニューラルネットワークベースの手法では難しい、時間的および変数間の関係を明示的にモデル化することができる。
本調査では,時系列解析(GNN4TS)のためのグラフニューラルネットワークの網羅的レビューを行い,予測,分類,異常検出,計算の4つの基本次元を網羅した。
我々の目標は、デザイナーや実践者がGNN4TSの理解を深め、アプリケーションを構築し、研究を進めることにある。
まず、GNN4TSの総合的なタスク指向分類法を提案する。
そこで我々は,代表的研究成果を提示し,GNN4TSのメインストリーム応用について紹介する。
今後の研究方向性に関する総合的な議論が、調査を完了させる。
この調査は、初めて、GNNベースの時系列研究に関する膨大な知識を集め、基礎、実践的応用、時系列分析のためのグラフニューラルネットワークの機会を強調した。
Time series are the primary data type used to record dynamic system measurements and generated in great volume by both physical sensors and online processes (virtual sensors). Time series analytics is therefore crucial to unlocking the wealth of information implicit in available data. With the recent advancements in graph neural networks (GNNs), there has been a surge in GNN-based approaches for time series analysis. These approaches can explicitly model inter-temporal and inter-variable relationships, which traditional and other deep neural network-based methods struggle to do. In this survey, we provide a comprehensive review of graph neural networks for time series analysis (GNN4TS), encompassing four fundamental dimensions: forecasting, classification, anomaly detection, and imputation. Our aim is to guide designers and practitioners to understand, build applications, and advance research of GNN4TS. At first, we provide a comprehensive task-oriented taxonomy of GNN4TS. Then, we present and discuss representative research works and introduce mainstream applications of GNN4TS. A comprehensive discussion of potential future research directions completes the survey. This survey, for the first time, brings together a vast array of knowledge on GNN-based time series research, highlighting foundations, practical applications, and opportunities of graph neural networks for time series analysis. | 翻訳日:2024-08-12 21:01:50 公開日:2024-08-09 |
# Pair-Net for Panoptic Scene Graph Generation
Pair then Relation: Pair-Net for Panoptic Scene Graph Generation ( http://arxiv.org/abs/2307.08699v3 ) ライセンス: Link先を確認 | Jinghao Wang, Zhengyu Wen, Xiangtai Li, Zujin Guo, Jingkang Yang, Ziwei Liu, | (参考訳) Panoptic Scene Graph(PSG)は、SGG(Scene Graph Generation)において、ボックスの代わりにパノスコープセグメンテーションを使用してより包括的なシーングラフ表現を作成することを目的とした課題である。
SGGと比較すると、PSGはピクセルレベルのセグメント出力と完全な関係探索(物と物の関係も考慮している)という難題がいくつかある。
したがって、現在のPSGメソッドは性能が限られており、下流のタスクやアプリケーションを妨げる。
本研究の目的は、PSGの新しい強力なベースラインを設計することである。
そこで我々はまず,既存のPSGモデルのボトルネックを特定するための詳細な分析を行い,従来のPSG法では無視されていた,オブジェクト間のペアワイズリコールが重要な要因であることを確認した。
Pair then Relation (Pair-Net) - Pair Proposal Network (PPN) を用いて,対象と対象間の疎結合関係の学習とフィルタリングを行う。
さらに,2つのオブジェクトペアの疎結合性も観察し,PPN内の軽量マトリックス学習器を設計し,ペア提案生成のためのペアワイズ関係を直接学習する。
広範囲なアブレーションと解析により, セグメンタソリッドベースラインの活用により, 本手法は大幅に改善される。
特に,本手法はベースラインであるPSGFormerに比べて10倍以上の絶対ゲインを達成する。
この記事のコードはhttps://github.com/king159/Pair-Net.comで公開されている。
Panoptic Scene Graph (PSG) is a challenging task in Scene Graph Generation (SGG) that aims to create a more comprehensive scene graph representation using panoptic segmentation instead of boxes. Compared to SGG, PSG has several challenging problems: pixel-level segment outputs and full relationship exploration (It also considers thing and stuff relation). Thus, current PSG methods have limited performance, which hinders downstream tasks or applications. The goal of this work aims to design a novel and strong baseline for PSG. To achieve that, we first conduct an in-depth analysis to identify the bottleneck of the current PSG models, finding that inter-object pair-wise recall is a crucial factor that was ignored by previous PSG methods. Based on this and the recent query-based frameworks, we present a novel framework: Pair then Relation (Pair-Net), which uses a Pair Proposal Network (PPN) to learn and filter sparse pair-wise relationships between subjects and objects. Moreover, we also observed the sparse nature of object pairs for both Motivated by this, we design a lightweight Matrix Learner within the PPN, which directly learns pair-wised relationships for pair proposal generation. Through extensive ablation and analysis, our approach significantly improves upon leveraging the segmenter solid baseline. Notably, our method achieves over 10\% absolute gains compared to our baseline, PSGFormer. The code of this paper is publicly available at https://github.com/king159/Pair-Net. | 翻訳日:2024-08-12 21:01:50 公開日:2024-08-09 |
# ネットワークにおける効率的な動的ランク付けモデル
A model for efficient dynamical ranking in networks ( http://arxiv.org/abs/2307.13544v2 ) ライセンス: Link先を確認 | Andrea Della Vecchia, Kibidi Neocosmos, Daniel B. Larremore, Cristopher Moore, Caterina De Bacco, | (参考訳) 本稿では,2つの相互作用の結果とタイミングを相互に反映した,有向時間帯ネットワークにおける動的ランク付けを推算する物理に着想を得た手法を提案する。
予測された各ノードのランキングは、ゲーム、トーナメント、動物の階層内の相互作用といった実際のシナリオでよく見られるように、勝利や損失のような結果を符号化し、ノードの推定強度や威力を高めたり下げたりする。
この手法は方程式の線形系を解くことで機能し、調整するパラメータは1つしか必要としない。
その結果、対応するアルゴリズムはスケーラブルで効率的である。
合成データと実データの両方を含む様々なアプリケーションにおける相互作用(エッジの存在)とその結果(エッジの方向)を予測する能力を評価することにより,本手法を検証した。
分析の結果,我々の手法の性能は,動的ランキングやインタラクションの結果を予測する既存の手法よりも優れていることがわかった。
We present a physics-inspired method for inferring dynamic rankings in directed temporal networks - networks in which each directed and timestamped edge reflects the outcome and timing of a pairwise interaction. The inferred ranking of each node is real-valued and varies in time as each new edge, encoding an outcome like a win or loss, raises or lowers the node's estimated strength or prestige, as is often observed in real scenarios including sequences of games, tournaments, or interactions in animal hierarchies. Our method works by solving a linear system of equations and requires only one parameter to be tuned. As a result, the corresponding algorithm is scalable and efficient. We test our method by evaluating its ability to predict interactions (edges' existence) and their outcomes (edges' directions) in a variety of applications, including both synthetic and real data. Our analysis shows that in many cases our method's performance is better than existing methods for predicting dynamic rankings and interaction outcomes. | 翻訳日:2024-08-12 21:01:50 公開日:2024-08-09 |
# クラスタベース木構造パーゼン推定による感性を考慮した混合精度量子化と深部ニューラルネットワークの幅最適化
Sensitivity-Aware Mixed-Precision Quantization and Width Optimization of Deep Neural Networks Through Cluster-Based Tree-Structured Parzen Estimation ( http://arxiv.org/abs/2308.06422v3 ) ライセンス: Link先を確認 | Seyedarmin Azizi, Mahdi Nazemi, Arash Fayyazi, Massoud Pedram, | (参考訳) ディープラーニングモデルの複雑さと計算要求が増大するにつれて、ニューラルネットワーク設計のための効果的な最適化手法の必要性が最重要となる。
この研究は、個々のニューラルネットワーク層に対して最適なビット幅と層幅を自動的に選択する革新的な検索メカニズムを導入している。
これにより、ディープニューラルネットワークの効率が著しく向上する。
探索領域はヘッセン式プルーニングを利用することで戦略的に低減され、非致命的パラメータの除去が保証される。
その後、クラスタベース木構造Parzen推定器を用いて、好ましくない結果と好ましくない結果に対する代理モデルの開発について詳述する。
この戦略により、アーキテクチャの可能性の合理化と、トップパフォーマンスの設計の素早いピンポイント化が可能になる。
既知のデータセットに対する厳密なテストを通じて,本手法は既存の手法に対して明確な優位性を証明している。
従来の圧縮手法と比較して, 精度を損なうことなく, モデルサイズが20%減少した。
さらに,本手法は,現在利用可能な最高の検索戦略と比較して,検索時間の12倍の削減を達成している。
その結果,提案手法はニューラルネットワーク設計の最適化の飛躍的な進歩を示し,限られたリソースでモデル設計と実装を迅速に行えるようにすることで,スケーラブルなディープラーニングソリューションの可能性を推進している。
As the complexity and computational demands of deep learning models rise, the need for effective optimization methods for neural network designs becomes paramount. This work introduces an innovative search mechanism for automatically selecting the best bit-width and layer-width for individual neural network layers. This leads to a marked enhancement in deep neural network efficiency. The search domain is strategically reduced by leveraging Hessian-based pruning, ensuring the removal of non-crucial parameters. Subsequently, we detail the development of surrogate models for favorable and unfavorable outcomes by employing a cluster-based tree-structured Parzen estimator. This strategy allows for a streamlined exploration of architectural possibilities and swift pinpointing of top-performing designs. Through rigorous testing on well-known datasets, our method proves its distinct advantage over existing methods. Compared to leading compression strategies, our approach records an impressive 20% decrease in model size without compromising accuracy. Additionally, our method boasts a 12x reduction in search time relative to the best search-focused strategies currently available. As a result, our proposed method represents a leap forward in neural network design optimization, paving the way for quick model design and implementation in settings with limited resources, thereby propelling the potential of scalable deep learning solutions. | 翻訳日:2024-08-12 21:01:50 公開日:2024-08-09 |
# ディープ・ニューラル・プルーニング・タキソノミー, 比較, 分析, 勧告に関する調査
A Survey on Deep Neural Network Pruning-Taxonomy, Comparison, Analysis, and Recommendations ( http://arxiv.org/abs/2308.06767v2 ) ライセンス: Link先を確認 | Hongrong Cheng, Miao Zhang, Javen Qinfeng Shi, | (参考訳) 現代のディープニューラルネットワーク、特に最近の大規模言語モデルには、膨大な計算とストレージリソースを必要とする巨大なモデルサイズが伴っている。
資源制約のある環境に現代的なモデルを配置し、推論時間を加速するために、研究者はニューラルネットワーク圧縮の一般的な研究方向としてプルーニング技術の研究をますます進めてきた。
しかし、刈り込みに関する最新の総合的なレビュー論文が数多く出回っている。
この問題に対処するため、本調査では、分類学におけるディープ・ニューラルネットワーク・プルーニングに関する既存の研究成果を包括的にレビューする。
1) ユニバーサル/特定スピードアップ
2) いつ羽ばたきをするか
3)プルーネの仕方、そして
4) 刈り込み等の圧縮技術の統合。
次に,大規模言語モデルのプルーニング,大規模マルチモーダルモデルのプルーニング,ポストトレーニングプルーニング,既存手法の共通点と相違点に光を当てるための異なる監督レベルなど,新たなトピックを探求する8つのコントラスト設定の徹底的な比較分析を行い,さらなる手法開発の基礎を築いた。
今後の研究を容易にするために、さまざまなアプリケーションにおけるデータセット、ネットワーク、評価のキュレートされたコレクションを構築します。
最後に, 刈り取り方法の選択といくつかの有望な研究方向の予測について, 貴重な勧告を行う。
https://github.com/hrcheng1066/awesome-pruning.comでリポジトリを構築します。
Modern deep neural networks, particularly recent large language models, come with massive model sizes that require significant computational and storage resources. To enable the deployment of modern models on resource-constrained environments and accelerate inference time, researchers have increasingly explored pruning techniques as a popular research direction in neural network compression. However, there is a dearth of up-to-date comprehensive review papers on pruning. To address this issue, in this survey, we provide a comprehensive review of existing research works on deep neural network pruning in a taxonomy of 1) universal/specific speedup, 2) when to prune, 3) how to prune, and 4) fusion of pruning and other compression techniques. We then provide a thorough comparative analysis of eight pairs of contrast settings for pruning and explore emerging topics, including pruning for large language models, large multimodal models, post-training pruning, and different supervision levels for pruning to shed light on the commonalities and differences of existing methods and lay the foundation for further method development. To facilitate future research, we build a curated collection of datasets, networks, and evaluations on different applications. Finally, we provide valuable recommendations on selecting pruning methods and prospect several promising research directions. We build a repository at https://github.com/hrcheng1066/awesome-pruning. | 翻訳日:2024-08-12 21:01:50 公開日:2024-08-09 |
# Indian-BhED:大規模言語モデルにおけるインド中心バイアスの測定データセット
Indian-BhED: A Dataset for Measuring India-Centric Biases in Large Language Models ( http://arxiv.org/abs/2309.08573v2 ) ライセンス: Link先を確認 | Khyati Khandelwal, Manuel Tonneau, Andrew M. Bean, Hannah Rose Kirk, Scott A. Hale, | (参考訳) 数百万人が毎日使用している大規模言語モデル(LLM)は、社会的バイアスをエンコードし、ユーザを表現上の害に晒すことができる。
LLMバイアスに関する多くの奨学金は存在するが、主に西洋中心の枠組みを採用し、グローバル・サウスのバイアスレベルや潜在的な害に比較的少ない。
本稿では,インドにおけるカーストや宗教のステレオタイプという文脈におけるステレオタイプおよび反ステレオタイプ例を含む,インド型データセットの1つであるIndian-BhEDを用いて,ポピュラーなLCMのステレオタイプバイアスをインド中心のフレームに従って定量化する。
テスト対象のLSMの大多数は、特に男女や人種といった西洋の文脈で伝統的に研究されてきた偏見の軸と比較して、インドの文脈でステレオタイプを出力する確率が強いことが判明した。
特に, GPT-2, GPT-2 Large, GPT 3.5は, カストの軸(63~79%)と宗教(69~72%)のすべての文の1パーセントとして, ステレオタイプ出力を優先する確率が高い。
最終的に,LSMの有害な行動の潜在的な原因を解明し,ステレオタイプとアンチステレオタイプの両方のバイアスを減らすためのポジト介入技術について検討した。
この研究の結果は、AIの公正性を研究し、LLMを評価する際に、より多様な音声を含める必要性を強調している。
Large Language Models (LLMs), now used daily by millions, can encode societal biases, exposing their users to representational harms. A large body of scholarship on LLM bias exists but it predominantly adopts a Western-centric frame and attends comparatively less to bias levels and potential harms in the Global South. In this paper, we quantify stereotypical bias in popular LLMs according to an Indian-centric frame through Indian-BhED, a first of its kind dataset, containing stereotypical and anti-stereotypical examples in the context of caste and religious stereotypes in India. We find that the majority of LLMs tested have a strong propensity to output stereotypes in the Indian context, especially when compared to axes of bias traditionally studied in the Western context, such as gender and race. Notably, we find that GPT-2, GPT-2 Large, and GPT 3.5 have a particularly high propensity for preferring stereotypical outputs as a percent of all sentences for the axes of caste (63-79%) and religion (69-72%). We finally investigate potential causes for such harmful behaviour in LLMs, and posit intervention techniques to reduce both stereotypical and anti-stereotypical biases. The findings of this work highlight the need for including more diverse voices when researching fairness in AI and evaluating LLMs. | 翻訳日:2024-08-12 21:01:50 公開日:2024-08-09 |
# グラフニューラルネットワークを用いた局所通信による集合認識多エージェント経路の最適化
Optimizing Crowd-Aware Multi-Agent Path Finding through Local Communication with Graph Neural Networks ( http://arxiv.org/abs/2309.10275v3 ) ライセンス: Link先を確認 | Phu Pham, Aniket Bera, | (参考訳) 混み合った環境におけるマルチエージェント経路探索(MAPF)は,システム内のすべてのエージェントに対して衝突のない経路を見つけることを目的として,動作計画において困難な問題を示す。
MAPFは、航空群、自律倉庫ロボット、自動運転車など、さまざまな分野の幅広い応用を見出している。
MAPFへの現在のアプローチは、一般的に中央集権と分散計画の2つの主要なカテゴリに分類される。
中央集権プランニングは、エージェントや状態の数が増加すると次元性の呪いに悩まされるため、大規模で複雑な環境ではうまくスケールしない。
一方、分散計画では、エージェントが部分的に観測可能な環境下でリアルタイムの経路計画に従事し、暗黙の協調を示すことができる。
しかし、それらは密集環境における緩やかな収束と性能劣化に悩まされている。
本稿では,グラフニューラルネットワーク(GNN)によるエージェント間の効率的なローカル通信を実現することにより,混雑環境における状況認識と意思決定の容易化を実現する,クラウド対応の分散強化学習手法であるCRAMPを紹介する。
シミュレーション環境でCRAMPを試験し,MAPFの最先端の分散化手法よりも優れた性能を示す。
CRAMPは, メースパンおよび衝突数で測定された溶液品質を最大59%改善し, 従来の方法と比較して最大35%改善した。
Multi-Agent Path Finding (MAPF) in crowded environments presents a challenging problem in motion planning, aiming to find collision-free paths for all agents in the system. MAPF finds a wide range of applications in various domains, including aerial swarms, autonomous warehouse robotics, and self-driving vehicles. Current approaches to MAPF generally fall into two main categories: centralized and decentralized planning. Centralized planning suffers from the curse of dimensionality when the number of agents or states increases and thus does not scale well in large and complex environments. On the other hand, decentralized planning enables agents to engage in real-time path planning within a partially observable environment, demonstrating implicit coordination. However, they suffer from slow convergence and performance degradation in dense environments. In this paper, we introduce CRAMP, a novel crowd-aware decentralized reinforcement learning approach to address this problem by enabling efficient local communication among agents via Graph Neural Networks (GNNs), facilitating situational awareness and decision-making capabilities in congested environments. We test CRAMP on simulated environments and demonstrate that our method outperforms the state-of-the-art decentralized methods for MAPF on various metrics. CRAMP improves the solution quality up to 59% measured in makespan and collision count, and up to 35% improvement in success rate in comparison to previous methods. | 翻訳日:2024-08-12 21:01:50 公開日:2024-08-09 |
# Byzantine-Resilient Federated PCA and Low Rank Column-wise Sensing
Byzantine-Resilient Federated PCA and Low Rank Column-wise Sensing ( http://arxiv.org/abs/2309.14512v3 ) ライセンス: Link先を確認 | Ankit Pratap Singh, Namrata Vaswani, | (参考訳) 本研究は、フェデレートされた主成分分析(PCA)とフェデレーションされたローランクカラムワイズセンシング(LRCS)の2つの関連する学習問題を考察する。
ノード攻撃はビザンティンであると仮定され、これは攻撃者は全能であり、共謀できることを意味する。
本稿では,PCA問題の解法であり,LRCS問題の鍵となる部分であるSubspace-Medianという,ビザンチン耐性の高い通信効率・サンプリング効率のアルゴリズムを提案する。
また, フェデレーションPCAにおいて, 最も自然なビザンチン耐性溶液について検討した。
第2の貢献は、ビザンチン系水平結合LRCSの完全交互勾配降下(GD)と最小化(altGDmin)アルゴリズムと、それに対するサンプルおよび通信複雑性の保証である。
大規模なシミュレーション実験は、我々の理論的な保証を裏付けるために用いられる。
LRCSのために開発したアイデアは、他のLRリカバリ問題にも容易に拡張可能である。
This work considers two related learning problems in a federated attack prone setting: federated principal components analysis (PCA) and federated low rank column-wise sensing (LRCS). The node attacks are assumed to be Byzantine which means that the attackers are omniscient and can collude. We introduce a novel provably Byzantine-resilient communication-efficient and sampleefficient algorithm, called Subspace-Median, that solves the PCA problem and is a key part of the solution for the LRCS problem. We also study the most natural Byzantine-resilient solution for federated PCA, a geometric median based modification of the federated power method, and explain why it is not useful. Our second main contribution is a complete alternating gradient descent (GD) and minimization (altGDmin) algorithm for Byzantine-resilient horizontally federated LRCS and sample and communication complexity guarantees for it. Extensive simulation experiments are used to corroborate our theoretical guarantees. The ideas that we develop for LRCS are easily extendable to other LR recovery problems as well. | 翻訳日:2024-08-12 21:01:50 公開日:2024-08-09 |
# MVMR:マルチディトラクタに対するビデオモーメント検索の忠実度評価のための新しいフレームワーク
MVMR: A New Framework for Evaluating Faithfulness of Video Moment Retrieval against Multiple Distractors ( http://arxiv.org/abs/2309.16701v4 ) ライセンス: Link先を確認 | Nakyeong Yang, Minsung Kim, Seunghyun Yoon, Joongbo Shin, Kyomin Jung, | (参考訳) マルチメディアコンテンツの爆発により、ビデオからのテキストクエリにマッチするビデオモーメントを検出することを目的としたビデオモーメント検索(VMR)が重要問題として集中的に研究されている。
しかし、既存のVMRフレームワークは、ビデオが与えられると仮定して、ビデオのモーメント検索性能を評価する。
本稿では,VMRモデルの忠実度を評価するためのMVMR(Massive Videos Moment Retrieval for Faithfulness Evaluation)タスクを提案する。
そこで本研究では,テキストと視覚的セマンティック距離の検証手法を用いて,負の(トラクタ)と正の(偽の)ビデオセットを分類する大規模ビデオプール構築フレームワークを提案する。
これらの手法を用いて既存のVMRデータセットを拡張し、3つの実用的なMVMRデータセットを新たに構築する。
この課題を解決するために,(1)弱教師付き潜在的負の学習と(2)方向のハード負の学習という2つの対照的な学習メカニズムを用いた,強力な情報的サンプル重み付き学習手法であるCroCを提案する。
MVMRデータセットを用いた実験結果から,既存のVMRモデルは誤情報(ディストラクタ)に容易に注意をそらすことができるが,我々のモデルは極めて堅牢な性能を示し,CroCsはイントラクタに対する正のモーメントを識別するのに不可欠であることが示された。
私たちのコードとデータセットは、https://github.com/yny0506/Massive-Videos-Moment-Retrieval.comで公開されています。
With the explosion of multimedia content, video moment retrieval (VMR), which aims to detect a video moment that matches a given text query from a video, has been studied intensively as a critical problem. However, the existing VMR framework evaluates video moment retrieval performance, assuming that a video is given, which may not reveal whether the models exhibit overconfidence in the falsely given video. In this paper, we propose the MVMR (Massive Videos Moment Retrieval for Faithfulness Evaluation) task that aims to retrieve video moments within a massive video set, including multiple distractors, to evaluate the faithfulness of VMR models. For this task, we suggest an automated massive video pool construction framework to categorize negative (distractors) and positive (false-negative) video sets using textual and visual semantic distance verification methods. We extend existing VMR datasets using these methods and newly construct three practical MVMR datasets. To solve the task, we further propose a strong informative sample-weighted learning method, CroCs, which employs two contrastive learning mechanisms: (1) weakly-supervised potential negative learning and (2) cross-directional hard-negative learning. Experimental results on the MVMR datasets reveal that existing VMR models are easily distracted by the misinformation (distractors), whereas our model shows significantly robust performance, demonstrating that CroCs is essential to distinguishing positive moments against distractors. Our code and datasets are publicly available: https://github.com/yny0506/Massive-Videos-Moment-Retrieval. | 翻訳日:2024-08-12 20:51:27 公開日:2024-08-09 |
# General Lipschitz: 変換依存ランダム化平滑化による可解セマンティック変換に対するロバスト性証明
General Lipschitz: Certified Robustness Against Resolvable Semantic Transformations via Transformation-Dependent Randomized Smoothing ( http://arxiv.org/abs/2309.16710v2 ) ライセンス: Link先を確認 | Dmitrii Korzh, Mikhail Pautov, Olga Tsymboi, Ivan Oseledets, | (参考訳) ランダム化平滑化(英: Randomized smoothing)は、有界な大きさの加法的対向摂動に対して確実に堅牢な画像分類器を構築するための最先端のアプローチである。
しかし、意味変換(例えば、画像のぼかし、翻訳、ガンマ補正)とその構成に対して妥当な証明書を構築することはより複雑である。
本研究では,構成可能な可解なセマンティック摂動に対してニューラルネットワークを認証する新しいフレームワークであるemph{General Lipschitz (GL)を提案する。
フレームワーク内では、スムーズな分類器w.r.t.変換パラメータの変換依存リプシッツ連続性を解析し、対応するロバスト性証明を導出する。
提案手法は,ImageNetデータセットにおける最先端のアプローチと同等に機能する。
Randomized smoothing is the state-of-the-art approach to construct image classifiers that are provably robust against additive adversarial perturbations of bounded magnitude. However, it is more complicated to construct reasonable certificates against semantic transformation (e.g., image blurring, translation, gamma correction) and their compositions. In this work, we propose \emph{General Lipschitz (GL),} a new framework to certify neural networks against composable resolvable semantic perturbations. Within the framework, we analyze transformation-dependent Lipschitz-continuity of smoothed classifiers w.r.t. transformation parameters and derive corresponding robustness certificates. Our method performs comparably to state-of-the-art approaches on the ImageNet dataset. | 翻訳日:2024-08-12 20:51:27 公開日:2024-08-09 |
# DeepHGCN: より深いハイパーボリックグラフ畳み込みネットワークを目指して
DeepHGCN: Toward Deeper Hyperbolic Graph Convolutional Networks ( http://arxiv.org/abs/2310.02027v5 ) ライセンス: Link先を確認 | Jiaxu Liu, Xinping Yi, Xiaowei Huang, | (参考訳) 双曲グラフ畳み込みネットワーク (HGCNs) は階層グラフから情報を抽出する大きな可能性を示している。
しかし、既存のHGCNは、双曲演算の計算コストと深さが増加するにつれて過度に平滑化の問題のため、浅いアーキテクチャに限られている。
GCNの過度な平滑化を緩和するために治療が適用されているが、双曲解の開発は、双曲性の性質に適合するように操作を慎重に設計する必要があるため、異なる課題を呈している。
これらの課題に対処するため、我々はDeepHGCNを提案する。DeepHGCNは、計算効率を劇的に改善し、オーバースムーシングを大幅に削減した最初のディープ多層HGCNアーキテクチャである。
DeepHGCNは、(1)高速かつ正確な線形写像を可能にする新しい双曲的特徴変換層、(2) 双曲的残差接続や重みと特徴の正則化などの技術、そして、効率的な双曲的中点法によって促進される。
広範囲な実験により、DeepHGCNはユークリッドと浅い双曲GCNの変種と比較してリンク予測とノード分類タスクの大幅な改善を達成している。
Hyperbolic graph convolutional networks (HGCNs) have demonstrated significant potential in extracting information from hierarchical graphs. However, existing HGCNs are limited to shallow architectures due to the computational expense of hyperbolic operations and the issue of over-smoothing as depth increases. Although treatments have been applied to alleviate over-smoothing in GCNs, developing a hyperbolic solution presents distinct challenges since operations must be carefully designed to fit the hyperbolic nature. Addressing these challenges, we propose DeepHGCN, the first deep multi-layer HGCN architecture with dramatically improved computational efficiency and substantially reduced over-smoothing. DeepHGCN features two key innovations: (1) a novel hyperbolic feature transformation layer that enables fast and accurate linear mappings, and (2) techniques such as hyperbolic residual connections and regularization for both weights and features, facilitated by an efficient hyperbolic midpoint method. Extensive experiments demonstrate that DeepHGCN achieves significant improvements in link prediction and node classification tasks compared to both Euclidean and shallow hyperbolic GCN variants. | 翻訳日:2024-08-12 20:51:27 公開日:2024-08-09 |
# DeVAn:ビデオ言語モデルのためのDense Video Annotation
DeVAn: Dense Video Annotation for Video-Language Models ( http://arxiv.org/abs/2310.05060v2 ) ライセンス: Link先を確認 | Tingkai Liu, Yunzhe Tao, Haogeng Liu, Qihang Fan, Ding Zhou, Huaibo Huang, Ran He, Hongxia Yang, | (参考訳) 実世界のビデオクリップの短い記述と長い記述の両方を生成できる視覚言語モデル(Dense Video Annotation, DVAn)を評価するための,人間の注釈付きデータセットを提案する。
データセットには、20秒から60秒間の8.5KのYouTubeビデオクリップが含まれており、幅広いトピックや関心事をカバーしている。
各ビデオクリップは、5人のアノテータによって独立に注釈付けされ、キャプション(1文)と要約(3-10文)の両方を生成する。
データセットから選択したビデオとその対応するASR情報から、ビデオの視覚的内容と聴覚的内容の両方に基礎を置いたキャプションまたは要約生成に基づいて、視覚言語モデルを評価する。
さらに、サマリベースの検索タスクでは、サマリベースの検索タスクは、所定のサマリの抜粋が与えられたターゲットビデオの識別を必要とする。
段落長映像要約タスクの斬新な性質を考慮し,既存の評価指標と人間の嗜好との整合性を比較し,モデルに基づく評価指標がより意味論的かつ人間的な評価を提供することを示した。
最後に、我々は、DeVAnで現在のビデオ言語モデルを広範囲にベンチマークし、大規模な言語モデルと複雑なマルチモーダルタスクの時代に有用な評価セットとしてDeVAnを提供することを目標にしている。
コードはhttps: //github.com/TK-21st/DeVAnで入手できる。
We present a novel human annotated dataset for evaluating the ability for visual-language models to generate both short and long descriptions for real-world video clips, termed DeVAn (Dense Video Annotation). The dataset contains 8.5K YouTube video clips of 20-60 seconds in duration and covers a wide range of topics and interests. Each video clip is independently annotated by 5 human annotators, producing both captions (1 sentence) and summaries (3-10 sentences). Given any video selected from the dataset and its corresponding ASR information, we evaluate visuallanguage models on either caption or summary generation that is grounded in both the visual and auditory content of the video. Additionally, models are also evaluated on caption- and summary-based retrieval tasks, where the summary-based retrieval task requires the identification of a target video given excerpts of a given summary. Given the novel nature of the paragraph-length video summarization task, we compared different existing evaluation metrics and their alignment with human preferences and found that model-based evaluation metrics provide more semantically-oriented and human-aligned evaluation. Finally, we benchmarked a wide range of current video-language models on DeVAn, and we aim for DeVAn to serve as a useful evaluation set in the age of large language models and complex multi-modal tasks. Code is available at https: //github.com/TK-21st/DeVAn. | 翻訳日:2024-08-12 20:51:27 公開日:2024-08-09 |
# 長いブラックホールから得られた近似量子コード
Approximate Quantum Codes From Long Wormholes ( http://arxiv.org/abs/2310.07770v2 ) ライセンス: Link先を確認 | Gregory Bentsen, Phuc Nguyen, Brian Swingle, | (参考訳) 非可換項からなる量子多体ハミルトニアンのほぼ退化基底状態として生じる近似量子誤差補正符号の族について論じる。
正確な符号については、低温熱電場二重状態における両側の相互情報の消滅という観点から誤差補正の条件を定式化することができる。
我々は、この相互情報が小さいことを要求して得られる近似符号の距離の概念を考え、この相互情報をSYKモデルと低ランクSYKモデルのファミリーに対して評価する。
ほぼゼロ温度に外挿した後、両方の種類のモデルがフェルミオン符号を一定速度で生成し、フェルミオンの数は無限大になる。
SYK の場合、距離は$N^{1/2}$ となり、低ランクの SYK の場合、一定速度を維持しながら、例えば$N^{99}$ のような線形スケーリングに任意に近づくことができる。
また、非低エネルギー自明な状態特性の類似も考慮し、低エネルギー断熱的にアクセス可能な状態特性をダブし、これらのモデルがシステムサイズが$N$でスケールしない時間に、非エネルギー的に作成できる低エネルギー状態を持つことを示す。
量子重力の単純なモデルにおける長いワームホール幾何学の出現の結果として大きな符号距離が生じる、これらの符号のホログラフィックモデルについて議論する。
We discuss families of approximate quantum error correcting codes which arise as the nearly-degenerate ground states of certain quantum many-body Hamiltonians composed of non-commuting terms. For exact codes, the conditions for error correction can be formulated in terms of the vanishing of a two-sided mutual information in a low-temperature thermofield double state. We consider a notion of distance for approximate codes obtained by demanding that this mutual information instead be small, and we evaluate this mutual information for the SYK model and for a family of low-rank SYK models. After an extrapolation to nearly zero temperature, we find that both kinds of models produce fermionic codes with constant rate as the number, $N$, of fermions goes to infinity. For SYK, the distance scales as $N^{1/2}$, and for low-rank SYK, the distance can be arbitrarily close to linear scaling, e.g. $N^{.99}$, while maintaining a constant rate. We also consider an analog of the no low-energy trivial states property which we dub the no low-energy adiabatically accessible states property and show that these models do have low-energy states that can be prepared adiabatically in a time that does not scale with system size $N$. We discuss a holographic model of these codes in which the large code distance is a consequence of the emergence of a long wormhole geometry in a simple model of quantum gravity. | 翻訳日:2024-08-12 20:51:27 公開日:2024-08-09 |
# イベント関係論理予測における大規模言語モデルの改善
Improving Large Language Models in Event Relation Logical Prediction ( http://arxiv.org/abs/2310.09158v2 ) ライセンス: Link先を確認 | Meiqi Chen, Yubo Ma, Kaitao Song, Yixin Cao, Yan Zhang, Dongsheng Li, | (参考訳) 出来事の関係は物語の理解と推論に不可欠である。
イベント関係抽出(ERE)は、厳密なセマンティックな理解と厳密な論理的推論を必要とする課題である。
本稿では,イベント関連論理の理解と適用におけるLLMの能力について,詳細な調査を行う。
より詳しくは、各タスクの論理的推論におけるLLMの欠陥について検討する。
本研究は,LLMが論理的に一貫した推論子ではないことを明らかにする。
これを解決するために,LLMにイベント関係論理を付与する3つの異なるアプローチを検討し,様々なシナリオにおいてより一貫性のある回答を生成できるようにする。
提案手法では,評価と微調整のための高次推論を含む合成データセット(LLM-ERL)も提案する。
各種タスクの定量的・定性的分析は、我々のアプローチの有効性を検証し、今後の作業におけるLCMによる実践的タスクの解決のための洞察を提供する。
コードはhttps://github.com/chenmeiqii/Teach-LLM-LRで公開されている。
Event relations are crucial for narrative understanding and reasoning. Governed by nuanced logic, event relation extraction (ERE) is a challenging task that demands thorough semantic understanding and rigorous logical reasoning. In this paper, we conduct an in-depth investigation to systematically explore the capability of LLMs in understanding and applying event relation logic. More in detail, we first investigate the deficiencies of LLMs in logical reasoning across different tasks. Our study reveals that LLMs are not logically consistent reasoners, which results in their suboptimal performance on tasks that need rigorous reasoning. To address this, we explore three different approaches to endow LLMs with event relation logic, and thus enable them to generate more coherent answers across various scenarios. Based on our approach, we also contribute a synthesized dataset (LLM-ERL) involving high-order reasoning for evaluation and fine-tuning. Extensive quantitative and qualitative analyses on different tasks also validate the effectiveness of our approaches and provide insights for solving practical tasks with LLMs in future work. Codes are available at https://github.com/chenmeiqii/Teach-LLM-LR. | 翻訳日:2024-08-12 20:51:27 公開日:2024-08-09 |
# 複素構造における局所対称性を介して誘導される連続体における境界状態
Bound states in the continuum induced via local symmetries in complex structures ( http://arxiv.org/abs/2310.09682v2 ) ライセンス: Link先を確認 | Cheng-Zhen Wang, Ulrich Kuhl, Adin Dowling, Holger Schanz, Tsampikos Kottos, | (参考訳) 連続体(BIC)における境界状態は、伝播波と離散周波数に対応する空間的局所波との間のスペクトル分離を仮定する従来の知恵を無視する。
それらは無限の寿命を持つ共鳴状態、すなわち漏れのないリークモードとして記述することができる。
メタマテリアルやナノフォトニクスの出現により、様々なシステムでBICが作られるようになった。
主に、BICは外部共振モード間の破壊的な干渉や、周囲の放射モードから対称性非互換な境界モードの分離を強制するエンジニアリングされた大域的対称性によって実現されている。
ここでは、理論上、BICは異なるメカニズム、すなわち、大域対称性を含まずに複素系の一部に場集中を強制する局所対称性に依拠する。
本研究では, マイクロ波を1次元フォトニックネットワークに実装し, 測定した散乱行列の2つの位相特異点, 零点, 極点の消滅から生じることを示す。
複雑な波動系におけるBICを実現する代替手段は、高いQ$モードを必要とする非線形相互作用のセンシング、ラシング、強化といった応用に有用である。
Bound states in the continuum (BICs) defy conventional wisdom that assumes a spectral separation between propagating waves, that carry energy away, and spatially localized waves corresponding to discrete frequencies. They can be described as resonance states with infinite lifetime, i.e., leaky modes with zero leakage. The advent of metamaterials and nanophotonics allowed the creation of BICs in a variety of systems. Mainly, BICs have been realized by destructive interference between outgoing resonant modes or exploiting engineered global symmetries that enforce the decoupling of a symmetry-incompatible bound mode from the surrounding radiation modes. Here, we introduce theoretically BICs relying on a different mechanism, namely local symmetries that enforce a field concentration on a part of a complex system without implying any global symmetry. We experimentally implement such BICs using microwaves in a compact one-dimensional photonic network and show that they emerge from the annihilation of two topological singularities, a zero and a pole, of the measured scattering matrix. Our alternative for achieving BICs in complex wave systems may be useful for applications like sensing, lasing, and enhancement of nonlinear interactions that require high-$Q$ modes. | 翻訳日:2024-08-12 20:51:27 公開日:2024-08-09 |
# 見えない画像データに対するConvNetのパラメータ生成学習
Learning to Generate Parameters of ConvNets for Unseen Image Data ( http://arxiv.org/abs/2310.11862v3 ) ライセンス: Link先を確認 | Shiye Wang, Kaituo Feng, Changsheng Li, Ye Yuan, Guoren Wang, | (参考訳) 典型的な畳み込みニューラルネットワーク(ConvNets)は、大量の画像データに依存し、ネットワークパラメータを学習するための反復最適化アルゴリズム(例えば、SGDやAdam)を利用する。
本稿では,ConvNet のパラメータ学習を予測タスクに定式化する新たなトレーニングパラダイムを提案する。ConvNet アーキテクチャでは,画像データセットとそれに対応する最適ネットワークパラメータとの間には相関関係が存在する。
そこで我々は,データセットとそれに対応するネットワークパラメータのマッピングを学習する目的で,PudNetと呼ばれる新しいハイパーネットワークモデルを提案し,そのパラメータを1つの前方伝播だけで予測する。
さらに,本モデルでは,異なるネットワーク層間のパラメータの依存関係を捉えるために,一連の適応型ハイパーリカレントユニットの重みを共有することで,その利点を享受する。
大規模な実験により,提案手法は,データセット内予測とデータセット間予測の2種類の画像データセットに対して良好な有効性が得られることが示された。
当社のPudNetは,ImageNet-1Kなどの大規模データセットにもスケールアップ可能です。
イメージNet-1KでGCを使用してResNet-18をスクラッチからトレーニングするのに8967GPU秒かかり、トップ5の精度は44.65%である。
しかし、我々のPudNetはResNet-18のネットワークパラメータの予測にわずか3.89GPU秒しかかからない(44.92%)。
Typical Convolutional Neural Networks (ConvNets) depend heavily on large amounts of image data and resort to an iterative optimization algorithm (e.g., SGD or Adam) to learn network parameters, which makes training very time- and resource-intensive. In this paper, we propose a new training paradigm and formulate the parameter learning of ConvNets into a prediction task: given a ConvNet architecture, we observe there exist correlations between image datasets and their corresponding optimal network parameters, and explore if we can learn a hyper-mapping between them to capture the relations, such that we can directly predict the parameters of the network for an image dataset never seen during the training phase. To do this, we put forward a new hypernetwork based model, called PudNet, which intends to learn a mapping between datasets and their corresponding network parameters, and then predicts parameters for unseen data with only a single forward propagation. Moreover, our model benefits from a series of adaptive hyper recurrent units sharing weights to capture the dependencies of parameters among different network layers. Extensive experiments demonstrate that our proposed method achieves good efficacy for unseen image datasets on two kinds of settings: Intra-dataset prediction and Inter-dataset prediction. Our PudNet can also well scale up to large-scale datasets, e.g., ImageNet-1K. It takes 8967 GPU seconds to train ResNet-18 on the ImageNet-1K using GC from scratch and obtain a top-5 accuracy of 44.65%. However, our PudNet costs only 3.89 GPU seconds to predict the network parameters of ResNet-18 achieving comparable performance (44.92%), more than 2,300 times faster than the traditional training paradigm. | 翻訳日:2024-08-12 20:51:27 公開日:2024-08-09 |
# 凸緩和によるグラフマッチング
Graph Matching via convex relaxation to the simplex ( http://arxiv.org/abs/2310.20609v3 ) ライセンス: Link先を確認 | Ernesto Araya Valdivia, Hemant Tyagi, | (参考訳) 本稿では、2つの入力グラフ間の最適なアライメントを見つけることによるグラフマッチング問題に対処し、コンピュータビジョン、ネットワークのデ匿名化、タンパク質アライメントに多くの応用がある。
この問題に対処するための一般的なアプローチは、NP-hard \emph{Quadratic Assignment Problem} (QAP) の凸緩和である。
本稿では,単位単純度に新しい凸緩和を導入し,この問題を解決するために閉形式反復を用いた効率的なミラー降下法を開発した。
相関したガウス・ウィグナーモデルの下では、単純緩和は高い確率で一意的な解を持つことを示す。
ノイズレスの場合、これは基底真理置換の正確な回復を示す。
さらに, 標準グリーディラウンドリング法では, 入力行列に対して, 通常の「対角線支配」条件よりも制約が小さい, 新たな充足条件を確立する。
我々は、この条件を用いて、ノイズのない環境で、ミラー降下スキームを介して、(ほぼ確実に保持する)基底真実の正確な1段階の回復を示す。
また, この条件を用いて, GRAMPA アルゴリズム [Fan et al 2019] のノイズレス環境での条件を大幅に改善した。
This paper addresses the Graph Matching problem, which consists of finding the best possible alignment between two input graphs, and has many applications in computer vision, network deanonymization and protein alignment. A common approach to tackle this problem is through convex relaxations of the NP-hard \emph{Quadratic Assignment Problem} (QAP). Here, we introduce a new convex relaxation onto the unit simplex and develop an efficient mirror descent scheme with closed-form iterations for solving this problem. Under the correlated Gaussian Wigner model, we show that the simplex relaxation admits a unique solution with high probability. In the noiseless case, this is shown to imply exact recovery of the ground truth permutation. Additionally, we establish a novel sufficiency condition for the input matrix in standard greedy rounding methods, which is less restrictive than the commonly used `diagonal dominance' condition. We use this condition to show exact one-step recovery of the ground truth (holding almost surely) via the mirror descent scheme, in the noiseless setting. We also use this condition to obtain significantly improved conditions for the GRAMPA algorithm [Fan et al. 2019] in the noiseless setting. | 翻訳日:2024-08-12 20:51:27 公開日:2024-08-09 |
# 2光子散逸発振子における創発的平衡と量子臨界性
Emergent equilibrium and quantum criticality in a two-photon dissipative oscillator ( http://arxiv.org/abs/2311.00297v2 ) ライセンス: Link先を確認 | V. Yu. Mylnikov, S. O. Potashin, G. S. Sokolovskii, N. S. Averkiev, | (参考訳) 2光子駆動と2光子発散を持つ量子発振器の発散相転移について検討する。
半古典的なランゲヴィン方程式とフォッカー・プランク法を用いて、非摂動的量子ゆらぎの理論を構築し、半古典的な近似を超えた。
我々は、2光子量子散逸発振子の非線形古典振動子の古典平衡モデルへの色雑音環境への写像を実証する。
そして、与えられた散逸相転移に対するランダウ理論の適用性を正当化する。
そこで本研究では,2光子駆動と消散の周波数差と周波数差によって決定される実効温度に応じて,ボルツマン様の定常分布関数を明示的に示す。
さらに、量子臨界領域の記述を提供し、数値シミュレーションと非常によく一致しているように見える臨界指数を得る。
We study the dissipative phase transition in a quantum oscillator with two-photon drive and two-photon dissipation. Using the semi-classical Langevin equation and the Fokker-Plank approach, we construct a theory of non-perturbative quantum fluctuations and go beyond the semi-classical approximation. We demonstrate the mapping of a two-photon quantum dissipative oscillator onto a classical equilibrium model of a nonlinear classical oscillator in a colored-noise environment. Then, we justify the applicability of the Landau theory for a given dissipative phase transition. To do that, we explicitly demonstrate the Boltzmann-like form of stationary distribution function depending on the effective temperature, which is determined by the frequency detuning and the rates of two-photon drive and dissipation. In addition, we provide a description of the quantum critical region and obtain critical exponents that appear to be in very good agreement with numerical simulations. | 翻訳日:2024-08-12 20:51:27 公開日:2024-08-09 |
# DocMath-Eval:長期・専門文書理解におけるLLMの数学的推論能力の評価
DocMath-Eval: Evaluating Math Reasoning Capabilities of LLMs in Understanding Long and Specialized Documents ( http://arxiv.org/abs/2311.09805v3 ) ライセンス: Link先を確認 | Yilun Zhao, Yitao Long, Hongjun Liu, Ryo Kamoi, Linyong Nan, Lyuhao Chen, Yixin Liu, Xiangru Tang, Rui Zhang, Arman Cohan, | (参考訳) 近年のLLMは、試験のような数学用語の問題を解く際、顕著な性能を示した。
しかし、これらの数値推論スキルが現実のシナリオ、特にエキスパートドメインで有効である程度はまだ明らかにされていない。
本稿では,テキストと表の両方を含む専門文書の理解と分析の文脈において,LLMの数値推論能力を評価するための総合的なベンチマークであるDocMath-Evalを紹介する。
DocMath-Eval における既存の LLM の機能と限界を包括的に評価することを目的として,Chain-of-Thought と Program-of-Thought を併用した48 LLM の評価を行った。
我々は、現在の最高の性能システム(GPT-4o)でさえ、長い文脈に根ざした複雑な数値推論問題の解法において、人間の専門家よりかなり遅れていることを発見した。
我々はDocMath-Evalが、専門家ドメイン内の数値推論問題の解決においてLLMの能力を評価する上で貴重なベンチマークとなると考えている。
Recent LLMs have demonstrated remarkable performance in solving exam-like math word problems. However, the degree to which these numerical reasoning skills are effective in real-world scenarios, particularly in expert domains, is still largely unexplored. This paper introduces DocMath-Eval, a comprehensive benchmark specifically designed to evaluate the numerical reasoning capabilities of LLMs in the context of understanding and analyzing specialized documents containing both text and tables. We conduct an extensive evaluation of 48 LLMs with Chain-of-Thought and Program-of-Thought prompting methods, aiming to comprehensively assess the capabilities and limitations of existing LLMs in DocMath-Eval. We found that even the current best-performing system (i.e., GPT-4o) still significantly lags behind human experts in solving complex numerical reasoning problems grounded in long contexts. We believe that DocMath-Eval can serve as a valuable benchmark for evaluating LLMs' capabilities in solving challenging numerical reasoning problems within expert domains. | 翻訳日:2024-08-12 20:51:27 公開日:2024-08-09 |
# ニューラル量子埋め込み:量子監視学習の限界を押し上げる
Neural Quantum Embedding: Pushing the Limits of Quantum Supervised Learning ( http://arxiv.org/abs/2311.11412v2 ) ライセンス: Link先を確認 | Tak Hur, Israel F. Araujo, Daniel K. Park, | (参考訳) 量子埋め込みは、古典的なデータに量子機械学習技術を適用するための基本的な前提条件であり、性能にかなりの影響を及ぼす。
本研究では,古典的な深層学習技術を活用することで,正およびトレース保存マップの限界を超えて,量子埋め込みを効率的に最適化する手法であるNeural Quantum Embedding (NQE)を提案する。
NQEは経験的リスクの低いバウンダリを強化し、分類性能を大幅に改善する。
さらに、NQEはノイズに対する堅牢性を改善する。
NQEの有効性を検証するため、画像データ分類のためのIBM量子デバイス上で実験を行い、0.52から0.96までの顕著な精度向上を実現した。
さらに、数値解析により、NQEは量子ニューラルネットワークのトレーニング性と一般化性能と、量子カーネル法とを同時に改善することが明らかとなった。
Quantum embedding is a fundamental prerequisite for applying quantum machine learning techniques to classical data, and has substantial impacts on performance outcomes. In this study, we present Neural Quantum Embedding (NQE), a method that efficiently optimizes quantum embedding beyond the limitations of positive and trace-preserving maps by leveraging classical deep learning techniques. NQE enhances the lower bound of the empirical risk, leading to substantial improvements in classification performance. Moreover, NQE improves robustness against noise. To validate the effectiveness of NQE, we conduct experiments on IBM quantum devices for image data classification, resulting in a remarkable accuracy enhancement from 0.52 to 0.96. In addition, numerical analyses highlight that NQE simultaneously improves the trainability and generalization performance of quantum neural networks, as well as of the quantum kernel method. | 翻訳日:2024-08-12 20:51:27 公開日:2024-08-09 |
# 深層学習を用いた火星の「脳地形」領域のマッピング
Mapping "Brain Terrain" Regions on Mars using Deep Learning ( http://arxiv.org/abs/2311.12292v2 ) ライセンス: Link先を確認 | Kyle A. Pearson, Eldar Noe, Daniel Zhao, Alphan Altinok, Alex Morgan, | (参考訳) 火星探査計画の主な目的の1つは、地球上の過去または現在の生命の証拠を探すことである。
これを実現するために、火星探査は液体や凍った水がある地域に焦点を当ててきた。
臨界領域のセットは、火星の斜視の周期的な変化に反応して、比較的最近に氷が噴出するサイクルを見た可能性がある。
本研究では,地球上の石の円に類似した地形を持つ火星の「ブライン・コーラル」地形を含む地表面積を検出するために,畳み込みニューラルネットワークを用い,凍結・融解サイクルの結果形成された可能性が示唆された。
火星探査機マーズ・リコネッサンス・オービター(Mars Reconnaissance Orbiter)の大型画像(約100-1000メガピクセル)を使って、1ピクセルあたり数十センチ近く(約25-50cm)の解像度でこれらの地形を探索します。
52,000枚以上の画像(約28TB)が検索され(火星表面の約5%)、200枚以上の画像から検出された。
この処理を高速化するために、フル空間解像度で画像全体を復号する代わりに離散コサイン変換から係数のブロックを利用することによりJPEG圧縮を活用可能なフーリエ領域の分類器ネットワーク(セグメンテーションに先立ち)を利用する。
ハイブリッドパイプラインアプローチは、全画像の完全な解像度でセグメンテーションネットワークを実行する場合と比較して、全体の処理時間の約95%をカットしながら、約93%の精度を維持している。
ビッグデータのタイムリーな処理は、ミッションの運用、地質調査、候補地点の優先順位付け、危険領域の回避、あるいは特定の地形の空間範囲のマッピングに役立ちます。
セグメンテーションマスクとソースコードはGithubで入手できる。
One of the main objectives of the Mars Exploration Program is to search for evidence of past or current life on the planet. To achieve this, Mars exploration has been focusing on regions that may have liquid or frozen water. A set of critical areas may have seen cycles of ice thawing in the relatively recent past in response to periodic changes in the obliquity of Mars. In this work, we use convolutional neural networks to detect surface regions containing "Brain Coral" terrain, a landform on Mars whose similarity in morphology and scale to sorted stone circles on Earth suggests that it may have formed as a consequence of freeze/thaw cycles. We use large images (~100-1000 megapixels) from the Mars Reconnaissance Orbiter to search for these landforms at resolutions close to a few tens of centimeters per pixel (~25--50 cm). Over 52,000 images (~28 TB) were searched (~5% of the Martian surface) where we found detections in over 200 images. To expedite the processing we leverage a classifier network (prior to segmentation) in the Fourier domain that can take advantage of JPEG compression by leveraging blocks of coefficients from a discrete cosine transform in lieu of decoding the entire image at the full spatial resolution. The hybrid pipeline approach maintains ~93% accuracy while cutting down on ~95% of the total processing time compared to running the segmentation network at the full resolution on every image. The timely processing of big data sets helps inform mission operations, geologic surveys to prioritize candidate landing sites, avoid hazardous areas, or map the spatial extent of certain terrain. The segmentation masks and source code are available on Github for the community to explore and build upon. | 翻訳日:2024-08-12 20:51:27 公開日:2024-08-09 |
# GMISeg:再検査なしの一般医用画像分割
GMISeg: General Medical Image Segmentation without Re-Training ( http://arxiv.org/abs/2311.12539v4 ) ライセンス: Link先を確認 | Jing Xu, | (参考訳) オンラインショッピング行動は, 豊富な粒度次元とデータ空間の特徴を持ち, ユーザ行動予測に関するこれまでの研究は, 特徴選択やアンサンブルデザインを真剣に議論しなかった。
本稿では,ユーザ購入行動予測のための情報融合とアンサンブル学習に基づくSE-Stackingモデルを提案する。
購入関連要因のスクリーニングにアンサンブル特徴選択法をうまく利用した後,ユーザ購入行動予測にスタックリングアルゴリズムを用いた。
予測結果の偏りを避けるため,ベースラーナーとして10種類のモデルを選択し,特定のパラメータを修正することによってモデルを最適化した。
公開データセットで実施された実験によると、SE-Stackingモデルは98.40%のF1スコアを達成でき、最適なベースモデルよりも約0.09%高い。
SE-Stacking モデルは,ユーザの購買行動を予測するだけでなく,実際のeコマースシーンと組み合わせた実用的価値も備えている。
同時に、学術研究とこの分野の発展に重要な意味を持つ。
The online shopping behavior has the characteristics of rich granularity dimension and data sparsity and previous researches on user behavior prediction did not seriously discuss feature selection and ensemble design. In this paper, we proposed a SE-Stacking model based on information fusion and ensemble learning for user purchase behavior prediction. After successfully utilizing the ensemble feature selection method to screen purchase-related factors, we used the Stacking algorithm for user purchase behavior prediction. In our efforts to avoid the deviation of prediction results, we optimized the model by selecting ten different kinds of models as base learners and modifying relevant parameters specifically for them. The experiments conducted on a publicly-available dataset shows that the SE-Stacking model can achieve a 98.40% F1-score, about 0.09% higher than the optimal base models. The SE-Stacking model not only has a good application in the prediction of user purchase behavior but also has practical value combining with the actual e-commerce scene. At the same time, it has important significance for academic research and the development of this field. | 翻訳日:2024-08-12 20:40:55 公開日:2024-08-09 |
# インストラクションチューニングによるヒト脳へのLLMの適応
Instruction-tuning Aligns LLMs to the Human Brain ( http://arxiv.org/abs/2312.00575v2 ) ライセンス: Link先を確認 | Khai Loong Aw, Syrielle Montariol, Badr AlKhamissi, Martin Schrimpf, Antoine Bosselut, | (参考訳) インストラクションチューニング(英: Instruction-tuning)は、大規模言語モデル(LLM)が人間の反応によく似た出力を生成するための、広く採用されている微調整手法である。
しかしながら、命令チューニングが実際に人間と同じような方法で言語を処理することをLLMに教えているという研究はない。
本研究では,LLMと人間の言語処理機構の整合性に及ぼす指導訓練の効果について検討する。(1)脳のアライメント,LLMの内部表現の人間の言語系における神経活動との類似性,(2)行動アライメント,LLMの類似性,および人間の行動が読み上げ作業に与える影響について考察する。
自然主義的な物語や文を読む人間を含む3つのデータセットから25個のバニラと命令調整LDMを評価し、命令調整は一般に脳のアライメント(約6%)を増強するが、行動アライメントに類似した影響はないことを示した。
脳のアライメント改善の要因を明らかにするため,脳のアライメントとモデルサイズ,問題解決,世界知識理解といった様々なLLM特性の相関関係を計算した。
特に、脳のアライメントとモデルサイズ(r = 0.95)と世界知識を必要とするタスク(r = 0.81)の間には、強い正の相関が認められた。
本研究は,LLMが世界知識表現と脳アライメントの両方を改善することを示し,LLMに世界知識をエンコードする機構が人間の脳への表現アライメントを改善することを示唆している。
Instruction-tuning is a widely adopted finetuning method that enables large language models (LLMs) to generate output that more closely resembles human responses. However, no studies have shown that instruction-tuning actually teaches LLMs to process language in a similar manner as humans. We investigate the effect of instruction-tuning on aligning LLM and human language processing mechanisms in two ways: (1) brain alignment, the similarity of LLM internal representations to neural activity in the human language system, and (2) behavioral alignment, the similarity of LLM and human behavior on a reading task. We assess 25 vanilla and instruction-tuned LLMs on three datasets involving humans reading naturalistic stories and sentences, and find that instruction-tuning generally enhances brain alignment (~6%), but has no similar effect on behavioral alignment. To identify factors underlying this improvement in brain alignment, we compute correlations between brain alignment and various LLM properties, such as model size, problem-solving, and world knowledge understanding. Notably, we find a strong positive correlation between brain alignment and model size (r = 0.95), as well as performance on tasks requiring world knowledge (r = 0.81). Our results demonstrate that instruction-tuning LLMs improves both world knowledge representations and brain alignment, suggesting that the mechanisms that encode world knowledge in LLMs also improve representational alignment to the human brain. | 翻訳日:2024-08-12 20:40:55 公開日:2024-08-09 |
# LucidDreaming:制御可能なオブジェクト中心の3D生成
LucidDreaming: Controllable Object-Centric 3D Generation ( http://arxiv.org/abs/2312.00588v2 ) ライセンス: Link先を確認 | Zhaoning Wang, Ming Li, Chen Chen, | (参考訳) 最近の生成モデルの開発により、Text-to-3D世代も大幅に成長し、より一般大衆からビデオゲームの3Dアセットを作成するための扉を開いた。
しかし、プロの3D編集経験のない人なら、特にプロンプトに複数のオブジェクトがある場合、特にテキストを使って制御することは、欠落したオブジェクトや不正確な位置につながることが多いため、正確な3D生成の制御を達成できないだろう。
本稿では,テキストプロンプトコマンドや3Dバウンディングボックスのみから,空間的および数値的に3D生成を制御できる効果的なパイプラインとしてLucidDreamingを提案する。
具体的には,Large Language Models (LLMs) が3次元空間認識を持ち,テキスト3次元情報を正確な3次元境界ボックスに効果的に翻訳できることを実証する。
LLMを利用して、個々のオブジェクト情報とその3Dバウンディングボックスをプロセスの初期段階として取得します。
次に, 境界ボックスを用いて, クリッピング線サンプリングと物体中心密度ブロブバイアスを提案し, 境界ボックスに整合した3次元オブジェクトを生成する。
我々は,本手法が主流のScore Distillation Smplingベースの3D生成フレームワークに対して顕著な適応性を示すことを示すとともに,既存のNeRFシーンにオブジェクトを挿入することも可能だ。
さらに,3次元空間制御性をベンチマークした3次元境界ボックスによるプロンプトのデータセットも提供する。
定性的かつ定量的な実験により、LucidDreamingは、既存のアプローチと比較してオブジェクト配置精度と生成忠実度において優れた結果を得るとともに、非熟練ユーザに対する柔軟性と使いやすさを維持できることを示した。
With the recent development of generative models, Text-to-3D generations have also seen significant growth, opening a door for creating video-game 3D assets from a more general public. Nonetheless, people without any professional 3D editing experience would find it hard to achieve precise control over the 3D generation, especially if there are multiple objects in the prompt, as using text to control often leads to missing objects and imprecise locations. In this paper, we present LucidDreaming as an effective pipeline capable of spatial and numerical control over 3D generation from only textual prompt commands or 3D bounding boxes. Specifically, our research demonstrates that Large Language Models (LLMs) possess 3D spatial awareness and can effectively translate textual 3D information into precise 3D bounding boxes. We leverage LLMs to get individual object information and their 3D bounding boxes as the initial step of our process. Then with the bounding boxes, We further propose clipped ray sampling and object-centric density blob bias to generate 3D objects aligning with the bounding boxes. We show that our method exhibits remarkable adaptability across a spectrum of mainstream Score Distillation Sampling-based 3D generation frameworks and our pipeline can even used to insert objects into an existing NeRF scene. Moreover, we also provide a dataset of prompts with 3D bounding boxes, benchmarking 3D spatial controllability. With extensive qualitative and quantitative experiments, we demonstrate that LucidDreaming achieves superior results in object placement precision and generation fidelity compared to current approaches, while maintaining flexibility and ease of use for non-expert users. | 翻訳日:2024-08-12 20:40:55 公開日:2024-08-09 |
# クイチー言語モデルから潜在知識を抽出する
Eliciting Latent Knowledge from Quirky Language Models ( http://arxiv.org/abs/2312.01037v4 ) ライセンス: Link先を確認 | Alex Mallen, Madeline Brumley, Julia Kharchenko, Nora Belrose, | (参考訳) 潜在知識の排除(ELK)は、特にモデルの出力が信頼できない場合において、世界の真の状態を確実に追跡する能力のあるニューラルネットワークのアクティベーションにおけるパターンを見つけることを目的としている。
ELK研究をさらに進めるために,12のデータセットとそれに対応する"quirky"言語モデル(LM)を導入する。
特に中層では、線形プローブは通常、LMが出力するものとは無関係にLMの知識を報告し、モデルの不合理な出力にもかかわらず正しい答えを導き出すことができる。
最良の探索法(コントラスト対の論理回帰)は、真理と非真理の間のAUROCのギャップの89%を回復させる。
また、機械的異常検出手法は、0.95 AUROCで非現実的な動作をフラグできることがわかった。
本結果は,有能だが信頼できないモデルから信頼性の高い知識を引き出すことを約束し,ELK法を実証的に研究する上で有効であることを示す。
Eliciting Latent Knowledge (ELK) aims to find patterns in a capable neural network's activations that robustly track the true state of the world, especially in hard-to-verify cases where the model's output is untrusted. To further ELK research, we introduce 12 datasets and a corresponding suite of "quirky" language models (LMs) that are finetuned to make systematic errors when answering questions if and only if the keyword "Bob" is present in the prompt. We find that, especially in middle layers, linear probes usually report an LM's knowledge independently of what the LM outputs, enabling us to elicit the correct answer despite the model's untruthful output. The best probing method (logistic regression on contrast pairs) recovers 89% of the gap in AUROC between truthful and untruthful contexts, and 75% for questions harder than those used to train the probe. We also find that a mechanistic anomaly detection approach can flag untruthful behavior with 0.95 AUROC. Our results show promise for eliciting reliable knowledge from capable but untrusted models, and facilitates future research empirically investigating ELK methods. | 翻訳日:2024-08-12 20:40:55 公開日:2024-08-09 |
# MS-Twins:医療画像セグメンテーションのためのマルチスケールディープセルフアテンションネットワーク
MS-Twins: Multi-Scale Deep Self-Attention Networks for Medical Image Segmentation ( http://arxiv.org/abs/2312.07128v3 ) ライセンス: Link先を確認 | Jing Xu, | (参考訳) 胸部X線は胸部疾患の診断において最も一般的な放射線検査の1つである。
近年,放射線画像の自動分類技術が臨床診断や治療計画に広く利用されている。
しかし,各疾患にはそれぞれ異なる応答性受容野があり,胸部疾患分類の課題となっている。
さらに、サンプルデータカテゴリの不均衡は、タスクの難易度をさらに高める。
これらの問題を解決するために,マルチスケールアテンションネットワークに基づく新しいマルチラベル胸部画像分類手法を提案する。
このスキームでは、マルチスケール情報を反復的に融合して、病気の確率の高い地域に集中し、データからより有意義な情報を効果的にマイニングし、分類性能を画像レベルのアノテーションによって改善することができる。
また、画像変換前後の注意領域の整合性を強制することで、視覚知覚の合理性と多ラベル画像分類の性能を向上させるために、新たな損失関数を設計した。
胸部X線画像分類におけるこの手法の有効性を検証するため,公共のChest X-Ray14およびCheXpertデータセットを用いて総合的な実験を行った。
Chest X-ray is one of the most common radiological examination types for the diagnosis of chest diseases. Nowadays, the automatic classification technology of radiological images has been widely used in clinical diagnosis and treatment plans. However, each disease has its own different response characteristic receptive field region, which is the main challenge for chest disease classification tasks. Besides, the imbalance of sample data categories further increases the difficulty of tasks. To solve these problems, we propose a new multi-label chest disease image classification scheme based on a multi-scale attention network. In this scheme, multi-scale information is iteratively fused to focus on regions with a high probability of disease, to effectively mine more meaningful information from data, and the classification performance can be improved only by image level annotation. We also designed a new loss function to improve the rationality of visual perception and the performance of multi-label image classification by forcing the consistency of attention regions before and after image transformation. A comprehensive experiment was carried out on the public Chest X-Ray14 and CheXpert datasets to achieve state of the art results, which verified the effectiveness of this method in chest X-ray image classification. | 翻訳日:2024-08-12 20:40:55 公開日:2024-08-09 |
# LLMind: 複雑なタスク実行のためのLLMによるAIとIoTのオーケストレーション
LLMind: Orchestrating AI and IoT with LLM for Complex Task Execution ( http://arxiv.org/abs/2312.09007v4 ) ライセンス: Link先を確認 | Hongwei Cui, Yuyang Du, Qun Yang, Yulin Shao, Soung Chang Liew, | (参考訳) タスク指向通信は、将来のインテリジェントIoTシステムにおいて重要な要素である。
しかし、既存のIoTシステムは、複雑なタスクを処理する能力に制限がある。
本稿では,LLMベースのタスク指向AIエージェントフレームワークであるLLMindについて述べる。
脳の機能的特殊化理論に触発されて、我々のフレームワークはLLMをドメイン固有のAIモジュールと統合し、その能力を高める。
複数のドメイン固有のAIモジュールとIoTデバイスのコラボレーションを含む複雑なタスクは、LLMが生成するコントロールスクリプトを通じて実行される。Language-Code変換アプローチは、言語記述をコードへの最終的な正確な変換の前に、まず中間有限状態マシン(FSM)に変換する。
さらに、このフレームワークには、応答速度と有効性を向上する新たなエクスペリエンス蓄積機構が組み込まれており、ユーザとマシンのインタラクションを継続することで、フレームワークを進化させ、徐々に洗練されたものにすることができる。
Task-oriented communications are an important element in future intelligent IoT systems. Existing IoT systems, however, are limited in their capacity to handle complex tasks, particularly in their interactions with humans to accomplish these tasks. In this paper, we present LLMind, an LLM-based task-oriented AI agent framework that enables effective collaboration among IoT devices, with humans communicating high-level verbal instructions, to perform complex tasks. Inspired by the functional specialization theory of the brain, our framework integrates an LLM with domain-specific AI modules, enhancing its capabilities. Complex tasks, which may involve collaborations of multiple domain-specific AI modules and IoT devices, are executed through a control script generated by the LLM using a Language-Code transformation approach, which first converts language descriptions to an intermediate finite-state machine (FSM) before final precise transformation to code. Furthermore, the framework incorporates a novel experience accumulation mechanism to enhance response speed and effectiveness, allowing the framework to evolve and become progressively sophisticated through continuing user and machine interactions. | 翻訳日:2024-08-12 20:40:55 公開日:2024-08-09 |
# AutoOffAB: データ駆動要求エンジニアリングのためのオフラインA/Bテスト自動化を目指す
AutoOffAB: Toward Automated Offline A/B Testing for Data-Driven Requirement Engineering ( http://arxiv.org/abs/2312.10624v2 ) ライセンス: Link先を確認 | Jie JW Wu, | (参考訳) ソフトウェア企業は、オンラインA/Bテストを使用して、新しいテクノロジの影響を評価し、ユーザグループに提供し、修正されていない製品と比較している。
しかし、オンラインA/Bテストを実行するには、設計、実装、ステークホルダーの承認が本番環境で提供されるだけでなく、イテレーションでデータを集めるのに数週間かかる必要がある。
これらの問題に対処するため、最近、"Offline A/B Testing"と呼ばれるトピックが注目され、履歴記録データを推定することで、新しい技術のオフライン評価を行うことを目指している。
このアプローチは、実装の労力の削減、ターンアラウンドタイムの短縮、潜在的なユーザ被害の回避などによって有望だが、実際に要求として効果的に優先順位付けされるためには、オンラインA/Bテスト結果との整合性、さまざまなデータやパラメータの体系的な更新の欠如など、いくつかの制限に対処する必要がある。
このビジョンペーパーでは、最新のロギングに対してオフラインA/Bテストの変種を自動的に実行し、オフライン評価結果を更新するアイデアであるAutoOffABを紹介します。
Software companies have widely used online A/B testing to evaluate the impact of a new technology by offering it to groups of users and comparing it against the unmodified product. However, running online A/B testing needs not only efforts in design, implementation, and stakeholders' approval to be served in production but also several weeks to collect the data in iterations. To address these issues, a recently emerging topic, called "Offline A/B Testing", is getting increasing attention, intending to conduct the offline evaluation of new technologies by estimating historical logged data. Although this approach is promising due to lower implementation effort, faster turnaround time, and no potential user harm, for it to be effectively prioritized as requirements in practice, several limitations need to be addressed, including its discrepancy with online A/B test results, and lack of systematic updates on varying data and parameters. In response, in this vision paper, I introduce AutoOffAB, an idea to automatically run variants of offline A/B testing against recent logging and update the offline evaluation results, which are used to make decisions on requirements more reliably and systematically. | 翻訳日:2024-08-12 20:40:55 公開日:2024-08-09 |
# 拡散逆流:条件付きビデオ拡散による逆流の学習
Diffusion Reward: Learning Rewards via Conditional Video Diffusion ( http://arxiv.org/abs/2312.14134v3 ) ライセンス: Link先を確認 | Tao Huang, Guangqi Jiang, Yanjie Ze, Huazhe Xu, | (参考訳) エキスパートビデオからの学習報酬は、強化学習(RL)タスクの意図した振る舞いを特定するための、安価で効果的なソリューションを提供する。
本研究では,複雑な視覚的RL問題を解くための条件付きビデオ拡散モデルを用いて,エキスパートビデオから報酬を学習する新しいフレームワークであるDiffusion Rewardを提案する。
我々の重要な洞察は、専門家の軌跡に拡散を条件付ける際に、低い生成多様性を示すことである。
拡散逆転は、専門的行動の生産的探索を促進する条件エントロピーの負によって形式化される。
シミュレーションプラットフォームと実世界の両方におけるロボット操作タスクに対する視覚入力の有効性を示す。
さらに、Diffusion Rewardは、未確認のタスクをうまく効果的に解決し、ベースラインメソッドを大半超えることができる。
プロジェクトページとコード:https://diffusion-reward.github.io.com
Learning rewards from expert videos offers an affordable and effective solution to specify the intended behaviors for reinforcement learning (RL) tasks. In this work, we propose Diffusion Reward, a novel framework that learns rewards from expert videos via conditional video diffusion models for solving complex visual RL problems. Our key insight is that lower generative diversity is exhibited when conditioning diffusion on expert trajectories. Diffusion Reward is accordingly formalized by the negative of conditional entropy that encourages productive exploration of expert behaviors. We show the efficacy of our method over robotic manipulation tasks in both simulation platforms and the real world with visual input. Moreover, Diffusion Reward can even solve unseen tasks successfully and effectively, largely surpassing baseline methods. Project page and code: https://diffusion-reward.github.io. | 翻訳日:2024-08-12 20:40:55 公開日:2024-08-09 |
# 誤りを伴う量子クリロフアルゴリズムの解析
Analysis of quantum Krylov algorithms with errors ( http://arxiv.org/abs/2401.01246v5 ) ライセンス: Link先を確認 | William Kirby, | (参考訳) この研究は、量子回路の出力における一般的な誤差を考慮に入れた、リアルタイム進化に基づく量子クリロフアルゴリズムの漸近的誤り解析を提供する。
得られた基底状態エネルギー推定値の上限と下限を証明し、上限の誤差は入力誤差率で線形である。
これは、およそ線形な誤差のスケーリングを示す既知の数値と、証明可能な平方根のスケーリングしか得られない事前理論解析との相違を解消する。
我々の主な手法は、実効的クリロフ空間で研究された実効的対象ハミルトニアンの観点から、一般的な誤差を表現することである。
これらの結果は、量子クリロフ誤差の主な特徴を理解するための理論的枠組みを提供する。
This work provides a nonasymptotic error analysis of quantum Krylov algorithms based on real-time evolutions, subject to generic errors in the outputs of the quantum circuits. We prove upper and lower bounds on the resulting ground state energy estimates, and the error in the upper bound is linear in the input error rates. This resolves a misalignment between known numerics, which exhibit approximately linear error scaling, and prior theoretical analysis, which only provably obtained square-root scaling. Our main technique is to express generic errors in terms of an effective target Hamiltonian studied in an effective Krylov space. These results provide a theoretical framework for understanding the main features of quantum Krylov errors. | 翻訳日:2024-08-12 20:40:55 公開日:2024-08-09 |
# 知識機能を組み込んだプロンプト学習によるソースコード分類の有効性向上
Enhancing Source Code Classification Effectiveness via Prompt Learning Incorporating Knowledge Features ( http://arxiv.org/abs/2401.05544v3 ) ライセンス: Link先を確認 | Yong Ma, Senlin Luo, Yu-Ming Shang, Yifei Zhang, Zhengjun Li, | (参考訳) 研究者は、CodeBERTのような事前訓練された言語モデルを活用して、ソースコード関連のタスクを強化する可能性を調査している。
従来の手法では、CodeBERTの'[CLS]'トークンをタスクパフォーマンスのための入力シーケンスの埋め込み表現として利用しており、特徴表現を強化するために追加のニューラルネットワーク層が必要であるため、計算コストが増大している。
これらのアプローチは、ソースコードと関連するテキストに固有の包括的な知識を十分に活用することができず、分類の有効性を制限している可能性がある。
我々は,事前学習したモデルから,入力シーケンスに関連する豊富な知識を抽出し,付加的なレイヤの必要性を排除し,計算コストを下げるためのテキスト分類手法であるCodeClassPromptを提案する。
注意機構を適用することで、タスク固有の特徴に多層的知識を合成し、分類精度を向上する。
ソースコード関連タスクを4つに分けて総合的に実験した結果,CodeClassPromptは計算オーバーヘッドを大幅に削減し,競争性能を向上することがわかった。
Researchers have investigated the potential of leveraging pre-trained language models, such as CodeBERT, to enhance source code-related tasks. Previous methodologies have relied on CodeBERT's '[CLS]' token as the embedding representation of input sequences for task performance, necessitating additional neural network layers to enhance feature representation, which in turn increases computational expenses. These approaches have also failed to fully leverage the comprehensive knowledge inherent within the source code and its associated text, potentially limiting classification efficacy. We propose CodeClassPrompt, a text classification technique that harnesses prompt learning to extract rich knowledge associated with input sequences from pre-trained models, thereby eliminating the need for additional layers and lowering computational costs. By applying an attention mechanism, we synthesize multi-layered knowledge into task-specific features, enhancing classification accuracy. Our comprehensive experimentation across four distinct source code-related tasks reveals that CodeClassPrompt achieves competitive performance while significantly reducing computational overhead. | 翻訳日:2024-08-12 20:40:55 公開日:2024-08-09 |
# CodeAgent: リアルタイムリポジトリレベルのコーディング課題のためのツール統合エージェントシステムによるコード生成の強化
CodeAgent: Enhancing Code Generation with Tool-Integrated Agent Systems for Real-World Repo-level Coding Challenges ( http://arxiv.org/abs/2401.07339v2 ) ライセンス: Link先を確認 | Kechi Zhang, Jia Li, Ge Li, Xianjie Shi, Zhi Jin, | (参考訳) 大規模言語モデル(LLM)は、自動コード生成において有望であるが、通常はスタンドアロンのコードユニットの生成のような単純なタスクでのみ優れている。
しかし、現実世界のソフトウェア開発には、複雑な依存関係と広範なドキュメントを持つ複雑なコードリポジトリ(リポジトリという名前)が伴うことが多い。
このギャップを埋めるために、我々の研究は、より現実的な、現実世界のリポジトリレベルのコード生成でLLMを評価することに重点を置いています。
我々は,リポジトリレベルのコード生成のための手作業によるベンチマークであるCodeAgentBenchを紹介する。
このベンチマークは5つの高品質のPythonプロジェクトで構成され、合計101のサンプルを含んでいる。
我々は、レポレベルのタスクにおいて、9つの主要なLCMを評価し、その性能の低下を観察する。
そこで本研究では,レポレベルの効率的なコード生成に外部ツールを活用する新しいLLMベースのエージェントフレームワークであるCodeAgentを提案する。
CodeAgentは5つのプログラミングツールを統合し、情報検索、コードシンボルナビゲーション、コードテストのためのソフトウェアアーティファクトとのインタラクションを可能にする。
これらのツールの使用を最適化するための4つのエージェント戦略を実装した。
CodeAgentBenchの実験では、CodeAgentはLLMの性能を大幅に向上させ、18.1\%から250\%に改善した。
HumanEvalベンチマークのさらなるテストでは、さまざまなコード生成タスクに対するCodeAgentの適応性と有効性を確認している。
CodeAgentはGithub Copilotのような商用製品よりも優れており、精度と効率が優れている。
これらの結果は、コード生成におけるCodeAgentの堅牢な能力を示し、実際のリポジトリレベルのコーディング課題の可能性を強調している。
Large Language Models (LLMs) have shown promise in automated code generation but typically excel only in simpler tasks such as generating standalone code units. Real-world software development, however, often involves complex code repositories (named repo) with complex dependencies and extensive documentation. To fill this gap, our research pivots towards evaluating LLMs in a more realistic setting -- real-world repo-level code generation. We introduce CodeAgentBench, a manually curated benchmark for repo-level code generation. This benchmark comprises five high-quality Python projects, encompassing a total of 101 samples. We assess nine leading LLMs on repo-level tasks and observe a decline in their performance. To tackle this, we present CodeAgent, a novel LLM-based agent framework that employs external tools for effective repo-level code generation. CodeAgent integrates five programming tools, enabling interaction with software artifacts for information retrieval, code symbol navigation, and code testing. We implement four agent strategies to optimize these tools' usage. Our experiments on CodeAgentBench show that CodeAgent enhances LLM performance significantly, with improvements ranging from 18.1\% to 250\%. Further tests on the HumanEval benchmark confirm CodeAgent's adaptability and efficacy across various code generation tasks. Notably, CodeAgent outperforms commercial products like Github Copilot, showcasing superior accuracy and efficiency. These results demonstrate CodeAgent's robust capabilities in code generation, highlighting its potential for real-world repo-level coding challenges. | 翻訳日:2024-08-12 20:40:55 公開日:2024-08-09 |
# 部分的発音に対する文脈コントラスト推論手法
A Context-Contrastive Inference Approach To Partial Diacritization ( http://arxiv.org/abs/2401.08919v3 ) ライセンス: Link先を確認 | Muhammad ElNokrashy, Badr AlKhamissi, | (参考訳) ダイアクリプティゼーションは、読みやすさを改善し、アラビア語のテキストの意味を曖昧にする上で重要な役割を担っている。
これまでの努力は、すべての適格な文字(完全な発音)をマークすることに集中してきた。
比較的に見落とされ、部分弁別(PD)は、必要に応じて理解を助けるためにマークされる文字のサブセットの選択である。
研究によると、過剰なダイアクリティカルマークは、熟練した読者を妨げる可能性がある。
動作実験を行い、部分的にマークされたテキストは、完全にマークされたテキストよりも読みやすく、時には平文よりも読みやすいことを示す。
本稿では,既存のアラビア語発音システムとシームレスに統合されたPDの新しいアプローチである,文脈コントラスト部分発音システム(CCPD)を紹介する。
CCPDは各単語を2回、文脈で1回、無関係で1回処理し、2つの推論の相違点を持つ文字のみを分類する。
さらに,これを機械学習タスクとして確立するために必要となる,部分的発音品質を測定するための新しい指標についても紹介する。
最後に、確立されたモデルのトランスフォーマー版であるTD2を紹介し、提案した指標に対して、他の既知のシステムと比較して明らかに異なる性能プロファイルを提供する。
Diacritization plays a pivotal role in improving readability and disambiguating the meaning of Arabic texts. Efforts have so far focused on marking every eligible character (Full Diacritization). Comparatively overlooked, Partial Diacritzation (PD) is the selection of a subset of characters to be marked to aid comprehension where needed. Research has indicated that excessive diacritic marks can hinder skilled readers -- reducing reading speed and accuracy. We conduct a behavioral experiment and show that partially marked text is often easier to read than fully marked text, and sometimes easier than plain text. In this light, we introduce Context-Contrastive Partial Diacritization (CCPD) -- a novel approach to PD which integrates seamlessly with existing Arabic diacritization systems. CCPD processes each word twice, once with context and once without, and diacritizes only the characters with disparities between the two inferences. Further, we introduce novel indicators for measuring partial diacritization quality, essential for establishing this as a machine learning task. Lastly, we introduce TD2, a Transformer-variant of an established model which offers a markedly different performance profile on our proposed indicators compared to all other known systems. | 翻訳日:2024-08-12 20:40:55 公開日:2024-08-09 |
# 時空間偏微分方程式における逆問題に対する物理制約畳み込みニューラルネットワーク
Physics-constrained convolutional neural networks for inverse problems in spatiotemporal partial differential equations ( http://arxiv.org/abs/2401.10306v3 ) ライセンス: Link先を確認 | Daniel Kelshaw, Luca Magri, | (参考訳) 物理制約付き畳み込みニューラルネットワーク(PC-CNN)を用いて,空間と時間の両方で非線形かつ異なる偏微分方程式(PDE)の2種類の逆問題の解法を提案する。
第1の逆問題では、空間的に異なる体系的誤り(つまり、バイアス、つまり、てんかんの不確実性)によってオフセットされるデータを与えられる。
タスクは、バイアスデータからPDEの解である真の状態を明らかにすることである。
第2の逆問題では、PDEの解についてスパース情報を与えられる。
課題は高解像度で解を宇宙空間で再構築することである。
まず,PC-CNNを提案する。PC-CNNはシーケンシャルなデータを扱うための時間ウインドウ方式でPDEを制約する。
第2に、偏りのあるデータから解を明らかにするために、PC-CNNの性能を分析する。
乱流の時空間的カオス力学を規定する線形対流拡散方程式とNavier-Stokes方程式の両方を解析する。
我々は,PC-CNNが,非凸関数としてパラメータ付けされた様々なバイアスに対する真の解を正しく復元することを発見した。
第3に、乱流のスパース情報から解を再構成するためのPC-CNNの性能について分析する。
我々は,高分解能グリッド上の時空間カオス解を,その内に含まれる情報のわずか1\%から再構成する。
どちらのタスクに対しても、Navier-Stokesソリューションをさらに分析する。
推論された解は物理的スペクトルエネルギーの含有量を持つが、補間のような従来の方法ではそうではない。
この研究は偏微分方程式を用いて逆問題を解く機会を開く。
We propose a physics-constrained convolutional neural network (PC-CNN) to solve two types of inverse problems in partial differential equations (PDEs), which are nonlinear and vary both in space and time. In the first inverse problem, we are given data that is offset by spatially varying systematic error (i.e., the bias, also known as the epistemic uncertainty). The task is to uncover the true state, which is the solution of the PDE, from the biased data. In the second inverse problem, we are given sparse information on the solution of a PDE. The task is to reconstruct the solution in space with high-resolution. First, we present the PC-CNN, which constrains the PDE with a time-windowing scheme to handle sequential data. Second, we analyse the performance of the PC-CNN for uncovering solutions from biased data. We analyse both linear and nonlinear convection-diffusion equations, and the Navier-Stokes equations, which govern the spatiotemporally chaotic dynamics of turbulent flows. We find that the PC-CNN correctly recovers the true solution for a variety of biases, which are parameterised as non-convex functions. Third, we analyse the performance of the PC-CNN for reconstructing solutions from sparse information for the turbulent flow. We reconstruct the spatiotemporal chaotic solution on a high-resolution grid from only < 1\% of the information contained in it. For both tasks, we further analyse the Navier-Stokes solutions. We find that the inferred solutions have a physical spectral energy content, whereas traditional methods, such as interpolation, do not. This work opens opportunities for solving inverse problems with partial differential equations. | 翻訳日:2024-08-12 20:40:55 公開日:2024-08-09 |
# コンテクスト帯域における一般共変量シフト下におけるロバスト分布評価
Distributionally Robust Policy Evaluation under General Covariate Shift in Contextual Bandits ( http://arxiv.org/abs/2401.11353v2 ) ライセンス: Link先を確認 | Yihong Guo, Hao Liu, Yisong Yue, Anqi Liu, | (参考訳) 我々は、一般的な共変量シフトの下で、文脈的帯域幅におけるオフラインポリシー評価の信頼性を高めるために、分布的に堅牢なアプローチを導入する。
本手法は,ログデータと対象データ間の状況および方針分布に相違がある場合に,ロバストな政策評価結果を提供することを目的としている。
当社の方法論の中心は,ログデータから条件付き報酬分布の推定を改善するために,分散的に堅牢な手法であるロバスト回帰の適用である。
頑健な回帰から得られる報酬モデルを利用して、我々の報酬モデルを確立された評価フレームワーク、すなわち直接手法と二重頑健な手法に統合することにより、政策価値推定の包括的スイートを開発する。
理論的解析を通じて、提案した政策値推定器はバイアスに対して有限サンプル上限を提供し、特にシフトが大きい場合、従来の手法よりも明確な優位性を与える。
最後に、幅広いポリシー評価シナリオを設計し、さまざまな規模のシフトと、ログとターゲットポリシーのスペクトルをカバーした。
以上の結果から,本手法は方針変更のみによる場合の90%,一般共変量シフトによる場合のシナリオの72%において,ベースライン法よりも有意に優れていたことが示唆された。
We introduce a distributionally robust approach that enhances the reliability of offline policy evaluation in contextual bandits under general covariate shifts. Our method aims to deliver robust policy evaluation results in the presence of discrepancies in both context and policy distribution between logging and target data. Central to our methodology is the application of robust regression, a distributionally robust technique tailored here to improve the estimation of conditional reward distribution from logging data. Utilizing the reward model obtained from robust regression, we develop a comprehensive suite of policy value estimators, by integrating our reward model into established evaluation frameworks, namely direct methods and doubly robust methods. Through theoretical analysis, we further establish that the proposed policy value estimators offer a finite sample upper bound for the bias, providing a clear advantage over traditional methods, especially when the shift is large. Finally, we designed an extensive range of policy evaluation scenarios, covering diverse magnitudes of shifts and a spectrum of logging and target policies. Our empirical results indicate that our approach significantly outperforms baseline methods, most notably in 90% of the cases under the policy shift-only settings and 72% of the scenarios under the general covariate shift settings. | 翻訳日:2024-08-12 20:30:23 公開日:2024-08-09 |
# 教師付き学習を用いたMyopic MPC政策の構築について
On Building Myopic MPC Policies using Supervised Learning ( http://arxiv.org/abs/2401.12546v2 ) ライセンス: Link先を確認 | Christopher A. Orrico, Bokan Yang, Dinesh Krishnamoorthy, | (参考訳) モデル予測制御(MPC)と組み合わせた教師付き学習技術の適用は、特に近似的明示的なMPC領域において、オフラインで生成された最適な状態-作用ペアを通じてMPCポリシーを学ぶために、ディープニューラルネットワークのような関数近似器が使用されるなど、近年大きな関心を集めている。
ほぼ明示的なMPCの目的は、トレーニングされたニューラルネットワークでオンライン最適化に代えて、MPCポリシーを忠実に再現することにあるが、オンライン最適化問題の解決に伴うパフォーマンス保証は通常失われている。
本稿では,教師付き学習を用いて最適値関数をオフラインで学習する代替戦略について考察する。
すると、これは非常に短い予測地平線を持つミオピックMPCにおけるコスト・ツー・ゴー機能として利用でき、オンライン計算の負担が制御性能に影響を与えることなく大幅に低減される。
このアプローチは、ループ性能データではなく、オフラインでコンパイルされた状態値ペアを使用することで、コスト・ツー・ゴー関数を学習するという意味で、バリュー関数近似に関する既存の研究とは異なる。
トレーニングに使用する状態値ペアを生成するコストは、感度ベースのデータ拡張スキームを用いて対処する。
The application of supervised learning techniques in combination with model predictive control (MPC) has recently generated significant interest, particularly in the area of approximate explicit MPC, where function approximators like deep neural networks are used to learn the MPC policy via optimal state-action pairs generated offline. While the aim of approximate explicit MPC is to closely replicate the MPC policy, substituting online optimization with a trained neural network, the performance guarantees that come with solving the online optimization problem are typically lost. This paper considers an alternative strategy, where supervised learning is used to learn the optimal value function offline instead of learning the optimal policy. This can then be used as the cost-to-go function in a myopic MPC with a very short prediction horizon, such that the online computation burden reduces significantly without affecting the controller performance. This approach differs from existing work on value function approximations in the sense that it learns the cost-to-go function by using offline-collected state-value pairs, rather than closed-loop performance data. The cost of generating the state-value pairs used for training is addressed using a sensitivity-based data augmentation scheme. | 翻訳日:2024-08-12 20:30:23 公開日:2024-08-09 |
# 説明可能な機械学習におけるSHAPスコアの分布不確かさ
The Distributional Uncertainty of the SHAP score in Explainable Machine Learning ( http://arxiv.org/abs/2401.12731v3 ) ライセンス: Link先を確認 | Santiago Cifuentes, Leopoldo Bertossi, Nina Pardal, Sergio Abriola, Maria Vanina Martinez, Miguel Romero, | (参考訳) 属性スコアは、入力エンティティにおける特徴値が機械学習モデルの出力にどれほど重要であるかを反映する。
最も人気のある属性スコアの1つはSHAPスコアであり、これは連立ゲーム理論で使われる一般的なシェープリー値のインスタンス化である。
このスコアの定義は、実体人口の確率分布に依存する。
正確な分布は一般に不明であるため、主観的に割り振るか、データから推定する必要がある。
本稿では,未知の実体集団分布下でのSHAPスコアの推論の原理的枠組みを提案する。
本フレームワークでは,潜在的な分布を含む不確実性領域を考察し,特徴量のSHAPスコアをこの領域上で定義した関数とする。
我々は,この関数の最大値と最小値を求める基本的な問題について検討し,すべての特徴のSHAPスコアに対して厳密な範囲を決定できることを示した。
特に、これらの問題と他の関連する問題の複雑さを指摘し、NP完全であることを示す。
最後に、実世界のデータセットで実験を行い、我々のフレームワークがより堅牢な機能スコアリングに寄与することを示した。
Attribution scores reflect how important the feature values in an input entity are for the output of a machine learning model. One of the most popular attribution scores is the SHAP score, which is an instantiation of the general Shapley value used in coalition game theory. The definition of this score relies on a probability distribution on the entity population. Since the exact distribution is generally unknown, it needs to be assigned subjectively or be estimated from data, which may lead to misleading feature scores. In this paper, we propose a principled framework for reasoning on SHAP scores under unknown entity population distributions. In our framework, we consider an uncertainty region that contains the potential distributions, and the SHAP score of a feature becomes a function defined over this region. We study the basic problems of finding maxima and minima of this function, which allows us to determine tight ranges for the SHAP scores of all features. In particular, we pinpoint the complexity of these problems, and other related ones, showing them to be NP-complete. Finally, we present experiments on a real-world dataset, showing that our framework may contribute to a more robust feature scoring. | 翻訳日:2024-08-12 20:30:23 公開日:2024-08-09 |
# 文脈認識探索による高速ピア適応
Fast Peer Adaptation with Context-aware Exploration ( http://arxiv.org/abs/2402.02468v2 ) ライセンス: Link先を確認 | Long Ma, Yuanfei Wang, Fangwei Zhong, Song-Chun Zhu, Yizhou Wang, | (参考訳) 異なる戦略で未知の仲間(パートナーや相手)に迅速に適応することは、マルチエージェントゲームにおいて重要な課題である。
そのため、適応において最良の対応を行うための前提条件であるため、エージェントが効率よくピアの戦略を調査・特定することが不可欠である。
しかし、特にゲームが部分的に観察可能で、長い地平線を持つ場合、未知のピアの戦略を探索することは困難である。
本稿では,複数のエピソードにまたがる観察などの歴史的文脈において,ピアの行動パターンをいかに識別できるかに基づいて,学習エージェントに報奨を与えるピア識別報酬を提案する。
この報酬は、効果的な探索と迅速な適応のための文脈対応政策、すなわち、ポリシーについて不確実な時に仲間から情報的フィードバックを積極的に求め、収集し、自信のあるときに最高の応答を行うためのコンテキストを活用することを促す。
我々は,競争力のある(クーンポーカー),協力的(PO-Overcooked),あるいは混合的(Predator-Prey-W)な(Pedator-Prey-W)ゲームを含む多種多様なテストベッドについて評価を行った。
我々は,本手法が既存手法よりも高速な適応とより良い結果をもたらすことを実証した。
Fast adapting to unknown peers (partners or opponents) with different strategies is a key challenge in multi-agent games. To do so, it is crucial for the agent to probe and identify the peer's strategy efficiently, as this is the prerequisite for carrying out the best response in adaptation. However, exploring the strategies of unknown peers is difficult, especially when the games are partially observable and have a long horizon. In this paper, we propose a peer identification reward, which rewards the learning agent based on how well it can identify the behavior pattern of the peer over the historical context, such as the observation over multiple episodes. This reward motivates the agent to learn a context-aware policy for effective exploration and fast adaptation, i.e., to actively seek and collect informative feedback from peers when uncertain about their policies and to exploit the context to perform the best response when confident. We evaluate our method on diverse testbeds that involve competitive (Kuhn Poker), cooperative (PO-Overcooked), or mixed (Predator-Prey-W) games with peer agents. We demonstrate that our method induces more active exploration behavior, achieving faster adaptation and better outcomes than existing methods. | 翻訳日:2024-08-12 20:30:23 公開日:2024-08-09 |
# 生成拡散モデルを用いた可制御性地震波速度合成
Controllable seismic velocity synthesis using generative diffusion models ( http://arxiv.org/abs/2402.06277v2 ) ライセンス: Link先を確認 | Fu Wang, Xinquan Huang, Tariq Alkhalifah, | (参考訳) 正確な地震速度推定は、地球の地下構造を理解し、天然資源を評価し、地震の危険を評価するために不可欠である。
機械学習ベースのインバージョンアルゴリズムは、地域(探索のために)とグローバルな速度推定において有望な性能を示し、その効果は、一般的にターゲットのソリューションをカバーする分布を持つ大規模で多様なトレーニングデータセットへのアクセスに影響を及ぼす。
さらに、速度推定の精度と信頼性を向上させるには、例えば地質学のクラス、井戸のログ、地下構造といった事前情報を組み込む必要があるが、現在の統計やニューラルネットワークに基づく手法は、そのようなマルチモーダル情報を扱うのに十分な柔軟性を持っていない。
両課題に対処するために, 条件付き生成拡散モデルを用いて地震波速度合成を行うことを提案する。
このアプローチは、予測された目標分布と密接に一致した地震波速度の生成を可能にし、専門家の知識と測定データの両方から得られたデータセットを提供し、データ駆動型物理手法のトレーニングを支援する。
クラスラベル,ウェルログ,反射率画像,それらの組み合わせなど,様々な条件下でのOpenFWIデータセット上での拡散モデルのトレーニングにより,本手法の柔軟性と有効性を示す。
アウト・オブ・ディストリビューション条件下でのアプローチのパフォーマンスは、その一般化能力をさらに強調し、ベロシティ逆問題に対する適切な事前情報を提供し、機械学習ベースの物理応用のための特定のトレーニングデータセットを作成する可能性を示している。
Accurate seismic velocity estimations are vital to understanding Earth's subsurface structures, assessing natural resources, and evaluating seismic hazards. Machine learning-based inversion algorithms have shown promising performance in regional (i.e., for exploration) and global velocity estimation, while their effectiveness hinges on access to large and diverse training datasets whose distributions generally cover the target solutions. Additionally, enhancing the precision and reliability of velocity estimation also requires incorporating prior information, e.g., geological classes, well logs, and subsurface structures, but current statistical or neural network-based methods are not flexible enough to handle such multi-modal information. To address both challenges, we propose to use conditional generative diffusion models for seismic velocity synthesis, in which we readily incorporate those priors. This approach enables the generation of seismic velocities that closely match the expected target distribution, offering datasets informed by both expert knowledge and measured data to support training for data-driven geophysical methods. We demonstrate the flexibility and effectiveness of our method through training diffusion models on the OpenFWI dataset under various conditions, including class labels, well logs, reflectivity images, and the combination of these priors. The performance of the approach under out-of-distribution conditions further underscores its generalization ability, showcasing its potential to provide tailored priors for velocity inverse problems and create specific training datasets for machine learning-based geophysical applications. | 翻訳日:2024-08-12 20:30:23 公開日:2024-08-09 |
# 衝突機における量子絡み合いとベル不等式違反
Quantum entanglement and Bell inequality violation at colliders ( http://arxiv.org/abs/2402.07972v3 ) ライセンス: Link先を確認 | Alan J. Barr, Marco Fabbrichesi, Roberto Floreanini, Emidio Gabrielli, Luca Marzola, | (参考訳) 粒子物理学における絡み合いの研究は、ここ数年で加速している。
これは、上クォーク、$\tau$-lepton対、$\Lambda$-baryons、massge gauge bosons、vector mesonsのような多彩な最終状態の衝突子におけるエンタングルメントの検出とベルの不等式試験の可能性に関する重要な結果を提供する新しい分野である。
このレビューでは、これらの発展を理解するのに必要な定義、ツール、基礎的な結果を提示した後、2024年初めまでに公表された主な発見を要約し、B$中間子崩壊とトップクォーク対生成の実験データの分析を含む。
我々は、量子ビット系と量子ビット系の両方、すなわちスピン1/半とスピン1粒子を含む最終状態の結果に関する詳細な議論を含む。
エンタングルメントは、標準モデル以外の新しい粒子や場を制約する新しいツールとして提案されており、この有望な機能についても読者に紹介する。
The study of entanglement in particle physics has been gathering pace in the past few years. It is a new field that is providing important results about the possibility of detecting entanglement and testing Bell inequality at colliders for final states as diverse as top-quark, $\tau$-lepton pairs and $\Lambda$-baryons, massive gauge bosons and vector mesons. In this review, after presenting definitions, tools and basic results that are necessary for understanding these developments, we summarize the main findings -- as published by the beginning of year 2024 -- including analyses of experimental data in $B$ meson decays and top-quark pair production. We include a detailed discussion of the results for both qubit and qutrits systems, that is, final states containing spin one-half and spin one particles. Entanglement has also been proposed as a new tool to constrain new particles and fields beyond the Standard Model and we introduce the reader to this promising feature as well. | 翻訳日:2024-08-12 20:30:23 公開日:2024-08-09 |
# チームワークによるTEE作業 - 分散信頼によるオープンでレジリエントなリモートテスト
Teamwork Makes TEE Work: Open and Resilient Remote Attestation on Decentralized Trust ( http://arxiv.org/abs/2402.08908v2 ) ライセンス: Link先を確認 | Xiaolin Zhang, Kailun Qin, Shipei Qu, Tengfei Wang, Chi Zhang, Dawu Gu, | (参考訳) 遠隔検査(RA)により、信頼された実行環境(TEE)におけるアプリケーションの完全性と信頼性を検証できる。
既存のTEE RA設計では、リモートパーティの信頼を確立するために、単一のプロビジョニングされた秘密鍵と集中型検証器に依存する集中型信頼モデルを採用している。
しかし、このモデルは不安定であり、近年の先進攻撃では信頼できない。
さらに、ほとんどの設計では、一度デプロイしただけで、異なる状況に適応し、回復力のある機能を提供するのが難しくなる。
そこで我々はオープンでレジリエントなTEE RAスキームであるJANUSを提案する。
信頼を分散化するために、我々はTEEにおける本質的な信頼の根 (RoT) としてPhysically Unclonable Function (PUF)を導入し、物理的信頼の度合いを直接提供する。
一方、スマートコントラクト上での新たな分散検証関数を、結果監査とRAセッションスナップショットで設計する。
さらに,JANUSが回復力を維持し,様々な状況下で柔軟なRAサービスを提供するための自動スイッチ機構を設計する。
我々は、UCベースのセキュリティ証明を提供し、完全なプロトタイプを実装することで、JANUSのスケーラビリティと汎用性を実証する。
Remote Attestation (RA) enables the integrity and authenticity of applications in Trusted Execution Environment (TEE) to be verified. Existing TEE RA designs employ a centralized trust model where they rely on a single provisioned secret key and a centralized verifier to establish trust for remote parties. This model is however brittle and can be untrusted under advanced attacks nowadays. Besides, most designs only have fixed procedures once deployed, making them hard to adapt to different emerging situations and provide resilient functionalities. Therefore, we propose JANUS, an open and resilient TEE RA scheme. To decentralize trust, we, on one hand, introduce Physically Unclonable Function (PUF) as an intrinsic root of trust (RoT) in TEE to directly provide physical trusted measurements. On the other hand, we design novel decentralized verification functions on smart contract with result audits and RA session snapshot. Furthermore, we design an automated switch mechanism that allows JANUS to remain resilient and offer flexible RA services under various situations. We provide a UC-based security proof and demonstrate the scalability and generality of JANUS by implementing an complete prototype. | 翻訳日:2024-08-12 20:30:23 公開日:2024-08-09 |
# 言語モデルに影響を及ぼす証拠は何か?
What Evidence Do Language Models Find Convincing? ( http://arxiv.org/abs/2402.11782v2 ) ライセンス: Link先を確認 | Alexander Wan, Eric Wallace, Dan Klein, | (参考訳) 検索言語モデルは「アスパルタムは癌と結びついている」といった主観的、論争的、矛盾するクエリにますます取り組まれている。
これらの曖昧なクエリを解決するには、広範囲のWebサイトを検索し、“この証拠のどれが説得力があるか”を考える必要がある。
本研究では, LLM がこの疑問にどう答えるかを考察する。
特に、議論を呼んでいるクエリと、さまざまな事実(例えば、定量的な結果)、議論スタイル(例えば、権威へのアピール)、回答(Yes or No)を含む一連の実世界の証拠文書とを照合するデータセットであるConflictingQAを構築する。
このデータセットを用いて、感度と反ファクト分析を行い、どのテキスト特徴がLLM予測に最も影響するかを探索する。
全体として、現在のモデルは、クエリに対するWebサイトの関連性に大きく依存しているが、テキストに科学的参照が含まれているか、中立的なトーンで書かれているかといった、人間が重要と考えるスタイル的特徴を無視している。
これらの結果は、RAGコーパスの品質(例えば、誤報をフィルタリングする必要性)の重要性や、LLMが人間の判断によく適合するように訓練される方法の変化を浮き彫りにしている。
Retrieval-augmented language models are being increasingly tasked with subjective, contentious, and conflicting queries such as "is aspartame linked to cancer". To resolve these ambiguous queries, one must search through a large range of websites and consider "which, if any, of this evidence do I find convincing?". In this work, we study how LLMs answer this question. In particular, we construct ConflictingQA, a dataset that pairs controversial queries with a series of real-world evidence documents that contain different facts (e.g., quantitative results), argument styles (e.g., appeals to authority), and answers (Yes or No). We use this dataset to perform sensitivity and counterfactual analyses to explore which text features most affect LLM predictions. Overall, we find that current models rely heavily on the relevance of a website to the query, while largely ignoring stylistic features that humans find important such as whether a text contains scientific references or is written with a neutral tone. Taken together, these results highlight the importance of RAG corpus quality (e.g., the need to filter misinformation), and possibly even a shift in how LLMs are trained to better align with human judgements. | 翻訳日:2024-08-12 20:30:23 公開日:2024-08-09 |
# 自然画像ストレッチのためのオブジェクトレベルの幾何構造
Object-level Geometric Structure Preserving for Natural Image Stitching ( http://arxiv.org/abs/2402.12677v3 ) ライセンス: Link先を確認 | Wenxiao Cai, Wankou Yang, | (参考訳) 世界規模の自然構造で画像を縫い合わせるという話題は、アライメントと歪み防止という2つの主要な目標において、最重要となる。
既存のアプローチは、うまく整合する能力を示しているが、オブジェクト構造を維持するには不足している。
本稿では,優れたアライメント性能に基づいて,グローバル類似性優先(OBJ-GSP)に基づく画像内のOBJectレベル構造全体の保護に努める。
我々のアプローチはシーン内の任意のオブジェクトの輪郭を抽出するためにSegment Anything Modelのファミリーのようなセグメンテーションモデルを活用する。
三角形メッシュは画像内のオブジェクト全体の形状を保護するために画像変換に使用される。
アライメントと歪み防止のバランスは、オブジェクトメッシュが類似性と射影変換のバランスをとることによって達成される。
また,低高度空中画像縫合におけるセグメンテーションの重要性も示した。
さらに,これまでで最も包括的な画像縫合ベンチマークであるStitchBenchを提案する。
OBJ-GSPはアライメントと形状保存の両方において既存の手法よりも優れていた。
コードとデータセットは \url{https://github.com/RussRobin/OBJ-GSP} で公開されている。
The topic of stitching images with globally natural structures holds paramount significance, with two main goals: alignment and distortion prevention. The existing approaches exhibit the ability to align well, yet fall short in maintaining object structures. In this paper, we endeavour to safeguard the overall OBJect-level structures within images based on Global Similarity Prior (OBJ-GSP), on the basis of good alignment performance. Our approach leverages semantic segmentation models like the family of Segment Anything Model to extract the contours of any objects in a scene. Triangular meshes are employed in image transformation to protect the overall shapes of objects within images. The balance between alignment and distortion prevention is achieved by allowing the object meshes to strike a balance between similarity and projective transformation. We also demonstrate the importance of segmentation in low-altitude aerial image stitching. Additionally, we propose StitchBench, the most comprehensive image stitching benchmark by far. Extensive experimental results demonstrate that OBJ-GSP outperforms existing methods in both alignment and shape preservation. Code and dataset is publicly available at \url{https://github.com/RussRobin/OBJ-GSP}. | 翻訳日:2024-08-12 20:30:23 公開日:2024-08-09 |
# レチノトピックマッピングは畳み込みニューラルネットワークのロバスト性を高める
Retinotopic Mapping Enhances the Robustness of Convolutional Neural Networks ( http://arxiv.org/abs/2402.15480v2 ) ライセンス: Link先を確認 | Jean-Nicolas Jérémie, Emmanuel Daucé, Laurent U Perrinet, | (参考訳) 人間を含む多くの動物が共有しているFoveated Visionは、生物学的視覚機能に重要な貢献をしているにもかかわらず、機械学習アプリケーションに完全に利用されていない。
本研究では, 葉緑体視覚の重要成分である網膜マッピングが, 深部畳み込みニューラルネットワーク(CNN)に統合された場合, 画像分類と局所化性能を向上させることができるかを検討した。
レチノトピックマッピングは、標準のオフザシェルフ畳み込みニューラルネットワーク(CNN)の入力に統合され、ImageNetタスクで再トレーニングされた。
予想通り、対数極性マッピングは、特に孤立したオブジェクトに対して、任意の画像のズームと回転を処理するネットワークの能力を改善した。
驚くべきことに、レチノトピー的にマッピングされたネットワークは、分類において同等のパフォーマンスを達成した。
さらに, ネットワークは, 変形の中心がずれた場合に, 分類の局所化が向上することを示した。
これは、典型的な畳み込みニューラルネットワーク(CNN)に欠けている人間の視覚系の重要な能力を再現する。
これらの結果から,網膜白内障マッピングは重要な予防的視覚過程の根幹である可能性が示唆された。
Foveated vision, a trait shared by many animals, including humans, has not been fully utilized in machine learning applications, despite its significant contributions to biological visual function. This study investigates whether retinotopic mapping, a critical component of foveated vision, can enhance image categorization and localization performance when integrated into deep convolutional neural networks (CNNs). Retinotopic mapping was integrated into the inputs of standard off-the-shelf convolutional neural networks (CNNs), which were then retrained on the ImageNet task. As expected, the logarithmic-polar mapping improved the network's ability to handle arbitrary image zooms and rotations, particularly for isolated objects. Surprisingly, the retinotopically mapped network achieved comparable performance in classification. Furthermore, the network demonstrated improved classification localization when the foveated center of the transform was shifted. This replicates a crucial ability of the human visual system that is absent in typical convolutional neural networks (CNNs). These findings suggest that retinotopic mapping may be fundamental to significant preattentive visual processes. | 翻訳日:2024-08-12 20:30:23 公開日:2024-08-09 |
# 個人格付けによる最適格付け
Rate-Optimal Rank Aggregation with Private Pairwise Rankings ( http://arxiv.org/abs/2402.16792v2 ) ライセンス: Link先を確認 | Shirong Xu, Will Wei Sun, Guang Cheng, | (参考訳) 推薦システムや政治調査のような現実世界の様々なシナリオでは、アイテムの総合的なランキングを得るために、ペアワイズランキングが一般的に収集され、ランキングアグリゲーションに利用される。
しかし、選好ランキングは個人の個人の嗜好を明らかにする可能性があり、下流の分析のために彼らを保護する必要性が強調される。
本稿では、一般的な比較モデルから得られるペアのランキングに基づいて、ランキングアグリゲーションの実用性を確保しつつ、プライバシ保護の課題に対処する。
ランダム化された応答機構を使用して、ペアワイズランキングを摂動させることは、実際には一般的なプライバシ保護戦略である。
しかし、民営化されたランキングがもはや元のモデルに従わないため、下流のランキング集計タスクにかなりのバイアスがかかるため、重要な課題が生じる。
そこで本研究では、ランダム化応答機構からランクを適応的にデバイアスし、真の選好を確実に推定し、下流のランクアグリゲーションの有用性を高めることを提案する。
理論的には、プライバシー保証とプライベートランキングデータからの推定誤差の関係を考察し、推定誤差の最小値の設定を行う。
これにより、ランクアグリゲーションにおける一貫性とプライバシ保護とのバランスを、最適なプライバシ保証を決定することができる。
また、プライバシ保護が上位のK$アイテムセットと完全なランキングセットの仕様にどのように影響するかを定量化しながら、部分的および完全なランキングリカバリのための予測ランキングエラーの収束率についても検討する。
本研究は,広範囲なシミュレーションと実応用により検証した。
In various real-world scenarios, such as recommender systems and political surveys, pairwise rankings are commonly collected and utilized for rank aggregation to obtain an overall ranking of items. However, preference rankings can reveal individuals' personal preferences, underscoring the need to protect them from being released for downstream analysis. In this paper, we address the challenge of preserving privacy while ensuring the utility of rank aggregation based on pairwise rankings generated from a general comparison model. Using the randomized response mechanism to perturb raw pairwise rankings is a common privacy protection strategy used in practice. However, a critical challenge arises because the privatized rankings no longer adhere to the original model, resulting in significant bias in downstream rank aggregation tasks. Motivated by this, we propose to adaptively debiasing the rankings from the randomized response mechanism, ensuring consistent estimation of true preferences and enhancing the utility of downstream rank aggregation. Theoretically, we offer insights into the relationship between overall privacy guarantees and estimation errors from private ranking data, and establish minimax rates for estimation errors. This enables the determination of optimal privacy guarantees that balance consistency in rank aggregation with privacy protection. We also investigate convergence rates of expected ranking errors for partial and full ranking recovery, quantifying how privacy protection influences the specification of top-$K$ item sets and complete rankings. Our findings are validated through extensive simulations and a real application. | 翻訳日:2024-08-12 20:30:23 公開日:2024-08-09 |
# ハード・ソフト・ネガティティクスを用いた教師付きコントラスト学習によるリハビリテーション・エクササイズ評価
Rehabilitation Exercise Quality Assessment through Supervised Contrastive Learning with Hard and Soft Negatives ( http://arxiv.org/abs/2403.02772v2 ) ライセンス: Link先を確認 | Mark Karlov, Ali Abedi, Shehroz S. Khan, | (参考訳) 運動ベースのリハビリテーションプログラムは、生活の質を高め、死亡率と再入院率を減らすのに有効であることが証明されている。
AIによる仮想リハビリテーションは、患者が自宅で単独で運動を完了できるようにするもので、AIアルゴリズムを使用して運動データを分析し、患者にフィードバックを提供し、進行状況について臨床医を更新する。
これらのプログラムは一般的に様々なエクササイズタイプを規定しており、リハビリテーションエクササイズアセスメントアセスメントデータセットにおいて明確な課題をもたらしている: 総合的なトレーニングサンプルが豊富であるにもかかわらず、これらのデータセットは個々のエクササイズタイプごとに限られた数のサンプルを持つことが多い。
この格差は、エクササイズ毎にそのような小さなサンプルサイズで一般化可能なモデルを訓練するための既存のアプローチの能力を損なう。
本稿では,全データセットを効果的に活用し,すべてのエクササイズタイプに適用可能な単一モデルをトレーニングする,ハードかつソフトな負のサンプルを持つ新しい教師付きコントラスト学習フレームワークを提案する。
このモデルは、時空間グラフ畳み込みネットワーク(ST-GCN)アーキテクチャを用いて、エクササイズ間の一般化性の向上と全体的な複雑性の低下を実証した。
UI-PRMD, IRDS, KIMOREの3つの公用リハビリテーションエクササイズアセスメントデータセットに関する広範な実験を通じて, 本手法は既存の方法を超えることが証明され, リハビリテーションエクササイズ品質アセスメントの新たなベンチマークが設定された。
Exercise-based rehabilitation programs have proven to be effective in enhancing the quality of life and reducing mortality and rehospitalization rates. AI-driven virtual rehabilitation, which allows patients to independently complete exercises at home, utilizes AI algorithms to analyze exercise data, providing feedback to patients and updating clinicians on their progress. These programs commonly prescribe a variety of exercise types, leading to a distinct challenge in rehabilitation exercise assessment datasets: while abundant in overall training samples, these datasets often have a limited number of samples for each individual exercise type. This disparity hampers the ability of existing approaches to train generalizable models with such a small sample size per exercise type. Addressing this issue, this paper introduces a novel supervised contrastive learning framework with hard and soft negative samples that effectively utilizes the entire dataset to train a single model applicable to all exercise types. This model, with a Spatial-Temporal Graph Convolutional Network (ST-GCN) architecture, demonstrated enhanced generalizability across exercises and a decrease in overall complexity. Through extensive experiments on three publicly available rehabilitation exercise assessment datasets, UI-PRMD, IRDS, and KIMORE, our method has proven to surpass existing methods, setting a new benchmark in rehabilitation exercise quality assessment. | 翻訳日:2024-08-12 20:30:23 公開日:2024-08-09 |
# Koopman演算子学習とNyström法による非線形系の線形二次制御
Linear quadratic control of nonlinear systems with Koopman operator learning and the Nyström method ( http://arxiv.org/abs/2403.02811v2 ) ライセンス: Link先を確認 | Edoardo Caldarelli, Antoine Chatalic, Adrià Colomé, Cesare Molinari, Carlos Ocampo-Martinez, Carme Torras, Lorenzo Rosasco, | (参考訳) 本論文では, 非線形力学系を効果的に制御するために, クープマン演算子フレームワークをカーネル法と組み合わせる方法について検討する。
カーネル法は一般に大きな計算要件を持つが、精度を保ちながら巨大な計算節約を達成するためにランダムな部分空間 (Nystr\"om approximation) をどのように利用できるかを示す。
我々の主な技術的貢献は、Nystr\"om近似の効果に関する理論的保証を導出することである。
より正確には、近似された Riccati 作用素が $m^{-1/2}$ で収束することを示し、最適制御問題の関連解に対する規制目的は $m^{-1}$ で収束し、$m$ はランダム部分空間サイズである。
理論的知見は, 数値実験によって補完される。
In this paper, we study how the Koopman operator framework can be combined with kernel methods to effectively control nonlinear dynamical systems. While kernel methods have typically large computational requirements, we show how random subspaces (Nystr\"om approximation) can be used to achieve huge computational savings while preserving accuracy. Our main technical contribution is deriving theoretical guarantees on the effect of the Nystr\"om approximation. More precisely, we study the linear quadratic regulator problem, showing that the approximated Riccati operator converges at the rate $m^{-1/2}$, and the regulator objective, for the associated solution of the optimal control problem, converges at the rate $m^{-1}$, where $m$ is the random subspace size. Theoretical findings are complemented by numerical experiments corroborating our results. | 翻訳日:2024-08-12 20:20:09 公開日:2024-08-09 |
# 没入型コーディングによるクラウドコンピューティングのプライバシ
Privacy in Cloud Computing through Immersion-based Coding ( http://arxiv.org/abs/2403.04485v2 ) ライセンス: Link先を確認 | Haleh Hayati, Nathan van de Wouw, Carlos Murguia, | (参考訳) クラウドコンピューティングにより、ユーザはインターネット上でデータを共有することによって、高性能コンピュータやサーバ上でデータをリモートで処理し、保存することができる。
しかし、データをクラウドに転送することは、避けられないプライバシー上の懸念を引き起こす。
本稿では、データユーティリティとアルゴリズム性能を犠牲にすることなく、プライバシ保護方式でデータの共有と処理を可能にするコーディング機構の設計のための合成フレームワークを提案する。
ユーザがプライベートデータを使ってクラウド上でアルゴリズムを実行するためのセットアップを検討する。
クラウドは、いくつかのデータユーティリティをユーザに返します(ユーティリティは、アルゴリズムが提供するサービス、例えば、分類、予測、AIモデルなどを指します)。
プライバシー上の懸念を避けるため、提案されたスキームは、共同設計のためのツールを提供する。
1) 原データを歪曲し,所定の差分プライバシーレベルを保証するための符号化機構
2) 歪んだデータ上で動作し、歪んだユーティリティを生成する等分差分アルゴリズム(ここでは対象アルゴリズムと呼ぶ)
3)歪んだものから真の有用性を無視可能な誤りで抽出する復号機能。
そして、元のデータとアルゴリズムをクラウドと共有する代わりに、歪んだデータとターゲットのアルゴリズムだけが開示されるため、プライバシー上の懸念は回避される。
提案手法は,制御理論に基づく差分プライバシとシステム浸漬ツールの相乗効果に基づいて構築される。
鍵となる考え方は、元のアルゴリズムのすべての軌跡を埋め込んだ高次元ターゲットアルゴリズムを設計し、ランダムに符号化されたデータに基づいてランダムに符号化されたユーティリティを生成することである。
提案手法は,アルゴリズムの有用性を損なうことなく,任意のレベルの差分プライバシーを提供するように設計されていることを示す。
本稿では,最適化/学習アルゴリズムにおけるプライバシと非線形ネットワーク制御システムという,開発ツールの性能を示す2つのユースケースを提案する。
Cloud computing enables users to process and store data remotely on high-performance computers and servers by sharing data over the Internet. However, transferring data to clouds causes unavoidable privacy concerns. Here, we present a synthesis framework to design coding mechanisms that allow sharing and processing data in a privacy-preserving manner without sacrificing data utility and algorithmic performance. We consider the setup where the user aims to run an algorithm in the cloud using private data. The cloud then returns some data utility back to the user (utility refers to the service that the algorithm provides, e.g., classification, prediction, AI models, etc.). To avoid privacy concerns, the proposed scheme provides tools to co-design: 1) coding mechanisms to distort the original data and guarantee a prescribed differential privacy level; 2) an equivalent-but-different algorithm (referred here to as the target algorithm) that runs on distorted data and produces distorted utility; and 3) a decoding function that extracts the true utility from the distorted one with a negligible error. Then, instead of sharing the original data and algorithm with the cloud, only the distorted data and target algorithm are disclosed, thereby avoiding privacy concerns. The proposed scheme is built on the synergy of differential privacy and system immersion tools from control theory. The key underlying idea is to design a higher-dimensional target algorithm that embeds all trajectories of the original algorithm and works on randomly encoded data to produce randomly encoded utility. We show that the proposed scheme can be designed to offer any level of differential privacy without degrading the algorithm's utility. We present two use cases to illustrate the performance of the developed tools: privacy in optimization/learning algorithms and a nonlinear networked control system. | 翻訳日:2024-08-12 20:20:09 公開日:2024-08-09 |
# リンク予測のための知識グラフ大言語モデル(KG-LLM)
Knowledge Graph Large Language Model (KG-LLM) for Link Prediction ( http://arxiv.org/abs/2403.07311v8 ) ライセンス: Link先を確認 | Dong Shu, Tianle Chen, Mingyu Jin, Chong Zhang, Mengnan Du, Yongfeng Zhang, | (参考訳) 知識グラフ (KGs) におけるマルチホップリンク予測の課題は、知識グラフ解析の分野における課題である。
本稿では,知識グラフタスクに大規模言語モデル(LLM)を活用する新しいフレームワークである知識グラフ大言語モデル(KG-LLM)を紹介する。
まず、構造化知識グラフデータを自然言語に変換し、次にこれらの自然言語プロンプトを微調整 LLM に使用して、KG におけるマルチホップリンク予測を強化する。
KGを自然言語のプロンプトに変換することにより、我々のフレームワークは、エンティティとその相互関係の潜在表現を学習するように設計されている。
KG-LLMフレームワークの有効性を示すため,Flan-T5,LLaMa2,Gemmaの3つのLLMを微調整した。
さらに、これまで見つからなかったプロンプトを扱うため、ゼロショット機能を備えたLLMを提供するフレームワークの可能性についても検討する。
実験結果から、KG-LLMはモデルの一般化能力を著しく改善し、不慣れなシナリオでより正確な予測を行うことが示された。
The task of multi-hop link prediction within knowledge graphs (KGs) stands as a challenge in the field of knowledge graph analysis, as it requires the model to reason through and understand all intermediate connections before making a prediction. In this paper, we introduce the Knowledge Graph Large Language Model (KG-LLM), a novel framework that leverages large language models (LLMs) for knowledge graph tasks. We first convert structured knowledge graph data into natural language and then use these natural language prompts to fine-tune LLMs to enhance multi-hop link prediction in KGs. By converting the KG to natural language prompts, our framework is designed to learn the latent representations of entities and their interrelations. To show the efficacy of the KG-LLM Framework, we fine-tune three leading LLMs within this framework, including Flan-T5, LLaMa2 and Gemma. Further, we explore the framework's potential to provide LLMs with zero-shot capabilities for handling previously unseen prompts. Experimental results show that KG-LLM significantly improves the models' generalization capabilities, leading to more accurate predictions in unfamiliar scenarios. | 翻訳日:2024-08-12 20:20:09 公開日:2024-08-09 |
# 時間依存多電子シュレーディンガー方程式に対するアブ初期変動波動関数
Ab-initio variational wave functions for the time-dependent many-electron Schrödinger equation ( http://arxiv.org/abs/2403.07447v2 ) ライセンス: Link先を確認 | Jannes Nys, Gabriel Pescia, Alessandro Sinibaldi, Giuseppe Carleo, | (参考訳) 多電子量子系のリアルタイム進化を記述することは、凝縮物質の動的性質、量子化学における分子系、複雑な物質の挙動を理解するために重要である。
しかし、非平衡量子電子系のリアルタイム進化は、理論と計算のアプローチに重大な課題をもたらす。
本研究は, フェルミオン時間依存波動関数に対する変動的アプローチを導入し, 多体相関を捉えることで平均場近似を超越した。
本手法は時間発展量子状態のパラメータ化を導入し,その進化の正確な近似を可能にする。
電子相関を考慮に入れ,時間依存性のジャストロウ因子とバックフロー変換を用い,関数パラメータ化にニューラルネットワークを組み込むことにより,さらに拡張することができる。
時間依存変動モンテカルロ法を用いて最適時間依存パラメータを効率的に計算する。
さらに、プロパゲータのトロッター根展開に基づく新しい時間進化法を導入し、シミュレーションの精度と効率を向上させる。
このアプローチは、可溶性調和相互作用モデル、強いレーザー場における二原子分子のダイナミクス、焼成量子ドットの3つの異なるシステムで実証されている。
いずれの場合も、平均場法では捉えられない力学における多体相関の明確なシグネチャを示す。
その結果、量子状態の時間的進化を正確に捉え、平均場の能力を超えた相互作用する電子系の量子力学の洞察を与える、我々の変分的アプローチの能力が示された。
Describing the real-time evolution of many-electron quantum systems is crucial for understanding the dynamical properties of condensed matter, molecular systems in quantum chemistry, and the behaviors of complex materials. However, the real-time evolution of non-equilibrium quantum electronic systems poses a significant challenge for theoretical and computational approaches. This work introduces a variational approach for fermionic time-dependent wave functions, surpassing mean-field approximations by capturing many-body correlations. Our methodology introduces a parameterization of the time-evolving quantum state, enabling an accurate approximation of its evolution. To account for electron correlations, we employ time-dependent Jastrow factors and backflow transformations, which can be further enhanced by incorporating neural networks for function parameterization. We utilize the time-dependent variational Monte Carlo technique to efficiently compute optimal time-dependent parameters. Additionally, we introduce a new time-evolution method based on Trotter-root expansions of the propagator, enhancing the accuracy and efficiency of our simulations. The approach is demonstrated in three distinct systems: the solvable harmonic interaction model, the dynamics of a diatomic molecule in intense laser fields, and a quenched quantum dot. In all cases, we show clear signatures of many-body correlations in the dynamics that are not captured by mean-field methods. The results showcase the ability of our variational approach to accurately capture the time evolution of quantum states, providing insight into the quantum dynamics of interacting electronic systems, beyond the capabilities of mean-field. | 翻訳日:2024-08-12 20:20:09 公開日:2024-08-09 |
# OpenOcc: Occupancy Representationによるオープン語彙3Dシーン再構築
OpenOcc: Open Vocabulary 3D Scene Reconstruction via Occupancy Representation ( http://arxiv.org/abs/2403.11796v2 ) ライセンス: Link先を確認 | Haochen Jiang, Yueming Xu, Yihan Zeng, Hang Xu, Wei Zhang, Jianfeng Feng, Li Zhang, | (参考訳) 3D再構成は、移動ロボットの自律ナビゲーション分野で広く利用されている。
しかし、以前の研究では、人間のインタラクションや視覚ナビゲーションといった高度なタスクを制限する、オープンワールドのシーン理解能力のない基本的な幾何学構造しか提供できない。
さらに、従来の3Dシーン理解アプローチでは、高価なラベル付き3Dデータセットを使用して、単一のタスクのためにモデルをトレーニングしている。
このように、ゼロショットシーン理解による幾何学的再構築、すなわちオープンな3次元理解と再構築は、将来の移動ロボットの発展に不可欠である。
本稿では,3次元シーン再構成とオープン語彙理解をニューラルラディアンス場と統合する新しいフレームワークであるOpenOccを提案する。
シーンの幾何学的構造を占有表現でモデル化し,ゼロショット推論のためのボリュームレンダリングを用いて,事前学習した開語彙モデルを3次元言語フィールドに蒸留する。
さらに, 蒸留特性における不整合測定による言語表現の退化を解消するために, セマンティック・アウェア・アウェア・インシュレイト・プロポーザル (SCP) 法が提案されている。
実験結果から,本手法は3次元シーン理解タスクにおいて,特に小型・長距離オブジェクトにおいて,競争性能が向上することが示された。
3D reconstruction has been widely used in autonomous navigation fields of mobile robotics. However, the former research can only provide the basic geometry structure without the capability of open-world scene understanding, limiting advanced tasks like human interaction and visual navigation. Moreover, traditional 3D scene understanding approaches rely on expensive labeled 3D datasets to train a model for a single task with supervision. Thus, geometric reconstruction with zero-shot scene understanding i.e. Open vocabulary 3D Understanding and Reconstruction, is crucial for the future development of mobile robots. In this paper, we propose OpenOcc, a novel framework unifying the 3D scene reconstruction and open vocabulary understanding with neural radiance fields. We model the geometric structure of the scene with occupancy representation and distill the pre-trained open vocabulary model into a 3D language field via volume rendering for zero-shot inference. Furthermore, a novel semantic-aware confidence propagation (SCP) method has been proposed to relieve the issue of language field representation degeneracy caused by inconsistent measurements in distilled features. Experimental results show that our approach achieves competitive performance in 3D scene understanding tasks, especially for small and long-tail objects. | 翻訳日:2024-08-12 20:20:09 公開日:2024-08-09 |
# レンズのシフト:大規模言語モデルを用いた悪性npmパッケージの検出
Shifting the Lens: Detecting Malicious npm Packages using Large Language Models ( http://arxiv.org/abs/2403.12196v2 ) ライセンス: Link先を確認 | Nusrat Zahan, Philipp Burckhardt, Mikola Lysenko, Feross Aboukhadijeh, Laurie Williams, | (参考訳) 既存の悪意のあるコード検出技術は、どのパッケージが悪意があるかを予測することで、手動によるレビュープロセスを支援することができる。
しかし、これらのテクニックは、しばしば高い誤分類率に悩まされる。
したがって、より高度で自動化されたアプローチを採用して、高い精度と低い誤分類率を達成することで、悪意のあるコード検出技術を向上させることができる。
本研究の目的は,大規模言語モデル(LLM)を用いてnpmエコシステム内の悪意のあるコードを検出する経験的研究を通じて,悪意のあるパッケージを検出するセキュリティアナリストを支援することである。
悪意のあるコードレビューワークフローであるSecurityAIを紹介し、ChatGPTを使って悪意のあるコードを検出する。
我々は5,115 npmパッケージのベンチマークデータセットを活用し、そのうち2,180パッケージは悪意のあるコードを持っている。
我々は,GPT-3とGPT-4モデルと最先端のCodeQL静的解析ツールのベースライン比較を行った。
静的解析の有効性を,SecurityAIワークフローと比較し,解析が必要なファイル数と関連するコストを計測する。
さらに、ワークフローによって検出または見逃された悪意のあるパッケージの種類を理解するための質的研究を行った。
ベースライン比較では, 静的解析の精度が16%, F1スコアが9%向上した。
GPT-3は91%,F1は94%,GPT-4は99%,GPT-3は97%であった。
静的アナライザによる事前スクリーニングファイルは、LCM解析を必要とするファイルの数を77.9%削減し、GPT-3では60.9%、GPT-4では76.1%削減する。
我々の質的分析では、データ盗難、隠れたバックドア、不審なドメイン接続カテゴリを、最も検出された悪意のあるパッケージとして特定した。
Existing malicious code detection techniques can aid the manual review process by predicting which packages are likely to be malicious. However, these techniques often suffer from high misclassification rates. Therefore, malicious code detection techniques could be enhanced by adopting advanced, more automated approaches to achieve high accuracy and a low misclassification rate. The goal of this study is to assist security analysts in detecting malicious packages through the empirical study of using Large Language Models (LLMs) to detect malicious code in the npm ecosystem. We present SecurityAI, a malicious code review workflow to detect malicious code using ChatGPT. We leverage a benchmark dataset of 5,115 npm packages, of which 2,180 packages have malicious code. We conducted a baseline comparison of GPT-3 and GPT- 4 models with the state-of-the-art CodeQL static analysis tool, using 39 custom CodeQL rules developed in prior research to detect malicious Javascript code. We compare the effectiveness of static analysis as a pre-screener with SecurityAI workflow, measuring the number of files that need to be analyzed and the associated costs. Additionally, we performed a qualitative study to understand the types of malicious packages detected or missed by our workflow. Our baseline comparison demonstrates a 16% and 9% improvement over static analysis in precision and F1 scores, respectively. We attained precision and F1 scores of 91% and 94% for GPT-3, and 99% & 97% for GPT-4, respectively, with GPT-3 offering a cost-effective balance. Pre-screening files with a static analyzer reduces the number of files requiring LLM analysis by 77.9% and decreases costs by 60.9% for GPT-3 and 76.1% for GPT-4. Our qualitative analysis identified data theft, hidden backdoors, and suspicious domain connection categories as the top detected malicious packages. | 翻訳日:2024-08-12 20:20:09 公開日:2024-08-09 |
# LLM埋め込みによるテキストクラスタリング
Text Clustering with LLM Embeddings ( http://arxiv.org/abs/2403.15112v4 ) ライセンス: Link先を確認 | Alina Petukhova, João P. Matos-Carvalho, Nuno Fachada, | (参考訳) テキストクラスタリングは,非分類データにおける隠れパターンの構造化と発見を支援するために,デジタルコンテンツの量増加を組織化する重要な方法である。
テキストクラスタリングの有効性は、テキスト埋め込みとクラスタリングアルゴリズムの選択に大きく依存する。
本研究は,近年の大規模言語モデル(LLM)の進歩により,この課題が強化される可能性を示唆している。
この研究は、異なるテキスト埋め込み、特にLLMで使用されるもの、および様々なクラスタリングアルゴリズムが、テキストデータセットのクラスタリングにどのように影響するかを調査する。
クラスタリング結果に対する埋め込みの影響,要約による次元還元の役割,モデルサイズの調整について,一連の実験を行った。
その結果,LLM埋め込みは構造化言語の微妙さを捉えるのに優れていることが示唆された。
OpenAIのGPT-3.5 Turboモデルは、ほとんどのテストされたデータセットで5つのクラスタリングメトリクスのうち3つにおいて、より良い結果をもたらす。
ほとんどのLCM埋め込みは、クラスタの純度の改善を示し、従来の方法に比べて洗練された構造的なテキストデータの理解を反映して、より情報的なシルエットスコアを提供する。
より軽量なモデルの中で、BERTは主要なパフォーマンスを示している。
さらに,モデル次元の増大と要約手法の採用はクラスタリング効率を継続的に向上させるものではないことが確認された。
これらの結果は、洗練されたテキスト表現の必要性と、テキストクラスタリングアプリケーションにおける計算可能性との複雑なバランスを浮き彫りにする。
本研究では, 従来のテキストクラスタリングフレームワークを拡張し, LLMからの埋め込みを統合し, 改良された方法論を提供し, 各種テキスト解析における新たな手法を提案する。
Text clustering is an important method for organising the increasing volume of digital content, aiding in the structuring and discovery of hidden patterns in uncategorised data. The effectiveness of text clustering largely depends on the selection of textual embeddings and clustering algorithms. This study argues that recent advancements in large language models (LLMs) have the potential to enhance this task. The research investigates how different textual embeddings, particularly those utilised in LLMs, and various clustering algorithms influence the clustering of text datasets. A series of experiments were conducted to evaluate the impact of embeddings on clustering results, the role of dimensionality reduction through summarisation, and the adjustment of model size. The findings indicate that LLM embeddings are superior at capturing subtleties in structured language. OpenAI's GPT-3.5 Turbo model yields better results in three out of five clustering metrics across most tested datasets. Most LLM embeddings show improvements in cluster purity and provide a more informative silhouette score, reflecting a refined structural understanding of text data compared to traditional methods. Among the more lightweight models, BERT demonstrates leading performance. Additionally, it was observed that increasing model dimensionality and employing summarisation techniques do not consistently enhance clustering efficiency, suggesting that these strategies require careful consideration for practical application. These results highlight a complex balance between the need for refined text representation and computational feasibility in text clustering applications. This study extends traditional text clustering frameworks by integrating embeddings from LLMs, offering improved methodologies and suggesting new avenues for future research in various types of textual analysis. | 翻訳日:2024-08-12 20:20:09 公開日:2024-08-09 |
# IllusionVQA:視覚言語モデルのための干渉光学Illusionデータセット
IllusionVQA: A Challenging Optical Illusion Dataset for Vision Language Models ( http://arxiv.org/abs/2403.15952v3 ) ライセンス: Link先を確認 | Haz Sameen Shahgir, Khondker Salman Sayeed, Abhik Bhattacharjee, Wasi Uddin Ahmad, Yue Dong, Rifat Shahriyar, | (参考訳) 視覚言語モデル(VLM)の出現により、研究者は自然言語を用いたニューラルネットワークの視覚的理解を調査できるようになった。
オブジェクトの分類と検出以外にも、VLMは視覚的理解と常識的推論が可能である。
イメージ自体が本質的に不合理な場合、VLMはどのように反応しますか?
この目的のために、IllusionVQA: 難解な光学錯視と難解なシーンの多様なデータセットを示し、VLMの能力を2つの異なる多重選択VQAタスク(理解とソフトローカライゼーション)で検証する。
最高性能のVLMであるGPT4Vは、理解タスクで62.99%の精度(4ショット)、ローカライゼーションタスクで49.7%(4ショットとChain-of-Thought)を達成している。
人間の評価は、人間が理解と局在において91.03%と100%の精度を達成することを明らかにしている。
In-Context Learning (ICL) と Chain-of-Thought は,ローカライゼーションタスクにおけるGemini-Pro の性能を著しく低下させる。
直感的には、VLMのICL能力の潜在的な弱点は、正しい答えがコンテキストウィンドウにあるとしても、光学的錯覚を見つけることができないことである。
The advent of Vision Language Models (VLM) has allowed researchers to investigate the visual understanding of a neural network using natural language. Beyond object classification and detection, VLMs are capable of visual comprehension and common-sense reasoning. This naturally led to the question: How do VLMs respond when the image itself is inherently unreasonable? To this end, we present IllusionVQA: a diverse dataset of challenging optical illusions and hard-to-interpret scenes to test the capability of VLMs in two distinct multiple-choice VQA tasks - comprehension and soft localization. GPT4V, the best performing VLM, achieves 62.99% accuracy (4-shot) on the comprehension task and 49.7% on the localization task (4-shot and Chain-of-Thought). Human evaluation reveals that humans achieve 91.03% and 100% accuracy in comprehension and localization. We discover that In-Context Learning (ICL) and Chain-of-Thought reasoning substantially degrade the performance of Gemini-Pro in the localization task. Tangentially, we discover a potential weakness in the ICL capabilities of VLMs: they fail to locate optical illusions even when the correct answer is in the context window as a few-shot example. | 翻訳日:2024-08-12 20:20:09 公開日:2024-08-09 |
# ASDF:6次元ポス推定の統合による後期核融合を利用したアセンブリ状態検出
ASDF: Assembly State Detection Utilizing Late Fusion by Integrating 6D Pose Estimation ( http://arxiv.org/abs/2403.16400v3 ) ライセンス: Link先を確認 | Hannah Schieber, Shiyu Li, Niklas Corell, Philipp Beckerle, Julian Kreimeier, Daniel Roth, | (参考訳) 医療・産業分野では、効率と安全性を確保するために、組み立てプロセスのガイダンスを提供することが重要である。
組立のエラーは、手術期間の延長や、製造業における製造期間の延長、保守期間の延長など、重大な結果をもたらす可能性がある。
アセンブリシナリオは、ターゲットオブジェクトに近接した拡張(augmentation)、ガイダンスの提供、アセンブリ時間の短縮、エラーの最小化といった、その場での拡張現実視覚化の恩恵を受けることができる。
その場でのビジュアライゼーションを可能にするため、6次元のポーズ推定を利用して、拡張の正確な位置を特定することができる。
既存の6Dポーズ推定技術は主に個々のオブジェクトと静的キャプチャに焦点を当てている。
しかしながら、アセンブリシナリオには、アセンブリ中の閉塞やアセンブリオブジェクトの出現時のダイナミクスなど、さまざまなダイナミクスがある。
既存の作業は、状態検出と組み合わせたオブジェクト検出にフォーカスするか、ポーズ推定に純粋にフォーカスする。
組立状態検出と組み合わせた6次元ポーズ推定の課題に対処するため,我々のアプローチはリアルタイムに実行可能なオブジェクト検出フレームワークであるYOLOv8の強みに基づいている。
我々は、このフレームワークを拡張し、オブジェクトのポーズを洗練し、ネットワーク検出されたポーズ情報で知識を融合する。
Pose2Stateモジュールの後期融合を利用することで、洗練された6Dポーズ推定とアセンブリ状態検出が可能になります。
ポーズ情報と状態情報を組み合わせることで、Pose2Stateモジュールは最終的なアセンブリ状態を精度で予測します。
ASDFデータセットの評価では、Pose2Stateモジュールがアセンブリ状態の検出を改善するとともに、アセンブリ状態の改善により、より堅牢な6Dポーズ推定が可能になることが示されている。
さらに、GBOTデータセットでは、純粋なディープラーニングベースのネットワークよりも優れており、ハイブリッドと純粋なトラッキングベースのアプローチよりも優れています。
In medical and industrial domains, providing guidance for assembly processes can be critical to ensure efficiency and safety. Errors in assembly can lead to significant consequences such as extended surgery times and prolonged manufacturing or maintenance times in industry. Assembly scenarios can benefit from in-situ augmented reality visualization, i.e., augmentations in close proximity to the target object, to provide guidance, reduce assembly times, and minimize errors. In order to enable in-situ visualization, 6D pose estimation can be leveraged to identify the correct location for an augmentation. Existing 6D pose estimation techniques primarily focus on individual objects and static captures. However, assembly scenarios have various dynamics, including occlusion during assembly and dynamics in the appearance of assembly objects. Existing work focus either on object detection combined with state detection, or focus purely on the pose estimation. To address the challenges of 6D pose estimation in combination with assembly state detection, our approach ASDF builds upon the strengths of YOLOv8, a real-time capable object detection framework. We extend this framework, refine the object pose, and fuse pose knowledge with network-detected pose information. Utilizing our late fusion in our Pose2State module results in refined 6D pose estimation and assembly state detection. By combining both pose and state information, our Pose2State module predicts the final assembly state with precision. The evaluation of our ASDF dataset shows that our Pose2State module leads to an improved assembly state detection and that the improvement of the assembly state further leads to a more robust 6D pose estimation. Moreover, on the GBOT dataset, we outperform the pure deep learning-based network and even outperform the hybrid and pure tracking-based approaches. | 翻訳日:2024-08-12 20:20:09 公開日:2024-08-09 |
# HiRoPE:階層的位置を用いたコードモデルの長さ外挿
HiRoPE: Length Extrapolation for Code Models Using Hierarchical Position ( http://arxiv.org/abs/2403.19115v2 ) ライセンス: Link先を確認 | Kechi Zhang, Ge Li, Huangzhao Zhang, Zhi Jin, | (参考訳) コード関連タスクの大規模言語モデルにおける文脈長の制限に対処することが,本論文の主要な焦点である。
既存のLLMは、事前訓練されたコンテキスト長によって制約され、長い複雑なコードシーケンスを扱う際のパフォーマンス上の問題を引き起こす。
人間のプログラマがどのようにコードをナビゲートするかに触発されて、階層的なロータリー位置埋め込み(HiRoPE)を導入します。
HiRoPEは、追加のトレーニングコストなしで既存のLLMに簡単に統合できる。
提案手法は様々なLLMを用いて広範囲に評価され,言語モデリングや長いコード補完といったタスクにおいて安定した性能を示す。
我々はまた、このコード関連分野におけるさらなる開発を促進するために、現実世界のコードプロジェクトに対して、新しい長いコード理解タスクを導入します。
理論的および実験的に、HiRoPEは位置符号化における分布外問題にも対処する。
我々のHiRoPEは、LLMの文脈長能力を著しく拡張し、トレーニング長よりも指数関数的に大きい長さでの推論を可能にします。
Addressing the limitation of context length in large language models for code-related tasks is the primary focus of this paper. Existing LLMs are constrained by their pre-trained context lengths, leading to performance issues in handling long complex code sequences. Inspired by how human programmers navigate code, we introduce Hierarchical Rotary Position Embedding (HiRoPE), a novel approach that enhances the traditional rotary position embedding into a hierarchical format based on the hierarchical structure of source code. HiRoPE offers easy integration into existing LLMs without extra training costs. Our method is extensively evaluated with various LLMs, demonstrating stable performance in tasks such as language modeling and long code completion. We also introduce a new long code understanding task with real-world code projects, in hopes of promoting further development in this code-related field. Theoretically and experimentally, we find that HiRoPE also addresses the out-of-distribution issue in position encoding. Our HiRoPE significantly expands the context length capabilities of LLMs, enabling inference at lengths exponentially greater than the training length. | 翻訳日:2024-08-12 20:20:09 公開日:2024-08-09 |
# 大規模言語モデルを用いた多言語ランク付け
Multi-Conditional Ranking with Large Language Models ( http://arxiv.org/abs/2404.00211v2 ) ライセンス: Link先を確認 | Pouya Pezeshkpour, Estevam Hruschka, | (参考訳) 大規模言語モデル(LLM)を用いて項目をランク付けする手法は,レコメンデーションや検索システムにおいて一般的なアプローチとなっている。
通常、これらのシステムは、与えられたクエリに基づいて、大量のドキュメントを単調な順序で順序付けすることに焦点を当てる。
しかし、現実のシナリオは、比較的小さな項目のセットをランク付けするなど、異なる課題を呈することが多い。
本稿では,MCRank(MCRank)を導入したマルチ条件ランキングの課題を定義し,その課題について検討する。
MCRankを用いたLCMの解析は,項目数や条件が増加するにつれて性能が著しく低下することを示している。
この制限を克服するために,条件を抽出し,修正し,次に項目を反復的にランク付けする,分割された推論手法を提案する。
この分解的推論法によりLLMの性能は向上し,既存のLLMよりも12%向上した。
また, LLMの性能を様々な条件カテゴリーで詳細に解析し, 分解工程の有効性について検討する。
さらに,本手法をChain-of-Thoughtや既存のランキングモデルなどの既存手法と比較し,MCRタスクの優位性と複雑性を示す。
データセットとコードをリリースしました。
Utilizing large language models (LLMs) to rank a set of items has become a common approach in recommendation and retrieval systems. Typically, these systems focus on ordering a substantial number of documents in a monotonic order based on a given query. However, real-world scenarios often present a different challenge: ranking a comparatively smaller set of items, but according to a variety of diverse and occasionally conflicting conditions. In this paper, we define and explore the task of multi-conditional ranking by introducing MCRank, a benchmark tailored for assessing multi-conditional ranking across various item types and conditions. Our analysis of LLMs using MCRank indicates a significant decrease in performance as the number and complexity of items and conditions grow. To overcome this limitation, we propose a novel decomposed reasoning method, consisting of EXtracting and Sorting the conditions, and then Iteratively Ranking the items (EXSIR). Our extensive experiments show that this decomposed reasoning method enhances LLMs' performance significantly, achieving up to a 12% improvement over existing LLMs. We also provide a detailed analysis of LLMs performance across various condition categories, and examine the effectiveness of decomposition step. Furthermore, we compare our method with existing approaches such as Chain-of-Thought and existing ranking models, demonstrating the superiority of our approach and complexity of MCR task. We released our dataset and code. | 翻訳日:2024-08-12 20:20:09 公開日:2024-08-09 |
# GeniL: 言語一般化のための多言語データセット
GeniL: A Multilingual Dataset on Generalizing Language ( http://arxiv.org/abs/2404.05866v2 ) ライセンス: Link先を確認 | Aida Mostafazadeh Davani, Sagar Gubbi, Sunipa Dev, Shachi Dave, Vinodkumar Prabhakaran, | (参考訳) 生成言語モデルは私たちのデジタルエコシステムを変革していますが、例えば特定の属性と特定のアイデンティティグループを関連付けるステレオタイプなど、社会的バイアスを継承することが多いのです。
これらのバイアスを緩和する方法は、特定のユースケースに依存するかもしれないが、ステレオタイプの永続性のインスタンスを効果的に検出できることは、重要な第一歩である。
生成言語におけるステレオタイプの存在を評価するための現在の手法は、それらが示すさまざまなセンセーショナルコンテキストを考慮せずに、単純なテンプレートや共起に基づく尺度に依存している。
意味的文脈を理解することは一般化の事例を検出するために重要であると論じる。
1) 一般化の存在を単に言及する言語(フランス語は非常に無作法であると考える人々)と(2) 一般化を補強する言語(フランス語では無作法でなければならない)とを、非一般化的な文脈から区別する("My French friends think I are rude")。
意味のあるステレオタイプ評価には、そのような一般化の例を確実に区別する必要がある。
我々は、言語の一般化を検出するための新しいタスクを導入し、一般化の例に注釈を付けた9言語(英語、アラビア語、ベンガル語、スペイン語、フランス語、ヒンディー語、インドネシア語、マレー語、ポルトガル語)から50K以上の文からなる多言語データセットGeniLを構築した。
一般化の例である共起の可能性は通常低く、異なる言語、アイデンティティ群、属性によって異なることを示す。
言語全体のPR-AUCは58.7で、言語間の性能は様々である。
我々の研究は、より包括的で責任ある言語技術への重要なステップである、ステレオタイプパーペチュエーションのニュアンスな理解を可能にするデータとツールを提供する。
Generative language models are transforming our digital ecosystem, but they often inherit societal biases, for instance stereotypes associating certain attributes with specific identity groups. While whether and how these biases are mitigated may depend on the specific use cases, being able to effectively detect instances of stereotype perpetuation is a crucial first step. Current methods to assess presence of stereotypes in generated language rely on simple template or co-occurrence based measures, without accounting for the variety of sentential contexts they manifest in. We argue that understanding the sentential context is crucial for detecting instances of generalization. We distinguish two types of generalizations: (1) language that merely mentions the presence of a generalization ("people think the French are very rude"), and (2) language that reinforces such a generalization ("as French they must be rude"), from non-generalizing context ("My French friends think I am rude"). For meaningful stereotype evaluations, we need to reliably distinguish such instances of generalizations. We introduce the new task of detecting generalization in language, and build GeniL, a multilingual dataset of over 50K sentences from 9 languages (English, Arabic, Bengali, Spanish, French, Hindi, Indonesian, Malay, and Portuguese) annotated for instances of generalizations. We demonstrate that the likelihood of a co-occurrence being an instance of generalization is usually low, and varies across different languages, identity groups, and attributes. We build classifiers to detect generalization in language with an overall PR-AUC of 58.7, with varying degrees of performance across languages. Our research provides data and tools to enable a nuanced understanding of stereotype perpetuation, a crucial step towards more inclusive and responsible language technologies. | 翻訳日:2024-08-12 20:20:09 公開日:2024-08-09 |
# CULTURE-GEN:自然言語による言語モデルにおけるグローバルカルチャー知覚の解明
CULTURE-GEN: Revealing Global Cultural Perception in Language Models through Natural Language Prompting ( http://arxiv.org/abs/2404.10199v4 ) ライセンス: Link先を確認 | Huihan Li, Liwei Jiang, Jena D. Hwang, Hyunwoo Kim, Sebastin Santy, Taylor Sorensen, Bill Yuchen Lin, Nouha Dziri, Xiang Ren, Yejin Choi, | (参考訳) 大規模言語モデル(LLM)の利用が世界中に広まりつつあるため、多様なグローバル文化に対して適切な知識と公正な表現を持つことが重要である。
本研究は,文化条件付き世代を通して,110か国と8か国における3つのSOTAモデルの文化認識を明らかにし,それぞれの文化に関連するシンボルをLLMによって抽出する。
文化条件付き世代は、デフォルトの文化と区別される余分な文化を区別する言語的な「マーカー」から成り立っていることが判明した。
また, LLMは文化シンボルに不均一な多様性を持ち, 異なる地理的領域の文化は, LLMの文化に依存しない世代に異なる存在であることがわかった。
本研究は,LLMにおけるグローバルカルチャー認識の知識と公正性について,さらなる研究を促進するものである。
コードとデータについては、https://github.com/huihanlhh/Culture-Gen/を参照してください。
As the utilization of large language models (LLMs) has proliferated world-wide, it is crucial for them to have adequate knowledge and fair representation for diverse global cultures. In this work, we uncover culture perceptions of three SOTA models on 110 countries and regions on 8 culture-related topics through culture-conditioned generations, and extract symbols from these generations that are associated to each culture by the LLM. We discover that culture-conditioned generation consist of linguistic "markers" that distinguish marginalized cultures apart from default cultures. We also discover that LLMs have an uneven degree of diversity in the culture symbols, and that cultures from different geographic regions have different presence in LLMs' culture-agnostic generation. Our findings promote further research in studying the knowledge and fairness of global culture perception in LLMs. Code and Data can be found here: https://github.com/huihanlhh/Culture-Gen/ | 翻訳日:2024-08-12 20:20:09 公開日:2024-08-09 |
# AmbigDocs: 同じ名前で異なるエンティティに関するドキュメントをまたぐ推論
AmbigDocs: Reasoning across Documents on Different Entities under the Same Name ( http://arxiv.org/abs/2404.12447v3 ) ライセンス: Link先を確認 | Yoonsang Lee, Xi Ye, Eunsol Choi, | (参考訳) 同じ名前の異なるエンティティを区別することは困難である。
混乱したエンティティの言及を扱うことは、言語モデル(LM)にとって重要なスキルです。
例えば、「マイケル・ジョーダンはどこで教育を受けたのか?」という問いや、マイケル・ジョーダンという名前の異なる人々について議論する一連の文書を考えると、LMはエンティティの言及を区別して、この質問に対する結束的な回答を生成することができるだろうか?
この能力をテストするために、新しいベンチマークであるAmbigDocsを導入しました。
ウィキペディアの曖昧なページを利用して、曖昧な名前を共有する異なるエンティティに属する文書の集合を識別する。
これらの文書から、あいまいな名前とそれに対応する答えの集合を含む質問を生成する。
我々の分析によると、現在の最先端モデルは、しばしば曖昧な答えや、異なるエンティティに属する情報を誤ってマージする。
我々は,4種類の不完全な回答と自動評価指標を分類し,それらのカテゴリを同定するオントロジーを確立する。
我々は、曖昧なエンティティを持つ複数のドキュメントをまたがる推論に関する将来の研究の基礎を築いた。
Different entities with the same name can be difficult to distinguish. Handling confusing entity mentions is a crucial skill for language models (LMs). For example, given the question "Where was Michael Jordan educated?" and a set of documents discussing different people named Michael Jordan, can LMs distinguish entity mentions to generate a cohesive answer to the question? To test this ability, we introduce a new benchmark, AmbigDocs. By leveraging Wikipedia's disambiguation pages, we identify a set of documents, belonging to different entities who share an ambiguous name. From these documents, we generate questions containing an ambiguous name and their corresponding sets of answers. Our analysis reveals that current state-of-the-art models often yield ambiguous answers or incorrectly merge information belonging to different entities. We establish an ontology categorizing four types of incomplete answers and automatic evaluation metrics to identify such categories. We lay the foundation for future work on reasoning across multiple documents with ambiguous entities. | 翻訳日:2024-08-12 20:20:09 公開日:2024-08-09 |
# GaussianTalker: 3D Gaussian Splattingによる話者特異的トーキングヘッド合成
GaussianTalker: Speaker-specific Talking Head Synthesis via 3D Gaussian Splatting ( http://arxiv.org/abs/2404.14037v3 ) ライセンス: Link先を確認 | Hongyun Yu, Zhan Qu, Qihang Yu, Jianchuan Chen, Zhonghua Jiang, Zhiwen Chen, Shengyu Zhang, Jimin Xu, Fei Wu, Chengfei Lv, Gang Yu, | (参考訳) 近年,Neural Radiance Fields (NeRF) を用いた音声駆動音声頭合成の研究が目覚ましい成果を上げている。
しかし、NeRFの暗黙的表現によって引き起こされるポーズや表現制御が不十分なため、これらの手法には、アンシンクロナイズドや不自然な唇の動き、視覚ジッタや人工物など、いくつかの制限がある。
本稿では,3次元ガウススプラッティングに基づく音声駆動音声ヘッド合成手法であるガウス話者を提案する。
3次元ガウスの明示的な表現特性により、ガウスを3次元顔モデルに結合することで、顔の動きの直感的な制御が達成される。
GaussianTalkerは、話者固有のMotion TranslatorとDynamic Gaussian Rendererの2つのモジュールで構成されている。
話者固有のモーショントランスレータは、汎用音声特徴抽出とカスタマイズされた唇動作生成により、対象話者固有の正確な唇動作を実現する。
Dynamic Gaussian Rendererは、話者固有のBlendShapesを導入し、潜在ポーズを通じて顔の詳細表現を強化し、安定的でリアルなレンダリングビデオを提供する。
広汎な実験結果から,GaussianTalkerは,音声頭部合成における既存の最先端手法よりも優れ,正確な唇同期と例外的な視覚的品質を実現することが示唆された。
提案手法は,NVIDIA RTX4090 GPU上で130FPSのレンダリング速度を実現し,リアルタイムレンダリング性能のしきい値を大幅に上回り,他のハードウェアプラットフォームにデプロイする可能性がある。
Recent works on audio-driven talking head synthesis using Neural Radiance Fields (NeRF) have achieved impressive results. However, due to inadequate pose and expression control caused by NeRF implicit representation, these methods still have some limitations, such as unsynchronized or unnatural lip movements, and visual jitter and artifacts. In this paper, we propose GaussianTalker, a novel method for audio-driven talking head synthesis based on 3D Gaussian Splatting. With the explicit representation property of 3D Gaussians, intuitive control of the facial motion is achieved by binding Gaussians to 3D facial models. GaussianTalker consists of two modules, Speaker-specific Motion Translator and Dynamic Gaussian Renderer. Speaker-specific Motion Translator achieves accurate lip movements specific to the target speaker through universalized audio feature extraction and customized lip motion generation. Dynamic Gaussian Renderer introduces Speaker-specific BlendShapes to enhance facial detail representation via a latent pose, delivering stable and realistic rendered videos. Extensive experimental results suggest that GaussianTalker outperforms existing state-of-the-art methods in talking head synthesis, delivering precise lip synchronization and exceptional visual quality. Our method achieves rendering speeds of 130 FPS on NVIDIA RTX4090 GPU, significantly exceeding the threshold for real-time rendering performance, and can potentially be deployed on other hardware platforms. | 翻訳日:2024-08-12 20:10:25 公開日:2024-08-09 |
# UVMap-ID: 制御可能でパーソナライズされたUVマップ生成モデル
UVMap-ID: A Controllable and Personalized UV Map Generative Model ( http://arxiv.org/abs/2404.14568v2 ) ライセンス: Link先を確認 | Weijie Wang, Jichao Zhang, Chang Liu, Xia Li, Xingqian Xu, Humphrey Shi, Nicu Sebe, Bruno Lepri, | (参考訳) 近年、拡散モデルは、提供されたテキストプロンプトに基づいて現実的な2次元画像の合成に大きく進歩している。
そこで研究者たちは、人間のテクスチャ(UV Maps)を生成するために、2Dテキストと画像の拡散モデルを3Dドメインに拡張した。
しかしながら、UVマップ生成モデルに関する重要な問題は解決されていない。例えば、任意の顔画像に対してパーソナライズされたテクスチャマップの生成方法や、生成されたテクスチャマップの質を定義し評価する方法である。
上記の問題を解決するために,制御可能でパーソナライズされたUVマップ生成モデルであるUVMap-IDを提案する。
従来の2Dの大規模学習法とは異なり、ID駆動のカスタマイズ生成を実現するために、顔融合モジュールと統合された事前訓練されたテキスト・画像拡散モデルを微調整することを提案する。
ファインタニング戦略をサポートするために,ラベル付きテキストとFace IDを用いた高品質なテクスチャを含む,小さな属性バランスのトレーニングデータセットを導入する。
さらに,テクスチャの複数の側面を評価するための指標も紹介する。
最後に, 定量的および定性的な解析により, 制御可能かつパーソナライズされたUVマップ生成における本手法の有効性を実証した。
コードはhttps://github.com/twowwj/UVMap-IDで公開されている。
Recently, diffusion models have made significant strides in synthesizing realistic 2D human images based on provided text prompts. Building upon this, researchers have extended 2D text-to-image diffusion models into the 3D domain for generating human textures (UV Maps). However, some important problems about UV Map Generative models are still not solved, i.e., how to generate personalized texture maps for any given face image, and how to define and evaluate the quality of these generated texture maps. To solve the above problems, we introduce a novel method, UVMap-ID, which is a controllable and personalized UV Map generative model. Unlike traditional large-scale training methods in 2D, we propose to fine-tune a pre-trained text-to-image diffusion model which is integrated with a face fusion module for achieving ID-driven customized generation. To support the finetuning strategy, we introduce a small-scale attribute-balanced training dataset, including high-quality textures with labeled text and Face ID. Additionally, we introduce some metrics to evaluate the multiple aspects of the textures. Finally, both quantitative and qualitative analyses demonstrate the effectiveness of our method in controllable and personalized UV Map generation. Code is publicly available via https://github.com/twowwj/UVMap-ID. | 翻訳日:2024-08-12 20:10:25 公開日:2024-08-09 |
# ORBIT:オークリッジベースモデルによる地球システムの予測可能性
ORBIT: Oak Ridge Base Foundation Model for Earth System Predictability ( http://arxiv.org/abs/2404.14712v4 ) ライセンス: Link先を確認 | Xiao Wang, Siyan Liu, Aristeidis Tsaris, Jong-Youl Choi, Ashwin Aji, Ming Fan, Wei Zhang, Junqi Yin, Moetasim Ashfaq, Dan Lu, Prasanna Balaprakash, | (参考訳) 地球系の予測可能性には、環境力学の複雑さと、関連する変数の多さがある。
現在のAI基盤モデルは、大規模で異質なデータを活用することで進歩しているが、そのサイズとデータ統合によって制約されることが多く、地球系の予測問題に対処する上での有効性を制限している。
これらの制限を克服するために、新しいハイブリッドテンソルデータ直交並列化技術を用いて、最大130億のパラメータをスケールする先進的な視覚トランスフォーマーモデルであるOak Ridge Base Foundation Model for Earth System Predictability (ORBIT)を導入する。
この種の最大のモデルとして、ORBITは現在の気候AIファンデーションモデルサイズを1000倍に超えている。
Frontierスーパーコンピュータで実施された性能スケーリングテストでは、ORBITは684ペタFLOPSから1.6エキサFLOPSの持続スループットを実現し、49,152AMDGPUで41%から85%のスケーリング効率を維持した。
これらのブレークスルーは、AI駆動の気候モデリングの新たな進歩を確立し、地球系の予測可能性を大幅に改善する約束を実証する。
Earth system predictability is challenged by the complexity of environmental dynamics and the multitude of variables involved. Current AI foundation models, although advanced by leveraging large and heterogeneous data, are often constrained by their size and data integration, limiting their effectiveness in addressing the full range of Earth system prediction challenges. To overcome these limitations, we introduce the Oak Ridge Base Foundation Model for Earth System Predictability (ORBIT), an advanced vision transformer model that scales up to 113 billion parameters using a novel hybrid tensor-data orthogonal parallelism technique. As the largest model of its kind, ORBIT surpasses the current climate AI foundation model size by a thousandfold. Performance scaling tests conducted on the Frontier supercomputer have demonstrated that ORBIT achieves 684 petaFLOPS to 1.6 exaFLOPS sustained throughput, with scaling efficiency maintained at 41% to 85% across 49,152 AMD GPUs. These breakthroughs establish new advances in AI-driven climate modeling and demonstrate promise to significantly improve the Earth system predictability. | 翻訳日:2024-08-12 20:10:25 公開日:2024-08-09 |
# ディープフェイク検出のための自己監督型視覚変換器の探索:比較分析
Exploring Self-Supervised Vision Transformers for Deepfake Detection: A Comparative Analysis ( http://arxiv.org/abs/2405.00355v2 ) ライセンス: Link先を確認 | Huy H. Nguyen, Junichi Yamagishi, Isao Echizen, | (参考訳) 本稿では,教師付き事前学習型視覚変換器(ViTs)と従来のニューラルネットワーク(ConvNets)とを比較し,顔深度画像やビデオの検出に有効であることを示す。
一般化と説明可能性を改善する可能性について、特に限られたトレーニングデータを用いて検討する。
様々なタスクにおけるトランスフォーマーアーキテクチャの成功にもかかわらず、ディープフェイク検出コミュニティは、大規模なViTを特徴抽出器として使用することをためらっている。
これは、すでに堅牢な機能抽出器として確立されているConvNetsとは対照的である。
さらに、ViTをゼロからトレーニングするにはかなりのリソースが必要で、大企業での使用を制限する必要がある。
マスク付きオートエンコーダやDINOのようなViTのための自己教師型学習(SSL)の最近の進歩は、多様なタスクやセマンティックセグメンテーション機能に適応性を示している。
SSL ViTsを利用して、平易なデータによるディープフェイク検出と部分的な微調整を行い、注意機構を介してディープフェイク検出と説明可能性に匹敵する適応性を見出す。
さらに、ViTsの部分的な微調整は資源効率のよい選択肢である。
This paper investigates the effectiveness of self-supervised pre-trained vision transformers (ViTs) compared to supervised pre-trained ViTs and conventional neural networks (ConvNets) for detecting facial deepfake images and videos. It examines their potential for improved generalization and explainability, especially with limited training data. Despite the success of transformer architectures in various tasks, the deepfake detection community is hesitant to use large ViTs as feature extractors due to their perceived need for extensive data and suboptimal generalization with small datasets. This contrasts with ConvNets, which are already established as robust feature extractors. Additionally, training ViTs from scratch requires significant resources, limiting their use to large companies. Recent advancements in self-supervised learning (SSL) for ViTs, like masked autoencoders and DINOs, show adaptability across diverse tasks and semantic segmentation capabilities. By leveraging SSL ViTs for deepfake detection with modest data and partial fine-tuning, we find comparable adaptability to deepfake detection and explainability via the attention mechanism. Moreover, partial fine-tuning of ViTs is a resource-efficient option. | 翻訳日:2024-08-12 20:10:25 公開日:2024-08-09 |
# 不確実な特徴融合と自己重み付けによる人物再同定の促進
Enhancing Person Re-Identification via Uncertainty Feature Fusion and Auto-weighted Measure Combination ( http://arxiv.org/abs/2405.01101v2 ) ライセンス: Link先を確認 | Quang-Huy Che, Le-Chuong Nguyen, Vinh-Tiep Nguyen, | (参考訳) 多様なシナリオにまたがる対象を正確に特定できる堅牢な人物識別システム(Re-ID)の探求は、監視とセキュリティアプリケーションにおいて大きな課題である。
本研究では,不確実性特徴融合(UFFM)とWise Distance Aggregation(WDA)を統合することにより,人物再同定(Re-ID)を大幅に向上させる手法を提案する。
ベンチマークデータセット(Market-1501, DukeMTMC-ReID, MSMT17)で検証した結果,Ranc-1精度と平均平均精度(mAP)が大幅に向上した。
特に、UFFMは複数の画像から特徴合成のパワーを生かし、異なる視点の被写体の変動によって課される制限を克服する。
WDAはさらに、類似度メトリクスをインテリジェントに集約することでプロセスを洗練し、それによって、被験者間の微妙だが批判的な違いを識別するシステムの能力を高める。
実験結果から,提案手法が既存手法よりも優れていることが確認され,すべての評価データセットに対して新たな性能ベンチマークが達成された。
The quest for robust Person re-identification (Re-ID) systems capable of accurately identifying subjects across diverse scenarios remains a formidable challenge in surveillance and security applications. This study presents a novel methodology that significantly enhances Person Re-Identification (Re-ID) by integrating Uncertainty Feature Fusion (UFFM) with Wise Distance Aggregation (WDA). Tested on benchmark datasets - Market-1501, DukeMTMC-ReID, and MSMT17 - our approach demonstrates substantial improvements in Rank-1 accuracy and mean Average Precision (mAP). Specifically, UFFM capitalizes on the power of feature synthesis from multiple images to overcome the limitations imposed by the variability of subject appearances across different views. WDA further refines the process by intelligently aggregating similarity metrics, thereby enhancing the system's ability to discern subtle but critical differences between subjects. The empirical results affirm the superiority of our method over existing approaches, achieving new performance benchmarks across all evaluated datasets. | 翻訳日:2024-08-12 20:10:25 公開日:2024-08-09 |
# LiDAR-Camera Synergyによる連続物体検出に向けて
Towards Consistent Object Detection via LiDAR-Camera Synergy ( http://arxiv.org/abs/2405.01258v2 ) ライセンス: Link先を確認 | Kai Luo, Hao Wu, Kefu Yi, Kailun Yang, Wei Hao, Rongdong Hu, | (参考訳) 人間と機械の相互作用が進化し続けるにつれ、環境認識の能力はますます重要になりつつある。
最も一般的な2種類の感覚データ、画像、点雲を統合することで、検出精度を高めることができる。
現在、オブジェクトの位置を点雲と画像の両方で検出できる既存のモデルは存在せず、それに対応する関係も決定できる。
この情報は人間と機械の相互作用にとって重要であり、その強化の新たな可能性を提供する。
そこで本研究では,一対一のフォワード推論しか必要としないエンドツーエンドのオブジェクト検出(COD)アルゴリズムフレームワークを導入し,オブジェクトの位置を点群と画像の両方で同時に取得し,相関関係を確立する。
さらに,点雲と画像間の物体相関の精度を評価するために,新しい評価基準である Consistency Precision (CP) を提案する。
提案手法の有効性を検証するため,KITTI と DAIR-V2X のデータセットを用いて実験を行った。
また,既存の後処理法と比較して,画像と点雲の校正パラメータが乱される場合,画像に対して一貫性検出法がどう作用するかについても検討した。
実験の結果,提案手法は優れた検出性能とロバスト性を示し,エンドツーエンドの整合性検出を実現していることがわかった。
ソースコードはhttps://github.com/xifen523/COD.comで公開されている。
As human-machine interaction continues to evolve, the capacity for environmental perception is becoming increasingly crucial. Integrating the two most common types of sensory data, images, and point clouds, can enhance detection accuracy. Currently, there is no existing model capable of detecting an object's position in both point clouds and images while also determining their corresponding relationship. This information is invaluable for human-machine interactions, offering new possibilities for their enhancement. In light of this, this paper introduces an end-to-end Consistency Object Detection (COD) algorithm framework that requires only a single forward inference to simultaneously obtain an object's position in both point clouds and images and establish their correlation. Furthermore, to assess the accuracy of the object correlation between point clouds and images, this paper proposes a new evaluation metric, Consistency Precision (CP). To verify the effectiveness of the proposed framework, an extensive set of experiments has been conducted on the KITTI and DAIR-V2X datasets. The study also explored how the proposed consistency detection method performs on images when the calibration parameters between images and point clouds are disturbed, compared to existing post-processing methods. The experimental results demonstrate that the proposed method exhibits excellent detection performance and robustness, achieving end-to-end consistency detection. The source code will be made publicly available at https://github.com/xifen523/COD. | 翻訳日:2024-08-12 20:10:25 公開日:2024-08-09 |
# マルチフィールド駆動オプティメカニカルキャビティにおけるフォトンフォノンアンチバンチングの非古典的特徴
Nonclassical signatures of photon-phonon antibunching in a multifield driven optomechanical cavity ( http://arxiv.org/abs/2405.02896v2 ) ライセンス: Link先を確認 | Joy Ghosh, Shailendra K. Varshney, Kapil Debnath, | (参考訳) 破壊的干渉に基づくフォトンフォノンのアンチバンチングは、オプトメカニカルキャビティ系における古典的不等式に違反する可能性がある。
本稿では,2次の自己相関関数と相互相関関数とベルの非局所性を調べることによって,古典的なコーシー=シュワルツ不等式が不等式に反することを調査し,この系が2つの弱いプローブ場によって駆動されるときの単一光子-フォノン励起の量子相関を解析する。
コーシー=シュワルツの不等式違反はベルの定理に付随するより強い非古典的テストの指標となる。
本システムでは,光子-フォノン対の強い量子相関と,光子フィルタリングの反対角パターンを明らかにする。
数値解析では,非定常光子(フォノン)遮断を共鳴で可能とする,弱い有効オプティメカカルカップリング強度と様々な光-機械場振幅比を考察する。
この発見は、最適な条件下でのサブポアソン信号の生成に重要であり、オンデマンドの単一光子-フォノンペアを生成するハイブリッドシステムに潜在的に応用できる可能性がある。
Destructive interference-based photon-phonon antibunching can lead to violations of classical inequalities in optomechanical cavity systems. In this paper, we explore the violation of the classical Cauchy-Schwarz inequality by examining second-order auto-correlation and cross-correlation functions, as well as Bell's nonlocality, to analyze the quantum correlations of single photon-phonon excitations when the system is driven by two weak probe fields. We propose that the violation of the Cauchy-Schwarz inequality can serve as an indicator for the stronger nonclassical tests associated with Bell's theorem. Our system reveals strong quantum correlations of photon-phonon pairs with distinctive antidiagonal patterns of photon filtering. For numerical analysis, we consider a weak effective optomechanical coupling strength and various optical-to-mechanical field amplitude ratios that enable unconventional photon (phonon) blockades at resonance. The findings are significant for producing sub-Poissonian signals under optimal conditions and have potential applications in hybrid systems for generating on-demand single photon-phonon pairs. | 翻訳日:2024-08-12 20:10:25 公開日:2024-08-09 |
# ボクセル重要度に基づく効率的な放射線処理計画
Efficient Radiation Treatment Planning based on Voxel Importance ( http://arxiv.org/abs/2405.03880v2 ) ライセンス: Link先を確認 | Sebastian Mair, Anqi Fu, Jens Sjölund, | (参考訳) 放射線治療計画には多数のボクセルの最適化が伴い、その多くが臨床上の問題に関する限られた情報を持っている。
本稿では,情報ボクセルの代表的な部分集合のみを用いることで,大規模な最適化問題を削減する手法を提案する。
このようにして、計画品質を維持しながら、計画の効率を大幅に改善します。
最初の探索段階において,ボクセル毎に重要なスコアを導出する簡易な目的を含む簡易な最適化問題を事前に解決する。
この重要度スコアはサンプリング分布に変換され、重要度サンプリングを用いて少数の情報ボクセルをサブサンプリングすることができる。
このサブセットを用いて、元の最適化問題の-reduce-バージョンを解くことにより、満足な線量配達が困難である領域を考慮に入れながら、問題の規模と計算要求を効果的に削減する。
他の確率的(部分)サンプリング手法とは対照的に、我々の手法は最適化問題を解くために1つの探索とサンプリングのステップしか必要としない。
この問題は、修正や適応を必要とせずに、確立された解決器を用いて効率的に解決することができる。
オープンベンチマークデータに関する実証実験では、従来の手法に匹敵する計画品質を維持しつつ、従来のものよりも最大50倍の最適化時間を著しく短縮した。
我々の新しいアプローチは、その固有の計算課題に対処することで、放射線治療計画を大幅に加速する可能性がある。
最適化方法の変更や改善よりも、最適化問題のサイズを小さくすることで、治療計画時間を短縮する。
したがって、我々の努力は多くの過去の発展を補完するものである。
Radiation treatment planning involves optimization over a large number of voxels, many of which carry limited information about the clinical problem. We propose an approach to reduce the large optimization problem by only using a representative subset of informative voxels. This way, we drastically improve planning efficiency while maintaining the plan quality. Within an initial probing step, we pre-solve an easier optimization problem involving a simplified objective from which we derive an importance score per voxel. This importance score is then turned into a sampling distribution, which allows us to subsample a small set of informative voxels using importance sampling. By solving a - now reduced - version of the original optimization problem using this subset, we effectively reduce the problem's size and computational demands while accounting for regions where satisfactory dose deliveries are challenging. In contrast to other stochastic (sub-)sampling methods, our technique only requires a single probing and sampling step to define a reduced optimization problem. This problem can be efficiently solved using established solvers without the need of modifying or adapting them. Empirical experiments on open benchmark data highlight substantially reduced optimization times, up to 50 times faster than the original ones, for intensity-modulated radiation therapy (IMRT), all while upholding plan quality comparable to traditional methods. Our novel approach has the potential to significantly accelerate radiation treatment planning by addressing its inherent computational challenges. We reduce the treatment planning time by reducing the size of the optimization problem rather than modifying and improving the optimization method. Our efforts are thus complementary to many previous developments. | 翻訳日:2024-08-12 20:10:25 公開日:2024-08-09 |
# FuXi-ENS:中距離アンサンブル天気予報のための機械学習モデル
FuXi-ENS: A machine learning model for medium-range ensemble weather forecasting ( http://arxiv.org/abs/2405.05925v3 ) ライセンス: Link先を確認 | Xiaohui Zhong, Lei Chen, Hao Li, Jun Liu, Xu Fan, Jie Feng, Kan Dai, Jing-Jia Luo, Jie Wu, Bo Lu, | (参考訳) 組立て予測は、特に極端な出来事の予測のために、天気予報を改善するために不可欠である。
従来のNWPモデルに基づくアンサンブル予測システム(EPS)の構築は,計算コストが高い。
MLモデルは、決定論的天気予報のための貴重なツールとして登場し、計算要求が大幅に減少し、従来のNWPモデルの予測性能を超えた予測を提供する。
しかし、予測のアンサンブルにMLモデルを適用する場合、課題が発生する。
GenCastやSEEDSモデルといった最近のMLモデルは、予測生成のためにERA5 EDAまたは運用NWPアンサンブルメンバーに依存している。
それらの空間分解能は、多くの応用において非常に粗いと考えられている。
これらの制限を克服するため、Fuxi-ENSは6時間ごとのグローバルアンサンブル天気予報を最大15日間提供するように設計された高度なMLモデルである。
このモデルは、13の圧力レベルで5つの大気変数と13の表面変数を組み込んで、0.25の空間分解能を著しく高めている。
変分オートエンコーダ(VAE)の固有確率特性を活用することにより、予測分布と目標分布のCRPSとKL分散を組み合わせた損失関数を最適化し、初期条件と予測条件の両方においてフロー依存摂動を組み込む。
この革新的なアプローチにより、FuXi-ENSは、アンサンブル気象予報のための標準VAEモデルにおいて、L1損失とKL損失を併用した従来のものよりも進歩する。
その結果,FXi-ENSは360変数の98.1%のCRPSと予測リードタイムの組み合わせで,世界有数のNWPモデルであるECMWFのアンサンブル予測よりも優れていた。
この成果は、アンサンブル天気予報を強化するためのフキシエンスモデルの可能性を強調し、この分野のさらなる発展に向けた有望な方向性を提供する。
Ensemble forecasting is crucial for improving weather predictions, especially for forecasts of extreme events. Constructing an ensemble prediction system (EPS) based on conventional NWP models is highly computationally expensive. ML models have emerged as valuable tools for deterministic weather forecasts, providing forecasts with significantly reduced computational requirements and even surpassing the forecast performance of traditional NWP models. However, challenges arise when applying ML models to ensemble forecasting. Recent ML models, such as GenCast and SEEDS model, rely on the ERA5 EDA or operational NWP ensemble members for forecast generation. Their spatial resolution is also considered too coarse for many applications. To overcome these limitations, we introduce FuXi-ENS, an advanced ML model designed to deliver 6-hourly global ensemble weather forecasts up to 15 days. This model runs at a significantly increased spatial resolution of 0.25\textdegree, incorporating 5 atmospheric variables at 13 pressure levels, along with 13 surface variables. By leveraging the inherent probabilistic nature of Variational AutoEncoder (VAE), FuXi-ENS optimizes a loss function that combines the CRPS and the KL divergence between the predicted and target distribution, facilitating the incorporation of flow-dependent perturbations in both initial conditions and forecast. This innovative approach makes FuXi-ENS an advancement over the traditional ones that use L1 loss combined with the KL loss in standard VAE models for ensemble weather forecasting. Results demonstrate that FuXi-ENS outperforms ensemble forecasts from the ECMWF, a world leading NWP model, in the CRPS of 98.1% of 360 variable and forecast lead time combinations. This achievement underscores the potential of the FuXi-ENS model to enhance ensemble weather forecasts, offering a promising direction for further development in this field. | 翻訳日:2024-08-12 20:10:25 公開日:2024-08-09 |
# 効率的なマルチモーダル大言語モデル:サーベイ
Efficient Multimodal Large Language Models: A Survey ( http://arxiv.org/abs/2405.10739v2 ) ライセンス: Link先を確認 | Yizhang Jin, Jian Li, Yexin Liu, Tianjun Gu, Kai Wu, Zhengkai Jiang, Muyang He, Bo Zhao, Xin Tan, Zhenye Gan, Yabiao Wang, Chengjie Wang, Lizhuang Ma, | (参考訳) 近年,視覚的質問応答や視覚的理解,推論といったタスクにおいて,MLLM(Multimodal Large Language Models)が顕著な性能を示した。
しかし、モデルサイズと高いトレーニングと推論コストが、MLLMのアカデミックや産業への応用を妨げている。
したがって、効率的で軽量なMLLMの研究は、特にエッジコンピューティングのシナリオにおいて大きな可能性を秘めている。
本稿では,効率的なMLLMの現状を包括的かつ体系的に概観する。
具体的には、代表的効率的なMLLMのタイムライン、効率的な構造と戦略の研究状況、および応用について要約する。
最後に、現在の効率的なMLLM研究の限界と将来的な方向性について論じる。
GitHubリポジトリの詳細については、https://github.com/lijiannuist/Efficient-Multimodal-LLMs-Survey.comを参照してください。
In the past year, Multimodal Large Language Models (MLLMs) have demonstrated remarkable performance in tasks such as visual question answering, visual understanding and reasoning. However, the extensive model size and high training and inference costs have hindered the widespread application of MLLMs in academia and industry. Thus, studying efficient and lightweight MLLMs has enormous potential, especially in edge computing scenarios. In this survey, we provide a comprehensive and systematic review of the current state of efficient MLLMs. Specifically, we summarize the timeline of representative efficient MLLMs, research state of efficient structures and strategies, and the applications. Finally, we discuss the limitations of current efficient MLLM research and promising future directions. Please refer to our GitHub repository for more details: https://github.com/lijiannuist/Efficient-Multimodal-LLMs-Survey. | 翻訳日:2024-08-12 20:10:25 公開日:2024-08-09 |
# RuleFuser: 分散シフト下でのロバスト性学習プランナーにおけるルールインジェクションのための証拠ベイズアプローチ
RuleFuser: An Evidential Bayes Approach for Rule Injection in Imitation Learned Planners for Robustness under Distribution Shifts ( http://arxiv.org/abs/2405.11139v2 ) ライセンス: Link先を確認 | Jay Patrikar, Sushant Veer, Apoorva Sharma, Marco Pavone, Sebastian Scherer, | (参考訳) 自律運転のための現代の運動プランナーは、専門家の運転ログから引き出すために、しばしば模倣学習(IL)を使用する。
ILは、大規模なデータセットからニュアンスとマルチモーダルな人間の運転行動を引き出す能力から恩恵を受けるが、結果として生じるプランナーは、アウト・オブ・ディストリビューション(OOD)のシナリオとトラフィックルールのコンプライアンスに苦慮することが多い。
一方、古典的なルールベースのプランナーは、OODシナリオに頑健でありながら、安全なトラフィックルールに準拠した行動を生成することができるが、エージェントとエージェントのインタラクションや人間のドライバーの意図によるニュアンスを捉えることはできない。
RuleFuserは明白なフレームワークで、ILプランナーと古典的なルールベースのプランナーを組み合わせることで、両方の相補的な利点を生かし、模倣と安全性のバランスを取る。
我々のアプローチは、現実世界のnuPlanデータセットでテストされ、ILプランナーのin-distriion(ID)シナリオにおけるハイパフォーマンスと、ルールベースプランナーのout-of-distriion(OOD)シナリオにおける強化された安全性を組み合わせ、OODシナリオにおける模倣メトリクスへの負担を伴わずに、ILプランナーの安全性指標に対する平均38.43%の改善を達成する。
Modern motion planners for autonomous driving frequently use imitation learning (IL) to draw from expert driving logs. Although IL benefits from its ability to glean nuanced and multi-modal human driving behaviors from large datasets, the resulting planners often struggle with out-of-distribution (OOD) scenarios and with traffic rule compliance. On the other hand, classical rule-based planners, by design, can generate safe traffic rule compliant behaviors while being robust to OOD scenarios, but these planners fail to capture nuances in agent-to-agent interactions and human drivers' intent. RuleFuser, an evidential framework, combines IL planners with classical rule-based planners to draw on the complementary benefits of both, thereby striking a balance between imitation and safety. Our approach, tested on the real-world nuPlan dataset, combines the IL planner's high performance in in-distribution (ID) scenarios with the rule-based planners' enhanced safety in out-of-distribution (OOD) scenarios, achieving a 38.43% average improvement on safety metrics over the IL planner without much detriment to imitation metrics in OOD scenarios. | 翻訳日:2024-08-12 20:10:25 公開日:2024-08-09 |
# アイテムの相違を超えて:リコメンダシステムにおけるインテントによる多様化
Beyond Item Dissimilarities: Diversifying by Intent in Recommender Systems ( http://arxiv.org/abs/2405.12327v2 ) ライセンス: Link先を確認 | Yuyan Wang, Cheenar Banerjee, Samer Chucri, Fabio Soldo, Sriraj Badam, Ed H. Chi, Minmin Chen, | (参考訳) 短期的なエンゲージメントに過度にフォーカスするレコメンダシステムは、ユーザが多様な関心を探索するのを防ぐ。
この課題に対処するために、多くの多様化アルゴリズムが提案されている。
これらのアルゴリズムは通常、アイテムの類似度の測定に頼り、最終セットの推奨項目間の相違性を最大化することを目的としている。
本研究では,複数のインタラクションやレコメンデーションセッションにまたがる,高レベルのユーザ理解を活用することで,項目レベルの類似性を超えたメリットを実証する。
当社のアプローチは,オンラインプラットフォーム上でのユーザ行動は,その基盤となる意図によって大きく左右される,という観察に動機付けられています。
したがって、最終的な勧告は、さまざまな意図のセットが正確に表現されることを保証するべきである。
ユーザインテントは主に検索の文脈で研究されているが、リアルタイムな動的インテント予測をレコメンデーションシステムに組み込む方法は明らかになっていない。
このギャップに対処するために,提案システムの最終段階のための確率論的意図に基づく全ページ多様化フレームワークを開発する。
提案手法は,ユーザの意図に対する以前の信念から始まり,これらの信念に基づいて各位置の項目を順次選択し,その後,意図に関する後続の信念を更新する。
このアプローチにより、長期ユーザーエクスペリエンスの最適化に向けて、異なるユーザ意図がページ上に表現されることが保証される。
われわれは,YouTube上の意図の多様化フレームワークを実験した。
様々な意図のライブ実験は、我々のフレームワークがデイリーアクティブユーザーと全体のユーザ満足度を高め、長期計画を促進する効果を検証していることを示している。
具体的には、ユーザは、時間とともに基盤となる意図と整合した多様なコンテンツを継続的に発見し、エンゲージメントし、長期的なユーザーエクスペリエンスを向上させることができる。
Recommender systems that overly focus on short-term engagement prevents users from exploring diverse interests. To tackle this challenge, numerous diversification algorithms have been proposed. These algorithms typically rely on measures of item similarity, aiming to maximize the dissimilarity across items in the final set of recommendations. In this work, we demonstrate the benefits of going beyond item-level similarities by utilizing higher-level user understanding--specifically, user intents that persist across multiple interactions or recommendation sessions--in diversification. Our approach is motivated by the observation that user behaviors on online platforms are largely driven by their underlying intents. Therefore, final recommendations should ensure that a diverse set of intents is accurately represented. While user intent has primarily been studied in the context of search, it is less clear how to incorporate real-time dynamic intent predictions in recommender systems. To address this gap, we develop a probabilistic intent-based whole-page diversification framework for the final stage of a recommender system. Starting with a prior belief of user intents, the proposed framework sequentially selects items for each position based on these beliefs and subsequently updates posterior beliefs about the intents. This approach ensures that different user intents are represented on a page, towards optimizing long-term user experience. We experiment with the intent diversification framework on YouTube. Live experiments on a diverse set of intents show that our framework increases Daily Active Users and overall user enjoyment, validating its effectiveness in facilitating long-term planning. Specifically, it enables users to consistently discover and engage with diverse content that aligns with their underlying intents over time, leading to an improved long-term user experience. | 翻訳日:2024-08-12 20:10:25 公開日:2024-08-09 |
# TrajCogn: 移動パターン認識のためのLLMの活用と軌道からの旅行目的
TrajCogn: Leveraging LLMs for Cognizing Movement Patterns and Travel Purposes from Trajectories ( http://arxiv.org/abs/2405.12459v2 ) ライセンス: Link先を確認 | Zeyu Zhou, Yan Lin, Haomin Wen, Qisen Xu, Shengnan Guo, Jilin Hu, Youfang Lin, Huaiyu Wan, | (参考訳) 時空間軌道は様々なデータマイニング作業において重要である。
異なるタスクを高精度に行う多目的軌跡学習法を開発することが重要である。
これは、トラジェクトリから、情報移動パターンと旅行目的の2つの中核的な側面を効果的に抽出することを含む。
しかし、モデルキャパシティの制限とトラジェクトリデータセットの品質とスケールのため、これは難しい。
一方、大規模な言語モデル(LLM)は、大規模で高品質なデータセットをトレーニングすることで、汎用性に大きな成功を収めている。
軌跡と文の類似性を考えると、LLMを利用して効果的な軌跡学習法を開発する可能性がある。
しかし、標準LLMは軌跡の時空間的特徴を扱うように設計されておらず、移動パターンや旅行目的を抽出することができない。
これらの課題に対処するために,LLMを効果的に利用して軌道をモデル化するTrajCognというモデルを提案する。
TrajCogn は LLM の強みを活用して,標準 LLM の限界に対処しながら,多目的な軌道学習アプローチを構築する。
まず、TrajCognは、LLMが時空間的特徴を処理し、移動パターンと旅行目的を抽出できる新しい軌道意味埋め込み装置を組み込んでいる。
第二にTrajCognは、これらのパターンと目的をLLMに統合し、モデルがさまざまなタスクに適応できるようにする新しいトラジェクトリプロンプトを導入した。
2つの実世界のデータセットと2つの代表的なタスクに関する大規模な実験は、TrajCognがその設計目標を達成できたことを示している。
コードはhttps://anonymous.4open.science/r/TrajCogn-5021で公開されている。
Spatio-temporal trajectories are crucial in various data mining tasks. It is important to develop a versatile trajectory learning method that performs different tasks with high accuracy. This involves effectively extracting two core aspects of information--movement patterns and travel purposes--from trajectories. However, this is challenging due to limitations in model capacity and the quality and scale of trajectory datasets. Meanwhile, large language models (LLMs) have shown great success in versatility by training on large-scale, high-quality datasets. Given the similarities between trajectories and sentences, there's potential to leverage LLMs to develop an effective trajectory learning method. However, standard LLMs are not designed to handle the unique spatio-temporal features of trajectories and cannot extract movement patterns and travel purposes. To address these challenges, we propose a model called TrajCogn that effectively utilizes LLMs to model trajectories. TrajCogn leverages the strengths of LLMs to create a versatile trajectory learning approach while addressing the limitations of standard LLMs. First, TrajCogn incorporates a novel trajectory semantic embedder that enables LLMs to process spatio-temporal features and extract movement patterns and travel purposes. Second, TrajCogn introduces a new trajectory prompt that integrates these patterns and purposes into LLMs, allowing the model to adapt to various tasks. Extensive experiments on two real-world datasets and two representative tasks demonstrate that TrajCogn successfully achieves its design goals. Codes are available at https://anonymous.4open.science/r/TrajCogn-5021. | 翻訳日:2024-08-12 20:10:25 公開日:2024-08-09 |
# テキスト生成のためのマスケと因果言語モデリングの探索
Exploration of Masked and Causal Language Modelling for Text Generation ( http://arxiv.org/abs/2405.12630v2 ) ライセンス: Link先を確認 | Nicolo Micheletti, Samuel Belkadi, Lifeng Han, Goran Nenadic, | (参考訳) 大規模言語モデル(LLM)は自然言語処理(NLP)の分野に革命をもたらし、この分野のあらゆるタスクにおいて最先端のパフォーマンスを達成した。
しかし、テキスト生成でよく使われるアプローチであるコーサル言語モデリング(CLM)は、左から右へ連続的にテキストを生成するが、本質的には、各トークンがいつどこで生成されるかは決定しないモデルの自由を制限する。
対照的に、主に言語理解タスクに使用されるMasked Language Modelling (MLM)は、テキストや任意の順序でトークンを生成することができる。
本稿では,テキスト生成タスクに対するMLMとCLMのアプローチを広範囲に比較する。
そのために、3つの異なるデータセット、すなわち3つの異なるデータセットで、同等の大きさの言語モデルを事前訓練する。
1) 退院要約
2)映画プロットのシナプス、及び
3)オーサシップ検証データセット。
代々の質を評価するために,まず定量的指標を用いて,コヒーレンスと文法的正当性を解析するための定性的な人的評価を行う。
さらに、生成されたテキストを3つのダウンストリームタスクで使用することで、その有用性を評価する。
1)エンティティ認識
2)テキスト分類,及び
3) 著者確認。
その結果、MLMはテキスト生成において、高い定量的スコアと、生成したテキストのコヒーレンスにより、CLMを一貫して上回っていることがわかった。
また、生成されたテキストの品質と下流タスクにおけるモデルの性能との間には、‘textit{no strong correlation}’がある。
本研究では,テキスト生成のためのMLMが今後の研究に大きな可能性を秘めており,今後の研究の方向性を示す。
Large Language Models (LLMs) have revolutionised the field of Natural Language Processing (NLP) and have achieved state-of-the-art performance in practically every task in this field. However, the prevalent approach used in text generation, Causal Language Modelling (CLM), which generates text sequentially from left to right, inherently limits the freedom of the model, which does not decide when and where each token is generated. In contrast, Masked Language Modelling (MLM), primarily used for language understanding tasks, can generate tokens anywhere in the text and any order. This paper conducts an extensive comparison of MLM and CLM approaches for text generation tasks. To do so, we pre-train several language models of comparable sizes on three different datasets, namely 1) medical discharge summaries, 2) movie plot synopses, and 3) authorship verification datasets. To assess the quality of the generations, we first employ quantitative metrics and then perform a qualitative human evaluation to analyse coherence and grammatical correctness. In addition, we evaluate the usefulness of the generated texts by using them in three different downstream tasks: 1) Entity Recognition, 2) Text Classification, and 3) Authorship Verification. The results show that MLM consistently outperforms CLM in text generation across all datasets, with higher quantitative scores and better coherence in the generated text. The study also finds \textit{no strong correlation} between the quality of the generated text and the performance of the models in the downstream tasks. With this study, we show that MLM for text generation has great potential for future research and provides direction for future studies in this area. | 翻訳日:2024-08-12 18:19:02 公開日:2024-08-09 |
# 初期分布と目標分布の対称化Kulback-Leibler分散を最小化した異種焼鈍重要度サンプリング
Differentiable Annealed Importance Sampling Minimizes The Symmetrized Kullback-Leibler Divergence Between Initial and Target Distribution ( http://arxiv.org/abs/2405.14840v2 ) ライセンス: Link先を確認 | Johannes Zenn, Robert Bamler, | (参考訳) Geffner & Domke (2021) と Zhang et al (2021) によって提唱されたDAISは、AISの初期分布を最適化することができる。
本稿では,多くの遷移の限界において,DAISは初期分布と目標分布との対称性を持つKulback-Leibler分散を最小化することを示す。
したがって、DAISは、その初期分布が難解な対象分布に適合するパラメトリックであるため、変分推論(VI)の形式と見なすことができる。
合成および実世界のデータに対する変分分布としての初期分布の有用性を実証的に評価し、VI(逆KL偏差の最適化)、重み付きVI(前方KL偏差の最適化)、マルコフスコアクライミング(前方KL偏差の最適化)よりも精度の高い不確実性推定をしばしば提供することを示した。
Differentiable annealed importance sampling (DAIS), proposed by Geffner & Domke (2021) and Zhang et al. (2021), allows optimizing over the initial distribution of AIS. In this paper, we show that, in the limit of many transitions, DAIS minimizes the symmetrized Kullback-Leibler divergence between the initial and target distribution. Thus, DAIS can be seen as a form of variational inference (VI) as its initial distribution is a parametric fit to an intractable target distribution. We empirically evaluate the usefulness of the initial distribution as a variational distribution on synthetic and real-world data, observing that it often provides more accurate uncertainty estimates than VI (optimizing the reverse KL divergence), importance weighted VI, and Markovian score climbing (optimizing the forward KL divergence). | 翻訳日:2024-08-12 18:19:02 公開日:2024-08-09 |
# Tensor Frames - 任意のメッセージパッシングネットワークを不変にする方法
Tensor Frames -- How To Make Any Message Passing Network Equivariant ( http://arxiv.org/abs/2405.15389v2 ) ライセンス: Link先を確認 | Peter Lippmann, Gerrit Gerhartz, Roman Remme, Fred A. Hamprecht, | (参考訳) 幾何学的深層学習の多くの応用において、大域座標フレームの選択は任意であり、予測は基準フレームとは独立にすべきである。
言い換えれば、ネットワークは入力の回転と反射、すなわち O(d) の変換に関して同変であるべきである。
我々は、同変メッセージパッシングアーキテクチャを構築し、同変メッセージパッシングアーキテクチャを変更するための新しいフレームワークを提案する。
本手法は,メッセージ中にテンソルオブジェクトを含めることで,幾何学的情報を一貫した通信を行う,局所座標フレームに基づく。
このフレームワークは任意の次元ユークリッド空間における幾何学的データへのメッセージパッシングに適用できる。
非標準正規化層や非線形性など,他の多くのメッセージパッシング手法では特別なビルディングブロックを必要とするが,このような変更を伴わずに既存のアーキテクチャに容易に適用することができる。
我々は、一般的な点クラウドアーキテクチャにおけるO(3)-等分散の利点を明確に示し、点クラウド上の通常のベクトル回帰に関する最先端の結果を生成する。
In many applications of geometric deep learning, the choice of global coordinate frame is arbitrary, and predictions should be independent of the reference frame. In other words, the network should be equivariant with respect to rotations and reflections of the input, i.e., the transformations of O(d). We present a novel framework for building equivariant message passing architectures and modifying existing non-equivariant architectures to be equivariant. Our approach is based on local coordinate frames, between which geometric information is communicated consistently by including tensorial objects in the messages. Our framework can be applied to message passing on geometric data in arbitrary dimensional Euclidean space. While many other approaches for equivariant message passing require specialized building blocks, such as non-standard normalization layers or non-linearities, our approach can be adapted straightforwardly to any existing architecture without such modifications. We explicitly demonstrate the benefit of O(3)-equivariance for a popular point cloud architecture and produce state-of-the-art results on normal vector regression on point clouds. | 翻訳日:2024-08-12 18:19:02 公開日:2024-08-09 |
# スプレッドシート理解のための視覚言語モデル:課題と機会
Vision Language Models for Spreadsheet Understanding: Challenges and Opportunities ( http://arxiv.org/abs/2405.16234v2 ) ライセンス: Link先を確認 | Shiyu Xia, Junyu Xiong, Haoyu Dong, Jianbo Zhao, Yuzhang Tian, Mengyu Zhou, Yeye He, Shi Han, Dongmei Zhang, | (参考訳) 本稿では,スプレッドシート理解における視覚言語モデルの有用性について考察する。
本稿では,光学的文字認識(OCR),空間認識,視覚的フォーマット認識におけるVLMを包括的に評価するための評価指標を用いた3つの自己監督的課題を提案する。
さらに,これらの課題を統合することで,VLMの全体的な性能を評価するために表テーブル検出タスクを利用する。
より詳細にVLMを探索するために,カラム幅調整,スタイル変更,アドレス拡張という3つのスプレッドシート・ツー・イメージ設定を提案する。
我々は、上記の課題に異なる設定で対処するためのプロンプトの変種を提案する。
特に,2次元位置決めよりもテキスト理解におけるVLMの強みを活用するために,表の4つの境界におけるセル値のデコードを提案する。
以上の結果から,VLMは有望なOCR機能を示すが,細胞欠失や不整合による不満足な結果が得られ,空間認識能力やフォーマット認識能力が不足していることが判明した。
This paper explores capabilities of Vision Language Models on spreadsheet comprehension. We propose three self-supervised challenges with corresponding evaluation metrics to comprehensively evaluate VLMs on Optical Character Recognition (OCR), spatial perception, and visual format recognition. Additionally, we utilize the spreadsheet table detection task to assess the overall performance of VLMs by integrating these challenges. To probe VLMs more finely, we propose three spreadsheet-to-image settings: column width adjustment, style change, and address augmentation. We propose variants of prompts to address the above tasks in different settings. Notably, to leverage the strengths of VLMs in understanding text rather than two-dimensional positioning, we propose to decode cell values on the four boundaries of the table in spreadsheet boundary detection. Our findings reveal that VLMs demonstrate promising OCR capabilities but produce unsatisfactory results due to cell omission and misalignment, and they notably exhibit insufficient spatial and format recognition skills, motivating future work to enhance VLMs' spreadsheet data comprehension capabilities using our methods to generate extensive spreadsheet-image pairs in various settings. | 翻訳日:2024-08-12 18:19:02 公開日:2024-08-09 |
# HETHUB:大規模モデルのための異種クラスタを用いた分散トレーニングシステム
HETHUB: A Distributed Training System with Heterogeneous Cluster for Large-Scale Models ( http://arxiv.org/abs/2405.16256v2 ) ライセンス: Link先を確認 | Si Xu, Zixiao Huang, Yan Zeng, Shengen Yan, Xuefei Ning, Quanlu Zhang, Haolin Ye, Sipei Gu, Chunsheng Shui, Zhezheng Lin, Hao Zhang, Sheng Wang, Guohao Dai, Yu Wang, | (参考訳) 大規模モデルのトレーニングは、膨大な数のコンピューティングリソースに依存している。
例えば、GPT-4モデル(1.8兆のパラメータ)のトレーニングには、25,000のA100 GPUが必要である。
ひとつのタイプのGPUアクセラレータを備えた大規模クラスタを構築するのは、非常に難しい。
大規模クラスタを構築するために複数のタイプのGPU加速器を使用することは、不均一なGPU加速器の問題を解決する効果的な方法である。
しかし、大規模モデルの既存の分散トレーニングシステムは、均一なGPUアクセラレータのみをサポートし、異種GPUアクセラレータをサポートしない。
そこで本研究では,AMD,Nvidia GPU,その他のGPUアクセラレータを含む異種クラスタをサポートする大規模モデルを対象とした,ハイブリッド並列性を備えた分散トレーニングシステムHETHUBを提案する。
異種GPU加速器間の通信を実現するための分散統一通信器、分散パフォーマンス予測器、および異種GPU加速器で効率的にモデルを開発し訓練するための自動並列プランナーを導入している。
均質GPU加速器を用いた分散トレーニングシステムと比較して,同質GPU加速器の6つの組み合わせをサポートすることができる。
我々は、768個のGPU加速器(128個のAMDと640個のGPU加速器A)を持つ異種クラスタ上でLlama-140Bモデルを訓練する。
実験の結果,不均一クラスタにおけるシステム最適性能は理論上界性能の97.49%に達することがわかった。
Training large-scale models relies on a vast number of computing resources. For example, training the GPT-4 model (1.8 trillion parameters) requires 25000 A100 GPUs . It is a challenge to build a large-scale cluster with one type of GPU-accelerator. Using multiple types of GPU-accelerators to construct a large-scale cluster is an effective way to solve the problem of insufficient homogeneous GPU-accelerators. However, the existing distributed training systems for large-scale models only support homogeneous GPU-accelerators, not support heterogeneous GPU-accelerators. To address the problem, this paper proposes a distributed training system with hybrid parallelism, HETHUB, for large-scale models, which supports heterogeneous cluster, including AMD, Nvidia GPU and other types of GPU-accelerators . It introduces a distributed unified communicator to realize the communication between heterogeneous GPU-accelerators, a distributed performance predictor, and an automatic parallel planner to develop and train models efficiently with heterogeneous GPU-accelerators. Compared to the distributed training system with homogeneous GPU-accelerators, our system can support six combinations of heterogeneous GPU-accelerators. We train the Llama-140B model on a heterogeneous cluster with 768 GPU-accelerators(128 AMD and 640 GPU-accelerator A). The experiment results show that the optimal performance of our system in the heterogeneous cluster has achieved up to 97.49% of the theoretical upper bound performance. | 翻訳日:2024-08-12 18:19:02 公開日:2024-08-09 |
# スマート農業における土壌水分量の予測のための時系列基礎モデル
Time-Series Foundation Models for Forecasting Soil Moisture Levels in Smart Agriculture ( http://arxiv.org/abs/2405.18913v3 ) ライセンス: Link先を確認 | Boje Deforce, Bart Baesens, Estefanía Serral Asensio, | (参考訳) 近年、自然言語処理とコンピュータビジョンの基礎モデルが急増し、様々な領域におけるイノベーションが加速した。
この進歩に触発されて、スマート農業における時系列予測の基礎モデルの可能性を探る。
具体的には、土壌水ポテンシャル(\psi_\mathrm{soil}$)を予測するため、土壌水の状態(SOTA)時系列基盤モデルである$\texttt{TimeGPT}$という新しい応用法を提案する。
伝統的に、このタスクは幅広い入力変数に依存する。
我々は$\psi_\mathrm{soil}$'s ability to forecast $\psi_\mathrm{soil}$ in:$i$) a zero-shot setting,$ii$) 歴史的$\psi_\mathrm{soil}$ Measurement,$iii$) 細調整された設定を探索し、モデルに外因性変数を追加する。
我々は$\texttt{TimeGPT}$のパフォーマンスを、$\psi_\mathrm{soil}$を予測するための確立されたSOTAベースラインモデルと比較する。
我々の結果は、$\texttt{TimeGPT}$が、歴史的な$\psi_\mathrm{soil}$データのみを使用して、競合予測精度を達成し、農業アプリケーションに対するその顕著な可能性を強調していることを示している。
本研究は、伝統的に大規模なデータ収集やドメインの専門知識に依存したタスクの予測を可能にすることにより、農業における持続的開発のための時系列モデル構築の道を開くものである。
The recent surge in foundation models for natural language processing and computer vision has fueled innovation across various domains. Inspired by this progress, we explore the potential of foundation models for time-series forecasting in smart agriculture, a field often plagued by limited data availability. Specifically, this work presents a novel application of $\texttt{TimeGPT}$, a state-of-the-art (SOTA) time-series foundation model, to predict soil water potential ($\psi_\mathrm{soil}$), a key indicator of field water status that is typically used for irrigation advice. Traditionally, this task relies on a wide array of input variables. We explore $\psi_\mathrm{soil}$'s ability to forecast $\psi_\mathrm{soil}$ in: ($i$) a zero-shot setting, ($ii$) a fine-tuned setting relying solely on historic $\psi_\mathrm{soil}$ measurements, and ($iii$) a fine-tuned setting where we also add exogenous variables to the model. We compare $\texttt{TimeGPT}$'s performance to established SOTA baseline models for forecasting $\psi_\mathrm{soil}$. Our results demonstrate that $\texttt{TimeGPT}$ achieves competitive forecasting accuracy using only historical $\psi_\mathrm{soil}$ data, highlighting its remarkable potential for agricultural applications. This research paves the way for foundation time-series models for sustainable development in agriculture by enabling forecasting tasks that were traditionally reliant on extensive data collection and domain expertise. | 翻訳日:2024-08-12 18:19:02 公開日:2024-08-09 |
# PDDLEGO: テキスト環境における反復的計画
PDDLEGO: Iterative Planning in Textual Environments ( http://arxiv.org/abs/2405.19793v2 ) ライセンス: Link先を確認 | Li Zhang, Peter Jansen, Tianyi Zhang, Peter Clark, Chris Callison-Burch, Niket Tandon, | (参考訳) テキスト環境における計画は、現在のモデルにおいても長年にわたる課題であることが示されている。
最近の有望な作業ラインでは、LLMを使用して、シンボルプランナーによって解決可能な環境の形式表現を生成する。
しかしながら、既存のメソッドは、すべてのエンティティ状態が最初に知られている完全なオブザーブド環境に依存しているため、ワンオフ表現を構築することができ、完全な計画に繋がる。
対照的に、エンドゴールに向けて計画する十分な情報が当初存在しない部分的観測環境に取り組む。
我々は,あるサブゴールの部分的な計画に導く計画表現を反復的に構築するPDDLEGOを提案する。
サブゴールを達成することで、より多くの情報を取得して表現を拡大し、最終的にエンドゴールを達成する。
複数ショットのPDDLEGOで作成するプランは,Coin Collectorシミュレーションのエンド・ツー・エンドのプランよりも43%効率が高く,より複雑なCooking Worldシミュレーションでは,エンド・ツー・エンドのLCMがコヒーレントなプランを生成できない(4%)。
Planning in textual environments have been shown to be a long-standing challenge even for current models. A recent, promising line of work uses LLMs to generate a formal representation of the environment that can be solved by a symbolic planner. However, existing methods rely on a fully-observed environment where all entity states are initially known, so a one-off representation can be constructed, leading to a complete plan. In contrast, we tackle partially-observed environments where there is initially no sufficient information to plan for the end-goal. We propose PDDLEGO that iteratively construct a planning representation that can lead to a partial plan for a given sub-goal. By accomplishing the sub-goal, more information is acquired to augment the representation, eventually achieving the end-goal. We show that plans produced by few-shot PDDLEGO are 43% more efficient than generating plans end-to-end on the Coin Collector simulation, with strong performance (98%) on the more complex Cooking World simulation where end-to-end LLMs fail to generate coherent plans (4%). | 翻訳日:2024-08-12 18:19:02 公開日:2024-08-09 |
# 家庭電気知識に基づくデジタル双生児との自然言語インタラクション
Natural Language Interaction with a Household Electricity Knowledge-based Digital Twin ( http://arxiv.org/abs/2406.06566v3 ) ライセンス: Link先を確認 | Carolina Fortuna, Vid Hanžel, Blaž Bertalanič, | (参考訳) ドメイン固有のデジタルツインは、スマートグリッドの様々なセグメントのデジタルレプリカを表すもので、各セグメントをモデル化、シミュレート、制御することができる。
同時に、知識に基づくデジタルツインとAIが組み合わさって、計画と政策立案の観点から自然言語の相互作用を通じてシステムの側面を理解する力を与えるかもしれない。
本稿では,知識に基づくエネルギーデジタル双生児を活用した家庭用電気エネルギー測定におけるRAG (Retrieval Augmented Generation) 質問応答の可能性を初めて評価し,報告した。
知識に基づくデジタル双生児を実際に表現した,最近公開された電力消費知識グラフに基づいて,ChatGPT,Gemini,Llamaの電気関連質問に対する応答能力について検討した。
さらに,既存の電気知識に基づくディジタルツインを活用したRAG技術を用いて生成されたものとの比較を行った。
以上の結果から,RAG手法はLLMが生成する誤情報の発生を減少させるだけでなく,検証可能なデータに応答することで,出力の質を著しく向上させることがわかった。
本稿では、我々の方法論を詳述し、RAGを用いた応答と非応答の比較分析を行い、エネルギーデータ分析のような専門分野におけるAIの今後の応用について考察する。
Domain specific digital twins, representing a digital replica of various segments of the smart grid, are foreseen as able to model, simulate, and control the respective segments. At the same time, knowledge-based digital twins, coupled with AI, may also empower humans to understand aspects of the system through natural language interaction in view of planning and policy making. This paper is the first to assess and report on the potential of Retrieval Augmented Generation (RAG) question answers related to household electrical energy measurement aspects leveraging a knowledge-based energy digital twin. Relying on the recently published electricity consumption knowledge graph that actually represents a knowledge-based digital twin, we study the capabilities of ChatGPT, Gemini and Llama in answering electricity related questions. Furthermore, we compare the answers with the ones generated through a RAG techniques that leverages an existing electricity knowledge-based digital twin. Our findings illustrate that the RAG approach not only reduces the incidence of incorrect information typically generated by LLMs but also significantly improves the quality of the output by grounding responses in verifiable data. This paper details our methodology, presents a comparative analysis of responses with and without RAG, and discusses the implications of our findings for future applications of AI in specialized sectors like energy data analysis. | 翻訳日:2024-08-12 18:19:02 公開日:2024-08-09 |
# Black Boxのオープン:再構築エントロピーを用いたディープニューラルネットワークのトレーニング可能性予測
Opening the Black Box: predicting the trainability of deep neural networks with reconstruction entropy ( http://arxiv.org/abs/2406.12916v2 ) ライセンス: Link先を確認 | Yanick Thurn, Ro Jefferson, Johanna Erdmenger, | (参考訳) 機械学習における重要な課題は、与えられたニューラルネットワークがトレーニング可能な初期条件を予測することである。
本稿では,1層補助ネットワークのカスケードを介し,その後の活性化層からの入力を再構成したディープフィードフォワードニューラルネットワークのパラメータ空間におけるトレーニング可能な状態を予測する手法を提案する。
MNISTとCIFAR10の両方のデータセットにおいて、浅いカスケードネットワークのトレーニングの1つのエポックが、深層フィードフォワードネットワークのトレーニング可能性を予測するのに十分であることを示す。
我々は、再構成画像と元の入力との相対エントロピーを計算し、この情報損失のプローブがネットワークの位相挙動に敏感であることを示す。
さらに,本手法では,各層における入力データの変化を表示することで,ネットワークの意思決定プロセスを説明する。
この結果から,情報の流れと深層ニューラルネットワークのトレーニング可能性との間には具体的な関連性があり,これらのシステムにおける臨界性の役割が説明できる。
An important challenge in machine learning is to predict the initial conditions under which a given neural network will be trainable. We present a method for predicting the trainable regime in parameter space for deep feedforward neural networks, based on reconstructing the input from subsequent activation layers via a cascade of single-layer auxiliary networks. For both the MNIST and CIFAR10 datasets, we show that a single epoch of training of the shallow cascade networks is sufficient to predict the trainability of the deep feedforward network, thereby providing a significant reduction in overall training time. We achieve this by computing the relative entropy between reconstructed images and the original inputs, and show that this probe of information loss is sensitive to the phase behaviour of the network. Moreover, our approach illustrates the network's decision making process by displaying the changes performed on the input data at each layer. Our results provide a concrete link between the flow of information and the trainability of deep neural networks, further explaining the role of criticality in these systems. | 翻訳日:2024-08-12 18:19:02 公開日:2024-08-09 |
# MT-Ladder: LLMベースの機械翻訳を次のレベルに上げるモデルに依存しないフレームワーク
MT-Ladder: A Model-Agnostic Framework Boosting LLM-based Machine Translation to the Next Level ( http://arxiv.org/abs/2406.15741v2 ) ライセンス: Link先を確認 | Zhaopeng Feng, Yan Zhang, Ruizhe Chen, Zijie Meng, Zuozhu Liu, | (参考訳) GPT-4のような汎用大規模言語モデル(LLM)は、広範囲なウェブコンテンツを活用することで機械翻訳(MT)において顕著な進歩を遂げた。
一方、翻訳特化LDMは、ドメイン固有の単言語コーパスを事前学習し、人手による翻訳データによる微調整によって構築される。
優れた性能にもかかわらず、これらの手法は前例のない規模の計算とデータを必要とするか、人間の編集と注釈の努力を必要とする。
本稿では,MT-Ladderを開発した。MT-Ladderは,人的コストを伴わずに既存のLLMから容易に得ることができる擬似リファインメント三重項を用いて,MTの汎用LLMの性能を向上するための,新しいモデルに依存しない,費用効率の高いツールである。
トレーニング中、我々は容易にハードなスキーマで階層的な微調整戦略を提案し、MT-Ladderの精錬性能を徐々に改善した。
訓練されたMT-Ladderは任意の汎用LLMとシームレスに統合され、翻訳性能が向上する。
Gemma-2B/7B をバックボーンとして利用することにより、MT-Ladder-2B は最上位のオープンソースモデル(例えば、BigTranslate-13B を +6.91 BLEU と +3.52 COMET for XX-En)に書き換えることができ、MT-Ladder-7B は最先端の GPT-4 と同等のモデル性能をさらに向上させることができる。
広範囲なアブレーションと解析は、様々な環境でMT-Ladderの有効性を裏付ける。
私たちのコードはhttps://github.com/fzp0424/Ladderで利用可能です。
General-purpose Large Language Models (LLMs) like GPT-4 have achieved remarkable advancements in machine translation (MT) by leveraging extensive web content. On the other hand, translation-specific LLMs are built by pre-training on domain-specific monolingual corpora and fine-tuning with human-annotated translation data. Despite the superior performance, these methods either demand an unprecedented scale of computing and data or substantial human editing and annotation efforts. In this paper, we develop MT-Ladder, a novel model-agnostic and cost-effective tool to refine the performance of general LLMs for MT. MT-Ladder is trained on pseudo-refinement triplets which can be easily obtained from existing LLMs without additional human cost. During training, we propose a hierarchical fine-tuning strategy with an easy-to-hard schema, improving MT-Ladder's refining performance progressively. The trained MT-Ladder can be seamlessly integrated with any general-purpose LLMs to boost their translation performance. By utilizing Gemma-2B/7B as the backbone, MT-Ladder-2B can elevate raw translations to the level of top-tier open-source models (e.g., refining BigTranslate-13B with +6.91 BLEU and +3.52 COMET for XX-En), and MT-Ladder-7B can further enhance model performance to be on par with the state-of-the-art GPT-4. Extensive ablation and analysis corroborate the effectiveness of MT-Ladder in diverse settings. Our code is available at https://github.com/fzp0424/Ladder | 翻訳日:2024-08-12 18:19:02 公開日:2024-08-09 |
# CMA-ESにおけるランクワン更新の自然なグラディエント解釈
Natural Gradient Interpretation of Rank-One Update in CMA-ES ( http://arxiv.org/abs/2406.16506v2 ) ライセンス: Link先を確認 | Ryoki Hamano, Shinichi Shirakawa, Masahiro Nomura, | (参考訳) 共分散行列適応進化戦略 (CMA-ES) は連続ブラックボックス最適化のための多変量正規分布を用いた確率的探索アルゴリズムである。
CMA-ESの一部は確率的自然勾配法で記述することができ、情報幾何最適化(IGO)フレームワークから導出することができる。
しかし、CMA-ESのいくつかの構成要素、例えばランクワン更新は理論的な理解が限られている。
階数1の更新により、共分散行列は進化経路の方向に解を生成する可能性を高めることができるが、階数$\mu$の更新とは異なり、自然勾配法として定式化して解釈することは困難である。
本研究では,CMA-ESにおけるランクワン更新の新しい解釈を,先行分布の自然勾配の観点から提案する。
まず,先行分布を組み込むために拡張されたIGOフレームワークであるMAP-IGOを提案する。
そして、進化経路の方向に有望な平均ベクトルが存在するという考え方に基づいて事前分布を設定することにより、MAP-IGOからランクワン更新を導出する。
さらに、新たに導出されたランクワン更新は拡張可能であり、平均ベクトルの更新に追加用語が現れる。
種々のベンチマーク関数を用いた追加項の特性を実験的に検討する。
The covariance matrix adaptation evolution strategy (CMA-ES) is a stochastic search algorithm using a multivariate normal distribution for continuous black-box optimization. In addition to strong empirical results, part of the CMA-ES can be described by a stochastic natural gradient method and can be derived from information geometric optimization (IGO) framework. However, there are some components of the CMA-ES, such as the rank-one update, for which the theoretical understanding is limited. While the rank-one update makes the covariance matrix to increase the likelihood of generating a solution in the direction of the evolution path, this idea has been difficult to formulate and interpret as a natural gradient method unlike the rank-$\mu$ update. In this work, we provide a new interpretation of the rank-one update in the CMA-ES from the perspective of the natural gradient with prior distribution. First, we propose maximum a posteriori IGO (MAP-IGO), which is the IGO framework extended to incorporate a prior distribution. Then, we derive the rank-one update from the MAP-IGO by setting the prior distribution based on the idea that the promising mean vector should exist in the direction of the evolution path. Moreover, the newly derived rank-one update is extensible, where an additional term appears in the update for the mean vector. We empirically investigate the properties of the additional term using various benchmark functions. | 翻訳日:2024-08-12 18:19:02 公開日:2024-08-09 |
# サイバーセキュリティにおける心理学的プロファイリング : LLMと心理学的特徴について
Psychological Profiling in Cybersecurity: A Look at LLMs and Psycholinguistic Features ( http://arxiv.org/abs/2406.18783v3 ) ライセンス: Link先を確認 | Jean Marie Tshimula, D'Jeff K. Nkashama, Jean Tshibangu Muabila, René Manassé Galekwa, Hugues Kanda, Maximilien V. Dialufuma, Mbuyi Mukendi Didier, Kalonji Kalala, Serge Mundele, Patience Kinshie Lenye, Tighana Wenge Basele, Aristarque Ilunga, Christian N. Mayemba, Nathanaël M. Kasoro, Selain K. Kasereka, Hardy Mikese, Pierre-Martin Tardif, Marc Frappier, Froduald Kabanza, Belkacem Chikhaoui, Shengrui Wang, Ali Mulenda Sumbu, Xavier Ndona, Raoul Kienge-Kienge Intudi, | (参考訳) サイバー脅威の高度化は、サイバーセキュリティに対する革新的なアプローチを必要とする。
本稿では,心理学的プロファイリング手法の可能性,特にLLM(Large Language Models)と心理言語学的特徴の活用に焦点をあてる。
心理学とサイバーセキュリティの交わりについて検討し,脅威アクターの心理的特徴を識別するためのテキストデータ分析にLLMをどのように使用できるかについて議論した。
我々は,言語パターンや感情的手がかりなどの心理言語学的特徴をサイバーセキュリティフレームワークに組み入れることを検討する。
我々の研究は、サイバーセキュリティの実践に心理学的視点を統合することが、進化する脅威に対する防御メカニズムを強化することの重要性を強調している。
The increasing sophistication of cyber threats necessitates innovative approaches to cybersecurity. In this paper, we explore the potential of psychological profiling techniques, particularly focusing on the utilization of Large Language Models (LLMs) and psycholinguistic features. We investigate the intersection of psychology and cybersecurity, discussing how LLMs can be employed to analyze textual data for identifying psychological traits of threat actors. We explore the incorporation of psycholinguistic features, such as linguistic patterns and emotional cues, into cybersecurity frameworks. Our research underscores the importance of integrating psychological perspectives into cybersecurity practices to bolster defense mechanisms against evolving threats. | 翻訳日:2024-08-12 18:19:02 公開日:2024-08-09 |
# EVF-SAM:テキストプロンプトセグメントモデルのための早期ビジョンランゲージ融合
EVF-SAM: Early Vision-Language Fusion for Text-Prompted Segment Anything Model ( http://arxiv.org/abs/2406.20076v3 ) ライセンス: Link先を確認 | Yuxuan Zhang, Tianheng Cheng, Rui Hu, Lei Liu, Heng Liu, Longjin Ran, Xiaoxin Chen, Wenyu Liu, Xinggang Wang, | (参考訳) Segment Anything Model (SAM) は、テキストプロンプトのさらなる探索を欠きながら、視覚的プロンプトを持つ優れた対話的セグメンテーション機能に対して、広く注目を集めている。
本稿では,テキストプロンプトエンコーダ(例えば,CLIP,LLM)が,表現セグメンテーションの参照にSAMを適用するのに有効かを実証的に検討し,Early Vision- Language Fusion-based SAM(EVF-SAM)を紹介する。
EVF-SAMは、マルチモーダルプロンプト(画像とテキスト)を利用して、参照プロンプトを生成するための事前学習された視覚言語モデルとセグメンテーションのためのSAMモデルを含む、シンプルで効果的な参照セグメンテーション手法である。
意外なことに、(1)マルチモーダルプロンプトと(2)早期融合(例えばBEIT-3)を持つ視覚言語モデルがSAMの正確な参照セグメンテーションに有用である。
実験の結果,BEIT-3に基づくEVF-SAMは,RefCOCO/+/gの表現セグメンテーションにおける最先端性能を得ることができ,早期視覚言語融合によるSAMの促進効果が示された。
さらに、1.32Bパラメータを持つEVF-SAMは、大規模なマルチモーダルモデルに基づく従来のSAM手法と比較して、パラメータの82%近くを削減し、非常に高い性能を達成する。
Segment Anything Model (SAM) has attracted widespread attention for its superior interactive segmentation capabilities with visual prompts while lacking further exploration of text prompts. In this paper, we empirically investigate what text prompt encoders (e.g., CLIP or LLM) are good for adapting SAM for referring expression segmentation and introduce the Early Vision-language Fusion-based SAM (EVF-SAM). EVF-SAM is a simple yet effective referring segmentation method which exploits multimodal prompts (i.e., image and text) and comprises a pre-trained vision-language model to generate referring prompts and a SAM model for segmentation. Surprisingly, we observe that: (1) multimodal prompts and (2) vision-language models with early fusion (e.g., BEIT-3) are beneficial for prompting SAM for accurate referring segmentation. Our experiments show that the proposed EVF-SAM based on BEIT-3 can obtain state-of-the-art performance on RefCOCO/+/g for referring expression segmentation and demonstrate the superiority of prompting SAM with early vision-language fusion. In addition, the proposed EVF-SAM with 1.32B parameters achieves remarkably higher performance while reducing nearly 82% of parameters compared to previous SAM methods based on large multimodal models. | 翻訳日:2024-08-12 18:09:10 公開日:2024-08-09 |
# 早期軽度認知障害の解剖学的バイオマーカー同定のための機械学習アプローチ
A Machine Learning Approach for Identifying Anatomical Biomarkers of Early Mild Cognitive Impairment ( http://arxiv.org/abs/2407.00040v2 ) ライセンス: Link先を確認 | Alwani Liyana Ahmad, Jose Sanchez-Bornot, Roberto C. Sotero, Damien Coyle, Zamzuri Idris, Ibrahima Faye, | (参考訳) アルツハイマー病は重要な課題であり、効果的な介入のために早期発見が必要である。
MRIは、使いやすさとコスト効率のため、重要なニューロイメージングツールである。
本研究では、MRIに基づくバイオマーカーの選択と分類のための機械学習手法を解析し、健康なコントロールと5年以内に軽度認知障害を発症した人とを区別する。
ADNIとOASIS 3の3つのTesla MRIデータを用いて,MATLAB分類学習アプリ,ネストクロスバリデーション,ベイズ最適化など,さまざまな機械学習手法を適用した。
多項式回帰によるデータ調和により性能が向上した。
内鼻,海馬, 側室, 前頭前野が特徴であった。
バランスの取れたADNIデータに対して、zスコア調和のNaive Bayesが最善を尽くした。
バランスの取れたOASIS 3では、zスコア補正のSVMが優れていた。
不均衡データでは、RUSBoostはADNIとOASIS 3で高い性能を示した。
Zスコア調和はMRIを用いた早期AD検出のための半自動パイプラインの可能性を強調した。
Alzheimer Disease poses a significant challenge, necessitating early detection for effective intervention. MRI is a key neuroimaging tool due to its ease of use and cost effectiveness. This study analyzes machine learning methods for MRI based biomarker selection and classification to distinguish between healthy controls and those who develop mild cognitive impairment within five years. Using 3 Tesla MRI data from ADNI and OASIS 3, we applied various machine learning techniques, including MATLAB Classification Learner app, nested cross validation, and Bayesian optimization. Data harmonization with polynomial regression improved performance. Consistent features identified were the entorhinal, hippocampus, lateral ventricle, and lateral orbitofrontal regions. For balanced ADNI data, Naive Bayes with z score harmonization performed best. For balanced OASIS 3, SVM with z score correction excelled. In imbalanced data, RUSBoost showed strong performance on ADNI and OASIS 3. Z score harmonization highlighted the potential of a semi automatic pipeline for early AD detection using MRI. | 翻訳日:2024-08-12 18:09:10 公開日:2024-08-09 |
# 問合せエンコーダを英語のみに調整した多言語品質の保存
Preserving Multilingual Quality While Tuning Query Encoder on English Only ( http://arxiv.org/abs/2407.00923v2 ) ライセンス: Link先を確認 | Oleg Vasilyev, Randy Sawaya, John Bohannon, | (参考訳) 濃密な経路検索システムは情報検索の初期段階として機能し、下流タスクの最も関連性の高いテキストパスを選択する。
本研究では,二重エンコーダの問合せ部が英語のみのデータセット(対象ドメインやタスクのクロスリンガルサンプルの不足を前提として)で調整された場合,多言語検索の品質がどの程度劣化するかを調べることを目的とした実験を行った。
具体的には、高品質な多言語埋め込みモデルから始めると、英語のみのチューニングは、多言語検索の本来の品質を保ちつつも、それを改善することができる。
A dense passage retrieval system can serve as the initial stages of information retrieval, selecting the most relevant text passages for downstream tasks. In this work we conducted experiments with the goal of finding how much the quality of a multilingual retrieval could be degraded if the query part of a dual encoder is tuned on an English-only dataset (assuming scarcity of cross-lingual samples for the targeted domain or task). Specifically, starting with a high quality multilingual embedding model, we observe that an English-only tuning may not only preserve the original quality of the multilingual retrieval, but even improve it. | 翻訳日:2024-08-12 18:09:10 公開日:2024-08-09 |
# ソリッドティコンパイラにおけるバグの理解に向けて
Towards Understanding the Bugs in Solidity Compiler ( http://arxiv.org/abs/2407.05981v3 ) ライセンス: Link先を確認 | Haoyang Ma, Wuqi Zhang, Qingchao Shen, Yongqiang Tian, Junjie Chen, Shing-Chi Cheung, | (参考訳) Solidityコンパイラは、Solidityと呼ばれるドメイン固有の言語の構文を管理し、Solidityコードのコンパイルと最適化を実行することによって、Ethereum上のスマートコントラクトアプリケーションの開発を可能にする上で、重要な役割を果たす。
Solidityコンパイラの正しさは、スマートコントラクトに依存する業界における透明性、効率性、信頼を促進する上で重要である。
しかし、他のソフトウェアシステムと同様に、Solidityコンパイラはバグを起こしやすいため、ブロックチェーンプラットフォーム上で不正なバイトコードを生成する可能性があるため、セキュリティ上の深刻な問題が発生する可能性がある。
スマートコントラクトのためのドメイン固有のコンパイラとして、Solidityコンパイラは他のコンパイラと多くの点で異なる。
本稿では,Solidityコンパイラのバグの理解と今後の研究のために,533のSolidityコンパイラのバグに関する最初のシステマティックスタディを示す。
本研究は, 症状, 根本原因, 分布などの特徴とトリガー試験例について慎重に検討した。
我々の研究は、Solidityコンパイラの7つのバグ発見に繋がる。
さらに,Solidityコンパイラファザの限界について検討し,実例に適用するために,構築したベンチマークで3つのSolidityコンパイラファザを評価した。
これらのファジィは、Solidityコンパイラのバグを検出するのに非効率である。
この非効率性は、興味深いバグ誘発機能、バグ関連コンパイルフラグ、テストオラクルを考慮しなかったことから生じる。
Solidity compiler plays a key role in enabling the development of smart contract applications on Ethereum by governing the syntax of a domain-specific language called Solidity and performing compilation and optimization of Solidity code. The correctness of Solidity compiler is critical in fostering transparency, efficiency, and trust in industries reliant on smart contracts. However, like other software systems, Solidity compiler is prone to bugs, which may produce incorrect bytecodes on blockchain platforms, resulting in severe security concerns. As a domain-specific compiler for smart contracts, Solidity compiler differs from other compilers in many perspectives, posing unique challenges to detect its bugs. To understand the bugs in Solidity compiler and benefit future research, in this paper, we present the first systematic study on 533 Solidity compiler bugs. We carefully examined their characteristics (including symptoms, root causes, and distribution), and their triggering test cases. Our study leads to seven bug-revealing takeaways for Solidity compiler. Moreover, to study the limitations of Solidity compiler fuzzers and bring our findings into practical scenarios, we evaluate three Solidity compiler fuzzers on our constructed benchmark. The results show that these fuzzers are inefficient in detecting Solidity compiler bugs. The inefficiency arises from their failure to consider the interesting bug-inducing features, bug-related compilation flags, and test oracles | 翻訳日:2024-08-12 18:09:10 公開日:2024-08-09 |
# CCVA-FL:医療画像のための適応的フェデレーション学習
CCVA-FL: Cross-Client Variations Adaptive Federated Learning for Medical Imaging ( http://arxiv.org/abs/2407.11652v7 ) ライセンス: Link先を確認 | Sunny Gupta, Amit Sethi, | (参考訳) Federated Learning(FL)は、分散データ上でモデルをトレーニングするためのプライバシ保護アプローチを提供する。
医療におけるそのポテンシャルは重要であるが、制限されたアノテーションによって悪化する医療画像データの横断的変動によって、課題が生じる。
本稿では,これらの問題に対処するため,CCVA-FL(Cross-Client Variations Adaptive Federated Learning)を提案する。
CCVA-FLは、画像を共通の特徴空間に変換することで、クロスクライアントの変動を最小限にすることを目的としている。
各クライアントからのイメージのサブセットを専門的にアノテーションし、続いてターゲットとして最もデータ複雑性の低いクライアントを選択する。
次に、ターゲットクライアントの注釈付き画像に基づいて、変換器付きスケーラブル拡散モデル(DiT)を用いて合成医療画像を生成する。
これらの合成画像は多様性を捉え、元のデータを表現し、他のクライアントと共有する。
各クライアントは、画像から画像への変換を使用して、そのローカル画像を対象のイメージ空間に変換する。
翻訳された画像は、その後、サーバモデルを開発するための連合学習設定で使用される。
その結果、CCVA-FLはプライバシーを損なうことなく、クライアント間でのデータ分散の違いを効果的に解決することで、Vanilla Federated Averagingよりも優れていることが示された。
Federated Learning (FL) offers a privacy-preserving approach to train models on decentralized data. Its potential in healthcare is significant, but challenges arise due to cross-client variations in medical image data, exacerbated by limited annotations. This paper introduces Cross-Client Variations Adaptive Federated Learning (CCVA-FL) to address these issues. CCVA-FL aims to minimize cross-client variations by transforming images into a common feature space. It involves expert annotation of a subset of images from each client, followed by the selection of a client with the least data complexity as the target. Synthetic medical images are then generated using Scalable Diffusion Models with Transformers (DiT) based on the target client's annotated images. These synthetic images, capturing diversity and representing the original data, are shared with other clients. Each client then translates its local images into the target image space using image-to-image translation. The translated images are subsequently used in a federated learning setting to develop a server model. Our results demonstrate that CCVA-FL outperforms Vanilla Federated Averaging by effectively addressing data distribution differences across clients without compromising privacy. | 翻訳日:2024-08-12 18:09:10 公開日:2024-08-09 |
# DisenSemi: アンタングル表現学習による半教師付きグラフ分類
DisenSemi: Semi-supervised Graph Classification via Disentangled Representation Learning ( http://arxiv.org/abs/2407.14081v2 ) ライセンス: Link先を確認 | Yifan Wang, Xiao Luo, Chong Chen, Xian-Sheng Hua, Ming Zhang, Wei Ju, | (参考訳) グラフ分類は多くのマルチメディアアプリケーションにおいて重要なタスクであり、画像、ビデオ、ソーシャルネットワークを含む様々な種類のマルチメディアデータを表現するためにグラフが使用される。
それでも、実世界のシナリオでは、ラベル付きグラフデータは制限されるか不足する可能性がある。
この問題に対処するために,ラベル付きおよびラベルなしデータから学習する教師なしモデルと教師なしモデルの両方を含む半教師付きグラフ分類の問題に焦点をあてる。
教師なしモデルから教師なしモデルへ知識全体を伝達する最近のアプローチとは対照的に、効果的な伝達は教師付きタスクとうまく整合する関連する意味論のみを保持するべきであると論じる。
本稿では,半教師付きグラフ分類のためのアンタングル表現を学習するDisenSemiという新しいフレームワークを提案する。
具体的には,非教師付きモデルと教師なしモデルの両方に対して因子ワイドグラフ表現を生成するために,非教師付きグラフエンコーダを提案する。
次に、教師付き客観情報と相互情報(MI)に基づく制約により、2つのモデルを訓練する。
教師なしエンコーダから教師なしエンコーダへの知識の有意義な伝達を保証するため,MIに基づく2つのモデル間の不整合整合正則化を定義し,現在のグラフ分類タスクとよく一致した対応する理性を特定する。
公開データセットのさまざまな実験結果から,DisenSemiの有効性が明らかとなった。
Graph classification is a critical task in numerous multimedia applications, where graphs are employed to represent diverse types of multimedia data, including images, videos, and social networks. Nevertheless, in real-world scenarios, labeled graph data can be limited or scarce. To address this issue, we focus on the problem of semi-supervised graph classification, which involves both supervised and unsupervised models learning from labeled and unlabeled data. In contrast to recent approaches that transfer the entire knowledge from the unsupervised model to the supervised one, we argue that an effective transfer should only retain the relevant semantics that align well with the supervised task. In this paper, we propose a novel framework named DisenSemi, which learns disentangled representation for semi-supervised graph classification. Specifically, a disentangled graph encoder is proposed to generate factor-wise graph representations for both supervised and unsupervised models. Then we train two models via supervised objective and mutual information (MI)-based constraints respectively. To ensure the meaningful transfer of knowledge from the unsupervised encoder to the supervised one, we further define an MI-based disentangled consistency regularization between two models and identify the corresponding rationale that aligns well with the current graph classification task. Experimental results on a range of publicly accessible datasets reveal the effectiveness of our DisenSemi. | 翻訳日:2024-08-12 18:09:10 公開日:2024-08-09 |
# 説明可能な分類とクラスタリングのためのRピークアライメントによる心電図解析のリガンアルゴリズム
The Rlign Algorithm for Enhanced Electrocardiogram Analysis through R-Peak Alignment for Explainable Classification and Clustering ( http://arxiv.org/abs/2407.15555v2 ) ライセンス: Link先を確認 | Lucas Plagwitz, Lucas Bickmann, Michael Fujarski, Alexander Brenner, Warnes Gobalakrishnan, Lars Eckardt, Antonius Büscher, Julian Varghese, | (参考訳) 心電図 (ECG) 記録は, 心疾患の診断に長年欠かせない存在であった。
近年,機械学習を用いた自動心電図処理の分野では,主に生の心電図信号を用いた深層学習が重要になっている。
畳み込みニューラルネットワーク(CNN)のようなモデルの主な利点は、バイオメディカルイメージングやシグナルデータを効果的に処理できることである。
しかし、この強みは、説明責任の欠如、大量のトレーニングデータの必要性、そして教師なしクラスタリングタスクにそれらを適用するのにまつわる複雑さに関する課題によって誘惑されている。
これらの課題に対処するために、我々は、補助ベクトルマシンや主成分分析を含む浅層学習技術を、半構造化された循環型形式を利用してECG信号処理に再導入することを目的としている。
そこで我々は,ECG信号を完全に構造化したフォーマットに効果的に再構成し,浅い学習アルゴリズムによる解析を容易にする変換を開発し,評価した。
本研究では、データセット内の全信号に対してRピークを整列させ、Rピーク間のセグメントを心拍依存性と非心拍依存性の両方で再サンプリングする適応的変換手法を提案する。
分類,クラスタリング,説明可能性の分野における従来の分析手法において,この変換が有益であることを示す。
我々のアプローチは、特に限られたトレーニングデータを扱う場合、CNNよりも浅い機械学習手法に顕著な優位性を示す。
さらに、完全にテストされ、一般公開されたコードフレームワークもリリースし、将来の研究をサポートするための堅牢なアライメントパイプラインを提供しています。
Electrocardiogram (ECG) recordings have long been vital in diagnosing different cardiac conditions. Recently, research in the field of automatic ECG processing using machine learning methods has gained importance, mainly by utilizing deep learning methods on raw ECG signals. A major advantage of models like convolutional neural networks (CNNs) is their ability to effectively process biomedical imaging or signal data. However, this strength is tempered by challenges related to their lack of explainability, the need for a large amount of training data, and the complexities involved in adapting them for unsupervised clustering tasks. In addressing these tasks, we aim to reintroduce shallow learning techniques, including support vector machines and principal components analysis, into ECG signal processing by leveraging their semi-structured, cyclic form. To this end, we developed and evaluated a transformation that effectively restructures ECG signals into a fully structured format, facilitating their subsequent analysis using shallow learning algorithms. In this study, we present this adaptive transformative approach that aligns R-peaks across all signals in a dataset and resamples the segments between R-peaks, both with and without heart rate dependencies. We illustrate the substantial benefit of this transformation for traditional analysis techniques in the areas of classification, clustering, and explainability, outperforming commercial software for median beat transformation and CNN approaches. Our approach demonstrates a significant advantage for shallow machine learning methods over CNNs, especially when dealing with limited training data. Additionally, we release a fully tested and publicly accessible code framework, providing a robust alignment pipeline to support future research, available at https://github.com/imi-ms/rlign. | 翻訳日:2024-08-12 18:09:10 公開日:2024-08-09 |
# SimCT: LLM開発ライフサイクルにおける簡易一貫性テストプロトコル
SimCT: A Simple Consistency Test Protocol in LLMs Development Lifecycle ( http://arxiv.org/abs/2407.17150v2 ) ライセンス: Link先を確認 | Fufangchen Zhao, Guoqiang Jin, Rui Zhao, Jiangheng Huang, Fei Tan, | (参考訳) 本稿では,Large Language Models (LLMs) や LLMs ベースのシステムやサービスを産業で開発するための,標準的な運用手順の策定に向けた取り組みについて報告する。
我々は,LDLC(Large Language Model Development Lifecycle)の概念を導入し,デリバリ品質を保証する上での一貫性テストの重要性を強調した。
しかし、一貫性テストの原則的な解決策は、通常、産業従事者によって見落とされ、アカデミアでは緊急ではなく、現在の実践的な解決策は厳密で労働集約的なものである。
そこで我々は,SimCTという,シンプルで効果的な一貫性テストプロトコルを提案する。
SimCTは、主に、モデルアーティファクトにアクセスすることなく、"ベアメタル" LLM または関連するサービスの異なる開発段階間の一貫性を積極的にチェックし、異なる開発段階に関わる複数のチーム間のバック・フォー・フォー・アライメント通信を減らし、デリバリを迅速化する試みである。
具体的には、SimCTはレスポンスワイドおよびモデルワイドテストを含んでいる。
本プロトコルは,2つのコンポーネントに対してそれぞれLightGBMと学生のt-testを実装し,SimCTと関連するコンポーネントの有効性を実証するための広範囲な実験を行う。
In this work, we report our efforts to advance the standard operation procedure of developing Large Language Models (LLMs) or LLMs-based systems or services in industry. We introduce the concept of Large Language Model Development Lifecycle (LDLC) and then highlight the importance of consistency test in ensuring the delivery quality. The principled solution of consistency test, however, is usually overlooked by industrial practitioners and not urgent in academia, and current practical solutions are insufficiently rigours and labor-intensive. We thus propose a simple yet effective consistency test protocol, named SimCT. SimCT is mainly to proactively check the consistency across different development stages of "bare metal" LLMs or associated services without accessing the model artifacts, in an attempt to expedite the delivery by reducing the back-and-forth alignment communications among multiple teams involved in different development stages. Specifically, SimCT encompasses response-wise and model-wise tests. We implement the protocol with LightGBM and Student's t-test for two components respectively, and perform extensive experiments to substantiate the effectiveness of SimCT and the involved components. | 翻訳日:2024-08-12 17:59:25 公開日:2024-08-09 |
# 近距離量子ハードウェアにおける雑音対応分散量子近似最適化アルゴリズム
Noise-Aware Distributed Quantum Approximate Optimization Algorithm on Near-term Quantum Hardware ( http://arxiv.org/abs/2407.17325v2 ) ライセンス: Link先を確認 | Kuan-Cheng Chen, Xiatian Xu, Felix Burt, Chen-Yu Liu, Shang Yu, Kin K Leung, | (参考訳) 本稿では,短期量子ハードウェア上での動作に適した雑音対応分散量子近似最適化アルゴリズム(QAOA)を提案する。
分散フレームワークを活用することで、現在のノイズ中規模量子(NISQ)デバイスの限界に対処する。
提案手法では,大規模QAOA問題を小さなサブプロブレムに分解し,複数の量子処理ユニット(QPU)に分散し,スケーラビリティと性能を向上させる。
ノイズ対応戦略は、量子ビットの忠実度とゲート演算を最適化し、信頼性の高い量子計算を確実にするためのエラー軽減手法を取り入れている。
本稿では,HamilToniQ Benchmarking Toolkitを用いて,各種量子ハードウェア構成における性能を定量化するフレームワークの有効性を評価する。
その結果,分散QAOAフレームワークは計算速度と精度の大幅な向上を実現し,NASQ時代の複雑な最適化問題を効率的に解く可能性を示した。
この研究は、高度なアルゴリズム戦略と実用的な量子システム拡張のステージを設定し、量子優位性を達成するというより広い目標に寄与する。
This paper introduces a noise-aware distributed Quantum Approximate Optimization Algorithm (QAOA) tailored for execution on near-term quantum hardware. Leveraging a distributed framework, we address the limitations of current Noisy Intermediate-Scale Quantum (NISQ) devices, which are hindered by limited qubit counts and high error rates. Our approach decomposes large QAOA problems into smaller subproblems, distributing them across multiple Quantum Processing Units (QPUs) to enhance scalability and performance. The noise-aware strategy incorporates error mitigation techniques to optimize qubit fidelity and gate operations, ensuring reliable quantum computations. We evaluate the efficacy of our framework using the HamilToniQ Benchmarking Toolkit, which quantifies the performance across various quantum hardware configurations. The results demonstrate that our distributed QAOA framework achieves significant improvements in computational speed and accuracy, showcasing its potential to solve complex optimization problems efficiently in the NISQ era. This work sets the stage for advanced algorithmic strategies and practical quantum system enhancements, contributing to the broader goal of achieving quantum advantage. | 翻訳日:2024-08-12 17:59:25 公開日:2024-08-09 |
# AIに基づく天気予報モデルの診断にデータ同化を応用したClimaXの1例
Ensemble data assimilation to diagnose AI-based weather prediction model: A case with ClimaX ( http://arxiv.org/abs/2407.17781v2 ) ライセンス: Link先を確認 | Shunji Kotsuki, Kenta Shiraishi, Atsushi Okazaki, | (参考訳) 人工知能(AI)ベースの天気予報研究は急速に成長しており、先進的な動的数値気象予報モデルと競合している。
しかし、データ同化システムを評価するためには、長期連続データ同化サイクルが必要であるため、AIベースの天気予報モデルとデータ同化を併用する研究は、部分的には限られている。
本研究では,AIに基づく天気予報モデルの診断にアンサンブルデータ同化を用いることを提案し,AIベースの天気予報モデルを用いたアンサンブルカルマンフィルタの実装を初めて成功させた。
AIに基づくモデルClimaXを用いた実験では、アンサンブルデータ同化が、共分散インフレーションとアンサンブルカルマンフィルタ内のローカライゼーション技術を用いて、AIベースの天気予報モデルに対して安定に周期化されることを実証した。
ClimaXは、動的モデルと比較してフロー依存誤差の共分散を捕捉する際のいくつかの制限を示したが、AIベースのアンサンブル予測は、わずかに観察された領域で合理的で有益なエラー共分散を提供した。
さらに、アンサンブルデータ同化により、アンサンブルのClimaX予測に基づく誤差の増大は動的NWPモデルよりも弱いことが判明し、高いインフレーション係数が得られた。
一連の実験により、アンサンブルデータ同化は、物理的整合性や正確なエラー成長表現などのAI天気予報モデルの特性の診断に利用できることが示された。
Artificial intelligence (AI)-based weather prediction research is growing rapidly and has shown to be competitive with the advanced dynamic numerical weather prediction models. However, research combining AI-based weather prediction models with data assimilation remains limited partially because long-term sequential data assimilation cycles are required to evaluate data assimilation systems. This study proposes using ensemble data assimilation for diagnosing AI-based weather prediction models, and marked the first successful implementation of ensemble Kalman filter with AI-based weather prediction models. Our experiments with an AI-based model ClimaX demonstrated that the ensemble data assimilation cycled stably for the AI-based weather prediction model using covariance inflation and localization techniques within the ensemble Kalman filter. While ClimaX showed some limitations in capturing flow-dependent error covariance compared to dynamical models, the AI-based ensemble forecasts provided reasonable and beneficial error covariance in sparsely observed regions. In addition, ensemble data assimilation revealed that error growth based on ensemble ClimaX predictions was weaker than that of dynamical NWP models, leading to higher inflation factors. A series of experiments demonstrated that ensemble data assimilation can be used to diagnose properties of AI weather prediction models such as physical consistency and accurate error growth representation. | 翻訳日:2024-08-12 17:59:25 公開日:2024-08-09 |
# 外部層によるプロンプト学習の促進
Advancing Prompt Learning through an External Layer ( http://arxiv.org/abs/2407.19674v5 ) ライセンス: Link先を確認 | Fangming Cui, Xun Yang, Chao Wu, Liang Xiao, Xinmei Tian, | (参考訳) Prompt Learningは、事前学習された視覚言語モデル(VLM)を、テキスト埋め込みの集合を学習することで、様々な下流タスクに適応するための有望な方法である。
これらの手法に固有の課題の1つは、未知のタスクに対する学習されたテキスト埋め込みの無効性による一般化性能の低下である。
このギャップを埋めるための直接的なアプローチは、プロンプトにテキストの埋め込みを凍結することであり、結果として、下流タスクにVLMを適用する能力が欠如している。
このジレンマに対処するために,新規な外部層(EnLa)を備えたEnPromptというパラダイムを提案する。
具体的には,VLMを下流タスクに適用するためのテキスト外部層と学習可能な視覚埋め込みを提案する。
学習可能な外部レイヤは、トレーニング済みのCLIPの有効な埋め込みに基づいて構築される。
この設計は2つのブランチ間の学習能力のバランスを考慮する。
テキスト的特徴と視覚的特徴を整合させるために,我々は新しい2段階のアプローチを提案する。
一 視覚とテキストのモダリティを整合させるための相違指標として最適輸送を導入すること。
ii) この2つのモード間の相互作用を強化するために, 新たな強化機能を導入する。
15データセットにわたる4つの代表的な実験(ベース・ツー・ノーベルの一般化、少数ショットの学習、クロスデータセットの一般化、ドメインシフトの一般化)は、我々の手法が既存の素早い学習法より優れていることを示す。
Prompt learning represents a promising method for adapting pre-trained vision-language models (VLMs) to various downstream tasks by learning a set of text embeddings. One challenge inherent to these methods is the poor generalization performance due to the invalidity of the learned text embeddings for unseen tasks. A straightforward approach to bridge this gap is to freeze the text embeddings in prompts, which results in a lack of capacity to adapt VLMs for downstream tasks. To address this dilemma, we propose a paradigm called EnPrompt with a novel External Layer (EnLa). Specifically, we propose a textual external layer and learnable visual embeddings for adapting VLMs to downstream tasks. The learnable external layer is built upon valid embeddings of pre-trained CLIP. This design considers the balance of learning capabilities between the two branches. To align the textual and visual features, we propose a novel two-pronged approach: i) we introduce the optimal transport as the discrepancy metric to align the vision and text modalities, and ii) we introduce a novel strengthening feature to enhance the interaction between these two modalities. Four representative experiments (i.e., base-to-novel generalization, few-shot learning, cross-dataset generalization, domain shifts generalization) across 15 datasets demonstrate that our method outperforms the existing prompt learning method. | 翻訳日:2024-08-12 17:59:25 公開日:2024-08-09 |
# テキストと視覚のベンチマークはビジュアル化の実使用をテストするか?
Do Text-to-Vis Benchmarks Test Real Use of Visualisations? ( http://arxiv.org/abs/2407.19726v2 ) ライセンス: Link先を確認 | Hy Nguyen, Xuefei He, Andrew Reeson, Cecile Paris, Josiah Poon, Jonathan K. Kummerfeld, | (参考訳) 大規模な言語モデルは、ユーザの要求に応じて、視覚化のためのコードを生成することができる。
これは有用な応用であり、データプロットが言語の基礎を提供するため、NLP研究にとって魅力的な応用である。
しかし、ベンチマークは比較的少ないため、実際に行われていることを表すものかどうかは不明である。
本稿では,公開リポジトリのベンチマークデータセットとコードを比較した実証的研究を通じて,その質問に答えることを目的とする。
この結果から,グラフの種類や属性,アクション数など,同じ分布をテストせずに評価した結果,データセットの実質的なギャップが明らかとなった。
唯一の代表的データセットは、エンドツーエンドで実用的なベンチマークになるために修正が必要である。
これは、ユーザの視覚的ニーズに真に対処するシステムの開発をサポートするために、新しい、より多くのベンチマークが必要であることを示している。
これらの観察は、将来のデータ生成をガイドし、どの機能がユーザにとって真に重要なのかを強調します。
Large language models are able to generate code for visualisations in response to user requests. This is a useful application, and an appealing one for NLP research because plots of data provide grounding for language. However, there are relatively few benchmarks, and it is unknown whether those that exist are representative of what people do in practice. This paper aims to answer that question through an empirical study comparing benchmark datasets and code from public repositories. Our findings reveal a substantial gap in datasets, with evaluations not testing the same distribution of chart types, attributes, and the number of actions. The only representative dataset requires modification to become an end-to-end and practical benchmark. This shows that new, more benchmarks are needed to support the development of systems that truly address users' visualisation needs. These observations will guide future data creation, highlighting which features hold genuine significance for users. | 翻訳日:2024-08-12 17:59:25 公開日:2024-08-09 |
# 法的な心とアルゴリズム的決定 - 複雑なシナリオにおけるLLMの憲法的原則の適用方法
Legal Minds, Algorithmic Decisions: How LLMs Apply Constitutional Principles in Complex Scenarios ( http://arxiv.org/abs/2407.19760v2 ) ライセンス: Link先を確認 | Camilla Bignotti, Carolina Camassa, | (参考訳) 本稿では,大規模言語モデル(LLM),特にGPT-4が,複雑な意思決定シナリオにおける構成原理をどう解釈するかを実証的に分析する。
イタリア憲法裁判所から、競合する価値間のトレードオフを含む生物倫理問題に関する判決を審査し、これらの問題に関するモデル生成法的議論を、国、裁判所、及び出願人によって提示されたものと比較する。
我々の結果は、GPT-4は憲法の進歩的な解釈と一貫して一致しており、しばしば競合する価値を見落とし、国家の保守的な視点や裁判所の穏健な立場よりも、応募者の見解を反映していることを示している。
本実験により, GPT-4は, 先進的な法的解釈を優先する傾向を示し, 基礎となるデータバイアスの影響を浮き彫りにしている。
そこで本研究では,実世界のシナリオにおけるアライメントテストの重要性と,意思決定プロセスにおけるLCMの展開の重要性を考察する。
In this paper, we conduct an empirical analysis of how large language models (LLMs), specifically GPT-4, interpret constitutional principles in complex decision-making scenarios. We examine rulings from the Italian Constitutional Court on bioethics issues that involve trade-offs between competing values and compare model-generated legal arguments on these issues to those presented by the State, the Court, and the applicants. Our results indicate that GPT-4 consistently aligns more closely with progressive interpretations of the Constitution, often overlooking competing values and mirroring the applicants' views rather than the more conservative perspectives of the State or the Court's moderate positions. Our experiments reveal a distinct tendency of GPT-4 to favor progressive legal interpretations, underscoring the influence of underlying data biases. We thus underscore the importance of testing alignment in real-world scenarios and considering the implications of deploying LLMs in decision-making processes. | 翻訳日:2024-08-12 17:59:25 公開日:2024-08-09 |
# LLMのコスト効果型幻覚検出
Cost-Effective Hallucination Detection for LLMs ( http://arxiv.org/abs/2407.21424v2 ) ライセンス: Link先を確認 | Simon Valentin, Jinmiao Fu, Gianluca Detommaso, Shaoyuan Xu, Giovanni Zappella, Bryan Wang, | (参考訳) 大規模な言語モデル(LLM)は幻覚を起こす傾向があり、入力、外部事実、あるいは内部的矛盾に反する信頼できない出力を生成する。
本研究では,生産環境下での幻覚後検出におけるいくつかの課題に対処する。
まず、生成した回答が幻覚である可能性を示す信頼スコアを生成し、次に、入力の属性と候補応答に基づいてスコア条件を校正し、最後に、校正されたスコアを閾値付けして検出する。
我々は,質問応答,事実確認,要約タスクを含む,さまざまなデータセットに対する最先端評価手法をベンチマークする。
性能の総合的な評価を確保するため,多種多様なLCMを用いている。
個別の採点方法の校正は、下流の意思決定にリスクを意識する上で重要であることを示す。
個々のスコアがすべての状況で最高のパフォーマンスを発揮できないという知見に基づいて、異なるスコアを組み合わせて、すべてのデータセットで最高のパフォーマンスを達成するマルチスコアフレームワークを提案する。
さらに、コスト効率の良いマルチスコーリングを導入し、計算オーバーヘッドを大幅に削減しつつ、より高価な検出方法に適合したり、性能を向上したりすることができる。
Large language models (LLMs) can be prone to hallucinations - generating unreliable outputs that are unfaithful to their inputs, external facts or internally inconsistent. In this work, we address several challenges for post-hoc hallucination detection in production settings. Our pipeline for hallucination detection entails: first, producing a confidence score representing the likelihood that a generated answer is a hallucination; second, calibrating the score conditional on attributes of the inputs and candidate response; finally, performing detection by thresholding the calibrated score. We benchmark a variety of state-of-the-art scoring methods on different datasets, encompassing question answering, fact checking, and summarization tasks. We employ diverse LLMs to ensure a comprehensive assessment of performance. We show that calibrating individual scoring methods is critical for ensuring risk-aware downstream decision making. Based on findings that no individual score performs best in all situations, we propose a multi-scoring framework, which combines different scores and achieves top performance across all datasets. We further introduce cost-effective multi-scoring, which can match or even outperform more expensive detection methods, while significantly reducing computational overhead. | 翻訳日:2024-08-12 17:59:25 公開日:2024-08-09 |
# 意味的3次元建築モデルを用いた建物の熱点雲の濃縮
Enriching thermal point clouds of buildings using semantic 3D building models ( http://arxiv.org/abs/2407.21436v2 ) ライセンス: Link先を確認 | Jingwei Zhu, Olaf Wysocki, Christoph Holst, Thomas H. Kolbe, | (参考訳) 熱点雲は熱放射とレーザー点雲を効果的に統合する。
しかし、熱点雲の構築を解釈するための意味情報は正確には推測できない。
LoD3で3Dビルディングモデルにカプセル化されたセマンティクスの転送は、このギャップを埋める可能性がある。
本研究は,LoD3ビルディングモデルのジオポジションとセマンティクスを用いて,熱点雲を濃縮するワークフローを提案する。
濃縮された熱点雲は熱解析をサポートし、現在少ない深層学習モデルの開発を熱点雲上で直接行うことができる。
Thermal point clouds integrate thermal radiation and laser point clouds effectively. However, the semantic information for the interpretation of building thermal point clouds can hardly be precisely inferred. Transferring the semantics encapsulated in 3D building models at LoD3 has a potential to fill this gap. In this work, we propose a workflow enriching thermal point clouds with the geo-position and semantics of LoD3 building models, which utilizes features of both modalities: The proposed method can automatically co-register the point clouds from different sources and enrich the thermal point cloud in facade-detailed semantics. The enriched thermal point cloud supports thermal analysis and can facilitate the development of currently scarce deep learning models operating directly on thermal point clouds. | 翻訳日:2024-08-12 17:59:25 公開日:2024-08-09 |
# パラメタライズド量子回路の解析--表現性と量子ゲートの種類との関係から-
Analysis of Parameterized Quantum Circuits: on The Connection Between Expressibility and Types of Quantum Gates ( http://arxiv.org/abs/2408.01036v2 ) ライセンス: Link先を確認 | Yu Liu, Kentaro Baba, Kazuya Kaneko, Naoyuki Takeda, Junpei Koyama, Koichi Kimura, | (参考訳) 表現性はパラメータ化量子回路(PQC)の重要な要素である。
変分量子アルゴリズム(VQA)に基づく量子機械学習(QML)の文脈では、高表現能なPQCと十分な数の量子ビットからなるQMLモデルは任意の連続関数を近似することができる。
表現可能性と学習性能の関係やPQCの層数について多くの研究が行われてきたが、表現性とPQC構造との関係は比較的少ない。
本稿では、勾配ブースティングツリーモデルとSHAP(SHapley Additive ExPlanations)の値を用いて、PQC内の表現可能性と量子ゲートのタイプとの関係を解析する。
解析は19個のPQCトポロジから導出された1,615個のPQCに対して行われ,それぞれ2-18量子ビットと1-5層からなる。
分析の結果,高表現能なPQCの設計指針が得られ,CNOTゲート数と注意的バランスを維持しつつ,より多くのRXゲートやRYゲートの統合が示唆された。
さらに, この評価は, 従来研究で見られたように, 表現性飽和の新たな証拠となる。
Expressibility is a crucial factor of a Parameterized Quantum Circuit (PQC). In the context of Variational Quantum Algorithms (VQA) based Quantum Machine Learning (QML), a QML model composed of highly expressible PQC and sufficient number of qubits is theoretically capable of approximating any arbitrary continuous function. While much research has explored the relationship between expressibility and learning performance, as well as the number of layers in PQCs, the connection between expressibility and PQC structure has received comparatively less attention. In this paper, we analyze the connection between expressibility and the types of quantum gates within PQCs using a Gradient Boosting Tree model and SHapley Additive exPlanations (SHAP) values. Our analysis is performed on 1,615 instances of PQC derived from 19 PQC topologies, each with 2-18 qubits and 1-5 layers. The findings of our analysis provide guidance for designing highly expressible PQCs, suggesting the integration of more RX or RY gates while maintaining a careful balance with the number of CNOT gates. Furthermore, our evaluation offers an additional evidence of expressibility saturation, as observed by previous studies. | 翻訳日:2024-08-12 17:59:25 公開日:2024-08-09 |
# NuLite -- Nucleiインスタンスのセグメンテーションと分類のための軽量かつ高速なモデル
NuLite -- Lightweight and Fast Model for Nuclei Instance Segmentation and Classification ( http://arxiv.org/abs/2408.01797v2 ) ライセンス: Link先を確認 | Cristian Tommasino, Cristiano Russo, Antonio Maria Rinaldi, | (参考訳) 病理学では、ヘマトキシリンおよびエオシンスライドの正確かつ効率的な解析は、タイムリーかつ効果的ながん診断に不可欠である。
核インスタンスのセグメンテーションと分類のための深層学習ソリューションは文献に多く存在するが、しばしば高い計算コストとリソース要求を伴い、医療応用における実用的利用を制限する。
この問題に対処するために,我々は,最先端(SOTA)軽量CNNであるFast-ViT上に明示的に設計されたU-Netライクなアーキテクチャである,新しい畳み込みニューラルネットワークであるNuLiteを導入する。
我々は、PanNukeデータセットに基づいてトレーニングされたNuLite-S、NuLite-M、NuLite-Hの3つのバージョンを得た。
実験結果から,本モデルとCellViT (SOTA) は, 光学的品質と検出の点で同等であることが確認された。
しかし、最も軽量なモデルであるNuLite-Sはパラメータの40倍、GFlopsの約8倍、パラメータの17倍、GFlopsの約7倍である。
さらに、私たちのモデルはCellViTの8倍高速です。
最後に、ソリューションの有効性を証明するために、外部データセット(CoNseP、MoNuSeg、GlySAC)を堅牢に比較する。
私たちのモデルはhttps://github.com/CosmoIknosLab/NuLiteで公開されています。
In pathology, accurate and efficient analysis of Hematoxylin and Eosin (H\&E) slides is crucial for timely and effective cancer diagnosis. Although many deep learning solutions for nuclei instance segmentation and classification exist in the literature, they often entail high computational costs and resource requirements, thus limiting their practical usage in medical applications. To address this issue, we introduce a novel convolutional neural network, NuLite, a U-Net-like architecture designed explicitly on Fast-ViT, a state-of-the-art (SOTA) lightweight CNN. We obtained three versions of our model, NuLite-S, NuLite-M, and NuLite-H, trained on the PanNuke dataset. The experimental results prove that our models equal CellViT (SOTA) in terms of panoptic quality and detection. However, our lightest model, NuLite-S, is 40 times smaller in terms of parameters and about 8 times smaller in terms of GFlops, while our heaviest model is 17 times smaller in terms of parameters and about 7 times smaller in terms of GFlops. Moreover, our model is up to about 8 times faster than CellViT. Lastly, to prove the effectiveness of our solution, we provide a robust comparison of external datasets, namely CoNseP, MoNuSeg, and GlySAC. Our model is publicly available at https://github.com/CosmoIknosLab/NuLite | 翻訳日:2024-08-12 17:59:25 公開日:2024-08-09 |
# Mini-Monkey: マルチモーダル大規模言語モデルのためのマルチスケール適応型クロップ
Mini-Monkey: Multi-Scale Adaptive Cropping for Multimodal Large Language Models ( http://arxiv.org/abs/2408.02034v2 ) ライセンス: Link先を確認 | Mingxin Huang, Yuliang Liu, Dingkang Liang, Lianwen Jin, Xiang Bai, | (参考訳) 近年,マルチモーダル大規模言語モデル (MLLM) の高解像度画像処理能力向上への関心が高まっている。
既存のほとんどの手法は、画像の詳細を理解するためのマルチモーダルな大規模言語モデルの能力を改善するために、収穫戦略を採用することに重点を置いている。
しかし、この収穫操作は必然的にオブジェクトと連結領域のセグメンテーションを引き起こし、MLLMが小さなまたは不規則な形やテキストを認識する能力を損なう。
この問題は軽量MLLMでは特に顕著である。
この問題に対処するため,マルチスケール適応作物戦略(MSAC)と呼ばれるプラグアンドプレイ方式を組み込んだ軽量MLLMであるMini-Monkeyを提案する。
Mini-Monkeyは適応的にマルチスケールの表現を生成し、様々なスケールから非セグメンテーションオブジェクトを選択できる。
画像トークンを効果的に圧縮するスケール圧縮機構(SCM)を提案する。
Mini-Monkeyは2BパラメータMLLM間の最先端性能を実現する。
これは、様々な汎用マルチモーダル理解タスクにおける主要なパフォーマンスを示すだけでなく、文書理解能力の一貫した改善を示す。
OCRBenchでは、Mini-Monkeyのスコアは802で、8Bパラメータの最先端モデルであるInternVL2-8Bを上回っている。
さらに、我々のモデルとトレーニング戦略は非常に効率的で、8つのRTX 3090でトレーニングできる。
コードはhttps://github.com/Yuliang-Liu/Monkeyで入手できる。
Recently, there has been significant interest in enhancing the capability of multimodal large language models (MLLMs) to process high-resolution images. Most existing methods focus on adopting a cropping strategy to improve the ability of multimodal large language models to understand image details. However, this cropping operation inevitably causes the segmentation of objects and connected areas, which impairs the MLLM's ability to recognize small or irregularly shaped objects or text. This issue is particularly evident in lightweight MLLMs. Addressing this issue, we propose Mini-Monkey, a lightweight MLLM that incorporates a plug-and-play method called multi-scale adaptive crop strategy (MSAC). Mini-Monkey adaptively generates multi-scale representations, allowing it to select non-segmented objects from various scales. To mitigate the computational overhead introduced by MSAC, we propose a Scale Compression Mechanism (SCM), which effectively compresses image tokens. Mini-Monkey achieves state-of-the-art performance among 2B-parameter MLLMs. It not only demonstrates leading performance on a variety of general multimodal understanding tasks but also shows consistent improvements in document understanding capabilities. On the OCRBench, Mini-Monkey achieves a score of 802, outperforming 8B-parameter state-of-the-art model InternVL2-8B. Besides, our model and training strategy are very efficient, which can be trained with only eight RTX 3090. The code is available at https://github.com/Yuliang-Liu/Monkey. | 翻訳日:2024-08-12 17:59:25 公開日:2024-08-09 |
# 外部レーザー場における相対論的渦電子のダイナミクス
Dynamics of Relativistic Vortex Electrons in External Laser Fields ( http://arxiv.org/abs/2408.02390v2 ) ライセンス: Link先を確認 | Mamutjan Ababekri, Yu Wang, Ren-Tong Guo, Zhong-Peng Li, Jian-Xing Li, | (参考訳) 電磁場との渦電子相互作用の調査は、粒子加速技術の進歩、背景場の散乱理論、材料診断のための新しい電子ビームの獲得に不可欠である。
外部レーザー場における渦電子のダイナミクスとレーザー誘起渦モードの探索に関する系統的研究は依然として不十分である。
本研究では, 線形偏光(LP)および円偏光(CP)レーザーパルスにおける渦電子の伝播を, 2モードレーザーパルスにおいて別々に, 組み合わせて検討した。
ボルコフ・ベッセル波動関数を用いて理論定式化を行い, 重要な観測量として4電流密度を求める。
数値的な結果は、渦電子のビーム中心が点電荷電子の古典的な運動に追従し、渦固有状態と重ね合わせモードの両方の確率分布構造を維持していることを示す。
2モードレーザー場におけるLPおよびCPレーザーパルスの複合効果により、フェムト秒およびサブナノメートルスケールでLPまたはCPレーザー単独で欠く渦電子の多目的制御が可能となる。
レーザーパルスによる渦電子の多角的制御は, レーザー背景における渦散乱の基準となり, レーザー制御による新たな渦モードの達成を刺激し, 特殊な材料を標的とした診断プローブとして実現した。
Investigating vortex electron interactions with electromagnetic fields is essential for advancing particle acceleration techniques, scattering theory in background fields, and obtaining novel electron beams for material diagnostics. A systematic investigation into the dynamics of vortex electrons in external laser fields and the exploration of laser-induced vortex modes remains lacking. In this work, we study the propagation of vortex electrons in linearly polarized (LP) and circularly polarized (CP) laser pulses, both separately and in their combined form in two-mode laser pulses. The theoretical formalism is developed by utilizing Volkov-Bessel wave functions, and the four-current density is obtained as a crucial observable quantity. Numerical results illustrate the dynamics of vortex electrons in external lasers, showing that the beam center of the vortex electron follows the classical motion of a point charge electron, while maintaining the probability distribution structure for both vortex eigenstates and superposition modes. The combined effect of LP and CP laser pulses in the two-mode laser field allows for the versatile control of vortex electrons, which is absent with LP or CP lasers alone, at femtosecond and sub-nanometer scales. Our findings demonstrate the versatile control over vortex electrons via laser pulses, with our formalism providing a reference for vortex scattering in laser backgrounds and inspiring the laser-controlled achievement of novel vortex modes as targeted diagnostic probes for specialized materials. | 翻訳日:2024-08-12 17:49:41 公開日:2024-08-09 |
# YOWOv3: 人間の行動検出と認識のための効率的で汎用的なフレームワーク
YOWOv3: An Efficient and Generalized Framework for Human Action Detection and Recognition ( http://arxiv.org/abs/2408.02623v2 ) ライセンス: Link先を確認 | Duc Manh Nguyen Dang, Viet Hang Duong, Jia Ching Wang, Nhan Bui Duc, | (参考訳) 本稿では,YOWOv2の改良版であるYOWOv3を提案する。
このフレームワークは、異なる構成での広範な実験を容易にするように設計されており、モデル内の様々なコンポーネントのカスタマイズを容易にサポートし、コードの理解と修正に必要な労力を減らす。
YOWOv3は、UCF101-24とAVAv2.2という2つの広く使われている人間の行動検出と認識のためのデータセットにおいて、YOWOv2よりも優れたパフォーマンスを示している。
具体的には、前モデルのYOWOv2は、UCF101-24とAVAv2.2でそれぞれ85.2%と20.3%のmAPを獲得し、109.7Mパラメータと53.6 GFLOPを持つ。
対照的に、59.8Mパラメータと39.8 GFLOPしか持たないYOWOv3は、UCF101-24とAVAv2.2でそれぞれ88.33%と20.31%のmAPを達成する。
その結果、YOWOv3はパラメータやGFLOPの数を著しく削減しつつ、同等のパフォーマンスを実現していることがわかった。
In this paper, we propose a new framework called YOWOv3, which is an improved version of YOWOv2, designed specifically for the task of Human Action Detection and Recognition. This framework is designed to facilitate extensive experimentation with different configurations and supports easy customization of various components within the model, reducing efforts required for understanding and modifying the code. YOWOv3 demonstrates its superior performance compared to YOWOv2 on two widely used datasets for Human Action Detection and Recognition: UCF101-24 and AVAv2.2. Specifically, the predecessor model YOWOv2 achieves an mAP of 85.2% and 20.3% on UCF101-24 and AVAv2.2, respectively, with 109.7M parameters and 53.6 GFLOPs. In contrast, our model - YOWOv3, with only 59.8M parameters and 39.8 GFLOPs, achieves an mAP of 88.33% and 20.31% on UCF101-24 and AVAv2.2, respectively. The results demonstrate that YOWOv3 significantly reduces the number of parameters and GFLOPs while still achieving comparable performance. | 翻訳日:2024-08-12 17:49:41 公開日:2024-08-09 |
# 動的依存をコードグラフでモデル化してプログラム実行を予測する学習
Learning to Predict Program Execution by Modeling Dynamic Dependency on Code Graphs ( http://arxiv.org/abs/2408.02816v2 ) ライセンス: Link先を確認 | Cuong Chi Le, Hoang Nhat Phan, Huy Nhat Phan, Tien N. Nguyen, Nghi D. Q. Bui, | (参考訳) 実行せずにプログラムの振る舞いを予測することは、ソフトウェア工学において決定的かつ困難な課題である。
従来のモデルは、しばしばコード内の動的な依存関係と相互作用をキャプチャするのに苦労します。
本稿では,コードカバレッジの予測と動的依存性学習による実行時のエラー検出を目的とした,新しい機械学習ベースのフレームワークであるCodeFlowを紹介する。
制御フローグラフ(CFG)を利用することで、CodeFlowは実行可能な実行パスと異なるステートメント間の関係を表現し、プログラムの振る舞いを包括的に理解する。
CodeFlowは実行パスを記述するためにCFGを構築し、CFGノードのベクトル表現を学び、静的な制御-フローの依存関係をキャプチャする。
さらに、実行中のステートメント間の影響を反映した実行トレースを通じて動的依存関係を学習する。
このアプローチは、コードカバレッジの正確な予測と実行時のエラーの効果的な識別を可能にする。
実証的な評価は、コードカバレッジ予測の正確さと実行時のエラーの効果的なローカライゼーションにおいて、既存のモデルよりも優れたパフォーマンスを示している。
Predicting program behavior without execution is a crucial and challenging task in software engineering. Traditional models often struggle to capture the dynamic dependencies and interactions within code. This paper introduces a novel machine learning-based framework called CodeFlow, designed to predict code coverage and detect runtime errors through Dynamic Dependencies Learning. By utilizing control flow graphs (CFGs), CodeFlow represents all possible execution paths and the relationships between different statements, providing a comprehensive understanding of program behavior. CodeFlow constructs CFGs to depict execution paths and learns vector representations for CFG nodes, capturing static control-flow dependencies. Additionally, it learns dynamic dependencies through execution traces, which reflect the impacts among statements during execution. This approach enables accurate prediction of code coverage and effective identification of runtime errors. Empirical evaluations demonstrate significant improvements in code coverage prediction accuracy and effective localization of runtime errors, outperforming existing models. | 翻訳日:2024-08-12 17:49:41 公開日:2024-08-09 |
# 後方射影拡散:拡散モデルを用いた広帯域逆散乱問題の解法
Back-Projection Diffusion: Solving the Wideband Inverse Scattering Problem with Diffusion Models ( http://arxiv.org/abs/2408.02866v2 ) ライセンス: Link先を確認 | Borong Zhang, Martín Guerra, Qin Li, Leonardo Zepeda-Núñez, | (参考訳) 広帯域散乱データから逆散乱マップによって誘導される後部分布を近似する,エンドツーエンドの確率的フレームワークである広帯域後方射影拡散を提案する。
この枠組みは、問題における波動伝播と対称性の基礎物理学と結合した条件拡散モデルを利用して、高精度な再構成を生成する。
このフレームワークは、スコア関数の分解を、フィルタされたバックプロパゲーション公式と、この潜在表現に基づいて条件付きスコア関数にインスパイアされた物理ベースの潜在表現に導入する。
これらの2つのステップは、フィルタされた後方射影公式に見られるランク構造を付与することにより圧縮に順応しつつ、定式化の対称性に従うよう制約される。
その結果,本フレームワークは,マルチスキャッタリング方式において,サブニキストの機能を回復させることなく,鋭い再構築を行うことが可能となった。
低サンプリングと計算の複雑さを持ち、パラメータの数は目標の解像度とサブラインでスケールし、安定したトレーニングダイナミクスを持つ。
We present Wideband back-projection diffusion, an end-to-end probabilistic framework for approximating the posterior distribution induced by the inverse scattering map from wideband scattering data. This framework leverages conditional diffusion models coupled with the underlying physics of wave-propagation and symmetries in the problem, to produce highly accurate reconstructions. The framework introduces a factorization of the score function into a physics-based latent representation inspired by the filtered back-propagation formula and a conditional score function conditioned on this latent representation. These two steps are also constrained to obey symmetries in the formulation while being amenable to compression by imposing the rank structure found in the filtered back-projection formula. As a result, empirically, our framework is able to provide sharp reconstructions effortlessly, even recovering sub-Nyquist features in the multiple-scattering regime. It has low-sample and computational complexity, its number of parameters scales sub-linearly with the target resolution, and it has stable training dynamics. | 翻訳日:2024-08-12 17:49:41 公開日:2024-08-09 |
# DreamLCM:潜時一貫性モデルによる高品質テキスト・ツー・3D生成を目指して
DreamLCM: Towards High-Quality Text-to-3D Generation via Latent Consistency Model ( http://arxiv.org/abs/2408.02993v2 ) ライセンス: Link先を確認 | Yiming Zhong, Xiaolin Zhang, Yao Zhao, Yunchao Wei, | (参考訳) 近年,SDS手法の出現により,テキスト・ツー・3Dタスクが急速に発達している。
しかし,SDS法は過度にスムースな問題のため,常に品質の悪い3Dオブジェクトを生成する。
この問題は2つの要因に起因している。
1) DDPM単段階推論は誘導勾配を低下させる。
2)入力ノイズとタイムステップからのランダム性は,その3D内容の詳細を平均化する。
本稿では,LCM(Latent Consistency Model)を組み込んだDreamLCMを提案する。
DreamLCMはLCM固有の強力な画像生成機能を活用し、一貫した高品質なガイダンス、すなわち予測されたノイズや画像を生成することができる。
改良された誘導により,提案手法は,目標となる3次元モデルの最適化に正確かつ詳細な勾配を与えることができる。
また、生成品質をさらに高めるための2つの戦略を提案する。
まず、Euler Solverを用いて誘導分布を校正し、3次元モデルの収束を加速する誘導校正戦略を提案する。
第2に,DreamLCMにおける2つのタイムステップ戦略を提案し,ガイダンスの整合性を高め,幾何学から外観まで3次元モデルを最適化する。
実験により、DreamLCMは、生成品質とトレーニング効率の両方で最先端の結果が得られることが示された。
コードはhttps://github.com/1YimingZhong/DreamLCM.comで公開されている。
Recently, the text-to-3D task has developed rapidly due to the appearance of the SDS method. However, the SDS method always generates 3D objects with poor quality due to the over-smooth issue. This issue is attributed to two factors: 1) the DDPM single-step inference produces poor guidance gradients; 2) the randomness from the input noises and timesteps averages the details of the 3D contents. In this paper, to address the issue, we propose DreamLCM which incorporates the Latent Consistency Model (LCM). DreamLCM leverages the powerful image generation capabilities inherent in LCM, enabling generating consistent and high-quality guidance, i.e., predicted noises or images. Powered by the improved guidance, the proposed method can provide accurate and detailed gradients to optimize the target 3D models. In addition, we propose two strategies to enhance the generation quality further. Firstly, we propose a guidance calibration strategy, utilizing Euler Solver to calibrate the guidance distribution to accelerate 3D models to converge. Secondly, we propose a dual timestep strategy, increasing the consistency of guidance and optimizing 3D models from geometry to appearance in DreamLCM. Experiments show that DreamLCM achieves state-of-the-art results in both generation quality and training efficiency. The code is available at https://github.com/1YimingZhong/DreamLCM. | 翻訳日:2024-08-12 17:49:41 公開日:2024-08-09 |
# GMAI-MMBench:汎用医療AIに向けた総合的マルチモーダル評価ベンチマーク
GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI ( http://arxiv.org/abs/2408.03361v3 ) ライセンス: Link先を確認 | Pengcheng Chen, Jin Ye, Guoan Wang, Yanjun Li, Zhongying Deng, Wei Li, Tianbin Li, Haodong Duan, Ziyan Huang, Yanzhou Su, Benyou Wang, Shaoting Zhang, Bin Fu, Jianfei Cai, Bohan Zhuang, Eric J Seibel, Junjun He, Yu Qiao, | (参考訳) LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができ、様々な分野に適用できる。
医学分野では、LVLMは診断と治療に相当な補助を提供する可能性がある。
それ以前には、様々な医療応用においてLVLMの有効性を評価するためのベンチマークを開発することが不可欠である。
現在のベンチマークは特定の学術文献に基づいて構築されることが多く、主に単一の領域に焦点を当てており、知覚の粒度が異なる。
そのため、臨床関係の限定、不完全評価、インタラクティブなLVLMのガイダンス不足など、特定の課題に直面している。
これらの制約に対処するため,GMAI-MMBenchを開発した。
39の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの知覚的粒度の285のデータセットから構築されている。
さらに、ユーザーが評価タスクをカスタマイズし、様々な評価ニーズを調整し、医療AIの研究や応用を効果的に支援できる語彙木構造を実装した。
その結果, GPT-4o は 52% の精度しか得られず, 改善の余地があることが示唆された。
さらに,医療応用の進展に対処する必要のある,現在最先端のLVLMにおいて,5つの重要な欠陥を同定した。
GMAI-MMBenchは,次世代のLVLMをGMAIに向けて構築するよう,コミュニティに刺激を与えるものと信じている。
Large Vision-Language Models (LVLMs) are capable of handling diverse data types such as imaging, text, and physiological signals, and can be applied in various fields. In the medical field, LVLMs have a high potential to offer substantial assistance for diagnosis and treatment. Before that, it is crucial to develop benchmarks to evaluate LVLMs' effectiveness in various medical applications. Current benchmarks are often built upon specific academic literature, mainly focusing on a single domain, and lacking varying perceptual granularities. Thus, they face specific challenges, including limited clinical relevance, incomplete evaluations, and insufficient guidance for interactive LVLMs. To address these limitations, we developed the GMAI-MMBench, the most comprehensive general medical AI benchmark with well-categorized data structure and multi-perceptual granularity to date. It is constructed from 285 datasets across 39 medical image modalities, 18 clinical-related tasks, 18 departments, and 4 perceptual granularities in a Visual Question Answering (VQA) format. Additionally, we implemented a lexical tree structure that allows users to customize evaluation tasks, accommodating various assessment needs and substantially supporting medical AI research and applications. We evaluated 50 LVLMs, and the results show that even the advanced GPT-4o only achieves an accuracy of 52%, indicating significant room for improvement. Moreover, we identified five key insufficiencies in current cutting-edge LVLMs that need to be addressed to advance the development of better medical applications. We believe that GMAI-MMBench will stimulate the community to build the next generation of LVLMs toward GMAI. | 翻訳日:2024-08-12 17:49:41 公開日:2024-08-09 |
# 多変量時系列におけるオンラインモデルに基づく異常検出:分類学、調査、研究課題、今後の方向性
Online Model-based Anomaly Detection in Multivariate Time Series: Taxonomy, Survey, Research Challenges and Future Directions ( http://arxiv.org/abs/2408.03747v2 ) ライセンス: Link先を確認 | Lucas Correia, Jan-Christoph Goos, Philipp Klein, Thomas Bäck, Anna V. Kononova, | (参考訳) 時系列異常検出は、開発、製造、その他の動的システムを含む操作など、エンジニアリングプロセスにおいて重要な役割を果たす。
これらのプロセスは、例えば高次元データを含むケースにおいて最先端のアプローチが役立つため、この分野の進歩の恩恵を受けることができる。
本調査では,オンラインとオフラインを区別し,トレーニングと推論を行う新しい分類法を提案する。
さらに、文献で使用される最も一般的なデータセットと評価指標、および詳細な分析も提示する。
さらに、本調査は、多変量時系列データに対する最先端のモデルベースオンライン半教師なし異常検出手法の概要を概説し、それらを異なるモデルファミリーや他の特性に分類する。
ベンチマークに関する最大の研究課題は、現在、異なるアプローチを互いに比較する信頼できる方法が存在しないためである。
一方、公開データセットは少なくとも1つの根本的な欠陥に悩まされており、一方、この分野には直感的で代表的な評価指標が欠けている。
さらに、ほとんどの出版物が検知しきい値を選択する方法は、現実世界の状況を無視し、現実世界の応用を妨げる。
この分野における具体的な進歩を可能にするためには、これらの課題は今後の作業で対処する必要がある。
Time-series anomaly detection plays an important role in engineering processes, like development, manufacturing and other operations involving dynamic systems. These processes can greatly benefit from advances in the field, as state-of-the-art approaches may aid in cases involving, for example, highly dimensional data. To provide the reader with understanding of the terminology, this survey introduces a novel taxonomy where a distinction between online and offline, and training and inference is made. Additionally, it presents the most popular data sets and evaluation metrics used in the literature, as well as a detailed analysis. Furthermore, this survey provides an extensive overview of the state-of-the-art model-based online semi- and unsupervised anomaly detection approaches for multivariate time-series data, categorising them into different model families and other properties. The biggest research challenge revolves around benchmarking, as currently there is no reliable way to compare different approaches against one another. This problem is two-fold: on the one hand, public data sets suffers from at least one fundamental flaw, while on the other hand, there is a lack of intuitive and representative evaluation metrics in the field. Moreover, the way most publications choose a detection threshold disregards real-world conditions, which hinders the application in the real world. To allow for tangible advances in the field, these issues must be addressed in future work. | 翻訳日:2024-08-12 17:49:41 公開日:2024-08-09 |
# トリーアテンション:GPUクラスタ上での長期アテンションのためのトポロジ対応デコーディング
Tree Attention: Topology-aware Decoding for Long-Context Attention on GPU clusters ( http://arxiv.org/abs/2408.04093v2 ) ライセンス: Link先を確認 | Vasudev Shyam, Jonathan Pilault, Emily Shepperd, Quentin Anthony, Beren Millidge, | (参考訳) 自己注意(Self-attention)は、現代のトランスフォーマーアーキテクチャの中核的な数学的操作であり、シーケンス長の2次複雑さのため、重要な計算ボトルネックでもある。
本研究では、勾配が自己アテンションブロックを計算するスカラーエネルギー関数を導出し、したがって自己アテンションの理論的基盤を解明し、その操作のベイズ的解釈を提供し、ホップフィールドネットワークのようなエネルギーベースモデルと密接に関連付ける。
我々の定式化により,木伐採により,配列軸を横断する還元を効率的に並列に計算できることが判明した。
複数のGPU間でのアテンション計算を並列化するアルゴリズムにより、Ring Attentionのような代替手法よりもデバイス間デコーディングを漸近的に(実験では最大8倍)高速に行うことができ、通信量も大幅に少なくなり、ピークメモリも2倍少ない。
私たちのコードは、以下に公開されています。
Self-attention is the core mathematical operation of modern transformer architectures and is also a significant computational bottleneck due to its quadratic complexity in the sequence length. In this work, we derive the scalar energy function whose gradient computes the self-attention block, thus elucidating the theoretical underpinnings of self-attention, providing a Bayesian interpretation of the operation and linking it closely with energy-based models such as Hopfield Networks. Our formulation reveals that the reduction across the sequence axis can be efficiently computed in parallel through a tree reduction. Our algorithm, for parallelizing attention computation across multiple GPUs enables cross-device decoding to be performed asymptotically faster (up to 8x faster in our experiments) than alternative approaches such as Ring Attention, while also requiring significantly less communication volume and incurring 2x less peak memory. Our code is publicly available here: \url{https://github.com/Zyphra/tree_attention}. | 翻訳日:2024-08-12 17:49:41 公開日:2024-08-09 |
# 波長404kmの光ファイバー上の超光束型量子鍵分布
Ultrabright-entanglement-based quantum key distribution over a 404-km-long optical fiber ( http://arxiv.org/abs/2408.04361v2 ) ライセンス: Link先を確認 | Shi-Chang Zhuang, Bo Li, Ming-Yang Zheng, Yi-Xi Zeng, Hui-Nan Wu, Guang-Bing Li, Quan Yao, Xiu-Ping Xie, Yu-Huai Li, Hao Qin, Li-Xing You, Fei-Hu Xu, Juan Yin, Yuan Cao, Qiang Zhang, Cheng-Zhi Peng, Jian-Wei Pan, | (参考訳) 絡み合った光子は量子通信やネットワークにとって重要な資源である。
ここでは、実用的な量子通信ネットワークのために設計された、周期的に偏極したニオブ酸リチウム導波路に基づく超高輝度偏光束光子源を提案する。
780nmのポンプレーザーを用い、光源は2.4$\times 10^{10}$ pairs/s/mWとなる。
この研究は3.2mWのポンプ出力を持つ絡み合った光子発生において17.9nWの直接測定力を達成した。
本研究は,長距離ファイバリンク上で量子鍵分布実験を行い,200km以上で最大440.80ビット/秒,62dBの損失で最大キー生成距離404kmを達成し,情報源の実用性を実証する。
これらの結果は、高速で長距離の量子通信のための波長多重偏光共役光子源の可能性を示し、将来の大規模量子ネットワークの鍵となる要素として位置づけた。
The entangled photons are crucial resources for quantum communications and networking. Here, we present an ultra-bright polarization-entangled photon source based on a periodically poled lithium niobate waveguide designed for practical quantum communication networks. Using a 780 nm pump laser, the source achieves a pair generation rate of 2.4 $\times 10^{10}$ pairs/s/mW. This work has achieved a directly measured power of 17.9 nW in entangled photon generation with a 3.2 mW pump power. Based on this, we demonstrate the practicality of the source by conducting quantum key distribution experiments over long-distance fiber links, achieving the applicable secure key rates of up to 440.80 bits/s over 200 km with 62 dB loss and reaching a maximum secure key generation distance of 404 km. These results demonstrate the potential of wavelength-multiplexed polarization-entangled photon sources for high-speed, long-distance quantum communication, positioning them as key components for future large-scale quantum networks. | 翻訳日:2024-08-12 17:49:41 公開日:2024-08-09 |
# 異常予測: 明示的遅延と水平による新しいアプローチ
Anomaly Prediction: A Novel Approach with Explicit Delay and Horizon ( http://arxiv.org/abs/2408.04377v2 ) ライセンス: Link先を確認 | Jiang You, Arben Cela, René Natowicz, Jacob Ouanounou, Patrick Siarry, | (参考訳) 時系列データの異常検出は、さまざまな領域において重要な課題である。
従来の手法では、通常、後続のステップで異常を識別することに集中しており、多くの場合、遅延時間や異常の地平線といった時間的ダイナミクスの重要性を過小評価している。
本稿では,予測結果に時間情報を直接組み込んで,異常予測と呼ばれる時系列異常を検出する手法を提案する。
本稿では,この手法の評価と,いくつかの最先端時系列予測手法を用いた総合的な実験を行うための新しいデータセットを提案する。
その結果, 時間的かつ正確な異常予測を行う上でのアプローチの有効性が示され, 今後の研究のための新しいベンチマークが設定された。
Anomaly detection in time series data is a critical challenge across various domains. Traditional methods typically focus on identifying anomalies in immediate subsequent steps, often underestimating the significance of temporal dynamics such as delay time and horizons of anomalies, which generally require extensive post-analysis. This paper introduces a novel approach for detecting time series anomalies called Anomaly Prediction, incorporating temporal information directly into the prediction results. We propose a new dataset specifically designed to evaluate this approach and conduct comprehensive experiments using several state-of-the-art time series forecasting methods. The results demonstrate the efficacy of our approach in providing timely and accurate anomaly predictions, setting a new benchmark for future research in this field. | 翻訳日:2024-08-12 17:49:41 公開日:2024-08-09 |
# Img-Diff:マルチモーダル大言語モデルのためのコントラストデータ合成
Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models ( http://arxiv.org/abs/2408.04594v2 ) ライセンス: Link先を確認 | Qirui Jiao, Daoyuan Chen, Yilun Huang, Yaliang Li, Ying Shen, | (参考訳) 高性能マルチモーダル大言語モデル(MLLM)はデータ品質に大きく依存している。
本研究は,コントラスト学習と画像差分キャプションからの洞察を活用することで,MLLMの微細な画像認識を向上させるための新しいデータセットImg-Diffを提案する。
類似画像間のオブジェクト差を解析することにより、マッチングと異なるコンポーネントの両方を識別するモデルに挑戦する。
我々は、安定拡散XLモデルと高度な画像編集技術を用いて、オブジェクト置換をハイライトする類似画像のペアを作成する。
本手法は,オブジェクトの差分識別のための差分領域生成器と,詳細な差分記述のための差分容量生成器を含む。
その結果、比較的小さいが高品質な"オブジェクト置換"サンプルデータセットが得られた。
提案したデータセットを用いて、MGM-7Bのような最先端(SOTA)MLLMを微調整し、大規模なデータセットでトレーニングされたSOTAモデルに対して、多数の画像差分と視覚質問応答タスクにおいて、パフォーマンススコアを総合的に改善する。
例えば、トレーニングされたモデルは、MMVPベンチマークで、特にSOTAモデル GPT-4V と Gemini を上回ります。
さらに,「オブジェクト除去」による画像差分データ生成の代替手法について検討し,データセットの多様性,品質,堅牢性を確認するための徹底的な評価を行い,このような対照的なデータセットの合成に関するいくつかの知見を提示する。
画像理解のためのマルチモーダルデータ合成とMLLMの基本的な機能強化のさらなる研究と推進のために、私たちはコードとデータセットをhttps://github.com/modelscope/data-juicer/tree/ImgDiffでリリースします。
High-performance Multimodal Large Language Models (MLLMs) rely heavily on data quality. This study introduces a novel dataset named Img-Diff, designed to enhance fine-grained image recognition in MLLMs by leveraging insights from contrastive learning and image difference captioning. By analyzing object differences between similar images, we challenge models to identify both matching and distinct components. We utilize the Stable-Diffusion-XL model and advanced image editing techniques to create pairs of similar images that highlight object replacements. Our methodology includes a Difference Area Generator for object differences identifying, followed by a Difference Captions Generator for detailed difference descriptions. The result is a relatively small but high-quality dataset of "object replacement" samples. We use the the proposed dataset to finetune state-of-the-art (SOTA) MLLMs such as MGM-7B, yielding comprehensive improvements of performance scores over SOTA models that trained with larger-scale datasets, in numerous image difference and Visual Question Answering tasks. For instance, our trained models notably surpass the SOTA models GPT-4V and Gemini on the MMVP benchmark. Besides, we investigate alternative methods for generating image difference data through "object removal" and conduct a thorough evaluation to confirm the dataset's diversity, quality, and robustness, presenting several insights on the synthesis of such a contrastive dataset. To encourage further research and advance the field of multimodal data synthesis and enhancement of MLLMs' fundamental capabilities for image understanding, we release our codes and dataset at https://github.com/modelscope/data-juicer/tree/ImgDiff. | 翻訳日:2024-08-12 17:49:41 公開日:2024-08-09 |
# 密度比超学習器
A Density Ratio Super Learner ( http://arxiv.org/abs/2408.04796v1 ) ライセンス: Link先を確認 | Wencheng Wu, David Benkeser, | (参考訳) 2つの密度確率関数の比の推定は、因果推論を含む多くの統計分野において大きな関心を持つ。
本研究では,スーパーラーニングに基づく新たな損失関数を持つ密度比のアンサンブル推定器を開発した。
この新たな損失関数が,超学習者構築に有効であることを示す。
密度比がニュアンスパラメータである因果推論における媒介分析および縦修正処理ポリシーに対応する2つのシミュレーションを行い、我々の超学習者の性能を実証的に示す。
The estimation of the ratio of two density probability functions is of great interest in many statistics fields, including causal inference. In this study, we develop an ensemble estimator of density ratios with a novel loss function based on super learning. We show that this novel loss function is qualified for building super learners. Two simulations corresponding to mediation analysis and longitudinal modified treatment policy in causal inference, where density ratios are nuisance parameters, are conducted to show our density ratio super learner's performance empirically. | 翻訳日:2024-08-12 16:58:32 公開日:2024-08-09 |
# モバイル組込みシステムによるAIと機械学習による屋内ローカライゼーションとナビゲーション
AI and Machine Learning Driven Indoor Localization and Navigation with Mobile Embedded Systems ( http://arxiv.org/abs/2408.04797v1 ) ライセンス: Link先を確認 | Sudeep Pasricha, | (参考訳) 室内ナビゲーションは、人間、自動運転車、ドローン、ロボットの屋内での追跡と位置決めを支援する基礎技術である。
建物、地下の地域、密集した都市環境におけるGPS信号の浸透が不足しているため、屋内ナビゲーションソリューションは通常、モバイル組み込みシステムにおいてユビキタスな無線信号(例えばWiFi)とセンサーを使用して追跡とローカライゼーションを行う。
この記事では、最先端の屋内ナビゲーションソリューションに直面する多くの課題の概要と、モバイル組み込みシステムにデプロイされたAIアルゴリズムがこれらの課題を克服する方法について説明する。
Indoor navigation is a foundational technology to assist the tracking and localization of humans, autonomous vehicles, drones, and robots in indoor spaces. Due to the lack of penetration of GPS signals in buildings, subterranean locales, and dense urban environments, indoor navigation solutions typically make use of ubiquitous wireless signals (e.g., WiFi) and sensors in mobile embedded systems to perform tracking and localization. This article provides an overview of the many challenges facing state-of-the-art indoor navigation solutions, and then describes how AI algorithms deployed on mobile embedded systems can overcome these challenges. | 翻訳日:2024-08-12 16:58:32 公開日:2024-08-09 |
# FewShotNeRF:ラピッドシーン特化適応のためのメタラーニングに基づく新しいビュー合成
FewShotNeRF: Meta-Learning-based Novel View Synthesis for Rapid Scene-Specific Adaptation ( http://arxiv.org/abs/2408.04803v1 ) ライセンス: Link先を確認 | Piraveen Sivakumar, Paul Janson, Jathushan Rajasegaran, Thanuja Ambegoda, | (参考訳) 本稿では,提案手法であるFewShotNeRFを用いて,限られたマルチビュー画像を持つ現実世界のオブジェクトの新たなビューを生成するという課題に対処する。
メタラーニングを利用して最適な初期化を行い,ニューラルラジアンス場(NeRF)を特定のシーンに迅速に適応させる。
メタラーニングプロセスの焦点は、重み初期化に埋め込まれたカテゴリ内の共有幾何とテクスチャをキャプチャすることである。
このアプローチは,NeRFの学習過程を高速化し,位置符号化の最近の進歩を活用して,NeRFをシーンに適合させるために必要な時間を短縮し,メタラーニングの内ループ最適化を高速化する。
特に,本手法では,様々なカテゴリに先立って,多数の3Dシーンをメタラーニングすることで,ロバストな3Dを構築できる。
3DオープンソースデータセットにおけるCommon Objectsの広範な評価を通じて、我々は、高品質なオブジェクトの新規ビューを生成するためのメタラーニングの有効性と可能性を実証的に実証した。
In this paper, we address the challenge of generating novel views of real-world objects with limited multi-view images through our proposed approach, FewShotNeRF. Our method utilizes meta-learning to acquire optimal initialization, facilitating rapid adaptation of a Neural Radiance Field (NeRF) to specific scenes. The focus of our meta-learning process is on capturing shared geometry and textures within a category, embedded in the weight initialization. This approach expedites the learning process of NeRFs and leverages recent advancements in positional encodings to reduce the time required for fitting a NeRF to a scene, thereby accelerating the inner loop optimization of meta-learning. Notably, our method enables meta-learning on a large number of 3D scenes to establish a robust 3D prior for various categories. Through extensive evaluations on the Common Objects in 3D open source dataset, we empirically demonstrate the efficacy and potential of meta-learning in generating high-quality novel views of objects. | 翻訳日:2024-08-12 16:58:32 公開日:2024-08-09 |
# Hyper-YOLO:ハイパーグラフ計算で視覚オブジェクト検出を行う場合
Hyper-YOLO: When Visual Object Detection Meets Hypergraph Computation ( http://arxiv.org/abs/2408.04804v1 ) ライセンス: Link先を確認 | Yifan Feng, Jiangang Huang, Shaoyi Du, Shihui Ying, Jun-Hai Yong, Yipeng Li, Guiguang Ding, Rongrong Ji, Yue Gao, | (参考訳) 画像特徴量間の複雑な高次相関を捉えるためにハイパーグラフ計算を統合する新しいオブジェクト検出手法であるHyper-YOLOを導入する。
従来のYOLOモデルは強力ではあるが、クロスレベル機能の統合や高次機能相互関係の活用を制限したネックデザインに制限がある。
これらの課題に対処するため,HGC-SCS(Hypergraph Computation Empowered Semantic Collecting and Scattering)フレームワークを提案する。
これにより、モデルが意味情報と構造情報の両方を取得することができ、従来の特徴に焦点を絞った学習を超えて前進する。
Hyper-YOLOは、機能抽出を強化するためにMixed Aggregation Network (MANet) をバックボーンに組み込んでおり、ネックにHypergraph-based Cross-Level and Cross-Position Representation Network (HyperC2Net)を導入している。
HyperC2Netは5つのスケールで動作し、従来のグリッド構造から解放される。
このコンポーネントのシナジーは、COCOデータセットの優れたパフォーマンスによって証明されているように、Hyper-YOLOをさまざまなスケールモデルにおける最先端アーキテクチャとして位置づけている。
具体的には、Hyper-YOLO-Nは、高度なYOLOv8-NとYOLOv9-Tを 12\% $\text{AP}^{val}$と 9\% $\text{AP}^{val}$改善で大幅に上回っている。
ソースコードはttps://github.com/iMoonLab/Hyper-YOLOにある。
We introduce Hyper-YOLO, a new object detection method that integrates hypergraph computations to capture the complex high-order correlations among visual features. Traditional YOLO models, while powerful, have limitations in their neck designs that restrict the integration of cross-level features and the exploitation of high-order feature interrelationships. To address these challenges, we propose the Hypergraph Computation Empowered Semantic Collecting and Scattering (HGC-SCS) framework, which transposes visual feature maps into a semantic space and constructs a hypergraph for high-order message propagation. This enables the model to acquire both semantic and structural information, advancing beyond conventional feature-focused learning. Hyper-YOLO incorporates the proposed Mixed Aggregation Network (MANet) in its backbone for enhanced feature extraction and introduces the Hypergraph-Based Cross-Level and Cross-Position Representation Network (HyperC2Net) in its neck. HyperC2Net operates across five scales and breaks free from traditional grid structures, allowing for sophisticated high-order interactions across levels and positions. This synergy of components positions Hyper-YOLO as a state-of-the-art architecture in various scale models, as evidenced by its superior performance on the COCO dataset. Specifically, Hyper-YOLO-N significantly outperforms the advanced YOLOv8-N and YOLOv9-T with 12\% $\text{AP}^{val}$ and 9\% $\text{AP}^{val}$ improvements. The source codes are at ttps://github.com/iMoonLab/Hyper-YOLO. | 翻訳日:2024-08-12 16:58:32 公開日:2024-08-09 |
# データ適応型不確実性誘導時空間解析を用いた多心性心筋灌流MRIデータセットの深層学習に基づく分節化のためのロバスト性の改善
Improved Robustness for Deep Learning-based Segmentation of Multi-Center Myocardial Perfusion MRI Datasets Using Data Adaptive Uncertainty-guided Space-time Analysis ( http://arxiv.org/abs/2408.04805v1 ) ライセンス: Link先を確認 | Dilek M. Yalcinkaya, Khalid Youssef, Bobak Heydari, Janet Wei, Noel Bairey Merz, Robert Judd, Rohan Dharmakumar, Orlando P. Simonetti, Jonathan W. Weinsaft, Subha V. Raman, Behzad Sharif, | (参考訳) 背景。
心筋灌流MRIデータセットの完全自動解析により、虚血性心疾患を疑う患者のストレス・レスト研究の迅速かつ客観的な報告が可能になる。
トレーニングデータやソフトウェアやハードウェアのバリエーションが限られているにもかかわらず、マルチセンタデータセットを分析できるディープラーニング技術の開発は、現在進行中の課題である。
メソッド。
内部データセット(inD; n = 95)と2つの外部データセット(exD; n = 55)は、パルスシーケンス(exD-1)とスキャナベンダー(exD-2)の違いに対して、トレーニングされたディープニューラルネットワーク(DNN)モデルの堅牢性を評価するために使用される。
InD(n = 85)のサブセットは、セグメント化のためのDNNのプールのトレーニング/検証に使用され、すべて同じ時空間U-Netアーキテクチャとハイパーパラメータを使用していたが、パラメータの初期化が異なる。
我々は,分割過程の副産物として,画素単位の「不確実性マップ」を自動生成する時空間スライディング・パッチ解析手法を採用した。
提案手法では,DNNプールの全てのメンバーが与えられたテストケースを分割し,その結果の不確実性マップを利用して,解のプール内の「ベスト」を自動選択する。
結果。
提案したDAUGS分析手法は、内部データセット(p = n.s.)の確立した手法と似ているが、外部データセット(exD-1とexD-2ではp < 0.005)では著しく優れていた。
さらに, 提案手法と確立した手法(4.3%対17.1%, p < 0.0005)では, 画像系列の「フェール」セグメンテーションが有意に減少した。
結論。
DAUGS分析手法は, パルスシーケンス, サイト位置, スキャナベンダの選択に違いがある多中心応力灌流データセットのセグメンテーションにおいて, ディープラーニング手法の堅牢性を向上する可能性がある。
Background. Fully automatic analysis of myocardial perfusion MRI datasets enables rapid and objective reporting of stress/rest studies in patients with suspected ischemic heart disease. Developing deep learning techniques that can analyze multi-center datasets despite limited training data and variations in software and hardware is an ongoing challenge. Methods. Datasets from 3 medical centers acquired at 3T (n = 150 subjects) were included: an internal dataset (inD; n = 95) and two external datasets (exDs; n = 55) used for evaluating the robustness of the trained deep neural network (DNN) models against differences in pulse sequence (exD-1) and scanner vendor (exD-2). A subset of inD (n = 85) was used for training/validation of a pool of DNNs for segmentation, all using the same spatiotemporal U-Net architecture and hyperparameters but with different parameter initializations. We employed a space-time sliding-patch analysis approach that automatically yields a pixel-wise "uncertainty map" as a byproduct of the segmentation process. In our approach, a given test case is segmented by all members of the DNN pool and the resulting uncertainty maps are leveraged to automatically select the "best" one among the pool of solutions. Results. The proposed DAUGS analysis approach performed similarly to the established approach on the internal dataset (p = n.s.) whereas it significantly outperformed on the external datasets (p < 0.005 for exD-1 and exD-2). Moreover, the number of image series with "failed" segmentation was significantly lower for the proposed vs. the established approach (4.3% vs. 17.1%, p < 0.0005). Conclusions. The proposed DAUGS analysis approach has the potential to improve the robustness of deep learning methods for segmentation of multi-center stress perfusion datasets with variations in the choice of pulse sequence, site location or scanner vendor. | 翻訳日:2024-08-12 16:58:32 公開日:2024-08-09 |
# コア間コネクテッドインテリジェンスプロセッサ上でのディープラーニング計算のスケーリング
Scaling Deep Learning Computation over the Inter-Core Connected Intelligence Processor ( http://arxiv.org/abs/2408.04808v1 ) ライセンス: Link先を確認 | Yiqi Liu, Yuqi Xue, Yu Cheng, Lingxiao Ma, Ziming Miao, Jilong Xue, Jian Huang, | (参考訳) AIチップは、多数の並列化コアを組み込んで、ディープラーニング(DL)コンピューティングをスケールしているため、近年、チップ上の高帯域幅と低レイテンシの相互接続リンク(Graphcore IPUなど)を利用することで、コア間通信が実現されている。
これにより、各コアは他のコアの高速なスクラッチパッドメモリに直接アクセスできるようになり、新たな並列コンピューティングパラダイムが実現される。
しかし、現在のDLコンパイラにおけるスケーラブルなコア間接続を適切にサポートしていないため、開発者はこの新しいアーキテクチャの利点を活用できない。
AIチップ上でコア間通信帯域とオンチップメモリを利用する最初のDLコンパイラであるT10を提案する。
このアーキテクチャでテンソル演算子の計算と通信のパターンを定式化するために、T10は分散テンソル抽象rTensorを導入した。
T10は、DNN計算をサブオペレータに分割し、コアにマッピングすることで、一般的な計算シフトパターンでDNNモデルを実行計画にマッピングし、コアが予測可能なパターンに従ってデータを交換できるようにする。
T10は、オンチップメモリ消費とコア間通信のオーバーヘッドをグローバルに最適化し、膨大な最適化空間から最高の実行計画を選択し、不要なコア間通信を緩和する。
実際のコア間接続型AIチップであるGraphcore IPUによる評価では、最先端のDLコンパイラやベンダライブラリと比較して、パフォーマンスが3.3$\times$改善され、より大きなモデルのスケーラビリティがサポートされた。
As AI chips incorporate numerous parallelized cores to scale deep learning (DL) computing, inter-core communication is enabled recently by employing high-bandwidth and low-latency interconnect links on the chip (e.g., Graphcore IPU). It allows each core to directly access the fast scratchpad memory in other cores, which enables new parallel computing paradigms. However, without proper support for the scalable inter-core connections in current DL compilers, it is hard for developers to exploit the benefits of this new architecture. We present T10, the first DL compiler to exploit the inter-core communication bandwidth and distributed on-chip memory on AI chips. To formulate the computation and communication patterns of tensor operators in this new architecture, T10 introduces a distributed tensor abstraction rTensor. T10 maps a DNN model to execution plans with a generalized compute-shift pattern, by partitioning DNN computation into sub-operators and mapping them to cores, so that the cores can exchange data following predictable patterns. T10 makes globally optimized trade-offs between on-chip memory consumption and inter-core communication overhead, selects the best execution plan from a vast optimization space, and alleviates unnecessary inter-core communications. Our evaluation with a real inter-core connected AI chip, the Graphcore IPU, shows up to 3.3$\times$ performance improvement, and scalability support for larger models, compared to state-of-the-art DL compilers and vendor libraries. | 翻訳日:2024-08-12 16:58:32 公開日:2024-08-09 |
# 深層学習の幾何学について
On the Geometry of Deep Learning ( http://arxiv.org/abs/2408.04809v1 ) ライセンス: Link先を確認 | Randall Balestriero, Ahmed Imtiaz Humayun, Richard Baraniuk, | (参考訳) 本稿では,深層ネットワークとアフィンスプラインによる関数近似(複数次元の連続的片方向線形関数)の関連性について述べる。
特に、深層ネットワークのアフィンスプラインマッピングの幾何的性質、特に入力空間をテッセルレートする方法の理解について、過去10年間にわたる研究の概要を概説する。
ご覧のように、アフィンスプライン接続と幾何学的視点は、ディープネットワークの内部構造を閲覧、分析、改善するための強力なポータルを提供する。
In this paper, we overview one promising avenue of progress at the mathematical foundation of deep learning: the connection between deep networks and function approximation by affine splines (continuous piecewise linear functions in multiple dimensions). In particular, we will overview work over the past decade on understanding certain geometrical properties of a deep network's affine spline mapping, in particular how it tessellates its input space. As we will see, the affine spline connection and geometrical viewpoint provide a powerful portal through which to view, analyze, and improve the inner workings of a deep network. | 翻訳日:2024-08-12 16:58:32 公開日:2024-08-09 |
# UniBench: ビジュアル推論は、スケーリングを超えてビジョンランゲージを再考する必要がある
UniBench: Visual Reasoning Requires Rethinking Vision-Language Beyond Scaling ( http://arxiv.org/abs/2408.04810v1 ) ライセンス: Link先を確認 | Haider Al-Tahan, Quentin Garrido, Randall Balestriero, Diane Bouchacourt, Caner Hazirbas, Mark Ibrahim, | (参考訳) 視覚言語モデル(VLM)のトレーニングアプローチを拡張・改善するための重要な研究努力がなされている。
しかし、ますます多くのベンチマークによって、研究者はそれぞれのプロトコルの実装に重きを置き、計算コストを負担し、これらのベンチマークが意味のある進歩の軸にどのように変換されるかを理解している。
オブジェクト認識から空間認識,カウント,その他まで,包括的に分類された機能にまたがる50以上のVLMベンチマークの統一実装であるUniBenchを導入する。
我々は、最大12.8Bサンプルのスケールでトレーニングされた60近い公開可能な視覚言語モデルを評価することで、進歩を測定するためのUniBenchの有用性について紹介する。
トレーニングデータやモデルサイズをスケールすることで、多くの視覚言語モデル能力が向上する一方で、スケーリングは推論や関係性にはほとんどメリットがないことが分かっています。
驚くべきことに、今日の最高のVLMは、単純な数字認識とタスクのカウントに苦労している。
スケールが短ければ、データ品質や調整済みの学習目標といった、より正確な介入がより有望であることに気付きます。
実践者に対しては、与えられたアプリケーションに適したVLMを選択するためのガイダンスも提供します。
最後に、59モデルにわたる50以上のベンチマークと比較の完全なセットを備えた、簡単に実行できるUniBenchコードベースと、1つのGPUで5分で実行される、蒸留された代表的ベンチマークセットをリリースする。
Significant research efforts have been made to scale and improve vision-language model (VLM) training approaches. Yet, with an ever-growing number of benchmarks, researchers are tasked with the heavy burden of implementing each protocol, bearing a non-trivial computational cost, and making sense of how all these benchmarks translate into meaningful axes of progress. To facilitate a systematic evaluation of VLM progress, we introduce UniBench: a unified implementation of 50+ VLM benchmarks spanning a comprehensive range of carefully categorized capabilities from object recognition to spatial awareness, counting, and much more. We showcase the utility of UniBench for measuring progress by evaluating nearly 60 publicly available vision-language models, trained on scales of up to 12.8B samples. We find that while scaling training data or model size can boost many vision-language model capabilities, scaling offers little benefit for reasoning or relations. Surprisingly, we also discover today's best VLMs struggle on simple digit recognition and counting tasks, e.g. MNIST, which much simpler networks can solve. Where scale falls short, we find that more precise interventions, such as data quality or tailored-learning objectives offer more promise. For practitioners, we also offer guidance on selecting a suitable VLM for a given application. Finally, we release an easy-to-run UniBench code-base with the full set of 50+ benchmarks and comparisons across 59 models as well as a distilled, representative set of benchmarks that runs in 5 minutes on a single GPU. | 翻訳日:2024-08-12 16:58:32 公開日:2024-08-09 |
# h4rm3l: LLM安全性評価のための構成可能なジェイルブレイク攻撃の動的ベンチマーク
h4rm3l: A Dynamic Benchmark of Composable Jailbreak Attacks for LLM Safety Assessment ( http://arxiv.org/abs/2408.04811v1 ) ライセンス: Link先を確認 | Moussa Koulako Bala Doumbouya, Ananjan Nandi, Gabriel Poesia, Davide Ghilardi, Anna Goldie, Federico Bianchi, Dan Jurafsky, Christopher D. Manning, | (参考訳) 大規模言語モデル(LLM)の安全性は、有害なコンテンツの生成に抵抗する能力を体系的に評価する十分なベンチマークが欠如していることから、依然として重要な懸念点である。
自動赤チーム化へのこれまでの取り組みには、Jailbreak攻撃の進化と構成可能な性質を考慮に入れた、静的またはテンプレート化された不正要求と敵のプロンプトが含まれていた。
本稿では,静的なデータセットや攻撃や被害の分類を超越した,構成可能なジェイルブレイク攻撃の動的ベンチマークを提案する。
提案手法は,(1)パラメータ化されたプロンプト変換プリミティブの合成としてジェイルブレイク攻撃を正式に表現するドメイン固有言語,(2)対象のブラックボックスLLMの安全フィルタを透過するために最適化された新規な攻撃を生成するバンディットベースの少数ショットプログラム合成アルゴリズム,(3)以前の2つのコンポーネントを用いたオープンソース自動リピートソフトウェアからなる。
我々は、h4rm3lを使用して、6つの最先端(SOTA)オープンソースおよびプロプライエタリなLLMをターゲットにした2656の新たなジェイルブレイク攻撃のデータセットを生成する。
クロード3-ハイクやGPT4-oといったSOTAクローズド言語モデルでは,攻撃成功率が90%以上である。
統一された形式表現でジェイルブレイク攻撃のデータセットを生成することで、h4rm3lは再現可能なベンチマークと自動化されたレッドチームを可能にし、LLMの安全性の限界を理解するのに寄与し、ますますLLM統合された世界における堅牢な防御の開発をサポートする。
警告:本論文および関連研究成果物は、攻撃的で潜在的に乱暴なプロンプトとモデル生成コンテンツを含んでいる。
The safety of Large Language Models (LLMs) remains a critical concern due to a lack of adequate benchmarks for systematically evaluating their ability to resist generating harmful content. Previous efforts towards automated red teaming involve static or templated sets of illicit requests and adversarial prompts which have limited utility given jailbreak attacks' evolving and composable nature. We propose a novel dynamic benchmark of composable jailbreak attacks to move beyond static datasets and taxonomies of attacks and harms. Our approach consists of three components collectively called h4rm3l: (1) a domain-specific language that formally expresses jailbreak attacks as compositions of parameterized prompt transformation primitives, (2) bandit-based few-shot program synthesis algorithms that generate novel attacks optimized to penetrate the safety filters of a target black box LLM, and (3) open-source automated red-teaming software employing the previous two components. We use h4rm3l to generate a dataset of 2656 successful novel jailbreak attacks targeting 6 state-of-the-art (SOTA) open-source and proprietary LLMs. Several of our synthesized attacks are more effective than previously reported ones, with Attack Success Rates exceeding 90% on SOTA closed language models such as claude-3-haiku and GPT4-o. By generating datasets of jailbreak attacks in a unified formal representation, h4rm3l enables reproducible benchmarking and automated red-teaming, contributes to understanding LLM safety limitations, and supports the development of robust defenses in an increasingly LLM-integrated world. Warning: This paper and related research artifacts contain offensive and potentially disturbing prompts and model-generated content. | 翻訳日:2024-08-12 16:58:32 公開日:2024-08-09 |
# マルチテナントDNNのための協調型PIM最適化フレームワーク
A Collaborative PIM Computing Optimization Framework for Multi-Tenant DNN ( http://arxiv.org/abs/2408.04812v1 ) ライセンス: Link先を確認 | Bojing Li, Duo Zhong, Xiang Chen, Chenchen Liu, | (参考訳) 現代の人工知能(AI)アプリケーションは、マルチテナントディープニューラルネットワーク(DNN)の利用が増えている。
ReRAMベースのプロセッシング・イン・メモリ(PIM)コンピューティングは、高密度かつ低消費電力特性を持ち、マルチテナントDNNの展開をサポートする有望な可能性を持っている。
しかし、ReRAMベースのPIM設計への複雑なマルチテナントDNNの直接配置が課題となっている。
異なるテナント間のリソース競合は、オンチップコンピューティングリソースの過小評価につながる可能性がある。
さらに、領域集約演算子と計算集約演算子は、過度に大きなオンチップ領域と長い処理時間を必要とするため、並列コンピューティングにおける全体的なレイテンシが高くなる。
これらの課題に対処するため,ReRAM ベースの PIM 設計にマルチテナント DNN を効率よく展開できる,ReRAM ベースのインメモリ・コンピューティング・フレームワークを提案する。
提案手法は,PIMハードウェアをテナントレベルで反復的に分割することで資源競合問題に対処する。
さらに,面積集中型演算子を扱うために,演算子レベルで微細に再構成された処理パイプラインを構築する。
従来のReRAMベースのPIM設計の直接デプロイと比較して,提案するPIMコンピューティングフレームワークは,速度(1.75xから60.43x)とエネルギー(最大1.89x)の大幅な向上を実現している。
Modern Artificial Intelligence (AI) applications are increasingly utilizing multi-tenant deep neural networks (DNNs), which lead to a significant rise in computing complexity and the need for computing parallelism. ReRAM-based processing-in-memory (PIM) computing, with its high density and low power consumption characteristics, holds promising potential for supporting the deployment of multi-tenant DNNs. However, direct deployment of complex multi-tenant DNNs on exsiting ReRAM-based PIM designs poses challenges. Resource contention among different tenants can result in sever under-utilization of on-chip computing resources. Moreover, area-intensive operators and computation-intensive operators require excessively large on-chip areas and long processing times, leading to high overall latency during parallel computing. To address these challenges, we propose a novel ReRAM-based in-memory computing framework that enables efficient deployment of multi-tenant DNNs on ReRAM-based PIM designs. Our approach tackles the resource contention problems by iteratively partitioning the PIM hardware at tenant level. In addition, we construct a fine-grained reconstructed processing pipeline at the operator level to handle area-intensive operators. Compared to the direct deployments on traditional ReRAM-based PIM designs, our proposed PIM computing framework achieves significant improvements in speed (ranges from 1.75x to 60.43x) and energy(up to 1.89x). | 翻訳日:2024-08-12 16:58:32 公開日:2024-08-09 |
# 複数のインスタンス学習を再考する - 弱スーパービジョンによる自己学習によるインスタンスレベル分類器の開発
Rethinking Multiple Instance Learning: Developing an Instance-Level Classifier via Weakly-Supervised Self-Training ( http://arxiv.org/abs/2408.04813v1 ) ライセンス: Link先を確認 | Yingfan Ma, Xiaoyuan Luo, Mingzhi Yuan, Xinrong Chen, Manning Wang, | (参考訳) 複数インスタンス学習(MIL)問題は現在、バッグ分類またはインスタンス分類の観点から解決されている。
例えば、既存の手法では、ハードポジティブな例を学ぶのが難しい場合が多い。
本稿では、MILを半教師付きインスタンス分類問題として定式化し、ラベル付きインスタンスとラベルなしインスタンスを全て活用してより良い分類器を訓練する。
この定式化の難しさは、全てのラベル付きインスタンスがMILでは負であり、半教師付き学習で使用される従来の自己学習技術は、このシナリオでラベルなしインスタンスの擬似ラベルを生成する際に退化する傾向があることである。
この問題を解決するために,正の袋ラベルを用いて擬似ラベルに大域的制約と局所的制約を構築し,それらが縮退するのを防止し,分類器に強固な正のインスタンスを学習させる,弱教師付き自己学習手法を提案する。
簡単な正のインスタンスは分類過程における決定境界から遠く離れており、強のインスタンスは決定境界に近いものであることに注意する必要がある。
反復最適化により、擬似ラベルは真のラベルに徐々に近づくことができる。
2つのMNIST合成データセット,5つの従来のMILベンチマークデータセット,および2つの病理組織像データセットに対する大規模な実験により,本手法がSOTAの新たな性能を達成したことが示された。
コードは公開されます。
Multiple instance learning (MIL) problem is currently solved from either bag-classification or instance-classification perspective, both of which ignore important information contained in some instances and result in limited performance. For example, existing methods often face difficulty in learning hard positive instances. In this paper, we formulate MIL as a semi-supervised instance classification problem, so that all the labeled and unlabeled instances can be fully utilized to train a better classifier. The difficulty in this formulation is that all the labeled instances are negative in MIL, and traditional self-training techniques used in semi-supervised learning tend to degenerate in generating pseudo labels for the unlabeled instances in this scenario. To resolve this problem, we propose a weakly-supervised self-training method, in which we utilize the positive bag labels to construct a global constraint and a local constraint on the pseudo labels to prevent them from degenerating and force the classifier to learn hard positive instances. It is worth noting that easy positive instances are instances are far from the decision boundary in the classification process, while hard positive instances are those close to the decision boundary. Through iterative optimization, the pseudo labels can gradually approach the true labels. Extensive experiments on two MNIST synthetic datasets, five traditional MIL benchmark datasets and two histopathology whole slide image datasets show that our method achieved new SOTA performance on all of them. The code will be publicly available. | 翻訳日:2024-08-12 16:58:32 公開日:2024-08-09 |
# アルツハイマーの介入改善に向けて-MEGとMRIパイプラインを組み合わせたバイオマーカー検出のための機械学習アプローチ
Towards improving Alzheimer's intervention: a machine learning approach for biomarker detection through combining MEG and MRI pipelines ( http://arxiv.org/abs/2408.04815v1 ) ライセンス: Link先を確認 | Alwani Liyana Ahmad, Jose Sanchez-Bornot, Roberto C. Sotero, Damien Coyle, Zamzuri Idris, Ibrahima Faye, | (参考訳) MEGは、時間分解能と空間分解能に優れた非侵襲的な神経イメージング技術であり、認知症やアルツハイマー病の脳機能研究に不可欠である。
彼らは、前頭葉期と前頭葉期を含む様々なアルツハイマー期における脳活動の変化を同定する。
MEGは臨床症状の前に病理学的変化を検出し、介入のためのバイオマーカーを提供する。
本研究は,BioFIND研究から健常者および軽度認知障害患者を識別するためのMEG特徴を用いた分類手法について検討した。
我々はMEGベースのバイオマーカーとMRIベースの解剖学的特徴を比較した。
324名のBioFIND参加者(MCI158名,HC166名)のTesla MRIおよびMEGデータを使用した。
分析はMATLABとSPM12、OSLツールボックスを用いて行われた。
10倍のクロスバリデーションを持つ100個のモンテカルロレプリケーションを含む機械学習解析を,センサおよびソース空間で行った。
LCMVをベースとしたMEGを用いたGLMNETでは、MRIとMEGの機能を組み合わせることで、0.76の精度とAUCが0.82である。
LCMV と eLORETA を用いた MEG 解析も良好に行われ、非補正 MEG と z-スコア補正 MRI の併用が最適であることが示唆された。
MEG are non invasive neuroimaging techniques with excellent temporal and spatial resolution, crucial for studying brain function in dementia and Alzheimer Disease. They identify changes in brain activity at various Alzheimer stages, including preclinical and prodromal phases. MEG may detect pathological changes before clinical symptoms, offering potential biomarkers for intervention. This study evaluates classification techniques using MEG features to distinguish between healthy controls and mild cognitive impairment participants from the BioFIND study. We compare MEG based biomarkers with MRI based anatomical features, both independently and combined. We used 3 Tesla MRI and MEG data from 324 BioFIND participants;158 MCI and 166 HC. Analyses were performed using MATLAB with SPM12 and OSL toolboxes. Machine learning analyses, including 100 Monte Carlo replications of 10 fold cross validation, were conducted on sensor and source spaces. Combining MRI with MEG features achieved the best performance; 0.76 accuracy and AUC of 0.82 for GLMNET using LCMV source based MEG. MEG only analyses using LCMV and eLORETA also performed well, suggesting that combining uncorrected MEG with z-score-corrected MRI features is optimal. | 翻訳日:2024-08-12 16:58:32 公開日:2024-08-09 |
# FUSE-ing言語モデル: トケナイザ間のプロンプト最適化のためのゼロショットアダプタディスカバリ
FUSE-ing Language Models: Zero-Shot Adapter Discovery for Prompt Optimization Across Tokenizers ( http://arxiv.org/abs/2408.04816v1 ) ライセンス: Link先を確認 | Joshua Nathaniel Williams, J. Zico Kolter, | (参考訳) 大規模言語モデルの普及により、多くのトークン化器や埋め込みスペースが生まれ、発見タスクの迅速な知識伝達が困難になっている。
本研究では,FUSE(Flexible Unification of Semantic Embeddings)を提案する。FUSE(Flexible Unification of Semantic Embeddings,フレキシブル・ユニフィケーション・オブ・セマンティック・エンベディング)は,あるモデルのテキスト埋め込み空間から別のモデルへのマッピングを行うアダプタ層を,異なるトークン化器にわたって,安価に近似する手法である。
本稿では,モデルの埋め込み空間を3階テンソルベースで表現し,異なるトークン化器によって分割されたセマンティックな埋め込みを整列させ,この表現を用いてモデルの出力の勾配を他のモデルの埋め込み空間に対して近似する。
画像キャプションと感情に基づく画像キャプションのための視覚言語モデルと因果言語モデルに対する多目的最適化によるアプローチの有効性を示す。
The widespread use of large language models has resulted in a multitude of tokenizers and embedding spaces, making knowledge transfer in prompt discovery tasks difficult. In this work, we propose FUSE (Flexible Unification of Semantic Embeddings), an inexpensive approach to approximating an adapter layer that maps from one model's textual embedding space to another, even across different tokenizers. We introduce a third-order tensor-based representation of a model's embedding space that aligns semantic embeddings that have been split apart by different tokenizers, and use this representation to derive an approximation of the gradient of one model's outputs with respect to another model's embedding space. We show the efficacy of our approach via multi-objective optimization over vision-language and causal language models for image captioning and sentiment-based image captioning. | 翻訳日:2024-08-12 16:58:32 公開日:2024-08-09 |
# 離散重みレベルを有する複数の異常スコア分布に対する性能指標
Performance Metric for Multiple Anomaly Score Distributions with Discrete Severity Levels ( http://arxiv.org/abs/2408.04817v1 ) ライセンス: Link先を確認 | Wonjun Yi, Yong-Hwa Park, Wonho Jung, | (参考訳) スマートファクトリの興隆により、自動メンテナンスの需要が高まり、異常データが不足している環境では、通常データに基づく異常検出が特に有効であることが証明された。
この方法では、トレーニング中に異常データを必要としないため、研究者は異常を検出するだけでなく、異常スコアを用いて重症度を分類することに注力している。
しかしながら、受信機動作特性曲線(AUROC)の下の領域のような既存の性能指標は、異常スコアに基づいて重度レベルを分類する際のモデルの性能を効果的に反映していない。
この制限に対処するために、AUROCと重度差のペナルティを組み合わせた受信機動作特性曲線(WS-AUROC)に基づく領域の重み付け和を提案する。
本研究は,重度の差にかかわらず均一な刑罰,重度の差に基づく刑罰,異常の原因となる実際の身体量に基づく刑罰など,様々なペナルティ付与法を用いて様々な実験を行った。
後者の方法は最も敏感であった。
さらに,分布の明確な分離を実現し,WS-AUROC および AUROC 測定値のアブレーションモデルより優れる異常検出器を提案する。
The rise of smart factories has heightened the demand for automated maintenance, and normal-data-based anomaly detection has proved particularly effective in environments where anomaly data are scarce. This method, which does not require anomaly data during training, has prompted researchers to focus not only on detecting anomalies but also on classifying severity levels by using anomaly scores. However, the existing performance metrics, such as the area under the receiver operating characteristic curve (AUROC), do not effectively reflect the performance of models in classifying severity levels based on anomaly scores. To address this limitation, we propose the weighted sum of the area under the receiver operating characteristic curve (WS-AUROC), which combines AUROC with a penalty for severity level differences. We conducted various experiments using different penalty assignment methods: uniform penalty regardless of severity level differences, penalty based on severity level index differences, and penalty based on actual physical quantities that cause anomalies. The latter method was the most sensitive. Additionally, we propose an anomaly detector that achieves clear separation of distributions and outperforms the ablation models on the WS-AUROC and AUROC metrics. | 翻訳日:2024-08-12 16:48:31 公開日:2024-08-09 |
# 開不均一$XX$-スピン鎖の非平衡定常状態の電流
Currents in non-equilibrium steady states of open inhomogeneous $XX$-spin chains ( http://arxiv.org/abs/2408.04818v1 ) ライセンス: Link先を確認 | Pierre-Antoine Bernard, Ismaël Bussière, Roberto Floreanini, Luc Vinet, | (参考訳) 不均一な$XX$-スピン鎖の非平衡定常状態におけるスピンおよび熱電流について検討した。
単粒子ハミルトニアンを対角化する特殊関数を用いて、これらの電流に対して閉形式表現を導出する。
浴槽間の温度差を小さくするために、鎖のミラー対称性を破る不均一性は熱伝導率とスピン伝導率の両方を著しく減少させることを示した。
完全状態移動との接続について論じる。
We investigate spin and heat currents in the non-equilibrium steady state of inhomogeneous $XX$-spin chains, which act as interfaces between two bosonic heat baths. Using special functions that diagonalize the single-particle Hamiltonian, we derive closed-form expressions for these currents. For small temperature differences between the baths, we show that inhomogeneities breaking the mirror symmetry of the chain significantly reduce both heat and spin conductivities. Connections with perfect state transfer are discussed. | 翻訳日:2024-08-12 16:48:31 公開日:2024-08-09 |
# 収束性と最適性保証を有する図形モデルによるインターベンショナル因果構造発見
Interventional Causal Structure Discovery over Graphical Models with Convergence and Optimality Guarantees ( http://arxiv.org/abs/2408.04819v1 ) ライセンス: Link先を確認 | Qiu Chengbo, Yang Kai, | (参考訳) サンプルデータから因果構造を学ぶことは、医療、機械学習、人工知能など、さまざまな分野の応用における根本的な問題である。
従来の手法は主に観測データに依存するが、観測データのみを持つ因果構造の識別性には限界がある。
一方、干渉データは、共起変数の影響を壊すことによって因果関係を確立するのに役立ちます。
因果構造学習において観察的データと介入的データの両方をシームレスに統合する数学的枠組みの開発は、現在なお検討中である。
さらに、既存の研究は中央集権的なアプローチに重点を置いており、データセット全体を単一のサーバに転送する必要があるため、通信オーバーヘッドが大きくなり、プライバシへのリスクが高まる。
これらの課題に対処するため,両レベル多項式最適化(Bloom)フレームワークを開発した。
ブルームは、介入データと観測データの両方から因果構造を発見するための理論的な支援によって支えられている強力な数学的モデリングフレームワークを提供するだけでなく、収束性と最適性を保証する効率的な因果構造探索アルゴリズムを意図している。
さらにBloomを分散環境に拡張し、通信オーバーヘッドを低減し、データのプライバシリスクを軽減する。
合成と実世界の両方のデータセットの実験を通して、ブルームは他の主要な学習アルゴリズムを著しく上回っている。
Learning causal structure from sampled data is a fundamental problem with applications in various fields, including healthcare, machine learning and artificial intelligence. Traditional methods predominantly rely on observational data, but there exist limits regarding the identifiability of causal structures with only observational data. Interventional data, on the other hand, helps establish a cause-and-effect relationship by breaking the influence of confounding variables. It remains to date under-explored to develop a mathematical framework that seamlessly integrates both observational and interventional data in causal structure learning. Furthermore, existing studies often focus on centralized approaches, necessitating the transfer of entire datasets to a single server, which lead to considerable communication overhead and heightened risks to privacy. To tackle these challenges, we develop a bilevel polynomial optimization (Bloom) framework. Bloom not only provides a powerful mathematical modeling framework, underpinned by theoretical support, for causal structure discovery from both interventional and observational data, but also aspires to an efficient causal discovery algorithm with convergence and optimality guarantees. We further extend Bloom to a distributed setting to reduce the communication overhead and mitigate data privacy risks. It is seen through experiments on both synthetic and real-world datasets that Bloom markedly surpasses other leading learning algorithms. | 翻訳日:2024-08-12 16:48:31 公開日:2024-08-09 |
# コードのための自然言語の概要:LLM時代のリテラトプログラミング
Natural Language Outlines for Code: Literate Programming in the LLM Era ( http://arxiv.org/abs/2408.04820v1 ) ライセンス: Link先を確認 | Kensen Shi, Deniz Altınbüken, Saswat Anand, Mihai Christodorescu, Katja Grünwedel, Alexa Koenings, Sai Naidu, Anurag Pathak, Marc Rasi, Fredde Ribeiro, Brandon Ruffin, Siddhant Sanyam, Maxim Tabachnyk, Sara Toth, Roy Tu, Tobias Welp, Pengcheng Yin, Manzil Zaheer, Satish Chandra, Charles Sutton, | (参考訳) ソフトウェア開発プロセス全体を通して、開発者にAI支援を提供するために、自然言語のアウトラインを新しいモダリティとインタラクションサーフェスとして使用することを提案する。
コード関数のNLアウトラインは、簡潔な散文で書かれた複数のステートメントを含み、コードを分割し、その主要なアイデアをリテラトプログラミングのスタイルで要約する。
重要なことに、現代のLLMは、実際、正確で高品質なNLアウトラインを生成することができる。
さらに、NLアウトラインはコードとNL間の双方向同期を可能にし、一方の変更をもう一方に自動的に反映できるようにする。
コードとdiffの理解とナビゲーションを高速化し、コードのメンテナンスを簡素化し、コード検索を強化し、コード生成をステア化できる。
次に、複数のLCMプロンプト技術を提案して比較し、プロの開発者にアウトライン品質の判断を依頼する。
最後に,NLの概要をコードレビューに適用した2つのケーススタディと,マルウェア検出の難しさについて述べる。
We propose using natural language outlines as a novel modality and interaction surface for providing AI assistance to developers throughout the software development process. An NL outline for a code function comprises multiple statements written in concise prose, which partition the code and summarize its main ideas in the style of literate programming. Crucially, we find that modern LLMs can generate accurate and high-quality NL outlines in practice. Moreover, NL outlines enable a bidirectional sync between code and NL, allowing changes in one to be automatically reflected in the other. We discuss many use cases for NL outlines: they can accelerate understanding and navigation of code and diffs, simplify code maintenance, augment code search, steer code generation, and more. We then propose and compare multiple LLM prompting techniques for generating outlines and ask professional developers to judge outline quality. Finally, we present two case studies applying NL outlines toward code review and the difficult task of malware detection. | 翻訳日:2024-08-12 16:48:31 公開日:2024-08-09 |
# ハブ型スワムの性能予測
Performance Prediction of Hub-Based Swarms ( http://arxiv.org/abs/2408.04822v1 ) ライセンス: Link先を確認 | Puneet Jain, Chaitanya Dwivedi, Vigynesh Bhatt, Nick Smith, Michael A Goodrich, | (参考訳) ハブベースのコロニーは、ハブと呼ばれる共通の巣の場所を共有する複数のエージェントで構成されている。
エージェントは、食物の採餌や将来の営巣場所に関する情報収集など、ハブから離れたタスクを実行する。
ハブベースのコロニーのモデリングは、エージェントの数が増えるにつれて、集合状態空間のサイズが急速に大きくなるため、難しい。
本稿では、グラフベースのエンコーダと組み合わせて、Nのベスト・オブ・Nのコロニー問題に対して多くのエージェントにスケール可能な、集合状態の低次元表現を生成する。
低次元埋め込みの情報を2つの実験でどのように利用できるかを実証する。
まず,テンソル内の情報が集合状態のクラスタリングにどのように使用できるか,非常に小さな問題に対して最適な場所を選択する確率で示す。
第2に,グラフエンコーダを用いた低次元埋め込み学習において,構造化された集合軌道がどのように現れるかを示す。
A hub-based colony consists of multiple agents who share a common nest site called the hub. Agents perform tasks away from the hub like foraging for food or gathering information about future nest sites. Modeling hub-based colonies is challenging because the size of the collective state space grows rapidly as the number of agents grows. This paper presents a graph-based representation of the colony that can be combined with graph-based encoders to create low-dimensional representations of collective state that can scale to many agents for a best-of-N colony problem. We demonstrate how the information in the low-dimensional embedding can be used with two experiments. First, we show how the information in the tensor can be used to cluster collective states by the probability of choosing the best site for a very small problem. Second, we show how structured collective trajectories emerge when a graph encoder is used to learn the low-dimensional embedding, and these trajectories have information that can be used to predict swarm performance. | 翻訳日:2024-08-12 16:48:31 公開日:2024-08-09 |
# 1ショットは連続赤外小ターゲットセグメンテーションに十分である
One Shot is Enough for Sequential Infrared Small Target Segmentation ( http://arxiv.org/abs/2408.04823v1 ) ライセンス: Link先を確認 | Bingbing Dan, Meihui Li, Tao Tang, Jing Zhang, | (参考訳) 赤外小ターゲットシーケンスはフレーム間に強い類似性を示し、リッチなコンテキスト情報を含んでいるため、最小限のデータで順次赤外小ターゲットセグメンテーションを実現する動機となる。
本研究では,Segment Anything Model (SAM) による様々な下流タスクにおける大規模セグメンテーションモデルの成功に着想を得て,SAM のゼロショット一般化能力を逐次赤外小ターゲットセグメンテーションに完全に適応させるワンショット・トレーニングフリーな手法を提案する。
1つの注釈付きフレームが参照として与えられると、この手法はシーケンスの他のフレームに小さなターゲットを正確に分割することができる。
具体的には、まず、参照画像とテスト画像の局所的特徴マッチングを通して信頼マップを得る。
次に、信頼度マップの最高点はプロンプトであり、ぼやけた境界を持つ小さなターゲットの過剰なセグメンテーションに対応するために、PPCF (Point Prompt-Centric Focusing) モジュールを設計する。
その後、誤りや誤検出を防止するため、最初の2段階から異なるレベルで得られたマスクをアンサンブルして最終マスクを生成するTLE(Triple-Level Ensemble)モジュールを導入する。
実験により,従来の多ショット監視に基づく最先端の手法と同等の性能を得るためには,1ショットしか必要とせず,数ショット設定でも優れた性能が得られることがわかった。
さらに、アブレーション研究により、単発サンプルの変動に対する我々のアプローチの堅牢性、シーンの変化、および複数のターゲットの存在が確認された。
Infrared small target sequences exhibit strong similarities between frames and contain rich contextual information, which motivates us to achieve sequential infrared small target segmentation with minimal data. Inspired by the success of large segmentation models led by Segment Anything Model (SAM) across various downstream tasks, we propose a one-shot and training-free method that perfectly adapts SAM's zero-shot generalization capabilities to sequential infrared small target segmentation. Given one annotated frame as a reference, our method can accurately segment small targets in other frames of the sequence. Specifically, we first obtain a confidence map through local feature matching between reference image and test image. Then, the highest point in the confidence map is as a prompt, and we design the Point Prompt-Centric Focusing (PPCF) module to address the over-segmentation of small targets with blurry boundaries. Subsequently, to prevent miss and false detections, we introduce the Triple-Level Ensemble (TLE) module that ensembles the masks obtained at different levels from the first two steps to produce the final mask. Experiments demonstrate that our method requires only one shot to achieve comparable performance to state-of-the-art methods based on traditional many-shot supervision and even superior performance in a few-shot setting. Moreover, ablation studies confirm the robustness of our approach to variations in one-shot samples, changes in scenes, and the presence of multiple targets. | 翻訳日:2024-08-12 16:48:31 公開日:2024-08-09 |
# Geo-UNet : 血管内超音波における臨床用グルーメン切開のための幾何学的拘束型ニューラルネットワークフレームワーク
Geo-UNet: A Geometrically Constrained Neural Framework for Clinical-Grade Lumen Segmentation in Intravascular Ultrasound ( http://arxiv.org/abs/2408.04826v1 ) ライセンス: Link先を確認 | Yiming Chen, Niharika S. D'Souza, Akshith Mandepally, Patrick Henninger, Satyananda Kashyap, Neerav Karani, Neel Dey, Marcos Zachary, Raed Rizq, Paul Chouinard, Polina Golland, Tanveer F. Syeda-Mahmood, | (参考訳) 深部静脈血栓症(DVT)に対する介入ステントの縮小には,血管内超音波(IVUS)における路面境界の正確な推定が必要である。
残念ながら、UNetのような現在のセグメンテーションネットワークは、IVUSワークフローにおける臨床応用に必要な精度を欠いている。
これは、IVUS画像の放射形状を考慮に入れながら、限られた訓練データから正確な路面輪郭を自動的に学習することの難しさから生じる。
そこで本稿では,ジオUNet フレームワークを提案し,これらの問題にルーメン輪郭分節タスクの幾何学的特徴を生かした設計手法を提案する。
まず、入力データとセグメンテーションターゲットをカルテシアンから極座標に変換する。
convUNet特徴抽出器から、従来のピクセルワイドラベリングのための2タスク構成と、単一境界ルーメン-輪郭ローカライゼーションのための2タスク構成を提案する。
予測ルーメン輪郭を新しいアクティベーション(CDFeLU)に通すことで、この2つの予測を直接組み合わせて、鮮明なピクセルワイズ予測をフィルタリングする。
我々の統合的損失関数は、エリアベース、距離ベース、および輪郭ベースの罰則を慎重にバランスさせ、不明な患者データにおいて、ほぼ臨床グレードの一般化を提供する。
また,セグメンテーションの平滑性を高める軽量な推論時間手法も導入した。
静脈性IVUSデータセットに対する我々のフレームワークの有効性を,最先端モデルに対して示す。
Precisely estimating lumen boundaries in intravascular ultrasound (IVUS) is needed for sizing interventional stents to treat deep vein thrombosis (DVT). Unfortunately, current segmentation networks like the UNet lack the precision needed for clinical adoption in IVUS workflows. This arises due to the difficulty of automatically learning accurate lumen contour from limited training data while accounting for the radial geometry of IVUS imaging. We propose the Geo-UNet framework to address these issues via a design informed by the geometry of the lumen contour segmentation task. We first convert the input data and segmentation targets from Cartesian to polar coordinates. Starting from a convUNet feature extractor, we propose a two-task setup, one for conventional pixel-wise labeling and the other for single boundary lumen-contour localization. We directly combine the two predictions by passing the predicted lumen contour through a new activation (named CDFeLU) to filter out spurious pixel-wise predictions. Our unified loss function carefully balances area-based, distance-based, and contour-based penalties to provide near clinical-grade generalization in unseen patient data. We also introduce a lightweight, inference-time technique to enhance segmentation smoothness. The efficacy of our framework on a venous IVUS dataset is shown against state-of-the-art models. | 翻訳日:2024-08-12 16:48:31 公開日:2024-08-09 |
# Sparse-view 3Dリコンストラクションのための構造対応マスクを用いた自己拡張型ガウススプラッティング
Self-augmented Gaussian Splatting with Structure-aware Masks for Sparse-view 3D Reconstruction ( http://arxiv.org/abs/2408.04831v1 ) ライセンス: Link先を確認 | Lingbei Meng, Bi'an Du, Wei Hu, | (参考訳) スパースビュー3D再構成は、限られた視点から完全な3次元モデルを構築することを目的として、コンピュータビジョンにおいて非常に難しい課題である。
この課題はいくつかの困難に直面します。
1) 一貫した情報を持たない入力画像の限られた数
2)入力画像の品質への依存,及び
3)モデルパラメータのかなりのサイズ。
これらの課題に対処するために、スパースビュー3次元再構成のための構造認識マスクにより強化された自己拡張された粗大なガウススプラッティングパラダイムを提案する。
特に,本手法ではまず粗いガウスモデルを用いて,スパースビュー入力から基本的な3次元表現を得る。
続いて,3次元幾何学的拡張と知覚的視点的拡張の両面から,出力の一貫性と詳細な表現を強化するための微細ガウスネットワークを開発した。
MipNeRF360 と OmniObject3D データセットを用いた実験結果から,提案手法が知覚的品質と効率の両方でスパース入力ビューの最先端性能を達成することを示す。
Sparse-view 3D reconstruction stands as a formidable challenge in computer vision, aiming to build complete three-dimensional models from a limited array of viewing perspectives. This task confronts several difficulties: 1) the limited number of input images that lack consistent information; 2) dependence on the quality of input images; and 3) the substantial size of model parameters. To address these challenges, we propose a self-augmented coarse-to-fine Gaussian splatting paradigm, enhanced with a structure-aware mask, for sparse-view 3D reconstruction. In particular, our method initially employs a coarse Gaussian model to obtain a basic 3D representation from sparse-view inputs. Subsequently, we develop a fine Gaussian network to enhance consistent and detailed representation of the output with both 3D geometry augmentation and perceptual view augmentation. During training, we design a structure-aware masking strategy to further improve the model's robustness against sparse inputs and noise.Experimental results on the MipNeRF360 and OmniObject3D datasets demonstrate that the proposed method achieves state-of-the-art performances for sparse input views in both perceptual quality and efficiency. | 翻訳日:2024-08-12 16:48:31 公開日:2024-08-09 |
# 推薦のためのグラフコントラスト学習の強化によるデュアルチャネル潜時因子分析
Dual-Channel Latent Factor Analysis Enhanced Graph Contrastive Learning for Recommendation ( http://arxiv.org/abs/2408.04838v1 ) ライセンス: Link先を確認 | Junfeng Long, Hao Wu, | (参考訳) グラフニューラルネットワーク(GNN)は、複雑なユーザとイテムのインタラクションを扱う堅牢性のため、リコメンデータシステムのための強力な学習方法である。
近年,GNNとのコントラスト学習の統合は,高度にスパースなユーザ・イテムインタラクションデータを扱うために,レコメンデータシステムにおいて顕著な性能を発揮している。
しかし、利用可能なグラフコントラッシブ・ラーニング(GCL)技術では、確率的拡張、すなわち、ノードやエッジは、コントラシブ・ビューを構築するために、ユーザ・イット・バイパート・グラフ上でランダムに摂動される。
このような確率的拡張戦略は、ノイズ摂動をもたらすだけでなく、グローバルな協調信号の有効利用もできない。
そこで本研究では,LFA-GCLと呼ばれる潜在因子分析(LFA)拡張GCLアプローチを提案する。
本モデルでは,制約のない構造改善を実現するためにLFAのみを組み込んでおり,ノイズ信号を導入することなく,より正確なグローバルな協調グラフを得ることができる。
4つの公開データセットの実験では、提案されたLFA-GCLが最先端のモデルより優れていることが示されている。
Graph Neural Networks (GNNs) are powerful learning methods for recommender systems owing to their robustness in handling complicated user-item interactions. Recently, the integration of contrastive learning with GNNs has demonstrated remarkable performance in recommender systems to handle the issue of highly sparse user-item interaction data. Yet, some available graph contrastive learning (GCL) techniques employ stochastic augmentation, i.e., nodes or edges are randomly perturbed on the user-item bipartite graph to construct contrastive views. Such a stochastic augmentation strategy not only brings noise perturbation but also cannot utilize global collaborative signals effectively. To address it, this study proposes a latent factor analysis (LFA) enhanced GCL approach, named LFA-GCL. Our model exclusively incorporates LFA to implement the unconstrained structural refinement, thereby obtaining an augmented global collaborative graph accurately without introducing noise signals. Experiments on four public datasets show that the proposed LFA-GCL outperforms the state-of-the-art models. | 翻訳日:2024-08-12 16:48:31 公開日:2024-08-09 |
# 拡散モデルによる逆ロバスト産業異常検出
Adversarially Robust Industrial Anomaly Detection Through Diffusion Model ( http://arxiv.org/abs/2408.04839v1 ) ライセンス: Link先を確認 | Yuanpu Cao, Lu Lin, Jinghui Chen, | (参考訳) ディープラーニングに基づく産業異常検出モデルは、よく使われるベンチマークデータセットにおいて驚くほど高い精度を実現している。
しかし、これらのモデルのロバスト性は、敵対的な例が存在するために満足できない可能性があり、これは深層検知器の実用的展開に重大な脅威をもたらす。
近年,拡散モデルを用いて敵の雑音を浄化し,敵の攻撃に対して頑健な分類器を構築することが示されている。
不運なことに、この戦略を異常検出(すなわち、異常検出器の前に浄化器を配置する)に適用することは、異常信号と逆方向の摂動の両方を容易に除去できるため、異常検出のミス率が高いことが判明し、後続の異常検出器は異常検出に失敗した。
この問題に対処するために,異常検出と対向浄化を同時に行う可能性を検討する。
本稿では, 拡散モデルを用いて, 逆解析器と逆解析器の両方を動作させることができる, 単純かつ効果的な逆解析法である \textit{AdvRAD} を提案する。
また、証明されたロバスト性のための提案手法を、標準束縛摂動に対して$l_2$に拡張する。
実験により,本手法は,産業用異常検出ベンチマークデータセットと同等に強力な異常検出性能を保ちながら,優れた(認証された)対向性を示すことを示す。
Deep learning-based industrial anomaly detection models have achieved remarkably high accuracy on commonly used benchmark datasets. However, the robustness of those models may not be satisfactory due to the existence of adversarial examples, which pose significant threats to the practical deployment of deep anomaly detectors. Recently, it has been shown that diffusion models can be used to purify the adversarial noises and thus build a robust classifier against adversarial attacks. Unfortunately, we found that naively applying this strategy in anomaly detection (i.e., placing a purifier before an anomaly detector) will suffer from a high anomaly miss rate since the purifying process can easily remove both the anomaly signal and the adversarial perturbations, causing the later anomaly detector failed to detect anomalies. To tackle this issue, we explore the possibility of performing anomaly detection and adversarial purification simultaneously. We propose a simple yet effective adversarially robust anomaly detection method, \textit{AdvRAD}, that allows the diffusion model to act both as an anomaly detector and adversarial purifier. We also extend our proposed method for certified robustness to $l_2$ norm bounded perturbations. Through extensive experiments, we show that our proposed method exhibits outstanding (certified) adversarial robustness while also maintaining equally strong anomaly detection performance on par with the state-of-the-art methods on industrial anomaly detection benchmark datasets. | 翻訳日:2024-08-12 16:48:31 公開日:2024-08-09 |
# mPLUG-Owl3:マルチモーダル大言語モデルにおける長い画像系列理解を目指して
mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models ( http://arxiv.org/abs/2408.04840v1 ) ライセンス: Link先を確認 | Jiabo Ye, Haiyang Xu, Haowei Liu, Anwen Hu, Ming Yan, Qi Qian, Ji Zhang, Fei Huang, Jingren Zhou, | (参考訳) MLLM(Multi-modal Large Language Models)は、様々な単一画像タスクの命令を実行する際、顕著な機能を示す。
この進歩にもかかわらず、長い画像列のモデリングには大きな課題が残っている。
本研究では、検索した画像テキスト知識、インターリーブされた画像テキスト、長大なビデオを含むシナリオにおいて、長い画像系列理解能力を高める多機能なマルチモーダル大言語モデルであるmPLUG-Owl3を導入する。
具体的には,視覚と言語を共通言語指導型セマンティック空間に効率的に統合し,拡張されたマルチイメージシナリオの処理を容易にする,新しいハイパーアテンションブロックを提案する。
大規模な実験結果から,mPLUG-Owl3はシングルイメージ,マルチイメージ,ビデオベンチマークに類似した大きさのモデル間で,最先端の性能を実現することが示唆された。
さらに,トラクタ抵抗 (Distractor resistance) という長めの視覚的シーケンス評価手法を提案する。
最後に、提案したアーキテクチャにより、mPLUG-Owl3は超長めの視覚的シーケンス入力において優れた性能を示す。
我々は、mPLUG-Owl3がより効率的で強力なマルチモーダルな大規模言語モデルの開発に寄与することを期待している。
Multi-modal Large Language Models (MLLMs) have demonstrated remarkable capabilities in executing instructions for a variety of single-image tasks. Despite this progress, significant challenges remain in modeling long image sequences. In this work, we introduce the versatile multi-modal large language model, mPLUG-Owl3, which enhances the capability for long image-sequence understanding in scenarios that incorporate retrieved image-text knowledge, interleaved image-text, and lengthy videos. Specifically, we propose novel hyper attention blocks to efficiently integrate vision and language into a common language-guided semantic space, thereby facilitating the processing of extended multi-image scenarios. Extensive experimental results suggest that mPLUG-Owl3 achieves state-of-the-art performance among models with a similar size on single-image, multi-image, and video benchmarks. Moreover, we propose a challenging long visual sequence evaluation named Distractor Resistance to assess the ability of models to maintain focus amidst distractions. Finally, with the proposed architecture, mPLUG-Owl3 demonstrates outstanding performance on ultra-long visual sequence inputs. We hope that mPLUG-Owl3 can contribute to the development of more efficient and powerful multimodal large language models. | 翻訳日:2024-08-12 16:48:31 公開日:2024-08-09 |
# オンライン強化学習のためのKolmogorov-Arnoldネットワーク
Kolmogorov-Arnold Network for Online Reinforcement Learning ( http://arxiv.org/abs/2408.04841v1 ) ライセンス: Link先を確認 | Victor Augusto Kich, Jair Augusto Bottega, Raul Steinmetz, Ricardo Bedin Grando, Ayano Yorozu, Akihisa Ohya, | (参考訳) Kolmogorov-Arnold Networks (KAN) は、ニューラルネットワークにおけるマルチ層パーセプトロン(MLP)の代替としての可能性を示し、パラメータの少ない普遍関数近似とメモリ使用量の削減を実現している。
本稿では,PPOアルゴリズムにおける関数近似器としてのkanの使用について検討する。
我々は、DeepMind Control Proprio Roboticsベンチマークを用いて、その性能を元のMPPベースのPPOと比較することで、このアプローチを評価した。
以上の結果から,KAをベースとした強化学習アルゴリズムは,MLPに匹敵する性能を達成できることが示唆された。
これらの結果から,kansは強化学習モデルに対して,より効率的な選択肢を提供する可能性が示唆された。
Kolmogorov-Arnold Networks (KANs) have shown potential as an alternative to Multi-Layer Perceptrons (MLPs) in neural networks, providing universal function approximation with fewer parameters and reduced memory usage. In this paper, we explore the use of KANs as function approximators within the Proximal Policy Optimization (PPO) algorithm. We evaluate this approach by comparing its performance to the original MLP-based PPO using the DeepMind Control Proprio Robotics benchmark. Our results indicate that the KAN-based reinforcement learning algorithm can achieve comparable performance to its MLP-based counterpart, often with fewer parameters. These findings suggest that KANs may offer a more efficient option for reinforcement learning models. | 翻訳日:2024-08-12 16:48:31 公開日:2024-08-09 |
# 確率的保証者によるモデル変更に対するロバスト性に関する対実的説明
Counterfactual Explanations with Probabilistic Guarantees on their Robustness to Model Change ( http://arxiv.org/abs/2408.04842v1 ) ライセンス: Link先を確認 | Ignacy Stępka, Mateusz Lango, Jerzy Stefanowski, | (参考訳) 対実的説明(CFE)は、望ましいアウトプットを達成するために、機械学習モデルへの入力の調整方法をユーザに案内する。
既存の研究は主に静的シナリオに対処するが、現実のアプリケーションは多くの場合、データやモデルの変更を伴い、以前生成されたCFEを無効にし、ユーザによって引き起こされた入力変更を非効率にレンダリングする。
この問題に対処する現在のメソッドは、しばしば特定のモデルや変更タイプのみをサポートし、広範なハイパーパラメータチューニングを必要とし、あるいはモデル変更に対してCFEの堅牢性に対する確率的保証を提供しない。
本稿では,任意のモデルと変更タイプに対して確率的保証を提供するとともに,解釈可能かつ選択容易なハイパーパラメータを提供するCFEの生成手法を提案する。
モデル変更に対するロバスト性を確率論的に定義するための理論的枠組みを確立し、BetaRCEメソッドがそれから直接由来することを示す。
BetaRCEは、選択されたベースCFE生成法と併用して、ロバスト性を超えた説明の質を高めるためのポストホック法である。
基本説明から、ユーザ調整された確率境界を持つより堅牢なものへの移行を容易にする。
ベースラインとの実験的比較により,BetaRCEは頑健で,最も可塑性で,ベースラインの反事実的説明に最も近いものとなることを示す。
Counterfactual explanations (CFEs) guide users on how to adjust inputs to machine learning models to achieve desired outputs. While existing research primarily addresses static scenarios, real-world applications often involve data or model changes, potentially invalidating previously generated CFEs and rendering user-induced input changes ineffective. Current methods addressing this issue often support only specific models or change types, require extensive hyperparameter tuning, or fail to provide probabilistic guarantees on CFE robustness to model changes. This paper proposes a novel approach for generating CFEs that provides probabilistic guarantees for any model and change type, while offering interpretable and easy-to-select hyperparameters. We establish a theoretical framework for probabilistically defining robustness to model change and demonstrate how our BetaRCE method directly stems from it. BetaRCE is a post-hoc method applied alongside a chosen base CFE generation method to enhance the quality of the explanation beyond robustness. It facilitates a transition from the base explanation to a more robust one with user-adjusted probability bounds. Through experimental comparisons with baselines, we show that BetaRCE yields robust, most plausible, and closest to baseline counterfactual explanations. | 翻訳日:2024-08-12 16:48:31 公開日:2024-08-09 |
# MDS-GNN:不完全な特徴と構造を持つグラフ上の相互デュアルストリームグラフニューラルネットワーク
MDS-GNN: A Mutual Dual-Stream Graph Neural Network on Graphs with Incomplete Features and Structure ( http://arxiv.org/abs/2408.04845v1 ) ライセンス: Link先を確認 | Peng Yuan, Peng Tang, | (参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データから表現を分析し学習するための強力なツールとして登場した。
GNNの卓越した性能にとって重要な前提条件は、完全なグラフ情報、すなわちノードの特徴とグラフ構造が利用できることである。
既存のアプローチでは、不完全な機能や不完全な構造を扱うことのみに集中しています。
この問題に対処するために,特徴と構造間の相互利益学習を実装した相互二重ストリームグラフニューラルネットワーク(MDS-GNN)を提案する。
主な考え方は以下の通りである。
a) 初期不完全グラフ構造に基づく欠落ノードの特徴の再構築
b) 再建されたノードの特徴に基づいて拡張されたグローバルグラフを生成し、このグローバルグラフ上の不完全ノードの特徴を伝播すること。
c) 対照的な学習を活用して、双方向のプロセスが相互に利益をもたらすこと。
6つの実世界のデータセットに対する大規模な実験は、提案したMDS-GNNが不完全グラフに与える影響を実証している。
Graph Neural Networks (GNNs) have emerged as powerful tools for analyzing and learning representations from graph-structured data. A crucial prerequisite for the outstanding performance of GNNs is the availability of complete graph information, i.e., node features and graph structure, which is frequently unmet in real-world scenarios since graphs are often incomplete due to various uncontrollable factors. Existing approaches only focus on dealing with either incomplete features or incomplete structure, which leads to performance loss inevitably. To address this issue, this study proposes a mutual dual-stream graph neural network (MDS-GNN), which implements a mutual benefit learning between features and structure. Its main ideas are as follows: a) reconstructing the missing node features based on the initial incomplete graph structure; b) generating an augmented global graph based on the reconstructed node features, and propagating the incomplete node features on this global graph; and c) utilizing contrastive learning to make the dual-stream process mutually benefit from each other. Extensive experiments on six real-world datasets demonstrate the effectiveness of our proposed MDS-GNN on incomplete graphs. | 翻訳日:2024-08-12 16:48:31 公開日:2024-08-09 |
# UGrid: 線形PDEのための効率的かつリゴラスなニューラルマルチグリッドソルバー
UGrid: An Efficient-And-Rigorous Neural Multigrid Solver for Linear PDEs ( http://arxiv.org/abs/2408.04846v1 ) ライセンス: Link先を確認 | Xi Han, Fei Hou, Hong Qin, | (参考訳) 偏微分方程式(PDE)の数値解法は、科学や工学において基本的な意味を持つ。
これまで、レガシー技術への歴史的依存は、ビッグデータの知識の統合を回避し、特定のPDE定式化のための準最適効率を示す一方で、データ駆動型ニューラルネットワークは、収束と正しさの数学的保証を欠いていた。
本稿では,線形PDEに対する数学的に厳密なニューラルソルバについて述べる。
U-NetとMultiGridの原理的な統合に基づいて構築されたUGridソルバは、収束性と正確性の両方の数学的に厳密な証明を示し、様々な入力幾何学/値と複数のPDE定式化への強力な一般化力を示す。
さらに、教師なしのトレーニングを可能にし、レガシの損失に対してさらなる安定性と解空間を確保できる新たな残留損失指標を考案する。
Numerical solvers of Partial Differential Equations (PDEs) are of fundamental significance to science and engineering. To date, the historical reliance on legacy techniques has circumscribed possible integration of big data knowledge and exhibits sub-optimal efficiency for certain PDE formulations, while data-driven neural methods typically lack mathematical guarantee of convergence and correctness. This paper articulates a mathematically rigorous neural solver for linear PDEs. The proposed UGrid solver, built upon the principled integration of U-Net and MultiGrid, manifests a mathematically rigorous proof of both convergence and correctness, and showcases high numerical accuracy, as well as strong generalization power to various input geometry/values and multiple PDE formulations. In addition, we devise a new residual loss metric, which enables unsupervised training and affords more stability and a larger solution space over the legacy losses. | 翻訳日:2024-08-12 16:48:31 公開日:2024-08-09 |
# データによるトポロジ的特徴の学習パイプラインとタンパク質安定性予測への応用
A Pipeline for Data-Driven Learning of Topological Features with Applications to Protein Stability Prediction ( http://arxiv.org/abs/2408.04847v1 ) ライセンス: Link先を確認 | Amish Mishra, Francis Motta, | (参考訳) 本稿では, 生体分子データの解釈可能なトポロジカルな特徴を学習し, 合成ミニタンパク質の安定性を予測するために, トポロジカルな特徴を訓練したパロジカルモデルの有効性を示す。
本研究では, 自動学習型構造特徴を利用したモデルと, 対象物質の専門家 (SME) によって決定された大規模生物物理学的特徴に基づいて訓練されたモデルとを比較した。
本モデルでは,タンパク質構造のトポロジ的特徴のみに基づいて,SMEモデルの性能の92%~99%を平均精度スコアで達成した。
モデル性能と特徴重要度を問うことで、トポロジ的特徴と中小企業的特徴との間に高い相関関係を明らかにする多くの知見を抽出する。
さらに, トポロジ的特徴と中小企業的特徴を組み合わせることで, 単独で使用する特徴集合よりもモデル性能が向上し, トポロジ的特徴が, タンパク質安定性予測に有用な既存の中小企業的特徴に捕えられていない新たな識別情報を提供する可能性が示唆された。
In this paper, we propose a data-driven method to learn interpretable topological features of biomolecular data and demonstrate the efficacy of parsimonious models trained on topological features in predicting the stability of synthetic mini proteins. We compare models that leverage automatically-learned structural features against models trained on a large set of biophysical features determined by subject-matter experts (SME). Our models, based only on topological features of the protein structures, achieved 92%-99% of the performance of SME-based models in terms of the average precision score. By interrogating model performance and feature importance metrics, we extract numerous insights that uncover high correlations between topological features and SME features. We further showcase how combining topological features and SME features can lead to improved model performance over either feature set used in isolation, suggesting that, in some settings, topological features may provide new discriminating information not captured in existing SME features that are useful for protein stability prediction. | 翻訳日:2024-08-12 16:38:47 公開日:2024-08-09 |
# Ensemble BERT: アンサンブル学習とBERTアーキテクチャに基づく学生用ソーシャルネットワークテキスト感情分類モデル
Ensemble BERT: A student social network text sentiment classification model based on ensemble learning and BERT architecture ( http://arxiv.org/abs/2408.04849v1 ) ライセンス: Link先を確認 | Kai Jiang, Honghao Yang, Yuexian Wang, Qianru Chen, Yiming Luo, | (参考訳) 中学生のメンタルヘルス評価は、常に教育分野の焦点の1つとなっている。
本稿では,複数の分類器を統合することでモデル性能を向上させる概念を取り入れた,BERTに基づく新しいアンサンブル学習ネットワークを提案する。
我々はBERTベースの学習者の範囲を訓練し,多数決法を併用した。
中学生のソーシャルネットワークテキストデータを中国のWeiboを通じて収集し、中学生のソーシャルネットワークテキストの感情傾向を分類する作業に適用する。
実験結果から,アンサンブル学習ネットワークはベースモデルよりも優れた性能を示し,単一層BERTモデルによるアンサンブル学習モデルの性能は3層BERTモデルとほとんど変わらないが,11.58%のトレーニング時間を必要とすることがわかった。
したがって、予測効果と効率のバランスをとる観点からは、より深いBERTネットワークが訓練に好まれるべきである。
しかし、解釈可能性のため、ネットワークアンサンブルは許容できる解決策を提供することができる。
The mental health assessment of middle school students has always been one of the focuses in the field of education. This paper introduces a new ensemble learning network based on BERT, employing the concept of enhancing model performance by integrating multiple classifiers. We trained a range of BERT-based learners, which combined using the majority voting method. We collect social network text data of middle school students through China's Weibo and apply the method to the task of classifying emotional tendencies in middle school students' social network texts. Experimental results suggest that the ensemble learning network has a better performance than the base model and the performance of the ensemble learning model, consisting of three single-layer BERT models, is barely the same as a three-layer BERT model but requires 11.58% more training time. Therefore, in terms of balancing prediction effect and efficiency, the deeper BERT network should be preferred for training. However, for interpretability, network ensembles can provide acceptable solutions. | 翻訳日:2024-08-12 16:38:47 公開日:2024-08-09 |
# 分類器は秘密裏にOOD検出器になる
Your Classifier Can Be Secretly a Likelihood-Based OOD Detector ( http://arxiv.org/abs/2408.04851v1 ) ライセンス: Link先を確認 | Jirayu Burapacheep, Yixuan Li, | (参考訳) アウト・オブ・ディストリビューション(OOD)入力を検出する能力は、オープンな環境にデプロイされた分類モデルの信頼性を保証するために重要である。
OOD検出の根本的な課題は、通常、識別的分類器は入力 z が与えられたクラス y の後方確率 p(y|z) を推定するために訓練されるが、OOD 検出に理想的に必要となる p(z) の明示的な確率推定は欠いていることである。
分類モデルには多くのOODスコア関数が提案されているが、これらの推定値はしばしばヒューリスティック駆動であり、厳密に解釈することはできない。
このギャップを埋めるために,現代の識別型分類器に厳密な解釈を提供するIntrinsic Likelihood (INK)を提案する。
特に,提案したINKスコアは,一定のノルムを持つ超球面埋め込みの混合としてモデル化された識別型分類器の制約付潜時埋め込みで動作する。
我々は、超球面分布と本質的な可能性の間に新しい接続を描き、現代のニューラルネットワークで効果的に最適化できる。
OpenOODベンチマークの広範囲にわたる実験は、INKがOOD検出の様々なセットアップにおいて新しい最先端を確立していることを実証的に証明している。
コードはhttps://github.com/deeplearning-wisc/inkで入手できる。
The ability to detect out-of-distribution (OOD) inputs is critical to guarantee the reliability of classification models deployed in an open environment. A fundamental challenge in OOD detection is that a discriminative classifier is typically trained to estimate the posterior probability p(y|z) for class y given an input z, but lacks the explicit likelihood estimation of p(z) ideally needed for OOD detection. While numerous OOD scoring functions have been proposed for classification models, these estimate scores are often heuristic-driven and cannot be rigorously interpreted as likelihood. To bridge the gap, we propose Intrinsic Likelihood (INK), which offers rigorous likelihood interpretation to modern discriminative-based classifiers. Specifically, our proposed INK score operates on the constrained latent embeddings of a discriminative classifier, which are modeled as a mixture of hyperspherical embeddings with constant norm. We draw a novel connection between the hyperspherical distribution and the intrinsic likelihood, which can be effectively optimized in modern neural networks. Extensive experiments on the OpenOOD benchmark empirically demonstrate that INK establishes a new state-of-the-art in a variety of OOD detection setups, including both far-OOD and near-OOD. Code is available at https://github.com/deeplearning-wisc/ink. | 翻訳日:2024-08-12 16:38:47 公開日:2024-08-09 |
# MSG-Chart: ChartQA用のマルチモーダルシーングラフ
MSG-Chart: Multimodal Scene Graph for ChartQA ( http://arxiv.org/abs/2408.04852v1 ) ライセンス: Link先を確認 | Yue Dai, Soyeon Caren Han, Wei Liu, | (参考訳) グラフに明示的に表示されていない基礎データのパターンを持つチャート要素の複雑な分布のため、ChartQA(Automatic Chart Question Answering)は難しい。
この課題に対処するために、チャート要素とそれらのパターンの関係を明確に表現するために、チャート用の共同マルチモーダルシーングラフを設計する。
提案するマルチモーダルシーングラフには視覚グラフとテキストグラフが含まれており,そのグラフから構造的および意味的知識を共同でキャプチャする。
このグラフモジュールは、帰納バイアスとして、異なる視覚変換器と容易に統合できる。
提案したグラフモジュールを組み込むことで,チャート要素の構造と意味の理解が向上し,公開ベンチマーク,ChartQA,OpenCQAの性能が向上することを示す。
Automatic Chart Question Answering (ChartQA) is challenging due to the complex distribution of chart elements with patterns of the underlying data not explicitly displayed in charts. To address this challenge, we design a joint multimodal scene graph for charts to explicitly represent the relationships between chart elements and their patterns. Our proposed multimodal scene graph includes a visual graph and a textual graph to jointly capture the structural and semantical knowledge from the chart. This graph module can be easily integrated with different vision transformers as inductive bias. Our experiments demonstrate that incorporating the proposed graph module enhances the understanding of charts' elements' structure and semantics, thereby improving performance on publicly available benchmarks, ChartQA and OpenCQA. | 翻訳日:2024-08-12 16:38:47 公開日:2024-08-09 |
# 凝縮拡大射影による高次元ベイズ最適化
High dimensional Bayesian Optimization via Condensing-Expansion Projection ( http://arxiv.org/abs/2408.04860v1 ) ライセンス: Link先を確認 | Jiaming Lu, Rong J. B. Zhu, | (参考訳) 高次元設定では、ベイズ最適化(BO)は高価で実現不可能である。
ランダム埋め込みベイズ最適化アルゴリズムは、高次元BO問題に対処するために一般的に用いられる。
しかし、この手法は最適化問題の目的関数に対する効果的な部分空間仮定に依存しており、適用性は制限される。
本稿では,実効的な部分空間仮定に応答しない高次元BOに対する新しいランダムなプロジェクションベースアプローチであるCondensing-Expansion Projection Bayesian Optimization (CEPBO)を紹介する。
このアプローチは実装も簡単で、非常に実践的です。
本稿では、ガウス射影行列とハッシュ射影行列という、異なるランダム射影行列に基づく2つのアルゴリズムを提案する。
実験により, 2つのアルゴリズムが既存のランダム埋め込みアルゴリズムよりも優れており, 高次元BO問題において優れた性能を発揮することが示された。
コードは \url{https://anonymous.4open.science/r/CEPBO-14429} で公開されている。
In high-dimensional settings, Bayesian optimization (BO) can be expensive and infeasible. The random embedding Bayesian optimization algorithm is commonly used to address high-dimensional BO challenges. However, this method relies on the effective subspace assumption on the optimization problem's objective function, which limits its applicability. In this paper, we introduce Condensing-Expansion Projection Bayesian optimization (CEPBO), a novel random projection-based approach for high-dimensional BO that does not reply on the effective subspace assumption. The approach is both simple to implement and highly practical. We present two algorithms based on different random projection matrices: the Gaussian projection matrix and the hashing projection matrix. Experimental results demonstrate that both algorithms outperform existing random embedding-based algorithms in most cases, achieving superior performance on high-dimensional BO problems. The code is available in \url{https://anonymous.4open.science/r/CEPBO-14429}. | 翻訳日:2024-08-12 16:38:47 公開日:2024-08-09 |
# コーディング-PTM: 脆弱性検出に埋め込まれたコードに対して、最適なコード事前学習モデルを見つけるには?
Coding-PTMs: How to Find Optimal Code Pre-trained Models for Code Embedding in Vulnerability Detection? ( http://arxiv.org/abs/2408.04863v1 ) ライセンス: Link先を確認 | Yu Zhao, Lina Gong, Zhiqiu Huang, Yongwei Wang, Mingqiang Wei, Fei Wu, | (参考訳) 脆弱性検出は、コードの脆弱性が重大なセキュリティをもたらす可能性があるため、ソフトウェアエンジニアリングにおける注目を集めている。
近年、様々なコード事前訓練モデルの再利用は、脆弱性検出において合理的な正当性を提供することなく、コード埋め込みにおいて一般的になっている。
事前訓練されたモデル(PTM)をカジュアルに利用する前提は、異なるPTMによって生成されたコード埋め込みが、パフォーマンスに同様の影響を与えることである。
それはTRUEですか?
この重要な質問に答えるために,10の異なるコード PTM が生成するコード埋め込みが脆弱性検出性能に与える影響を体系的に調査し,その答えを得る。
様々なコード PTM によって生成されたコード埋め込みが実際に性能に影響を与えることを観察し,パラメータスケールと埋め込み次元に基づく埋め込み手法の選択は信頼性に欠けることを示した。
本研究の目的は,様々なコード PTM が生成するコード埋め込みの特性を定量化し,評価することである。
この目的を達成するために、異なるPTMによって生成されたコード埋め込みの数値表現とデータ分布を分析し、相違点と特性を評価する。
これらの知見に基づいて,特定の脆弱性検出タスクに対して,エンジニアが最適なコードPTMを選択するのを支援するための推奨フレームワークであるCoding-PTMを提案する。
具体的には、特殊コードPTMレコメンデーションデータセットを構築するために、3次元(統計、規範、分布)に13のコード埋め込みメトリクスを定義します。
次に、ランダムフォレスト分類器を用いてレコメンデーションモデルを訓練し、候補モデル動物園から最適なコードPTMを特定する。
Vulnerability detection is garnering increasing attention in software engineering, since code vulnerabilities possibly pose significant security. Recently, reusing various code pre-trained models has become common for code embedding without providing reasonable justifications in vulnerability detection. The premise for casually utilizing pre-trained models (PTMs) is that the code embeddings generated by different PTMs would generate a similar impact on the performance. Is that TRUE? To answer this important question, we systematically investigate the effects of code embedding generated by ten different code PTMs on the performance of vulnerability detection, and get the answer, i.e., that is NOT true. We observe that code embedding generated by various code PTMs can indeed influence the performance and selecting an embedding technique based on parameter scales and embedding dimension is not reliable. Our findings highlight the necessity of quantifying and evaluating the characteristics of code embedding generated by various code PTMs to understand the effects. To achieve this goal, we analyze the numerical representation and data distribution of code embedding generated by different PTMs to evaluate differences and characteristics. Based on these insights, we propose Coding-PTMs, a recommendation framework to assist engineers in selecting optimal code PTMs for their specific vulnerability detection tasks. Specifically, we define thirteen code embedding metrics across three dimensions (i.e., statistics, norm, and distribution) for constructing a specialized code PTM recommendation dataset. We then employ a Random Forest classifier to train a recommendation model and identify the optimal code PTMs from the candidate model zoo. | 翻訳日:2024-08-12 16:38:47 公開日:2024-08-09 |
# 時系列予測における標準統計モデルとLCMの評価
An Evaluation of Standard Statistical Models and LLMs on Time Series Forecasting ( http://arxiv.org/abs/2408.04867v1 ) ライセンス: Link先を確認 | Rui Cao, Qiao Wang, | (参考訳) 本研究では,Large Language Models (LLMs) を用いた時系列の予測について検討し,LLMTIMEモデルに着目した。
テキスト生成や言語翻訳,感情分析といったタスクにおけるLLMの有効性が確立されているにもかかわらず,この研究は,時系列予測の文脈において,大規模言語モデルが直面する重要な課題を浮き彫りにしている。
複数のデータセットにまたがるLLMTIMEの性能を評価し、その有効性を評価するために時系列として古典的な概周期関数を導入する。
実験結果から、大規模な言語モデルは特定のデータセットのゼロショット予測において良好に機能するが、その予測精度は、多様な時系列データや従来の信号に直面すると顕著に低下することが示された。
本研究の主な発見は, LLMTIMEの予測能力が, 周期成分とトレンド成分の両方を含む時系列データを扱う場合や, 複雑な周波数成分を含む場合などにおいて著しく低下することである。
This research examines the use of Large Language Models (LLMs) in predicting time series, with a specific focus on the LLMTIME model. Despite the established effectiveness of LLMs in tasks such as text generation, language translation, and sentiment analysis, this study highlights the key challenges that large language models encounter in the context of time series prediction. We assess the performance of LLMTIME across multiple datasets and introduce classical almost periodic functions as time series to gauge its effectiveness. The empirical results indicate that while large language models can perform well in zero-shot forecasting for certain datasets, their predictive accuracy diminishes notably when confronted with diverse time series data and traditional signals. The primary finding of this study is that the predictive capacity of LLMTIME, similar to other LLMs, significantly deteriorates when dealing with time series data that contain both periodic and trend components, as well as when the signal comprises complex frequency components. | 翻訳日:2024-08-12 16:38:47 公開日:2024-08-09 |
# ChatGPTがIris Biometricsと出会う
ChatGPT Meets Iris Biometrics ( http://arxiv.org/abs/2408.04868v1 ) ライセンス: Link先を確認 | Parisa Farmanifard, Arun Ross, | (参考訳) 本研究は,GPT-4マルチモーダル大言語モデル(LLM)の高度な機能を活用し,虹彩認識の可能性を探求する。
このニッチだが重要な領域に焦点を当てることで、ChatGPTのようなAIツールが虹彩画像を理解し分析できるかどうかを調査する。
ゼロショット学習アプローチを用いた厳密に設計された一連の実験を通じて、ChatGPT-4の能力は、多様なデータセット、プレゼンテーションアタック、眼鏡のようなオクルージョン、その他の現実世界のバリエーションを含む様々な困難な条件で評価された。
この結果から,ChatGPT-4の顕著な適応性と精度が明らかとなり,特異な虹彩の特徴を同定し,虹彩認識に対する化粧などの微妙な効果を検出できた。
GoogleのAIモデルであるGemini Advancedによる比較分析では、複雑なアイリス分析タスクにおけるChatGPT-4のパフォーマンスとユーザエクスペリエンスの向上が強調された。
本研究は, LLMsの生体計測への応用を実証するだけでなく, 生体計測データから重要な知見を抽出する上で, ニュアンスクエリフレーミングとインタラクション設計の重要性を強調している。
我々の発見は、将来の研究と、より適応性があり、効率的で、堅牢で、インタラクティブな生体認証ソリューションの開発に期待できる道のりを示唆している。
This study utilizes the advanced capabilities of the GPT-4 multimodal Large Language Model (LLM) to explore its potential in iris recognition - a field less common and more specialized than face recognition. By focusing on this niche yet crucial area, we investigate how well AI tools like ChatGPT can understand and analyze iris images. Through a series of meticulously designed experiments employing a zero-shot learning approach, the capabilities of ChatGPT-4 was assessed across various challenging conditions including diverse datasets, presentation attacks, occlusions such as glasses, and other real-world variations. The findings convey ChatGPT-4's remarkable adaptability and precision, revealing its proficiency in identifying distinctive iris features, while also detecting subtle effects like makeup on iris recognition. A comparative analysis with Gemini Advanced - Google's AI model - highlighted ChatGPT-4's better performance and user experience in complex iris analysis tasks. This research not only validates the use of LLMs for specialized biometric applications but also emphasizes the importance of nuanced query framing and interaction design in extracting significant insights from biometric data. Our findings suggest a promising path for future research and the development of more adaptable, efficient, robust and interactive biometric security solutions. | 翻訳日:2024-08-12 16:38:47 公開日:2024-08-09 |
# 固定予算ベイズ型ベストアーム識別のためのUCB探索
UCB Exploration for Fixed-Budget Bayesian Best Arm Identification ( http://arxiv.org/abs/2408.04869v1 ) ライセンス: Link先を確認 | Rong J. B. Zhu, Yanqi Qiu, | (参考訳) 固定予算設定におけるベストアーム識別(BAI)について検討した。
UCBEのような上位信頼境界(UCB)に基づく適応的アロケーションは、BAIでうまく機能することが知られている。
しかし、その最適後悔が理論的にインスタンスに依存していることはよく知られており、これは多くの固定予算のBAI問題においてアーティファクトであることが示されている。
本稿では, ベイズ条件下での固定予算BAI問題に対して, 理論的かつ実験的に効率的なUPB探索アルゴリズムを提案する。
鍵となる考え方は事前情報を学習することであり、これは累積的後悔の最小化問題において行ったような UCB ベースの BAI アルゴリズムの性能を向上させることができる。
我々は、失敗確率とベイズ的BAI問題に対する単純な後悔の限界を確立し、次数 $\tilde{O}(\sqrt{K/n})$ の上限を対数因子まで与え、$n$ は予算を表し、$K$ は武器の数を表す。
さらに,本手法が最先端のベースラインを一貫して上回ることを示す実証実験を行った。
We study best-arm identification (BAI) in the fixed-budget setting. Adaptive allocations based on upper confidence bounds (UCBs), such as UCBE, are known to work well in BAI. However, it is well-known that its optimal regret is theoretically dependent on instances, which we show to be an artifact in many fixed-budget BAI problems. In this paper we propose an UCB exploration algorithm that is both theoretically and empirically efficient for the fixed budget BAI problem under a Bayesian setting. The key idea is to learn prior information, which can enhance the performance of UCB-based BAI algorithm as it has done in the cumulative regret minimization problem. We establish bounds on the failure probability and the simple regret for the Bayesian BAI problem, providing upper bounds of order $\tilde{O}(\sqrt{K/n})$, up to logarithmic factors, where $n$ represents the budget and $K$ denotes the number of arms. Furthermore, we demonstrate through empirical results that our approach consistently outperforms state-of-the-art baselines. | 翻訳日:2024-08-12 16:38:47 公開日:2024-08-09 |
# ConfusedPilot: Microsoft 365用のCopilotによるエンタープライズ情報統合性と信頼性の妥協
ConfusedPilot: Compromising Enterprise Information Integrity and Confidentiality with Copilot for Microsoft 365 ( http://arxiv.org/abs/2408.04870v1 ) ライセンス: Link先を確認 | Ayush RoyChowdhury, Mulong Luo, Prateek Sahu, Sarbartha Banerjee, Mohit Tiwari, | (参考訳) 検索拡張生成(英: Retrieval augmented generation、RAG)とは、大規模言語モデル(LLM)がデータベースから有用な情報を検索し、応答を生成するプロセスである。
日常業務の企業環境では人気が高まっている。
例えば、Copilot for Microsoft 365は数百万のビジネスを蓄積している。
しかしながら、RAGベースのシステムを採用する際のセキュリティへの影響は明らかでない。
本稿では、Copilotを混乱させ、その応答に完全性と機密性を侵害するRAGシステムのセキュリティ脆弱性のクラスであるConfusedPilotを紹介する。
まず、RAGの修正プロンプトに悪意のあるテキストを埋め込んだ脆弱性を調査し、LSMが生成した応答を破損させる。
第2に、シークレットデータを漏洩する脆弱性を示し、検索時にキャッシュ機構を活用する。
第3に,企業内の誤情報を伝播し,最終的に販売や製造といった業務に影響を及ぼすために,両脆弱性をどのように活用するかを検討する。
また、RAGベースのシステムのアーキテクチャを調べることにより、これらの攻撃の根本原因についても論じる。
本研究は,現在のRAGベースのシステムにおけるセキュリティ脆弱性を強調し,今後のRAGベースのシステムを保護するための設計ガイドラインを提案する。
Retrieval augmented generation (RAG) is a process where a large language model (LLM) retrieves useful information from a database and then generates the responses. It is becoming popular in enterprise settings for daily business operations. For example, Copilot for Microsoft 365 has accumulated millions of businesses. However, the security implications of adopting such RAG-based systems are unclear. In this paper, we introduce ConfusedPilot, a class of security vulnerabilities of RAG systems that confuse Copilot and cause integrity and confidentiality violations in its responses. First, we investigate a vulnerability that embeds malicious text in the modified prompt in RAG, corrupting the responses generated by the LLM. Second, we demonstrate a vulnerability that leaks secret data, which leverages the caching mechanism during retrieval. Third, we investigate how both vulnerabilities can be exploited to propagate misinformation within the enterprise and ultimately impact its operations, such as sales and manufacturing. We also discuss the root cause of these attacks by investigating the architecture of a RAG-based system. This study highlights the security vulnerabilities in today's RAG-based systems and proposes design guidelines to secure future RAG-based systems. | 翻訳日:2024-08-12 16:38:47 公開日:2024-08-09 |
# SCOI: 機械翻訳のための構文拡張被覆型インコンテキスト例選択
SCOI: Syntax-augmented Coverage-based In-context Example Selection for Machine Translation ( http://arxiv.org/abs/2408.04872v1 ) ライセンス: Link先を確認 | Chenming Tang, Zhixiang Wang, Yunfang Wu, | (参考訳) In-context Learning (ICL) は、様々なダウンストリームタスクにおける大規模言語モデル(LLM)の性能を大幅に改善する。
そこで本研究では,機械翻訳(MT)における文脈内例の選択に統語的知識を導入する。
従来の単語マッチングを超越した深い構文構造を生かし,構文拡張型コベレージに基づく文脈内サンプル選択(SCOI)を提案する。
具体的には,単純なツリー・ツー・ポリーノミカル・アルゴリズムの助けを借りて,多項式項のカバレッジを計算し,単語重なりによる語彙的カバレッジを計測する。
さらに,構文情報と語彙情報を利用して,双方のカバレッジ対策を組み合わせるための代替選択手法を考案した。
我々は6つの翻訳方向で2つの多言語LLMを用いて実験を行う。
実験の結果,提案したSCOIは,すべての学習自由手法の中で平均COMETスコアが最も高い結果を得た。
In-context learning (ICL) greatly improves the performance of large language models (LLMs) on various down-stream tasks, where the improvement highly depends on the quality of demonstrations. In this work, we introduce syntactic knowledge to select better in-context examples for machine translation (MT). We propose a new strategy, namely Syntax-augmented COverage-based In-context example selection (SCOI), leveraging the deep syntactic structure beyond conventional word matching. Specifically, we measure the set-level syntactic coverage by computing the coverage of polynomial terms with the help of a simplified tree-to-polynomial algorithm, and lexical coverage using word overlap. Furthermore, we devise an alternate selection approach to combine both coverage measures, taking advantage of syntactic and lexical information. We conduct experiments with two multi-lingual LLMs on six translation directions. Empirical results show that our proposed SCOI obtains the highest average COMET score among all learning-free methods, indicating that combining syntactic and lexical coverage successfully helps to select better in-context examples for MT. | 翻訳日:2024-08-12 16:38:47 公開日:2024-08-09 |
# 大規模ニュースイベントに対する教師なしエピソード検出
Unsupervised Episode Detection for Large-Scale News Events ( http://arxiv.org/abs/2408.04873v1 ) ライセンス: Link先を確認 | Priyanka Kargupta, Yunyi Zhang, Yizhu Jiao, Siru Ouyang, Jiawei Han, | (参考訳) エピソード構造は本質的に解釈可能であり、大規模キーイベントの進化に適応可能である。
しかし、現在最先端の自動イベント検出手法は、イベントのエピソードを見落としているため、これらの重要な特徴に苦慮している。
本稿では,重要なイベント記事を含むニュースコーパスからエピソードを識別する新しいタスクであるエピソード検出について紹介する。
エピソードでは、特定の時間と位置でアクションを実行するコアエンティティ(例えば、"protesters"、"police")の凝集クラスタを記述する。
さらに、エピソードは特定の重要なイベントの下でのエピソードの大規模なグループの重要な部分である。
エピソードの自動検出は、重要な出来事やアトミックアクションとは異なり、エピソードを区別したり、一貫性のないエピソードの参照をマージする意味的類似性を使用するために、時間や場所の明示的な言及に頼ることができないため、難しい。
これらの課題に対処するために,(1)最も健全でキーに関連のある用語とセグメントを自動的に識別する教師なしのエピソード検出フレームワークであるEpiMineを紹介し,(2)識別項の組み合わせのシフトによって推定される自然なエピソード分割に基づいて記事中の候補エピソードを判定し,(3)大規模言語モデルに基づく推論を用いて最終エピソードクラスタを洗練・形成する。
エピソードレベルでアノテートされた3つの多様な実世界のイベントデータセットを構築した。
EpiMineはこれらのデータセットのベースラインを平均59.2%向上させています。
Episodic structures are inherently interpretable and adaptable to evolving large-scale key events. However, state-of-the-art automatic event detection methods overlook event episodes and, therefore, struggle with these crucial characteristics. This paper introduces a novel task, episode detection, aimed at identifying episodes from a news corpus containing key event articles. An episode describes a cohesive cluster of core entities (e.g., "protesters", "police") performing actions at a specific time and location. Furthermore, an episode is a significant part of a larger group of episodes under a particular key event. Automatically detecting episodes is challenging because, unlike key events and atomic actions, we cannot rely on explicit mentions of times and locations to distinguish between episodes or use semantic similarity to merge inconsistent episode co-references. To address these challenges, we introduce EpiMine, an unsupervised episode detection framework that (1) automatically identifies the most salient, key-event-relevant terms and segments, (2) determines candidate episodes in an article based on natural episodic partitions estimated through shifts in discriminative term combinations, and (3) refines and forms final episode clusters using large language model-based reasoning on the candidate episodes. We construct three diverse, real-world event datasets annotated at the episode level. EpiMine outperforms all baselines on these datasets by an average 59.2% increase across all metrics. | 翻訳日:2024-08-12 16:38:47 公開日:2024-08-09 |
# 固体分光法による識別不能電子の絡み合い幅
Entanglement Witness for Indistinguishable Electrons using Solid-State Spectroscopy ( http://arxiv.org/abs/2408.04876v1 ) ライセンス: Link先を確認 | Tongtong Liu, Luogen Xu, Jiarui Liu, Yao Wang, | (参考訳) 量子材料における絡み合いを特徴づけることは、次世代量子技術の進歩に不可欠である。
スピンモードの区別可能な磁性材料の絡み合いを目撃する最近の動きにもかかわらず、区別不能な電子によって形成される系の絡み合いを定量化することは、依然として非常に難しい課題である。
そこで本研究では, 共振非弾性X線散乱(RIXS)スペクトルの非線形性を解析することにより, 様々な4つのフェミオン相関を抽出する手法を提案する。
これらの相関は累積二粒子還元密度行列 (RDM) の一次成分を構成する。
さらに、固有値の境界を導出し、フェルミオンエンタングルメント深さによる線形スケーリングを実証し、エンタングルメントの信頼できる証人を与える。
物質関係の強い相関モデルを例として、この絡み合いの目撃者が、異なる位相領域間での絡み合いを効果的に定量化し、量子フィッシャー情報(QFI)よりも有利であることを示す。
Characterizing entanglement in quantum materials is crucial for advancing next-generation quantum technologies. Despite recent strides in witnessing entanglement in magnetic materials with distinguishable spin modes, quantifying entanglement in systems formed by indistinguishable electrons remains a formidable challenge. To solve this problem, we introduce a method to extract various four-fermion correlations by analyzing the nonlinearity in resonant inelastic X-ray scattering (RIXS) spectra. These correlations constitute the primary components of the cumulant two-particle reduced density matrix (RDM). We further derive bounds for its eigenvalues and demonstrate the linear scaling with fermionic entanglement depth, providing a reliable witness for entanglement. Using the material-relevant strongly correlated models as examples, we show how this this entanglement witness can efficiently quantify multipartite entanglement across different phase regions, highlighting its advantage over quantum Fisher information (QFI). | 翻訳日:2024-08-12 16:38:47 公開日:2024-08-09 |
# ゼロショット画像認識における要素幅表現と推論について:システム的調査
On the Element-Wise Representation and Reasoning in Zero-Shot Image Recognition: A Systematic Survey ( http://arxiv.org/abs/2408.04879v1 ) ライセンス: Link先を確認 | Jingcai Guo, Zhijie Rao, Zhi Chen, Song Guo, Jingren Zhou, Dacheng Tao, | (参考訳) Zero-shot Image Recognition (ZSIR) は、目に見えない領域において、限られたデータから一般化された知識を学習することで、モデルに認識と推論の権限を与えることを目的としている。
ZSIRのギストは、入力された視覚空間から対象のセマンティック空間への要素ワイド表現と推論を実行することであり、これは人間が世界を観察する過程、すなわち、基本的な構成要素や共有特性を学習・組み合わせて新しい概念を捉えるプロセスにインスパイアされたボトムアップモデリングパラダイムである。
近年、要素学習技術はZSIRや広範囲の応用において大きな進歩を遂げている。
しかし、私たちの知る限りでは、このトピックの体系的な概要はいまだに残っていない。
文献の充実と今後の発展のための健全な基盤を提供するため,本論文では,近年の要素ワイドZSIRの進歩を概観する。
具体的には、まず、オブジェクト認識、構成認識、基礎モデルに基づくオープンワールド認識の3つの基本的なZSIRタスクを統一された要素的視点に統合し、主要な研究手法の詳細な分類と分析を行う。
そして、詳細な技術実装や共通データセットなど、いくつかの重要な情報とベンチマークを収集し、まとめます。
最後に、関連するアプリケーションの範囲を概観し、重要な課題について議論し、将来的な方向性を提案する。
Zero-shot image recognition (ZSIR) aims at empowering models to recognize and reason in unseen domains via learning generalized knowledge from limited data in the seen domain. The gist for ZSIR is to execute element-wise representation and reasoning from the input visual space to the target semantic space, which is a bottom-up modeling paradigm inspired by the process by which humans observe the world, i.e., capturing new concepts by learning and combining the basic components or shared characteristics. In recent years, element-wise learning techniques have seen significant progress in ZSIR as well as widespread application. However, to the best of our knowledge, there remains a lack of a systematic overview of this topic. To enrich the literature and provide a sound basis for its future development, this paper presents a broad review of recent advances in element-wise ZSIR. Concretely, we first attempt to integrate the three basic ZSIR tasks of object recognition, compositional recognition, and foundation model-based open-world recognition into a unified element-wise perspective and provide a detailed taxonomy and analysis of the main research approaches. Then, we collect and summarize some key information and benchmarks, such as detailed technical implementations and common datasets. Finally, we sketch out the wide range of its related applications, discuss vital challenges, and suggest potential future directions. | 翻訳日:2024-08-12 16:38:47 公開日:2024-08-09 |
# 光学系における雑音の影響下での自発的PT対称性破壊遷移
Spontaneous PT-symmetry breaking transitions under the influence of noise in an optomechanical system ( http://arxiv.org/abs/2408.04881v1 ) ライセンス: Link先を確認 | A. R. Mukhamedyanov, E. S. Andrianov, A. A. Zyablovsky, | (参考訳) 自発対称性の破れ(英: Spontaneous symmetric breaking)は、状態対称性がシステム対称性に変化を伴わない現象である。
対称性の破れた状態から対称性の破れた状態への遷移は、系の特性の質的な変化をもたらし、それぞれの状態は系の対称性および非対称相と呼ばれる。
通常、システムパラメータの変化は対称相と非対称相の遷移に必要である。
本稿では,ノイズの影響下での異常点を有するオプトメカニカルシステムの挙動を考察する。
例外点以下では、PT対称相と非PT対称相が共存可能であることを示す。
この状態において、ノイズは対称相と非対称相の間のランダムな遷移を引き起こす。
これらの遷移は光子モードとフォノンモードの強度の急激な変化を伴う。
予測された現象は、PT対称性の自発的な破壊に起因する相転移の速度論を研究する可能性を開く。
Spontaneous symmetry breaking is a phenomenon of an alteration of a state symmetry without a change in the system symmetry. A transition from a state with unbroken symmetry to a state with broken symmetry leads to a qualitative change in system properties, and respective states are called as symmetric and non-symmetric phases of the system. Usually, the change in the system parameters is necessary for the transition between symmetric and non-symmetric phases. In this letter, we consider the behavior of an optomechanical system with an exceptional point under the influence of noise. We demonstrate that below the exceptional point, PT-symmetric and non-PT-symmetric phases can coexist. In this regime, a noise can lead to random transitions between the symmetric and non-symmetric phases. These transitions are accompanied by the abrupt changes in the intensities of photon and phonon modes. The predicted phenomenon opens up the possibility of studying the kinetics of phase transitions caused by spontaneous breaking of PT symmetry. | 翻訳日:2024-08-12 16:38:47 公開日:2024-08-09 |
# ProxyCLIP: オープン語彙セグメンテーションのためのCLIPを改善するプロキシアテンション
ProxyCLIP: Proxy Attention Improves CLIP for Open-Vocabulary Segmentation ( http://arxiv.org/abs/2408.04883v1 ) ライセンス: Link先を確認 | Mengcheng Lan, Chaofeng Chen, Yiping Ke, Xinjiang Wang, Litong Feng, Wayne Zhang, | (参考訳) オープン語彙セマンティックセグメンテーションは、視覚表現とオープン語彙セマンティックラベルを効果的に統合するモデルを必要とする。
Contrastive Language-Image Pre-Training (CLIP) モデルはテキストから視覚概念を認識するのに優れているが、ローカライゼーション能力が限られているため、セグメントコヒーレンスに苦慮することが多い。
対照的に、ビジョン・ファンデーション・モデル(VFM)は空間的に一貫した局所的な視覚的表現の獲得に優れるが、意味的理解では不足する。
本稿では,CLIPとVFMの長所を調和させる革新的なフレームワークであるProxyCLIPを紹介する。
ProxyCLIPは、VFMからの空間的特徴対応をプロキシ注意の形で利用し、CLIPを増強することで、VFMの堅牢な局所一貫性を継承し、CLIPの例外的なゼロショット転送能力を維持する。
本稿では,VFMからプロキシの注意を引くための適応正規化とマスキング手法を提案する。
注目すべきは、トレーニングなしのアプローチとして、ProxyCLIPは、オープン語彙セグメンテーションタスクの空間的精度とセマンティックリッチネスのギャップを埋める際、例外的な有効性を示す8つのベンチマークで、平均mIoU(Intersection over Union)を40.3から44.4に改善したことである。
Open-vocabulary semantic segmentation requires models to effectively integrate visual representations with open-vocabulary semantic labels. While Contrastive Language-Image Pre-training (CLIP) models shine in recognizing visual concepts from text, they often struggle with segment coherence due to their limited localization ability. In contrast, Vision Foundation Models (VFMs) excel at acquiring spatially consistent local visual representations, yet they fall short in semantic understanding. This paper introduces ProxyCLIP, an innovative framework designed to harmonize the strengths of both CLIP and VFMs, facilitating enhanced open-vocabulary semantic segmentation. ProxyCLIP leverages the spatial feature correspondence from VFMs as a form of proxy attention to augment CLIP, thereby inheriting the VFMs' robust local consistency and maintaining CLIP's exceptional zero-shot transfer capacity. We propose an adaptive normalization and masking strategy to get the proxy attention from VFMs, allowing for adaptation across different VFMs. Remarkably, as a training-free approach, ProxyCLIP significantly improves the average mean Intersection over Union (mIoU) across eight benchmarks from 40.3 to 44.4, showcasing its exceptional efficacy in bridging the gap between spatial precision and semantic richness for the open-vocabulary segmentation task. | 翻訳日:2024-08-12 16:28:59 公開日:2024-08-09 |
# 全プライバシーレジームにおける局所的プライベートヒストグラム
Locally Private Histograms in All Privacy Regimes ( http://arxiv.org/abs/2408.04888v1 ) ライセンス: Link先を確認 | Clément L. Canonne, Abigail Gentle, | (参考訳) 周波数推定、すなわちヒストグラムは、データ分析のワークホースであり、そのように差分プライバシーの下で徹底的に研究されている。
特に、局所的なプライバシーモデルにおけるヒストグラムの計算は、実りある最近の仕事のラインの焦点であり、様々なアルゴリズムが提案されている。
しかし、私たちの知る限りでは、実際には関連性が高まっているにも関わらず、中小または低小の政権(最大$\varepsilon$)に関しては、この絵は明らかになっていない。
本稿では、この中~下層のプライバシー体制において、局所的な私的ヒストグラムと、それに関連する分布学習タスクを調査し、$\ell_\infty$エラーを達成可能なほぼ28(そして多少の予期せぬ)境界を確立する。
局所的な私的ヒストグラム問題において, 基板間の境界を改良した新しい解析結果から, 理論的知見が得られた。
我々は、すべてのプライバシー体制における既存のアルゴリズムを実証的に比較し、最悪の状況を超えてそれらの典型的なパフォーマンスと振る舞いを評価することによって、我々の理論的な知見を裏付ける。
Frequency estimation, a.k.a. histograms, is a workhorse of data analysis, and as such has been thoroughly studied under differentially privacy. In particular, computing histograms in the local model of privacy has been the focus of a fruitful recent line of work, and various algorithms have been proposed, achieving the order-optimal $\ell_\infty$ error in the high-privacy (small $\varepsilon$) regime while balancing other considerations such as time- and communication-efficiency. However, to the best of our knowledge, the picture is much less clear when it comes to the medium- or low-privacy regime (large $\varepsilon$), despite its increased relevance in practice. In this paper, we investigate locally private histograms, and the very related distribution learning task, in this medium-to-low privacy regime, and establish near-tight (and somewhat unexpected) bounds on the $\ell_\infty$ error achievable. Our theoretical findings emerge from a novel analysis, which appears to improve bounds across the board for the locally private histogram problem. We back our theoretical findings by an empirical comparison of existing algorithms in all privacy regimes, to assess their typical performance and behaviour beyond the worst-case setting. | 翻訳日:2024-08-12 16:28:59 公開日:2024-08-09 |
# クラスタリング・フレンドリな表現学習による有能な特徴の強化
Clustering-friendly Representation Learning for Enhancing Salient Features ( http://arxiv.org/abs/2408.04891v1 ) ライセンス: Link先を確認 | Toshiyuki Oshima, Kentaro Takagi, Kouta Nakata, | (参考訳) 近年,比較学習アルゴリズムを用いた表現学習が,ラベルなしデータセットへの挑戦に成功している。
しかし、これらの手法は、単純な教師なし設定下で重要でない特徴と区別することができず、重要度の定義は、オブジェクトや背景の識別など、下流タスクのタイプや分析目標によって異なる。
本稿では、下流タスクとしての教師なし画像クラスタリングに着目し、クラスタリングタスクに不可欠な機能を強化する表現学習手法を提案する。
クラスタリングに親しみやすいコントラスト学習手法を拡張し,参照データセットを用いて重要な特徴を重要でないものから分離するコントラスト分析手法を,損失関数の設計に取り入れた。
特徴的背景を持つ3つのデータセットに対する画像クラスタリングを実験的に評価した結果,従来のコントラスト解析や深層クラスタリング手法と比較して,全てのデータセットに対して高いクラスタリングスコアが得られた。
Recently, representation learning with contrastive learning algorithms has been successfully applied to challenging unlabeled datasets. However, these methods are unable to distinguish important features from unimportant ones under simply unsupervised settings, and definitions of importance vary according to the type of downstream task or analysis goal, such as the identification of objects or backgrounds. In this paper, we focus on unsupervised image clustering as the downstream task and propose a representation learning method that enhances features critical to the clustering task. We extend a clustering-friendly contrastive learning method and incorporate a contrastive analysis approach, which utilizes a reference dataset to separate important features from unimportant ones, into the design of loss functions. Conducting an experimental evaluation of image clustering for three datasets with characteristic backgrounds, we show that for all datasets, our method achieves higher clustering scores compared with conventional contrastive analysis and deep clustering methods. | 翻訳日:2024-08-12 16:28:59 公開日:2024-08-09 |
# グラフニューラルネットワークのエッジ不確かさと過度なスムーシングを理解する
Better Not to Propagate: Understanding Edge Uncertainty and Over-smoothing in Signed Graph Neural Networks ( http://arxiv.org/abs/2408.04895v1 ) ライセンス: Link先を確認 | Yoonhyuk Choi, Jiho Choi, Taewook Ko, Chong-Kwon Kim, | (参考訳) 従来のグラフニューラルネットワーク(GNN)はネットワークホモフィリーに依存しており、多くの実世界のヘテロフィリーシナリオで過度にスムーズな処理によってパフォーマンスが低下する可能性がある。
近年の研究では、ノードの特徴の期待に応じて、メッセージパッシング(MP)後の平滑化効果(分離性)を分析している。
分離性向上については, 肯定的, 署名的, ブロックされたMPなど, 様々な伝搬スキームによって引き起こされる過平滑化に関する理論的背景を提供した。
最近では、これらの定理を拡張することで、複数のクラスの下で符号付き伝播を改善することを提案している研究もある。
しかしながら、先行研究では、全ての伝搬スキームの誤差比が固定されており、この現象を正しく調べることができないと仮定している。
そこで本研究では,学習中のブロックと署名された伝搬の動的選択と一体化して,ホモフィリーとエッジの誤差比を推定する手法を提案する。
我々の理論解析は,MPブロックが高エッジ誤差比での符号付き伝搬よりも効果的であることを示し,ホモ親和性グラフとヘテロ親和性グラフの両方の性能向上を図っている。
Traditional Graph Neural Networks (GNNs) rely on network homophily, which can lead to performance degradation due to over-smoothing in many real-world heterophily scenarios. Recent studies analyze the smoothing effect (separability) after message-passing (MP), depending on the expectation of node features. Regarding separability gain, they provided theoretical backgrounds on over-smoothing caused by various propagation schemes, including positive, signed, and blocked MPs. More recently, by extending these theorems, some works have suggested improvements in signed propagation under multiple classes. However, prior works assume that the error ratio of all propagation schemes is fixed, failing to investigate this phenomenon correctly. To solve this problem, we propose a novel method for estimating homophily and edge error ratio, integrated with dynamic selection between blocked and signed propagation during training. Our theoretical analysis, supported by extensive experiments, demonstrates that blocking MP can be more effective than signed propagation under high edge error ratios, improving the performance in both homophilic and heterophilic graphs. | 翻訳日:2024-08-12 16:28:59 公開日:2024-08-09 |
# Object as a Service: サーバレスオブジェクト抽象化によるクラウドネイティブ開発を簡単にする
Object as a Service: Simplifying Cloud-Native Development through Serverless Object Abstraction ( http://arxiv.org/abs/2408.04898v1 ) ライセンス: Link先を確認 | Pawissanutt Lertpongrujikorn, Mohsen Amini Salehi, | (参考訳) ファンクション・アズ・ア・サービス(FaaS)パラダイムは、クラウドネイティブなアプリケーション開発者の負担を軽減するため、それらをクラウドリソース管理から抽象化する次世代のクラウドコンピューティングシステムとして構想されている。
しかし、それはアプリケーションデータの側面を扱いません。
そのため、開発者は、しばしば別々のクラウドストレージサービスを介して、アプリケーションデータの管理に介入し、負担を負わなければならない。
クラウドネイティブなアプリケーション開発をさらに合理化するために、本研究では、アプリケーションデータと関数をクラウドオブジェクト抽象化にカプセル化する、Object as a Service(OaaS)と呼ばれる新しいパラダイムを提案する。
OaaSは、組み込み最適化機能を提供しながら、開発者がリソースとデータ管理の負担を軽減します。
OOPにインスパイアされたOaaSは、次のようなサーバーレスパラダイムにアクセス修飾子と継承を組み込んでいます。
(a) 開発者が誤って基盤となるデータにアクセスしてシステムに妥協するのを防ぐ。
b) クラウドネイティブアプリケーション開発におけるソフトウェア再利用を可能にする。
さらに、OaaSはデータフローセマンティクスをネイティブにサポートする。
開発者は、データナビゲーション、同期、並列処理の問題を透過的に処理しながら、関数ワークフローを定義することができる。
OaaSパラダイムを確立するために、構造化データと非構造化データに対して、一貫性とフォールトトレラント保証を備えた状態抽象化を提供する、Oparacaというプラットフォームを開発しました。
私たちはOparacaを、負荷、スケーラビリティ、使いやすさに関して、最先端のプラットフォームに対して現実世界の設定で評価しました。
その結果、OaaSが提供するオブジェクト抽象化は、柔軟性とスケーラブルなクラウドネイティブなアプリケーション開発を、基盤となるサーバーレスシステムに重大なオーバーヘッドを伴って、合理化することができることを示した。
The function-as-a-service (FaaS) paradigm is envisioned as the next generation of cloud computing systems that mitigate the burden for cloud-native application developers by abstracting them from cloud resource management. However, it does not deal with the application data aspects. As such, developers have to intervene and undergo the burden of managing the application data, often via separate cloud storage services. To further streamline cloud-native application development, in this work, we propose a new paradigm, known as Object as a Service (OaaS) that encapsulates application data and functions into the cloud object abstraction. OaaS relieves developers from resource and data management burden while offering built-in optimization features. Inspired by OOP, OaaS incorporates access modifiers and inheritance into the serverless paradigm that: (a) prevents developers from compromising the system via accidentally accessing underlying data; and (b) enables software reuse in cloud-native application development. Furthermore, OaaS natively supports dataflow semantics. It enables developers to define function workflows while transparently handling data navigation, synchronization, and parallelism issues. To establish the OaaS paradigm, we develop a platform named Oparaca that offers state abstraction for structured and unstructured data with consistency and fault-tolerant guarantees. We evaluated Oparaca under real-world settings against state-of-the-art platforms with respect to the imposed overhead, scalability, and ease of use. The results demonstrate that the object abstraction provided by OaaS can streamline flexible and scalable cloud-native application development with an insignificant overhead on the underlying serverless system. | 翻訳日:2024-08-12 16:28:59 公開日:2024-08-09 |
# コミュニケーション: コードネームにおける効果的なクロスカルコミュニケーションのための実践的推論
Communicate to Play: Pragmatic Reasoning for Efficient Cross-Cultural Communication in Codenames ( http://arxiv.org/abs/2408.04900v1 ) ライセンス: Link先を確認 | Isadora White, Sashrika Pandey, Michelle Pan, | (参考訳) 共通基盤における文化的差異は、コミュニケーション中に現実的な失敗と誤解をもたらす可能性がある。
我々は,共通分野における異文化間差異を解決するために,異文化間コミュニケーションのための合理的音声法(RSA+C3)を開発した。
提案手法の成功を評価するため,Codenames Duetの協調参照ゲームにおけるRSA+C3について検討し,異なる文化のシミュレーションプレイヤー間の協調性の向上に成功していることを示す。
筆者らのコントリビューションは,(1)埋め込み空間のコントラスト学習とLSMプロンプトを用いたコードネームプレーヤーの作成,(2)訓練されたモデルに反映された共通基盤の文化的差異についての研究,(3)社会文化的文脈を相互作用から推定することで,ゲームプレイにおける異文化間コミュニケーションを容易にすること,の3つである。
私たちのコードはgithub.com/icwhite/codenamesで公開されています。
Cultural differences in common ground may result in pragmatic failure and misunderstandings during communication. We develop our method Rational Speech Acts for Cross-Cultural Communication (RSA+C3) to resolve cross-cultural differences in common ground. To measure the success of our method, we study RSA+C3 in the collaborative referential game of Codenames Duet and show that our method successfully improves collaboration between simulated players of different cultures. Our contributions are threefold: (1) creating Codenames players using contrastive learning of an embedding space and LLM prompting that are aligned with human patterns of play, (2) studying culturally induced differences in common ground reflected in our trained models, and (3) demonstrating that our method RSA+C3 can ease cross-cultural communication in gameplay by inferring sociocultural context from interaction. Our code is publicly available at github.com/icwhite/codenames. | 翻訳日:2024-08-12 16:28:59 公開日:2024-08-09 |
# サンプルベース説明書の公理的特徴付け
Axiomatic Characterisations of Sample-based Explainers ( http://arxiv.org/abs/2408.04903v1 ) ライセンス: Link先を確認 | Leila Amgouda, Martin C. Cooper, Salim Debbaoui, | (参考訳) ブラックボックス分類器の決定を説明することは、重要かつ計算的に困難である。
本稿では,サンプルやデータセットから特徴に基づく説明文を生成する説明文を精査する。
まず、説明者が理想的に満足し、彼らの関係を掘り下げ、それらのいくつかの不整合性を強調する、望ましい性質のセットを提示します。
我々は、他のすべてと互換性のある2つの重要な特性を満たす説明者のファミリー全体を識別する。
その例は、弱い帰納的説明(英語版)と呼ばれる十分な理由を与え、そこで、互換性のある性質のサブセットを満たす様々なサブファミリを解き放つ。
実際、互換性のあるプロパティのサブセットを満たすすべての説明者を完全に特徴づけます。
特に,説明の存在とグローバルな整合性を保証する最初の(広義の)説明文を紹介し,説明文が多項式時間で見つかるような不溶な説明文や代理説明文など,いくつかの事例について論じる。
Explaining decisions of black-box classifiers is both important and computationally challenging. In this paper, we scrutinize explainers that generate feature-based explanations from samples or datasets. We start by presenting a set of desirable properties that explainers would ideally satisfy, delve into their relationships, and highlight incompatibilities of some of them. We identify the entire family of explainers that satisfy two key properties which are compatible with all the others. Its instances provide sufficient reasons, called weak abductive explanations.We then unravel its various subfamilies that satisfy subsets of compatible properties. Indeed, we fully characterize all the explainers that satisfy any subset of compatible properties. In particular, we introduce the first (broad family of) explainers that guarantee the existence of explanations and their global consistency.We discuss some of its instances including the irrefutable explainer and the surrogate explainer whose explanations can be found in polynomial time. | 翻訳日:2024-08-12 16:28:59 公開日:2024-08-09 |
# GlitchProber: 大規模言語モデルにおけるGlitchトークンの検出と緩和を効果的に行う
GlitchProber: Advancing Effective Detection and Mitigation of Glitch Tokens in Large Language Models ( http://arxiv.org/abs/2408.04905v1 ) ライセンス: Link先を確認 | Zhibo Zhang, Wuxia Bai, Yuxi Li, Mark Huasong Meng, Kailong Wang, Ling Shi, Li Li, Jun Wang, Haoyu Wang, | (参考訳) 大規模言語モデル(LLM)は、自然言語処理の分野で前例のない成功を収めた。
しかし、内部機構のブラックボックスの性質は、その信頼性と解釈可能性に多くの懸念をもたらしている。
最近の研究では、モデルの語彙空間に異常トークンのクラスを発見し、それらを「グリッチトークン」と名付けた。
これらのトークンは一度入力に含まれると、不正確で無関係な結果や有害な結果を生み出すモデルを誘導し、LCMの信頼性と実用性を著しく損なう可能性がある。
本研究では,グリッチトークンの理解を深め,その検出と緩和のための手法を提案する。
我々はまず,LLM上のグリッチトークンによって引き起こされる特徴を明らかにする。これは注意パターンの分布や中間モデル層からの動的情報に大きくずれがあることが証明されている。
これらの知見に基づいて,GlitchProberを開発した。
GlitchProberは、小規模なサンプリング、高速化された特徴抽出のための主成分分析、効率的な語彙スクリーニングのための単純な分類器を利用する。
さらに一歩進めると、GlitchProberは異常モデル中間層値を修正し、グリッチトークンの破壊効果を軽減する。
GlitchProber は5つの主要なオープンソース LLM で評価され、従来のアプローチに比べて効率、精度、リコールが良く、平均 F1 スコアは 0.86 で平均修復率は 50.06% である。
GlitchProberは、glitchトークンがもたらす課題に対処する新しい方法を公開し、より堅牢で解釈可能なLSMに向けた将来の研究を促している。
Large language models (LLMs) have achieved unprecedented success in the field of natural language processing. However, the black-box nature of their internal mechanisms has brought many concerns about their trustworthiness and interpretability. Recent research has discovered a class of abnormal tokens in the model's vocabulary space and named them "glitch tokens". Those tokens, once included in the input, may induce the model to produce incorrect, irrelevant, or even harmful results, drastically undermining the reliability and practicality of LLMs. In this work, we aim to enhance the understanding of glitch tokens and propose techniques for their detection and mitigation. We first reveal the characteristic features induced by glitch tokens on LLMs, which are evidenced by significant deviations in the distributions of attention patterns and dynamic information from intermediate model layers. Based on the insights, we develop GlitchProber, a tool for efficient glitch token detection and mitigation. GlitchProber utilizes small-scale sampling, principal component analysis for accelerated feature extraction, and a simple classifier for efficient vocabulary screening. Taking one step further, GlitchProber rectifies abnormal model intermediate layer values to mitigate the destructive effects of glitch tokens. Evaluated on five mainstream open-source LLMs, GlitchProber demonstrates higher efficiency, precision, and recall compared to existing approaches, with an average F1 score of 0.86 and an average repair rate of 50.06%. GlitchProber unveils a novel path to address the challenges posed by glitch tokens and inspires future research toward more robust and interpretable LLMs. | 翻訳日:2024-08-12 16:28:59 公開日:2024-08-09 |
# 感情検出と推論のための生成的アプローチに向けて
Towards a Generative Approach for Emotion Detection and Reasoning ( http://arxiv.org/abs/2408.04906v1 ) ライセンス: Link先を確認 | Ankita Bhaumik, Tomek Strzalkowski, | (参考訳) 大規模言語モデル(LLM)は、チェーン・オブ・ソート(CoT)プロンプト技術を用いた数学的および常識的推論タスクにおいて顕著な性能を示した。
しかし、彼らはインプットプロンプトに 'Let's Think-by-step' を結合することで感情的推論を実行できますか?
本稿では,LLMを用いたゼロショット感情検出と感情推論に新たなアプローチを導入するとともに,この問題を考察する。
既存の最先端のゼロショットアプローチは、入力テキストに対して最も適切な感情ラベルを選択するために、テキスト・エンテーメント・モデルに依存している。
これは、感情分析が必要な多くのアプリケーションに適さない、あるいは不十分なラベルの固定セットにモデルを強く制限するものである、と我々は主張する。
そこで本研究では,感情分析の課題を生成的質問応答(QA)タスクとしてフレーミングすることを提案する。
本手法では,感情検出質問にステップバイステップで回答するために,関連する文脈や背景知識を生成する2段階の方法論を用いる。
本論文は,テキストに対する感情検出と感情推論の課題に共同で対処するための生成的アプローチを用いた最初の研究である。
我々は,2つの感情検出データセットに対するアプローチを評価し,さらに詳細な感情ラベルと説明を公開し,感情推論システムのさらなるトレーニングと微調整を行う。
Large language models (LLMs) have demonstrated impressive performance in mathematical and commonsense reasoning tasks using chain-of-thought (CoT) prompting techniques. But can they perform emotional reasoning by concatenating `Let's think step-by-step' to the input prompt? In this paper we investigate this question along with introducing a novel approach to zero-shot emotion detection and emotional reasoning using LLMs. Existing state of the art zero-shot approaches rely on textual entailment models to choose the most appropriate emotion label for an input text. We argue that this strongly restricts the model to a fixed set of labels which may not be suitable or sufficient for many applications where emotion analysis is required. Instead, we propose framing the problem of emotion analysis as a generative question-answering (QA) task. Our approach uses a two step methodology of generating relevant context or background knowledge to answer the emotion detection question step-by-step. Our paper is the first work on using a generative approach to jointly address the tasks of emotion detection and emotional reasoning for texts. We evaluate our approach on two popular emotion detection datasets and also release the fine-grained emotion labels and explanations for further training and fine-tuning of emotional reasoning systems. | 翻訳日:2024-08-12 16:28:59 公開日:2024-08-09 |
# 観測不能な凹凸を有する線形非ガウス因果モデルの因果発見
Causal Discovery of Linear Non-Gaussian Causal Models with Unobserved Confounding ( http://arxiv.org/abs/2408.04907v1 ) ライセンス: Link先を確認 | Daniela Schkoda, Elina Robeva, Mathias Drton, | (参考訳) 我々は,線形非ガウス構造方程式モデルについて考察する。
この設定では、因果構造は特定可能であるが、一般に、特定の因果効果を識別することはできない。
代わりに、有限個の異なる因果効果が同じ観測分布をもたらす。
これらの因果効果を同定するアルゴリズムの多くは、過完全独立成分分析(ICA)を用いており、これはしばしば局所最適への収束に苦しむ。
さらに、潜伏変数の数は先行変数として知られなければならない。
これらの問題に対処するために,オーバーコンプリートICAを使わずに再帰的に動作するアルゴリズムを提案する。
アルゴリズムはまずソースを推測し、ソースとその親が子孫に与える影響を推定し、データから影響を排除します。
ソース同定と効果サイズ推定の両面で、高次累積から形成される行列のランク条件を用いる。
局所的に、潜伏変数の数が観測変数の数を超えることはないという軽微な仮定の下で漸近的正当性を証明する。
シミュレーション研究により, 先行する潜伏者の数を知らないにもかかわらず, オーバーコンプリートICAに匹敵する性能が得られた。
We consider linear non-Gaussian structural equation models that involve latent confounding. In this setting, the causal structure is identifiable, but, in general, it is not possible to identify the specific causal effects. Instead, a finite number of different causal effects result in the same observational distribution. Most existing algorithms for identifying these causal effects use overcomplete independent component analysis (ICA), which often suffers from convergence to local optima. Furthermore, the number of latent variables must be known a priori. To address these issues, we propose an algorithm that operates recursively rather than using overcomplete ICA. The algorithm first infers a source, estimates the effect of the source and its latent parents on their descendants, and then eliminates their influence from the data. For both source identification and effect size estimation, we use rank conditions on matrices formed from higher-order cumulants. We prove asymptotic correctness under the mild assumption that locally, the number of latent variables never exceeds the number of observed variables. Simulation studies demonstrate that our method achieves comparable performance to overcomplete ICA even though it does not know the number of latents in advance. | 翻訳日:2024-08-12 16:28:59 公開日:2024-08-09 |
# 画像キャプション評価の景観調査:包括的分類法と新しいアンサンブル法
Surveying the Landscape of Image Captioning Evaluation: A Comprehensive Taxonomy and Novel Ensemble Method ( http://arxiv.org/abs/2408.04909v1 ) ライセンス: Link先を確認 | Uri Berger, Gabriel Stanovsky, Omri Abend, Lea Frermann, | (参考訳) 近年,画像キャプションのタスクが普及し,画像キャプションモデルの質を評価する複雑なタスクとなっている。
本研究は,70以上の画像キャプションの指標とその使用状況に関する最初の調査と分類を,数百の論文で紹介する。
提案された指標の多様性にもかかわらず、ほとんどの研究は5つの一般的な指標のみに依存しており、人間の判断と弱い相関があることが示されている。
代わりに、EnsembEvalという、画像キャプションデータセット5つにまたがる人間の判断との最も高い相関性を達成する評価方法のアンサンブルを提案する。
The task of image captioning has recently been gaining popularity, and with it the complex task of evaluating the quality of image captioning models. In this work, we present the first survey and taxonomy of over 70 different image captioning metrics and their usage in hundreds of papers. We find that despite the diversity of proposed metrics, the vast majority of studies rely on only five popular metrics, which we show to be weakly correlated with human judgements. Instead, we propose EnsembEval -- an ensemble of evaluation methods achieving the highest reported correlation with human judgements across 5 image captioning datasets, showing there is a lot of room for improvement by leveraging a diverse set of metrics. | 翻訳日:2024-08-12 16:28:59 公開日:2024-08-09 |
# 人工認知の解き放つ - 複数のAIシステムを統合する
Unleashing Artificial Cognition: Integrating Multiple AI Systems ( http://arxiv.org/abs/2408.04910v1 ) ライセンス: Link先を確認 | Muntasir Adnan, Buddhi Gamage, Zhiwei Xu, Damith Herath, Carlos Noschang Kuhn, | (参考訳) 本研究では,人工知能の認知を解き明かすために,言語モデルとクエリ分析技術の革新的な融合を提案する。
我々のシステムは、Chessエンジンを言語モデルとシームレスに統合し、動きを予測し、戦略的説明を提供する。
検索可能な回答生成を通じてベクトルデータベースを活用することで、私たちのOpenSI AIシステムは、生の計算と人間のような理解のギャップを埋めながら、意思決定プロセスを解明します。
実演環境としてのChessの選択は、私たちのアプローチの汎用性を強調します。
Chess以外にも、医療診断から財務予測まで、さまざまな応用を約束しています。
In this study, we present an innovative fusion of language models and query analysis techniques to unlock cognition in artificial intelligence. Our system seamlessly integrates a Chess engine with a language model, enabling it to predict moves and provide strategic explanations. Leveraging a vector database through retrievable answer generation, our OpenSI AI system elucidates its decision-making process, bridging the gap between raw computation and human-like understanding. Our choice of Chess as the demonstration environment underscores the versatility of our approach. Beyond Chess, our system holds promise for diverse applications, from medical diagnostics to financial forecasting. | 翻訳日:2024-08-12 16:28:59 公開日:2024-08-09 |
# Q-Learningアルゴリズムにおける学習率調整のための幾何学的ナッシュアプローチ
A Geometric Nash Approach in Tuning the Learning Rate in Q-Learning Algorithm ( http://arxiv.org/abs/2408.04911v1 ) ライセンス: Link先を確認 | Kwadwo Osei Bonsu, | (参考訳) 本稿ではQ学習における$\alpha$値を推定するための幾何学的アプローチを提案する。
そこで我々は,パラメータを最適化し,学習効率と安定性を向上させるための体系的な枠組みを構築した。
その結果,学習速度とベクトルT(学習の各エピソードの時間ステップ)とR(各エピソードの報酬ベクトル)の角度の関係が示唆された。
ベクトル T と R と Nash Equilibrium の間の角二部ベクトルの概念は、探索と探索のトレードオフによる損失を最小限に抑えるために$\alpha$ を推定する洞察を与える。
This paper proposes a geometric approach for estimating the $\alpha$ value in Q learning. We establish a systematic framework that optimizes the {\alpha} parameter, thereby enhancing learning efficiency and stability. Our results show that there is a relationship between the learning rate and the angle between a vector T (total time steps in each episode of learning) and R (the reward vector for each episode). The concept of angular bisector between vectors T and R and Nash Equilibrium provide insight into estimating $\alpha$ such that the algorithm minimizes losses arising from exploration-exploitation trade-off. | 翻訳日:2024-08-12 16:28:59 公開日:2024-08-09 |
# AcousAF:携帯電話用音響センシング型心房細動検出システム
AcousAF: Acoustic Sensing-Based Atrial Fibrillation Detection System for Mobile Phones ( http://arxiv.org/abs/2408.04912v1 ) ライセンス: Link先を確認 | Xuanyu Liu, Haoxian Liu, Jiao Li, Zongqi Yang, Yi Huang, Jin Zhang, | (参考訳) 心房細動(AF)は、房室から発生する不規則な電気的衝動によって特徴づけられ、重篤な合併症や死に至る。
AFの断続的な性質のため、早期かつ時間的にAFをモニタリングすることは、患者のさらなる悪化を防ぐために重要である。
増幅ECGホルターモニターは正確なモニタリングを提供するが、これらの装置の高コストは広く採用を妨げている。
現在のモバイルベースのAF検出システムはポータブルソリューションを提供する。
しかし,これらのシステムには,環境要因の影響を受けやすいこと,利用者の努力を要すること,など,様々な適用性の問題がある。
このような制約を克服するため,スマートフォンの音響センサを用いた新しいAF検出システムであるAcousAFを提案する。
特に、スマートフォンのスピーカーとマイクを用いた手首からのパルス波取得の可能性について検討する。
さらに, パルス波探査, パルス波抽出, AF検出により, 高精度かつ信頼性の高いAF検出を実現するフレームワークを提案する。
スマートフォン上のカスタムデータ収集アプリケーションを利用して、20人の参加者からデータを収集する。
その結果,92.8%の精度,86.9%の精度,87.4%のリコール,87.1%のF1スコアが得られた。
Atrial fibrillation (AF) is characterized by irregular electrical impulses originating in the atria, which can lead to severe complications and even death. Due to the intermittent nature of the AF, early and timely monitoring of AF is critical for patients to prevent further exacerbation of the condition. Although ambulatory ECG Holter monitors provide accurate monitoring, the high cost of these devices hinders their wider adoption. Current mobile-based AF detection systems offer a portable solution. However, these systems have various applicability issues, such as being easily affected by environmental factors and requiring significant user effort. To overcome the above limitations, we present AcousAF, a novel AF detection system based on acoustic sensors of smartphones. Particularly, we explore the potential of pulse wave acquisition from the wrist using smartphone speakers and microphones. In addition, we propose a well-designed framework comprised of pulse wave probing, pulse wave extraction, and AF detection to ensure accurate and reliable AF detection. We collect data from 20 participants utilizing our custom data collection application on the smartphone. Extensive experimental results demonstrate the high performance of our system, with 92.8% accuracy, 86.9% precision, 87.4% recall, and 87.1% F1 Score. | 翻訳日:2024-08-12 16:28:59 公開日:2024-08-09 |
# 知識ベース埋め込み:意味論と理論的特性
Knowledge Base Embeddings: Semantics and Theoretical Properties ( http://arxiv.org/abs/2408.04913v1 ) ライセンス: Link先を確認 | Camille Bourgaux, Ricardo Guimarães, Raoul Koudijs, Victor Lacerda, Ana Ozaki, | (参考訳) 知識グラフの埋め込みの研究は、近年、知識ベースの埋め込みへと発展し、そこでは、事実をベクトル空間にマッピングするだけでなく、モデルに制約を加えて、利用可能な関連する概念的知識を考慮に入れている。
本稿では,その幾何学的意味論のレンズを用いて,記述論理に知識ベースを組み込む手法を提案する。
我々は、文献から引き出すいくつかの関連する理論的性質を特定し、時には一般化または統一する。
次に, この理論的枠組みに具体的埋没法がどのように適合するかを考察する。
Research on knowledge graph embeddings has recently evolved into knowledge base embeddings, where the goal is not only to map facts into vector spaces but also constrain the models so that they take into account the relevant conceptual knowledge available. This paper examines recent methods that have been proposed to embed knowledge bases in description logic into vector spaces through the lens of their geometric-based semantics. We identify several relevant theoretical properties, which we draw from the literature and sometimes generalize or unify. We then investigate how concrete embedding methods fit in this theoretical framework. | 翻訳日:2024-08-12 16:28:59 公開日:2024-08-09 |
# GuidedNet: ラベル付きデータガイドによる半スーパービジョンのマルチオーガンセグメンテーション
GuidedNet: Semi-Supervised Multi-Organ Segmentation via Labeled Data Guide Unlabeled Data ( http://arxiv.org/abs/2408.04914v1 ) ライセンス: Link先を確認 | Haochen Zhao, Hui Meng, Deqian Yang, Xiaozheng Xie, Xiaoze Wu, Qingfeng Li, Jianwei Niu, | (参考訳) 半監督型多臓器画像分割法は, 疾患の診断と治療計画の改善を支援するとともに, 臓器アノテーションに必要な時間と労力を削減し, 既存の最先端の手法では, ラベル付きデータを地上の真実で訓練し, ラベルなしデータを擬似ラベルで訓練する。
本稿では,ラベル付きデータとラベルなしデータの相互関係を反映しない2つのトレーニングフローを分離し,ラベル付きデータからの知識を活用してラベル付きデータのトレーニングをガイドする,ガイドドネットと呼ばれる半教師付きマルチ組織セグメンテーション手法を提案する。
本研究の主な目的は、未ラベルデータにおける擬似ラベルの品質の向上と、小・複雑な臓器のネットワーク学習能力の向上である。鍵となる概念は、特徴空間における互いに近いラベル付きおよび未ラベル付きデータからのボクセル特徴が、同じクラスに属する可能性が高くなることである。この理論に基づいて、3D一貫性ガウス混合モデル(3D-CGMM)は、ラベル付きデータから特徴分布を活用して生成された擬似ラベルを補正するように設計されている。さらに、我々は、未ラベルデータから得られた知識を活用して、未ラベル付きデータのトレーニングガイドに活用する知識伝達クロス・プセウド・スーパービジョン(KT-CPS)戦略を導入する。
FLARE22とAMOSの2つの公開データセットに関する大規模な実験は、 GuidedNetが最先端のパフォーマンスを達成することができることを示した。
Semi-supervised multi-organ medical image segmentation aids physicians in improving disease diagnosis and treatment planning and reduces the time and effort required for organ annotation.Existing state-of-the-art methods train the labeled data with ground truths and train the unlabeled data with pseudo-labels. However, the two training flows are separate, which does not reflect the interrelationship between labeled and unlabeled data.To address this issue, we propose a semi-supervised multi-organ segmentation method called GuidedNet, which leverages the knowledge from labeled data to guide the training of unlabeled data. The primary goals of this study are to improve the quality of pseudo-labels for unlabeled data and to enhance the network's learning capability for both small and complex organs.A key concept is that voxel features from labeled and unlabeled data that are close to each other in the feature space are more likely to belong to the same class.On this basis, a 3D Consistent Gaussian Mixture Model (3D-CGMM) is designed to leverage the feature distributions from labeled data to rectify the generated pseudo-labels.Furthermore, we introduce a Knowledge Transfer Cross Pseudo Supervision (KT-CPS) strategy, which leverages the prior knowledge obtained from the labeled data to guide the training of the unlabeled data, thereby improving the segmentation accuracy for both small and complex organs. Extensive experiments on two public datasets, FLARE22 and AMOS, demonstrated that GuidedNet is capable of achieving state-of-the-art performance. | 翻訳日:2024-08-12 16:18:44 公開日:2024-08-09 |
# N-複素環クロモフォアのほぼ縮退した一重項状態と三重項状態のベンチマーク計算 : II.密度に基づく方法
Benchmark Computations of Nearly Degenerate Singlet and Triplet states of N-heterocyclic Chromophores : II. Density-based Methods ( http://arxiv.org/abs/2408.04915v1 ) ライセンス: Link先を確認 | Shamik Chanda, Subhasish Saha, Sangita Sen, | (参考訳) 本稿では,S$_1$およびT$_1$状態の逆転を予測するための高密度法の性能を示す。
従来のLR-TDDFT法と$\Delta$SCF法(すなわちMOM, SGM, ROKS)は、ジャコブのはしごの異なるラグからの交換相関関数(XC)を用いて励起状態計算を行う。
FICMRCISDおよび/またはEOM-CCSDと比較した場合, 機能評価において, 相関の有無でスピン偏極を捕捉することが最も重要な特徴である。
LR-TDDFT と $\Delta$SCF の2つのアプローチに対して、最小平均絶対誤差(MAE)を持つ関数セットが提案されている。
我々は3つのシクラジン系分子テンプレートの広範な研究と6つの関連テンプレートのさらなる研究に基づいてきた。
従来, DLPNO-STEOM-CCSDに対して関数のサブセットに関するベンチマーク研究が行われ, ベンチマーク理論の欠陥による評価が不十分であった。
DFTの文脈における正確な交換、スピン汚染、スピン偏極の役割は、我々の研究の最前線に現れ、これらの応用におけるXC関数の数値評価を支援している。
適切な接続は、これらの分子の相互作用を管理する最小の物理を識別する2つの状態エクシトンモデルと3つの状態エクシトンモデルに引き起こされる。
In this paper we demonstrate the performance of several density-based methods in predicting the inversion of S$_1$ and T$_1$ states of a few N-heterocyclic fused ring molecules (popularly known as INVEST molecules) with an eye to identify a well performing but cheap preliminary screening method. Both conventional LR-TDDFT and $\Delta$SCF methods (namely MOM, SGM, ROKS) are considered for excited state computations using exchange-correlation (XC) functionals from different rungs of the Jacob's ladder. A well-justified systematism is observed in the performance of the functionals when compared against FICMRCISD and/or EOM-CCSD, with the most important feature being the capture of spin-polarization in presence of correlation. A set of functionals with the least mean absolute error (MAE) is proposed for both the approaches, LR-TDDFT and $\Delta$SCF, which can be cheaper alternatives for computations on synthesizable larger derivatives of the templates studied here. We have based our findings on extensive studies of three cyclazine-based molecular templates, with additional studies on a set of six related templates. Previous benchmark studies for subsets of the functionals were conducted against the DLPNO-STEOM-CCSD, which resulted in an inadequate evaluation due to deficiencies in the benchmark theory. The role of exact-exchange, spin-contamination and spin-polarization in the context of DFT comes to the forefront in our studies and supports the numerical evaluation of XC functionals for these applications. Suitable connections are drawn to two and three state exciton models which identify the minimal physics governing the interactions in these molecules. | 翻訳日:2024-08-12 16:18:44 公開日:2024-08-09 |
# PTrajM:事前学習した軌道マンバを用いた効率的・意味豊かな軌道学習
PTrajM: Efficient and Semantic-rich Trajectory Learning with Pretrained Trajectory-Mamba ( http://arxiv.org/abs/2408.04916v1 ) ライセンス: Link先を確認 | Yan Lin, Yichen Liu, Zeyu Zhou, Haomin Wen, Erwen Zheng, Shengnan Guo, Youfang Lin, Huaiyu Wan, | (参考訳) 車両軌道は様々な現実世界の用途に重要な移動情報を提供する。
車両軌道をよりよく活用するためには、移動行動や旅行目的を含む豊かな意味情報を効果的かつ効率的に抽出し、正確な下流アプリケーションを支援するための軌道学習アプローチを開発することが不可欠である。
しかし、そのようなアプローチを作るには2つの大きな課題がある。
第一に、運動行動は本質的に時空間連続であり、不規則かつ離散的な軌道点から効率的に抽出することが困難である。
第二に、旅行目的は、車両が横断する地域と道路セグメントの機能に関係している。
これらの機能は、生の時空間軌道の特徴から利用することができず、これらの領域や道路セグメントに関連する複雑なテキストの特徴から直接抽出することは困難である。
これらの課題に対処するため,PTrajMを提案する。
本稿では,PTrajMの学習可能なモデルとしてTrajectory-Mambaを導入する。
旅行目的の効率的な抽出を容易にするため,PTrajMは,その埋め込みプロセス中に余分な計算資源を必要とせずに,旅路の走行目的を識別できる旅行目的対応事前学習手法を提案する。
2つの実世界のデータセットに対する大規模な実験と、いくつかの最先端の軌道学習手法との比較により、PTrajMの有効性が示された。
コードはhttps://anonymous.4open.science/r/PTrajM-C973で公開されている。
Vehicle trajectories provide crucial movement information for various real-world applications. To better utilize vehicle trajectories, it is essential to develop a trajectory learning approach that can effectively and efficiently extract rich semantic information, including movement behavior and travel purposes, to support accurate downstream applications. However, creating such an approach presents two significant challenges. First, movement behavior are inherently spatio-temporally continuous, making them difficult to extract efficiently from irregular and discrete trajectory points. Second, travel purposes are related to the functionalities of areas and road segments traversed by vehicles. These functionalities are not available from the raw spatio-temporal trajectory features and are hard to extract directly from complex textual features associated with these areas and road segments. To address these challenges, we propose PTrajM, a novel method capable of efficient and semantic-rich vehicle trajectory learning. To support efficient modeling of movement behavior, we introduce Trajectory-Mamba as the learnable model of PTrajM, which effectively extracts continuous movement behavior while being more computationally efficient than existing structures. To facilitate efficient extraction of travel purposes, we propose a travel purpose-aware pre-training procedure, which enables PTrajM to discern the travel purposes of trajectories without additional computational resources during its embedding process. Extensive experiments on two real-world datasets and comparisons with several state-of-the-art trajectory learning methods demonstrate the effectiveness of PTrajM. Code is available at https://anonymous.4open.science/r/PTrajM-C973. | 翻訳日:2024-08-12 16:18:44 公開日:2024-08-09 |
# 事前学習型視覚言語モデルを用いたオープンセット能動学習における無駄なアノテーションコスト回避
Avoid Wasted Annotation Costs in Open-set Active Learning with Pre-trained Vision-Language Model ( http://arxiv.org/abs/2408.04917v1 ) ライセンス: Link先を確認 | Jaehyuk Heo, Pilsung Kang, | (参考訳) アクティブラーニング(AL)は、高情報データを選択的に収集し、アノテーションコストを最小化することで、モデル性能を向上させることを目的としている。
しかし、実際のシナリオでは、ラベルなしデータは配布外サンプル(OOD)を含んでいる可能性があるため、データが誤って選択された場合、アノテーションの無駄なコストが発生する。
近年、ALをオープンセットデータに適用するための手法が研究されているが、これらの手法は最小化するためにしばしば避けられないコストロスを必要とする。
これらの課題に対処するために、OODサンプルを必要とせずにコスト損失を最小限に抑える新しい選択戦略、CLIPNALを提案する。
CLIPNALはデータの純度と情報度を順次評価する。
まず、事前学習された視覚言語モデルを用いて、追加の訓練をすることなく、ID(In-distriion)データの言語的および視覚的情報を活用することで、OODデータを検出および排除する。
第二に、残りのIDデータから高度に情報的データを抽出し、選択したサンプルを人間の専門家によって注釈付けする。
様々なオープンセット条件のデータセットに対する実験結果から、CLIPNALはすべてのシナリオで最小のコスト損失と最高パフォーマンスを達成することが示された。
コードはhttps://github.com/DSBA-Lab/OpenAL.comで入手できる。
Active learning (AL) aims to enhance model performance by selectively collecting highly informative data, thereby minimizing annotation costs. However, in practical scenarios, unlabeled data may contain out-of-distribution (OOD) samples, leading to wasted annotation costs if data is incorrectly selected. Recent research has explored methods to apply AL to open-set data, but these methods often require or incur unavoidable cost losses to minimize them. To address these challenges, we propose a novel selection strategy, CLIPN for AL (CLIPNAL), which minimizes cost losses without requiring OOD samples. CLIPNAL sequentially evaluates the purity and informativeness of data. First, it utilizes a pre-trained vision-language model to detect and exclude OOD data by leveraging linguistic and visual information of in-distribution (ID) data without additional training. Second, it selects highly informative data from the remaining ID data, and then the selected samples are annotated by human experts. Experimental results on datasets with various open-set conditions demonstrate that CLIPNAL achieves the lowest cost loss and highest performance across all scenarios. Code is available at https://github.com/DSBA-Lab/OpenAL. | 翻訳日:2024-08-12 16:18:44 公開日:2024-08-09 |
# ゲーミフィケーションによる探索的単体テストにおける開発者獲得
Engaging Developers in Exploratory Unit Testing through Gamification ( http://arxiv.org/abs/2408.04918v1 ) ライセンス: Link先を確認 | Philipp Straubinger, Gordon Fraser, | (参考訳) 予期せぬ問題を明らかにする柔軟性と能力で知られている探索テストは、しばしば、体系的なカバレッジを維持し、再現可能な結果を生み出すという課題に直面している。
これらの課題に対処するために,統合開発環境(IDE)におけるテストのゲーミフィケーションが探索試験をガイドできるかどうかを検討する。
そこで,ゲームキンスゲーミフィケーションシステムによって生み出される課題と課題を,より魅力的でシームレスに,通常のコーディングタスクとブレンドできるようにする。
60分間の実験では、Gamekinsがテストスイートの品質とバグ検出に与える影響を評価した。
その結果、参加者は積極的にツールと対話し、90%近いラインカバレッジを達成し、14のバグのうち11が検出された。
さらに参加者は、この体験を楽しみ、ゲーミフィケーションが開発者のテストへの参加を促進し、ソフトウェア品質を向上させる可能性があることを報告した。
Exploratory testing, known for its flexibility and ability to uncover unexpected issues, often faces challenges in maintaining systematic coverage and producing reproducible results. To address these challenges, we investigate whether gamification of testing directly in the Integrated Development Environment (IDE) can guide exploratory testing. We therefore show challenges and quests generated by the Gamekins gamification system to make testing more engaging and seamlessly blend it with regular coding tasks. In a 60-minute experiment, we evaluated Gamekins' impact on test suite quality and bug detection. The results show that participants actively interacted with the tool, achieving nearly 90% line coverage and detecting 11 out of 14 bugs. Additionally, participants reported enjoying the experience, indicating that gamification can enhance developer participation in testing and improve software quality. | 翻訳日:2024-08-12 16:18:44 公開日:2024-08-09 |
# UAVによる災害シナリオ検出データセットの総合的分析とベンチマーク
UAV-Enhanced Combination to Application: Comprehensive Analysis and Benchmarking of a Human Detection Dataset for Disaster Scenarios ( http://arxiv.org/abs/2408.04922v1 ) ライセンス: Link先を確認 | Ragib Amin Nihal, Benjamin Yen, Katsutoshi Itoyama, Kazuhiro Nakadai, | (参考訳) 無人航空機(UAV)は,捜索救助活動(SAR)に革命をもたらしたが,機械学習モデルを訓練するための特殊な人検出データセットが欠如していることは大きな課題であり,このギャップに対処するために,UAVが捉えた災害現場に人間のポーズをオーバーレイして合成したCombination to Application(C2A)データセットを提案する。
C2Aデータセットで微調整されたモデルは、最先端検出モデルによる広範囲な実験により、一般的な航空データセットで事前訓練されたモデルと比較して、大幅な性能向上を示すことを示した。
さらに,C2Aデータセットと一般の人間のデータセットを組み合わせることの重要性を強調し,様々なシナリオにおける最適な性能と一般化を実現する。
このことは、SAR操作の有効性を高めるために、調整されたデータセットが必要であることを指摘する。
私たちのコントリビューションには、データセット作成パイプラインの開発や、災害シナリオの深刻度を評価するために、さまざまな人間のポーズと災害現場情報の統合も含まれています。
我々の研究は、SAR操作が最も現実的で効果的なAI支援による介入の恩恵を受けることを保証するために、今後の発展を提唱する。
Unmanned aerial vehicles (UAVs) have revolutionized search and rescue (SAR) operations, but the lack of specialized human detection datasets for training machine learning models poses a significant challenge.To address this gap, this paper introduces the Combination to Application (C2A) dataset, synthesized by overlaying human poses onto UAV-captured disaster scenes. Through extensive experimentation with state-of-the-art detection models, we demonstrate that models fine-tuned on the C2A dataset exhibit substantial performance improvements compared to those pre-trained on generic aerial datasets. Furthermore, we highlight the importance of combining the C2A dataset with general human datasets to achieve optimal performance and generalization across various scenarios. This points out the crucial need for a tailored dataset to enhance the effectiveness of SAR operations. Our contributions also include developing dataset creation pipeline and integrating diverse human poses and disaster scenes information to assess the severity of disaster scenarios. Our findings advocate for future developments, to ensure that SAR operations benefit from the most realistic and effective AI-assisted interventions possible. | 翻訳日:2024-08-12 16:18:44 公開日:2024-08-09 |
# 分散データを利用したプライバシ保護型タクシー需要予測システム
Privacy-Preserved Taxi Demand Prediction System Utilizing Distributed Data ( http://arxiv.org/abs/2408.04931v1 ) ライセンス: Link先を確認 | Ren Ozeki, Haruki Yonekura, Hamada Rizk, Hirozumi Yamaguchi, | (参考訳) タクシー運行を最適化し、都市交通サービスを強化するためには、正確なタクシー需要予測が不可欠である。
しかし、これらのシステムで顧客のデータを使用すると、プライバシとセキュリティの重大な懸念が生じる。
従来のフェデレーション学習は、直接データ交換なしでモデルトレーニングを可能にすることで、いくつかのプライバシー問題に対処する。
本稿では,タクシー需要予測のためのコントラスト学習に強化された協調学習を用いた新しいアプローチであるCC-Netを提案する。
本手法は,階層的なフェデレーション学習を通じて,複数の当事者が協調して需要予測モデルを訓練できるようにすることにより,高い性能を確保する。
このアプローチでは、同様のパーティがクラスタ化され、各クラスタ内でフェデレートされた学習が適用されます。
類似性はデータ交換なしで定義され、プライバシとセキュリティが保証される。
我が国のタクシーサービスプロバイダ5社の実データを用いて,14カ月間のアプローチを評価した。
その結果、CC-Netは顧客のデータのプライバシーを維持しつつ、予測精度を既存の技術に比べて少なくとも2.2%向上していることがわかった。
Accurate taxi-demand prediction is essential for optimizing taxi operations and enhancing urban transportation services. However, using customers' data in these systems raises significant privacy and security concerns. Traditional federated learning addresses some privacy issues by enabling model training without direct data exchange but often struggles with accuracy due to varying data distributions across different regions or service providers. In this paper, we propose CC-Net: a novel approach using collaborative learning enhanced with contrastive learning for taxi-demand prediction. Our method ensures high performance by enabling multiple parties to collaboratively train a demand-prediction model through hierarchical federated learning. In this approach, similar parties are clustered together, and federated learning is applied within each cluster. The similarity is defined without data exchange, ensuring privacy and security. We evaluated our approach using real-world data from five taxi service providers in Japan over fourteen months. The results demonstrate that CC-Net maintains the privacy of customers' data while improving prediction accuracy by at least 2.2% compared to existing techniques. | 翻訳日:2024-08-12 16:18:44 公開日:2024-08-09 |
# 相関入力変数の存在下での変動に基づく感度解析
Variance-based sensitivity analysis in the presence of correlated input variables ( http://arxiv.org/abs/2408.04933v1 ) ライセンス: Link先を確認 | Thomas Most, | (参考訳) 本稿では,分散に基づく感度指標推定のための古典的ソボ推定器の拡張を提案する。
提案手法では,入力変数の寄与を相関部と非相関部に分解するために使用する入力変数間の線形相関モデルを仮定する。
この方法は、モデル応答関数の仮定や近似なしに直接モデル出力を計算するために使用される元の関節確率分布に従ってサンプリング行列を提供する。
In this paper we propose an extension of the classical Sobol' estimator for the estimation of variance based sensitivity indices. The approach assumes a linear correlation model between the input variables which is used to decompose the contribution of an input variable into a correlated and an uncorrelated part. This method provides sampling matrices following the original joint probability distribution which are used directly to compute the model output without any assumptions or approximations of the model response function. | 翻訳日:2024-08-12 16:18:44 公開日:2024-08-09 |
# 無限小摂動による拡張系における定性的変化Dicke超放射
Qualitatively altered driven Dicke superradiance in extended systems due to infinitesimal perturbations ( http://arxiv.org/abs/2408.04935v1 ) ライセンス: Link先を確認 | Wenqi Tong, F. Robicheaux, | (参考訳) パラメータ化駆動によって誘導される興味深い量子相を持つディックモデル(英語版)は、キャビティにおいて集中的に研究され、そこでは置換対称性が磁場との等結合と同一の相互作用によって適用される。
その結果、系は適切な初期化を伴い、状態空間の高度に対称な部分集合に留まり、各原子の光子放出が互いに構成的に干渉し、定常状態において超放射性をもたらす。
しかし、駆動ディックモデルに対する定常状態の縮退のため、定常状態は無限小摂動によって質的に変化することができる。
本研究では, 1次元導波管に結合した超伝導量子ビットを拡張系としてシミュレーションし, 局所的偏差, 個別駆動相, 隣接量子ビットの分離, 個別変形の4種類の摂動について理論的に検討する。
角運動量基底を用いて退化部分空間の次元を予測し、摂動による部分空間内の遷移を研究する。
The driven Dicke model, with interesting quantum phases induced by parameterized driving, has been intensively studied in cavities, where permutation symmetry applies due to the atoms' equal coupling to the field and identical interaction. As a result, the system, with proper initialization, can remain in a highly symmetric subset of the state space, where the photon emission of each atom constructively interferes with each other, leading to superradiance at steady state. However, because of the degeneracy of steady states for the driven Dicke model, the steady state can be qualitatively altered by an infinitesimal perturbation. In this work, we simulate superconducting qubits coupled to a 1D waveguide as the extended system and theoretically investigate four kinds of perturbations: local dephasing, individual driving phases, the separation between adjacent qubits, and individual detunings. Using an angular momentum basis, we predict the dimension of the degenerate subspace and study the transition within the subspace due to the perturbation. | 翻訳日:2024-08-12 16:18:44 公開日:2024-08-09 |
# Ethereumスマートコントラクトにおける暗号欠陥の最小化と検出
Demystifying and Detecting Cryptographic Defects in Ethereum Smart Contracts ( http://arxiv.org/abs/2408.04939v1 ) ライセンス: Link先を確認 | Jiashuo Zhang, Yiming Shen, Jiachi Chen, Jianzhong Su, Yanlin Wang, Ting Chen, Jianbo Gao, Zhong Chen, | (参考訳) Ethereumは、暗号機能によるスマートコントラクトを強化するための、システムレベルの暗号APIセットを公式に提供している。
これらのAPIはEthereumトランザクションの10%以上で利用されており、開発者がデジタル署名など、さまざまなオンチェーン暗号タスクを実装する動機となっている。
しかし、開発者が常に暗号の専門家であるとは限らないため、そのアドホックで潜在的な欠陥のある実装は、暗号の理論的保証を侵害し、現実世界のセキュリティ問題を引き起こす可能性がある。
この脅威を軽減するため、スマートコントラクトにおける暗号欠陥の解読と検出を目的とした最初の研究を行った。
実世界のセキュリティレポート2,406件の分析を通じて、詳細な説明と実用的な検出パターンを用いて、スマートコントラクトにおける9種類の暗号欠陥を定義した。
この分類に基づいて,スマートコントラクトにおける暗号欠陥検出を自動化するファジィベースのツールであるCrySolを提案する。
トランザクションのリプレイと動的テナント分析を組み合わせて、きめ細かい暗号関連セマンティクスを抽出し、テストケース生成プロセスのガイドに暗号固有の戦略を採用する。
さらに,25,745の暗号関連スマートコントラクトを含む大規模データセットを収集し,CrySolの有効性を評価した。
その結果、CrySolの全体的な精度は95.4%、リコール率は91.2%となった。
特に、CrySolは25,745件のスマートコントラクトのうち5,847件(22.7%)が少なくとも1件の暗号欠陥を含んでいることを明らかにした。
Ethereum has officially provided a set of system-level cryptographic APIs to enhance smart contracts with cryptographic capabilities. These APIs have been utilized in over 10% of Ethereum transactions, motivating developers to implement various on-chain cryptographic tasks, such as digital signatures. However, since developers may not always be cryptographic experts, their ad-hoc and potentially defective implementations could compromise the theoretical guarantees of cryptography, leading to real-world security issues. To mitigate this threat, we conducted the first study aimed at demystifying and detecting cryptographic defects in smart contracts. Through the analysis of 2,406 real-world security reports, we defined nine types of cryptographic defects in smart contracts with detailed descriptions and practical detection patterns. Based on this categorization, we proposed CrySol, a fuzzing-based tool to automate the detection of cryptographic defects in smart contracts. It combines transaction replaying and dynamic taint analysis to extract fine-grained crypto-related semantics and employs crypto-specific strategies to guide the test case generation process. Furthermore, we collected a large-scale dataset containing 25,745 real-world crypto-related smart contracts and evaluated CrySol's effectiveness on it. The result demonstrated that CrySol achieves an overall precision of 95.4% and a recall of 91.2%. Notably, CrySol revealed that 5,847 (22.7%) out of 25,745 smart contracts contain at least one cryptographic defect, highlighting the prevalence of these defects. | 翻訳日:2024-08-12 16:18:44 公開日:2024-08-09 |
# カプセルビジョン2024チャレンジ:ビデオカプセル内視鏡における複数クラス異常分類
Capsule Vision 2024 Challenge: Multi-Class Abnormality Classification for Video Capsule Endoscopy ( http://arxiv.org/abs/2408.04940v1 ) ライセンス: Link先を確認 | Palak Handa, Amirreza Mahbod, Florian Schwarzhans, Ramona Woitek, Nidhi Goel, Deepti Chhabra, Shreshtha Jha, Manas Dhir, Deepak Gunjan, Jagadeesh Kakarla, Balasubramanian Raman, | (参考訳) 本稿では,ビデオカプセル内視鏡におけるカプセルビジョン2024チャレンジ:マルチクラス異常分類について紹介する。
医学画像分析・人工知能研究センター(MIAAI)、ドナウ私立大学医学部クレムズ・オーストリア医療画像・信号分析ハブ(MISAHUB)によって事実上組織化され、インドチェンナイのインド情報技術・デザイン・製造研究所(IIITDM)が主催する第9回コンピュータビジョン・画像処理国際会議(CVIP 2024)と共同で設立された。
本資料では,課題の概要,登録とルール,提出形式,活用データセットの記述について述べる。
We present the Capsule Vision 2024 Challenge: Multi-Class Abnormality Classification for Video Capsule Endoscopy. It is being virtually organized by the Research Center for Medical Image Analysis and Artificial Intelligence (MIAAI), Department of Medicine, Danube Private University, Krems, Austria and Medical Imaging and Signal Analysis Hub (MISAHUB) in collaboration with the 9th International Conference on Computer Vision & Image Processing (CVIP 2024) being organized by the Indian Institute of Information Technology, Design and Manufacturing (IIITDM) Kancheepuram, Chennai, India. This document describes the overview of the challenge, its registration and rules, submission format, and the description of the utilized datasets. | 翻訳日:2024-08-12 16:18:44 公開日:2024-08-09 |
# 人道的文書からの定量的情報抽出
Quantitative Information Extraction from Humanitarian Documents ( http://arxiv.org/abs/2408.04941v1 ) ライセンス: Link先を確認 | Daniele Liberatore, Kyriaki Kalimeri, Derya Sever, Yelena Mejova, | (参考訳) 人道的行動には、大量の報告、要約、ニュース、その他の文書が添付されている。
アクティビティをガイドするためには、そのような自由テキストリソースから重要な情報を素早く抽出する必要がある。
被災者数や援助額、インフラ被害の程度などは、緊急対応や予報行動の中心となっている。
本研究では,このような量的情報の抽出に,参照する単位,修飾子,関連する事象を含む重要な文脈に沿って,人道的領域に注釈付きデータセットを寄贈する。
さらに,本研究では,各ユニットに付随する量を抽出する独自の自然言語処理パイプラインを開発し,ベースラインや最近の文献と比較して評価する。
提案したモデルは、特にドミニカ共和国および一部のアフリカ諸国に関する文書において、パフォーマンスを一貫して改善する。
人道的領域のためのNLPツールの改善を継続するため、研究コミュニティにデータセットとコードを公開しています。
Humanitarian action is accompanied by a mass of reports, summaries, news, and other documents. To guide its activities, important information must be quickly extracted from such free-text resources. Quantities, such as the number of people affected, amount of aid distributed, or the extent of infrastructure damage, are central to emergency response and anticipatory action. In this work, we contribute an annotated dataset for the humanitarian domain for the extraction of such quantitative information, along side its important context, including units it refers to, any modifiers, and the relevant event. Further, we develop a custom Natural Language Processing pipeline to extract the quantities alongside their units, and evaluate it in comparison to baseline and recent literature. The proposed model achieves a consistent improvement in the performance, especially in the documents pertaining to the Dominican Republic and select African countries. We make the dataset and code available to the research community to continue the improvement of NLP tools for the humanitarian domain. | 翻訳日:2024-08-12 16:18:44 公開日:2024-08-09 |
# 大規模実証のためのテンソル型量子位相差推定法
Tensor-based quantum phase difference estimation for large-scale demonstration ( http://arxiv.org/abs/2408.04946v1 ) ライセンス: Link先を確認 | Shu Kanno, Kenji Sugisaki, Hajime Nakamura, Hiroshi Yamauchi, Rei Sakuma, Takao Kobayashi, Qi Gao, Naoki Yamamoto, | (参考訳) 本研究では,量子位相差推定法(QPDE)とテンソルネットワークに基づく一元圧縮法を利用して,重畳状態と時間進化ゲートを合成するエネルギー計算アルゴリズムを開発した。
このアルゴリズムは, 効率的な実装に加えて, 指数関数的に非偏極雑音の影響を低減させる。
我々は,IBM超伝導デバイス上での1次元ハバードモデルのエネルギーギャップ計算を,32系(+1アンシラ)量子ビットの回路を用いて行った。
さらに, 8-qubit ブタジエンシミュレーションで検証した空間軌道の局在化とインデックスソートを用いた分子実行手法を提案する。
QPDEはQPEと同じ目的を扱えるので、我々のアルゴリズムは実際のデバイス上での量子コンピューティングの飛躍的な進歩を表している。
We develop an energy calculation algorithm leveraging quantum phase difference estimation (QPDE) scheme and a tensor-network-based unitary compression method in the preparation of superposition states and time-evolution gates. Alongside its efficient implementation, this algorithm reduces depolarization noise affections exponentially. We demonstrated energy gap calculations for one-dimensional Hubbard models on IBM superconducting devices using circuits up to 32-system (plus one-ancilla) qubits, a five-fold increase over previous QPE demonstrations, at the 7242 controlled-Z gate level of standard transpilation, keying a Q-CTRL error suppression module. Additionally, we propose a technique towards molecular executions using spatial orbital localization and index sorting, verified by an eight-qubit butadiene simulation. Since QPDE can handle the same objectives as QPE, our algorithm represents a leap forward in quantum computing on real devices. | 翻訳日:2024-08-12 16:18:44 公開日:2024-08-09 |
# HybridRAG:効率的な情報抽出のための知識グラフとベクトル検索生成の統合
HybridRAG: Integrating Knowledge Graphs and Vector Retrieval Augmented Generation for Efficient Information Extraction ( http://arxiv.org/abs/2408.04948v1 ) ライセンス: Link先を確認 | Bhaskarjit Sarmah, Benika Hall, Rohan Rao, Sunil Patel, Stefano Pasquali, Dhagash Mehta, | (参考訳) ファイナンシャル・コール・トランスクリプトなどの金融アプリケーションで発生する非構造的テキストデータからの複雑な情報の抽出と解釈は、ドメイン固有用語や文書の複雑なフォーマットといった課題により、現在の検索用拡張生成(RAG)(ベクトルデータベースを情報検索に利用するベクターRAG技術)を使用する場合でも、大きな言語モデル(LLM)に重大な課題をもたらす。
本稿では、知識グラフ(KG)に基づくRAG技術(GraphRAG)とVectorRAG技術(VectorRAG)のハイブリッドRAG(HybridRAG)と呼ばれる新しい手法を導入する。
そこで本研究では,Q&A形式の文書の集合を用いて,ベクトルデータベースとKGの両方からコンテキストを抽出したHybridRAGが,検索および生成段階において,検索精度と応答生成の両面で評価した場合に,従来のVectorRAGとGraphRAGのどちらよりも優れていることを示す。
提案手法はファイナンシャル・ドメインを超えて応用できる。
Extraction and interpretation of intricate information from unstructured text data arising in financial applications, such as earnings call transcripts, present substantial challenges to large language models (LLMs) even using the current best practices to use Retrieval Augmented Generation (RAG) (referred to as VectorRAG techniques which utilize vector databases for information retrieval) due to challenges such as domain specific terminology and complex formats of the documents. We introduce a novel approach based on a combination, called HybridRAG, of the Knowledge Graphs (KGs) based RAG techniques (called GraphRAG) and VectorRAG techniques to enhance question-answer (Q&A) systems for information extraction from financial documents that is shown to be capable of generating accurate and contextually relevant answers. Using experiments on a set of financial earning call transcripts documents which come in the form of Q&A format, and hence provide a natural set of pairs of ground-truth Q&As, we show that HybridRAG which retrieves context from both vector database and KG outperforms both traditional VectorRAG and GraphRAG individually when evaluated at both the retrieval and generation stages in terms of retrieval accuracy and answer generation. The proposed technique has applications beyond the financial domain | 翻訳日:2024-08-12 16:18:44 公開日:2024-08-09 |
# CROCODILE:Contrastive Disentangled Learningによる耐火性向上
CROCODILE: Causality aids RObustness via COntrastive DIsentangled LEarning ( http://arxiv.org/abs/2408.04949v1 ) ライセンス: Link先を確認 | Gianluca Carloni, Sotirios A Tsaftaris, Sara Colantonio, | (参考訳) ドメインシフトにより、ディープラーニング画像分類器は、トレーニングと異なるドメインに適用されると、性能が低下する。
例えば、ある病院の胸部X線(CXR)画像に基づいて訓練された分類器は、スキャナの設定や患者の特性の変化により、別の病院の画像に一般化できない。
本稿では、CROCODILEフレームワークを紹介し、因果関係のツールが、特徴のゆがみ、対照的な学習損失、事前知識の注入を通じて、モデルの堅牢性からドメインシフトへの道のりをいかに育むかを示す。
このように、モデルは素早い相関に頼らず、画像からより良い予測をもたらすメカニズムを学び、アウト・オブ・ディストリビューション(OOD)データに基づいてベースラインを上回ります。
CXRの多ラベル肺疾患分類に本手法を適用し,4つのデータセットから750万枚以上の画像を用いた。
バイアス緩和法は,領域の一般化と公平性を向上し,より安全な医用画像解析のための深層学習モデルの適用性と信頼性を向上する。
コードは、https://github.com/gianlucarloni/crocodile.comで参照してください。
Due to domain shift, deep learning image classifiers perform poorly when applied to a domain different from the training one. For instance, a classifier trained on chest X-ray (CXR) images from one hospital may not generalize to images from another hospital due to variations in scanner settings or patient characteristics. In this paper, we introduce our CROCODILE framework, showing how tools from causality can foster a model's robustness to domain shift via feature disentanglement, contrastive learning losses, and the injection of prior knowledge. This way, the model relies less on spurious correlations, learns the mechanism bringing from images to prediction better, and outperforms baselines on out-of-distribution (OOD) data. We apply our method to multi-label lung disease classification from CXRs, utilizing over 750000 images from four datasets. Our bias-mitigation method improves domain generalization and fairness, broadening the applicability and reliability of deep learning models for a safer medical image analysis. Find our code at: https://github.com/gianlucarloni/crocodile. | 翻訳日:2024-08-12 16:18:44 公開日:2024-08-09 |
# 蒸気中におけるスピン波の再生
Regeneration of Spin Wave in Atomic Vapor ( http://arxiv.org/abs/2408.04950v1 ) ライセンス: Link先を確認 | Jian-Peng Dou, Feng Lu, Xiao-Wen Shang, Hao Tang, Xian-Min Jin, | (参考訳) 従来、原子蒸気は熱力学と統計物理学の原理によって支配される非生物系とみなされていた。
しかし、生命と非生命の区切り線は、以前考えられていたよりも区別が薄いようである。
原子蒸気に蓄積された原子スピン波は、外部光源からエネルギーを吸収する能力を持ち、アクティブな再生に似た挙動を示す。
この再生はスピン波の寿命と回収効率を大幅に向上させ,同時にノイズを効果的に抑制することを示した。
以上の結果から, 室温媒質が媒介するスピン波で発生する顕著なデコヒーレンスを緩和し, 環境条件下での量子情報や精度測定の分野への応用の可能性が示唆された。
Conventionally, atomic vapor is perceived as a non-living system governed by the principles of thermodynamics and statistical physics. However, the demarcation line between life and non-life appears to be less distinct than previously thought. In a study of amplifying spin waves, we observe a phenomenon reminiscent of life: The atomic spin wave stored in atomic vapor has a capability of absorbing energy from an external light source, and exhibits behaviors akin to active regeneration. We demonstrate that this regeneration significantly enhances the lifetime and retrieval efficiency of the spin wave, while concurrently the noise is effectively suppressed. Our results suggest that the regeneration mechanism holds promise for mitigating the pronounced decoherence typically encountered in spin waves carried by room-temperature media, therefore offering potential applications in the realms of quantum information and precision measurements at ambient conditions. | 翻訳日:2024-08-12 16:07:28 公開日:2024-08-09 |
# 学習可能なデータ拡張によるモデルデバイアス
Model Debiasing by Learnable Data Augmentation ( http://arxiv.org/abs/2408.04955v1 ) ライセンス: Link先を確認 | Pietro Morerio, Ruggero Ragonesi, Vittorio Murino, | (参考訳) ディープニューラルネットワークは、トレーニングデータを効率的に適合させることでよく知られているが、実際のタスクラベルよりも何らかのバイアスが支配される場合、一般化能力に乏しいため、モデルが“ショートカット”を学ぶことになる。
本質的に、そのようなモデルは、しばしばデータとラベルの間の急激な相関を学習する傾向にある。
本研究では,偏見が不明な場合の非教師付きシナリオにおいて,偏見付きデータから学習する問題に対処する。
これは、補助的バイアス関連アノテーションを学習プロセスで活用できる教師付きケースと比較して、はるかに難しいタスクです。
本稿では,トレーニングを正規化可能なデータ拡張戦略を備えた,新しい2段階学習パイプラインを提案する。
まず、偏り/偏りのないサンプルは、過度偏りのモデルのトレーニングによって識別される。
第二に、そのような分割(典型的にはノイズ)はデータ拡張フレームワーク内で利用され、正規化効果を持つ混合パラメータを学習しながら元のサンプルを適切に組み合わせる。
合成および現実的なバイアス付きデータセットの実験では、最先端の分類精度が示され、競合する手法よりも優れ、バイアス付きと非バイアス付きの両方の例で堅牢なパフォーマンスが証明された。
特に、我々のトレーニング方法はバイアスのレベルに完全に依存しないため、明らかに偏見のないデータセットのパフォーマンスにも肯定的な影響を与え、データのバイアスのレベル(またはその欠如)に関わらず、モデルの一般化を改善する。
Deep Neural Networks are well known for efficiently fitting training data, yet experiencing poor generalization capabilities whenever some kind of bias dominates over the actual task labels, resulting in models learning "shortcuts". In essence, such models are often prone to learn spurious correlations between data and labels. In this work, we tackle the problem of learning from biased data in the very realistic unsupervised scenario, i.e., when the bias is unknown. This is a much harder task as compared to the supervised case, where auxiliary, bias-related annotations, can be exploited in the learning process. This paper proposes a novel 2-stage learning pipeline featuring a data augmentation strategy able to regularize the training. First, biased/unbiased samples are identified by training over-biased models. Second, such subdivision (typically noisy) is exploited within a data augmentation framework, properly combining the original samples while learning mixing parameters, which has a regularization effect. Experiments on synthetic and realistic biased datasets show state-of-the-art classification accuracy, outperforming competing methods, ultimately proving robust performance on both biased and unbiased examples. Notably, being our training method totally agnostic to the level of bias, it also positively affects performance for any, even apparently unbiased, dataset, thus improving the model generalization regardless of the level of bias (or its absence) in the data. | 翻訳日:2024-08-12 16:07:28 公開日:2024-08-09 |
# LLaVA-VSD:視覚空間記述のための大規模言語・視覚アシスタント
LLaVA-VSD: Large Language-and-Vision Assistant for Visual Spatial Description ( http://arxiv.org/abs/2408.04957v1 ) ライセンス: Link先を確認 | Yizhang Jin, Jian Li, Jiangning Zhang, Jianlong Hu, Zhenye Gan, Xin Tan, Yong Liu, Yabiao Wang, Chengjie Wang, Lizhuang Ma, | (参考訳) ビジュアル空間記述(VSD)は、画像内のオブジェクト間の空間的関係を記述するテキストを生成することを目的としている。
従来の視覚的空間関係分類(VSRC)法は、通常、画像内の2つのオブジェクト間の空間関係を出力し、しばしば世界の知識を無視し、一般的な言語能力に欠ける。
本稿では、視覚空間関係の分類、記述、オープンな記述を目的としたLLaVA-VSDという、視覚空間記述のためのLarge Language-and-Vision Assistantを提案する。
具体的には、3つのタスクに対して与えられたフィギュア・キャプションペアを使用して、まずVSD命令追従データセットを構築する。
次にLoRAを使用して、VSD用のLarge Language and Vision Assistantを微調整する。
最後に、大きな言語モデル(Qwen-2)を使用して生成された文を洗練し、その多様性と精度を高める。
LLaVA-VSDは、優れたマルチモーダル対話機能を示し、画像内のオブジェクト関係に関する問い合わせを支援するために、オープンな指示に従うことができる。
Visual Spatial Description (VSD) aims to generate texts that describe the spatial relationships between objects within images. Traditional visual spatial relationship classification (VSRC) methods typically output the spatial relationship between two objects in an image, often neglecting world knowledge and lacking general language capabilities. In this paper, we propose a Large Language-and-Vision Assistant for Visual Spatial Description, named LLaVA-VSD, which is designed for the classification, description, and open-ended description of visual spatial relationships. Specifically, the model first constructs a VSD instruction-following dataset using given figure-caption pairs for the three tasks. It then employs LoRA to fine-tune a Large Language and Vision Assistant for VSD, which has 13 billion parameters and supports high-resolution images. Finally, a large language model (Qwen-2) is used to refine the generated sentences, enhancing their diversity and accuracy. LLaVA-VSD demonstrates excellent multimodal conversational capabilities and can follow open-ended instructions to assist with inquiries about object relationships in images. | 翻訳日:2024-08-12 16:07:28 公開日:2024-08-09 |
# 手術用VQLA++:ロボット手術におけるロバスト視覚質問応答の校正のための対人コントラスト学習
Surgical-VQLA++: Adversarial Contrastive Learning for Calibrated Robust Visual Question-Localized Answering in Robotic Surgery ( http://arxiv.org/abs/2408.04958v1 ) ライセンス: Link先を確認 | Long Bai, Guankun Wang, Mobarakol Islam, Lalithkumar Seenivasan, An Wang, Hongliang Ren, | (参考訳) 医用視覚質問応答(VQA)は、視覚情報と臨床的意思決定のギャップを埋め、医師が臨床画像やビデオから理解を抽出することを可能にする。
特に、外科的VQAは、正確な診断、効果的な教育、臨床介入を補助し、外科的データの解釈を強化することができる。
しかしながら、VQAモデルが与えられた質問に対応する関心領域を視覚的に示すことができないため、手術シーンの理解が不十分になる。
そこで本研究では,外科的画像に関する特定のクエリに対して,精密かつコンテキスト認識の応答を行うために,外科的視覚的質問応答(VQLA)を提案する。
さらに, 手術シナリオにおける安全性の強い要求, 画像の取得・送信における破壊の可能性に対処するため, マルチモーダル情報を効果的に統合・整合するCalibrated Co-Attention Gated Vision-Language (C$^2$G-ViL) という新しい手法を提案する。
さらに,対戦型サンプルベースのコントラスト学習戦略を活用して,性能とロバスト性を高める。
また、EdoVis-18-VQLAとEdoVis-17-VQLAデータセットを拡張して、データの範囲と適用範囲を広げています。
上記のデータセットに関する大規模な実験は、我々のソリューションの顕著な性能と堅牢性を示している。
われわれのソリューションは、現実世界のイメージの腐敗を効果的に防ぐことができる。
そこで本提案手法は, 外科教育, 患者ケア, 手術成績の向上を支援する有効なツールとして有効である。
Medical visual question answering (VQA) bridges the gap between visual information and clinical decision-making, enabling doctors to extract understanding from clinical images and videos. In particular, surgical VQA can enhance the interpretation of surgical data, aiding in accurate diagnoses, effective education, and clinical interventions. However, the inability of VQA models to visually indicate the regions of interest corresponding to the given questions results in incomplete comprehension of the surgical scene. To tackle this, we propose the surgical visual question localized-answering (VQLA) for precise and context-aware responses to specific queries regarding surgical images. Furthermore, to address the strong demand for safety in surgical scenarios and potential corruptions in image acquisition and transmission, we propose a novel approach called Calibrated Co-Attention Gated Vision-Language (C$^2$G-ViL) embedding to integrate and align multimodal information effectively. Additionally, we leverage the adversarial sample-based contrastive learning strategy to boost our performance and robustness. We also extend our EndoVis-18-VQLA and EndoVis-17-VQLA datasets to broaden the scope and application of our data. Extensive experiments on the aforementioned datasets demonstrate the remarkable performance and robustness of our solution. Our solution can effectively combat real-world image corruption. Thus, our proposed approach can serve as an effective tool for assisting surgical education, patient care, and enhancing surgical outcomes. | 翻訳日:2024-08-12 16:07:28 公開日:2024-08-09 |
# Open-Vocabulary Semantic Segmentation に対するLazy Visual Grounding の防御
In Defense of Lazy Visual Grounding for Open-Vocabulary Semantic Segmentation ( http://arxiv.org/abs/2408.04961v1 ) ライセンス: Link先を確認 | Dahyun Kang, Minsu Cho, | (参考訳) 開語彙的セマンティックセグメンテーションのための,非教師対象マスク発見の2段階的アプローチである遅延視覚グラウンド(lazy visual grounding)を提案する。
先行技術の多くは、このタスクを、事前訓練された視覚と言語モデルの画像とテキストの分類能力を活用するために、オブジェクトレベルの理解を伴わないピクセルからテキストへの分類として捉えている。
従来のテキスト情報をセグメント化せずに視覚オブジェクトを識別することは、本質的には視覚タスクである、と我々は主張する。
怠け者の視覚的グラウンドは、まず画像を覆うオブジェクトマスクを反復的正規化カットで発見し、その後、遅いインタラクションで検出されたオブジェクトのテキストを割り当てる。
私たちのモデルは、Pascal VOC、Pascal Context、COCO-object、COCO-stuff、ADE 20Kという5つのパブリックデータセットで、まだ追加のトレーニングを必要としていません。
特に、視覚的に魅力的なセグメンテーションの結果は、オブジェクトを正確にローカライズするモデル能力を示している。
ペーパーホームページ: https://cvlab.postech.ac.kr/research/lazygrounding
We present lazy visual grounding, a two-stage approach of unsupervised object mask discovery followed by object grounding, for open-vocabulary semantic segmentation. Plenty of the previous art casts this task as pixel-to-text classification without object-level comprehension, leveraging the image-to-text classification capability of pretrained vision-and-language models. We argue that visual objects are distinguishable without the prior text information as segmentation is essentially a vision task. Lazy visual grounding first discovers object masks covering an image with iterative Normalized cuts and then later assigns text on the discovered objects in a late interaction manner. Our model requires no additional training yet shows great performance on five public datasets: Pascal VOC, Pascal Context, COCO-object, COCO-stuff, and ADE 20K. Especially, the visually appealing segmentation results demonstrate the model capability to localize objects precisely. Paper homepage: https://cvlab.postech.ac.kr/research/lazygrounding | 翻訳日:2024-08-12 16:07:28 公開日:2024-08-09 |
# DAFT-GAN:テキストガイド画像インパインティングのための二重アフィン変換生成アドバイザラルネットワーク
DAFT-GAN: Dual Affine Transformation Generative Adversarial Network for Text-Guided Image Inpainting ( http://arxiv.org/abs/2408.04962v1 ) ライセンス: Link先を確認 | Jihoon Lee, Yunhong Min, Hwidong Kim, Sangtae Ahn, | (参考訳) 近年,テキスト誘導画像のインペイントに関する研究に注目が集まっている。
しかし、画像とテキストの整合性の確保や、破損した領域と破損していない領域の分布の整合性の維持など、いくつかの制約があるため、課題は残る。
そこで本研究では,2つのアフィン変換生成逆数ネットワーク(DAFT-GAN)を提案する。
DAFT-GANは2つのアフィン変換ネットワークを統合し、復号ブロックごとにテキストと画像の特徴を徐々に組み合わせている。
さらに、マスク画像の破損領域と破損領域を別々に符号化することにより、微細な画像生成のための未破損特徴の情報漏洩を最小限に抑える。
提案モデルでは,既存のGANモデルよりも質的,定量的な評価を3つのベンチマークデータセット(MS-COCO,CUB,オックスフォード)で行う。
In recent years, there has been a significant focus on research related to text-guided image inpainting. However, the task remains challenging due to several constraints, such as ensuring alignment between the image and the text, and maintaining consistency in distribution between corrupted and uncorrupted regions. In this paper, thus, we propose a dual affine transformation generative adversarial network (DAFT-GAN) to maintain the semantic consistency for text-guided inpainting. DAFT-GAN integrates two affine transformation networks to combine text and image features gradually for each decoding block. Moreover, we minimize information leakage of uncorrupted features for fine-grained image generation by encoding corrupted and uncorrupted regions of the masked image separately. Our proposed model outperforms the existing GAN-based models in both qualitative and quantitative assessments with three benchmark datasets (MS-COCO, CUB, and Oxford) for text-guided image inpainting. | 翻訳日:2024-08-12 16:07:28 公開日:2024-08-09 |
# LiD-FL: List-Decodable Federated Learningを目指す
LiD-FL: Towards List-Decodable Federated Learning ( http://arxiv.org/abs/2408.04963v1 ) ライセンス: Link先を確認 | Hong Liu, Liren Shan, Han Bao, Ronghui You, Yuhao Yi, Jiancheng Lv, | (参考訳) フェデレーテッド・ラーニングは、多くの未検証参加者のいる環境でよく使用される。
そのため、対人攻撃による連合学習には大きな注意が払われる。
本稿では,リスト記述可能なフェデレーション学習のためのアルゴリズムフレームワークを提案する。このフレームワークでは,中央サーバがモデルのリストを維持でき,少なくとも1つの性能が保証されている。
この枠組みは、正直な労働者のごく一部に厳格な制限を持たず、ビザンツ連邦学習の適用範囲を半分以上の敵のシナリオにまで広げた。
損失関数の適切な仮定の下で、我々はこの方法の収束定理を証明した。
コンベックスと非凸の両方の損失を伴う画像分類タスクを含む実験結果から,提案アルゴリズムは様々な攻撃において悪意ある多数派に耐えうることを示した。
Federated learning is often used in environments with many unverified participants. Therefore, federated learning under adversarial attacks receives significant attention. This paper proposes an algorithmic framework for list-decodable federated learning, where a central server maintains a list of models, with at least one guaranteed to perform well. The framework has no strict restriction on the fraction of honest workers, extending the applicability of Byzantine federated learning to the scenario with more than half adversaries. Under proper assumptions on the loss function, we prove a convergence theorem for our method. Experimental results, including image classification tasks with both convex and non-convex losses, demonstrate that the proposed algorithm can withstand the malicious majority under various attacks. | 翻訳日:2024-08-12 16:07:28 公開日:2024-08-09 |
# 一般化第一・記憶第二・記憶第二・記憶第二・記憶特化課題
Generalisation First, Memorisation Second? Memorisation Localisation for Natural Language Classification Tasks ( http://arxiv.org/abs/2408.04965v1 ) ライセンス: Link先を確認 | Verna Dankers, Ivan Titov, | (参考訳) ニューラルネットワークは非定型的なインプット・アウトプットの組み合わせを拾い上げ、それらのトレーニング例をパラメータ空間に格納する。
このことはよく知られていますが、どのように、どこで、ほとんど答えられていない疑問が残っています。
マルチレイヤのニューラルモデルを考えると、数百万のパラメータで暗記はどこで起こるのか?
画像分類に基づく支配的な仮説は、下位層は一般化可能な特徴を学習し、より深い層は専門的で記憶に残るというものである。
NLPの研究は、言語モデルには当てはまらないが、主に事実の記憶に焦点を当てていることを示唆している。
局所化問題の範囲を12の自然言語分類タスクに拡大し, 4つの記憶化ローカライゼーション手法を適用した。
その結果,暗記は局所的ではなく段階的なプロセスであり,暗記がタスク依存であることを証明し,一般化第一の暗記第二仮説にニュアンスを与えることが明らかとなった。
Memorisation is a natural part of learning from real-world data: neural models pick up on atypical input-output combinations and store those training examples in their parameter space. That this happens is well-known, but how and where are questions that remain largely unanswered. Given a multi-layered neural model, where does memorisation occur in the millions of parameters? Related work reports conflicting findings: a dominant hypothesis based on image classification is that lower layers learn generalisable features and that deeper layers specialise and memorise. Work from NLP suggests this does not apply to language models, but has been mainly focused on memorisation of facts. We expand the scope of the localisation question to 12 natural language classification tasks and apply 4 memorisation localisation techniques. Our results indicate that memorisation is a gradual process rather than a localised one, establish that memorisation is task-dependent, and give nuance to the generalisation first, memorisation second hypothesis. | 翻訳日:2024-08-12 16:07:28 公開日:2024-08-09 |
# 可変オートエンコーダを用いた空力的シュロゲートモデリングに向けて
Towards aerodynamic surrogate modeling based on $β$-variational autoencoders ( http://arxiv.org/abs/2408.04969v1 ) ライセンス: Link先を確認 | Víctor Francés-Belda, Alberto Solera-Rico, Javier Nieto-Centenero, Esther Andrés, Carlos Sanmiguel Vila, Rodrigo Castellanos, | (参考訳) 次元の低減と回帰技術を組み合わせた代理モデルは、コストの高い高忠実なCFDデータの必要性を減らすために不可欠である。
$\beta$-Variational Autoencoder(\beta$-VAE)アーキテクチャを用いた新しいアプローチは、高次元フローデータの高品質な低次元表現を得るとともに、その潜在空間の物理的解釈を可能にすることを約束している。
飛行条件を考慮に入れた超音速翼の圧力分布(マッハ数と攻撃角)を予測するために,潜時空間回帰に基づく代理モデルを提案する。
主成分分析(PCA)により強化された$\beta$-VAEモデルは、高次元データを低次元潜在空間にマッピングし、飛行条件と直接相関を示す。
通常の$\beta$は、全体的なパフォーマンスを改善するために注意深いチューニングを必要とするが、PCAの事前処理は、効果的な潜伏空間の構築、オートエンコーダのトレーニングとパフォーマンスの改善に役立っている。
ガウス過程回帰は、飛行条件から潜時空間変数を予測するために使用され、$\beta$とは独立に頑健な振る舞いを示し、デコーダは高次元の圧力場データを再構成する。
このパイプラインは、未調査の飛行条件に関する洞察を提供する。
さらに、デコーダの微調整処理によりモデルはさらに洗練され、$\beta$への依存性が減少し、精度が向上する。
構造化潜在空間、頑健な回帰性能、微調整による大幅な改善により、高度に正確かつ効率的な代理モデルが生成される。
提案手法は,空力サロゲートモデリングにおける$\beta$-VAEsの有効性を実証し,空力データ予測のための高速で費用対効果があり信頼性の高い代替手段を提供する。
Surrogate models combining dimensionality reduction and regression techniques are essential to reduce the need for costly high-fidelity CFD data. New approaches using $\beta$-Variational Autoencoder ($\beta$-VAE) architectures have shown promise in obtaining high-quality low-dimensional representations of high-dimensional flow data while enabling physical interpretation of their latent spaces. We propose a surrogate model based on latent space regression to predict pressure distributions on a transonic wing given the flight conditions: Mach number and angle of attack. The $\beta$-VAE model, enhanced with Principal Component Analysis (PCA), maps high-dimensional data to a low-dimensional latent space, showing a direct correlation with flight conditions. Regularization through $\beta$ requires careful tuning to improve the overall performance, while PCA pre-processing aids in constructing an effective latent space, improving autoencoder training and performance. Gaussian Process Regression is used to predict latent space variables from flight conditions, showing robust behavior independent of $\beta$, and the decoder reconstructs the high-dimensional pressure field data. This pipeline provides insight into unexplored flight conditions. Additionally, a fine-tuning process of the decoder further refines the model, reducing dependency on $\beta$ and enhancing accuracy. The structured latent space, robust regression performance, and significant improvements from fine-tuning collectively create a highly accurate and efficient surrogate model. Our methodology demonstrates the effectiveness of $\beta$-VAEs for aerodynamic surrogate modeling, offering a rapid, cost-effective, and reliable alternative for aerodynamic data prediction. | 翻訳日:2024-08-12 16:07:28 公開日:2024-08-09 |
# XNN: クラウドで実現可能なディープラーニングにおけるアイデンティティ漏洩の緩和におけるパラダイムシフト
XNN: Paradigm Shift in Mitigating Identity Leakage within Cloud-Enabled Deep Learning ( http://arxiv.org/abs/2408.04974v1 ) ライセンス: Link先を確認 | Kaixin Liu, Huixin Xiong, Bingyu Duan, Zexuan Cheng, Xinyu Zhou, Wanqian Zhang, Xiangyu Zhang, | (参考訳) クラウドベースのディープラーニングの分野では、外部計算リソースの必須条件は、特にID漏洩など、深刻なプライバシー上の懸念と共存する。
この課題に対処するために、ニューラルネットワーク機能にランダムな摂動を注入する先駆的な手法であるXNNとXNN-dを導入する。
トレーニングフェーズ用に設計されたXNNは、ランダムな置換と行列乗法を巧みにブレンドして特徴マップを難読化し、トレーニングの整合性を損なうことなく、潜在的違反から効果的にプライベートデータを保護している。
同時に、推論フェーズのために考案されたXNN-dは、生成的対向ノイズを統合するために対向訓練を採用する。
この技術は、識別抽出を目的としたブラックボックスアクセス攻撃を効果的に防止し、蒸留された顔認識ネットワークは摂動特性を十分に処理し、正確な識別を確実にする。
我々は,XNNの有効性を実証し,モデル精度を維持しつつ,同一性漏洩を低減する既存手法を著しく上回った。
In the domain of cloud-based deep learning, the imperative for external computational resources coexists with acute privacy concerns, particularly identity leakage. To address this challenge, we introduce XNN and XNN-d, pioneering methodologies that infuse neural network features with randomized perturbations, striking a harmonious balance between utility and privacy. XNN, designed for the training phase, ingeniously blends random permutation with matrix multiplication techniques to obfuscate feature maps, effectively shielding private data from potential breaches without compromising training integrity. Concurrently, XNN-d, devised for the inference phase, employs adversarial training to integrate generative adversarial noise. This technique effectively counters black-box access attacks aimed at identity extraction, while a distilled face recognition network adeptly processes the perturbed features, ensuring accurate identification. Our evaluation demonstrates XNN's effectiveness, significantly outperforming existing methods in reducing identity leakage while maintaining a high model accuracy. | 翻訳日:2024-08-12 16:07:28 公開日:2024-08-09 |
# \textit{re}CSE:自己教師型コントラスト学習における文埋め込みのための可搬型変換機能
\textit{re}CSE: Portable Reshaping Features for Sentence Embedding in Self-supervised Contrastive Learning ( http://arxiv.org/abs/2408.04975v1 ) ライセンス: Link先を確認 | Fufangchen Zhao, Gao Jian, Danfeng Yan, | (参考訳) 特徴変換に基づく自己教師付きコントラスト学習文表現フレームワークである「textit{re}CSE」を提案する。
このフレームワークは、離散データ拡張手法を使用する現在の先進モデルとは異なるが、代わりに元の文の入力特徴を再評価し、文中の各トークンのグローバル情報を集約し、現在の先進モデルにおける表現極性やGPUメモリ消費の線形増加に関する一般的な問題を緩和する。
さらに、我々の \textit{re}CSE はセマンティック類似性タスクにおける競合性能を達成しました。
また,提案手法は,他の自己指導型コントラスト学習フレームワークに移植し,その表現能力を向上し,最先端の性能を達成できるような,強力な普遍性を有することを示す。
私たちのコードはhttps://github.com/heavenhellchen/reCSEで公開されています。
We propose \textit{re}CSE, a self supervised contrastive learning sentence representation framework based on feature reshaping. This framework is different from the current advanced models that use discrete data augmentation methods, but instead reshapes the input features of the original sentence, aggregates the global information of each token in the sentence, and alleviates the common problems of representation polarity and GPU memory consumption linear increase in current advanced models. In addition, our \textit{re}CSE has achieved competitive performance in semantic similarity tasks. And the experiment proves that our proposed feature reshaping method has strong universality, which can be transplanted to other self supervised contrastive learning frameworks and enhance their representation ability, even achieving state-of-the-art performance. Our code is available at https://github.com/heavenhellchen/reCSE. | 翻訳日:2024-08-12 16:07:28 公開日:2024-08-09 |
# ロックの爆発:秘密データ抽出のためのMiG-Vの論理ロックを活用する
Exploiting the Lock: Leveraging MiG-V's Logic Locking for Secret-Data Extraction ( http://arxiv.org/abs/2408.04976v1 ) ライセンス: Link先を確認 | Lennart M. Reimann, Yadu Madhukumar Variyar, Lennet Huelser, Chiara Ghinami, Dominik Germek, Rainer Leupers, | (参考訳) MiG-Vは高セキュリティアプリケーション向けに設計され、世界初の商用論理ロック型RISC-Vプロセッサである。
この文脈では、鍵駆動論理ゲートを使用して元の設計を難読化することで、信頼できない製造プロセス中にRISC-Vプロセッサ設計を保護するために、論理ロックが使用された。
この方法は、ハードウェアのTrojansのような悪意ある修正を防御するが、実行中のRISC-Vプロセッサのデータ機密性に対するロジックロックの影響は、十分に調べられていない。
本研究では,論理ロックがデータ機密性に与える影響を評価する。
SSL暗号アルゴリズムを実行中、MiG-Vの論理ロックキーを変更することで、論理ロックハードウェアの利用によるデータ漏洩を識別する。
論理ロックキーの1ビットを変更すれば、暗号暗号鍵の100%を公開できることを示す。
この研究は、論理ロックの重大なセキュリティ欠陥を明らかにし、論理ロックのキー-リカバリ攻撃以外の包括的なセキュリティアセスメントの必要性を強調している。
The MiG-V was designed for high-security applications and is the first commercially available logic-locked RISC-V processor on the market. In this context logic locking was used to protect the RISC-V processor design during the untrusted manufacturing process by using key-driven logic gates to obfuscate the original design. Although this method defends against malicious modifications, such as hardware Trojans, logic locking's impact on the RISC-V processor's data confidentiality during runtime has not been thoroughly examined. In this study, we evaluate the impact of logic locking on data confidentiality. By altering the logic locking key of the MiG-V while running SSL cryptographic algorithms, we identify data leakages resulting from the exploitation of the logic locking hardware. We show that changing a single bit of the logic locking key can expose 100% of the cryptographic encryption key. This research reveals a critical security flaw in logic locking, highlighting the need for comprehensive security assessments beyond logic locking key-recovery attacks. | 翻訳日:2024-08-12 16:07:28 公開日:2024-08-09 |
# 分散金融取引システムのためのFIDO2対応スマートカードの概念設計と実装
Conceptual Design and Implementation of FIDO2 compatible Smart Card for Decentralized Financial Transaction System ( http://arxiv.org/abs/2408.04977v1 ) ライセンス: Link先を確認 | Anisha Ghosh, Aditya Mitra, Sibi Chakkaravarthy Sethuraman, Aswani Kumar Cherukuri, | (参考訳) フィンテック業界のセキュリティに関する課題と制限により、データ保護の必要性が高まっている。
しかし、現在のオンラインバンキングシステムにおけるパスワードレスおよびパスワードベースのピアツーピアトランザクションは、高度なデジタル攻撃に対して脆弱である。
現代のデータ保護手法の流入は、トランザクションのより良い記録を維持するが、それでも、トランザクション中の認証とアカウントの乗っ取りの問題には対処しない。
上記の課題に対処するために,クラウドセキュリティのベストプラクティス,暗号の適切な利用,信頼度の高いコンピューティングを用いて,共通脆弱性を軽減した,新規で堅牢なピアツーピアトランザクションシステムを提案する。
FIDO2互換のSmart Cardを実装して,物理的なスマートカードを使用してユーザをセキュアに認証し,アクセス要求時にのみアクセスを許可してアクセス制御を可能にするクラウドに記録を格納する。
この標準には、クラウドコンピューティングモデル上の複数のレイヤのセキュリティが含まれており、そのデータの機密性を保証する。
標準のサービスは、政府によって提供される規制に準拠し、給与者またはエンドユーザの情報に対するプライバシーを保証する。
システム全体がモノのインターネット(Internet of Things)のシナリオで実装されている。
With challenges and limitations associated with security in the fintech industry, the rise to the need for data protection increases. However, the current existing passwordless and password-based peer to peer transactions in online banking systems are vulnerable to advanced forms of digital attacks. The influx of modern data protection methods keeps better records of the transactions, but it still does not address the issue of authentication and account takeovers during transactions. To the address the mentioned issue, this paper proposes a novel and robust peer to peer transaction system which employs best cloud security practices, proper use of cryptography and trusted computing to mitigate common vulnerabilities. We will be implementing FIDO2 compatible Smart Card to securely authenticate the user using physical smart cards and store the records in the cloud which enables access control by allowing access only when an access is requested. The standard incorporates multiple layers of security on cloud computing models to ensure secrecy of the said data. Services of the standard adhere to regulations provides by the government and assures privacy to the information of the payee or the end-user. The whole system has been implemented in the Internet of Things scenario. | 翻訳日:2024-08-12 16:07:28 公開日:2024-08-09 |
# 有界ハミルトニアンに対するリウヴィル・ヴォン・ノイマン方程式について
On the Liouville-von Neumann equation for unbounded Hamiltonians ( http://arxiv.org/abs/2408.04980v1 ) ライセンス: Link先を確認 | Davide Lonigro, Alexander Hahn, Daniel Burgarth, | (参考訳) 閉量子系の混合状態の進化は、無限小生成器(量子Liouville Superoperator、またはLiouvillian)がシュリンガー方程式(英語版)の混合状態(英語版)(Liouville-von Neumann equation)を決定づける進化超作用素群によって記述される。
系の状態空間が無限次元であるとき、リウヴィル超作用素は対応するハミルトニアンが必ず非有界である。
本稿では,非有界作用素の存在下での量子リウヴィル形式への厳密で教育指向的で自己完結な導入について述べる。
我々は、もともと M. Courbage が原因で、リウヴィル超作用素の領域のキャラクタリゼーションを提示し、議論する。
また、明示的な証明とともに、リウヴィリアの本質的な自己随伴性(コア)のいくつかの領域も提供する。
The evolution of mixed states of a closed quantum system is described by a group of evolution superoperators whose infinitesimal generator (the quantum Liouville superoperator, or Liouvillian) determines the mixed-state counterpart of the Schr\"odinger equation: the Liouville-von Neumann equation. When the state space of the system is infinite-dimensional, the Liouville superoperator is unbounded whenever the corresponding Hamiltonian is. In this paper, we provide a rigorous, pedagogically-oriented, and self-contained introduction to the quantum Liouville formalism in the presence of unbounded operators. We present and discuss a characterization of the domain of the Liouville superoperator originally due to M. Courbage; starting from that, we develop some simpler characterizations of the domain of the Liouvillian and its square. We also provide, with explicit proofs, some domains of essential self-adjointness (cores) of the Liouvillian. | 翻訳日:2024-08-12 16:07:28 公開日:2024-08-09 |
# 混乱を招く:選択エントロピー最大化によるテキストシーケンス記憶消去
Get Confused Cautiously: Textual Sequence Memorization Erasure with Selective Entropy Maximization ( http://arxiv.org/abs/2408.04983v1 ) ライセンス: Link先を確認 | Zhaohan Zhang, Ziquan Liu, Ioannis Patras, | (参考訳) 大規模言語モデル(LLM)は、彼らのトレーニングセットからいくつかのテキストシーケンスを暗記し、引用することが発見されており、LLMを使用する際のプライバシと著作権の問題に対する広範な懸念を提起している。
このTSM(Textual Sequence Memorization)現象は、ユーザ要求を満たすために、特定の記憶されたテキストを生成することを防ぐために、LCM出力を規制することの要求が高くなる。
しかし,本研究では,既存のTSM消去法では,モデルの有用性を著しく損なうことなく,大量の記憶されたサンプルを忘れることができないことを実証研究により明らかにした。
LLMにおけるTSM消去の有効性とモデル実用性とのトレードオフを改善するために,選択最適化を用いたエントロピー最大化(EMSO)に基づく新しいフレームワークを提案する。
分析の結果,エントロピー最大化損失のトレーニングは,既存の手法よりも安定な最適化プロセスとモデルの有用性が向上していることがわかった。
対照的な勾配計量は、勾配の等級と方向の両方を考慮して、TSM消去の最も影響力のある重みを定めている。
3つのモデルスケールにわたる大規模な実験により,言語生成と推論におけるモデル能力を維持しながら,大規模忘れる要求を処理できることが実証された。
Large Language Models (LLMs) have been found to memorize and recite some of the textual sequences from their training set verbatim, raising broad concerns about privacy and copyright issues when using LLMs. This Textual Sequence Memorization (TSM) phenomenon leads to a high demand to regulate LLM output to prevent it from generating certain memorized text to meet user requirements. However, our empirical study reveals that existing methods for TSM erasure fail to forget massive memorized samples without substantially jeopardizing the model utility. To achieve a better trade-off between the effectiveness of TSM erasure and model utility in LLMs, our paper proposes a new framework based on Entropy Maximization with Selective Optimization (EMSO), where the updated weights are chosen with a novel contrastive gradient metric without any participation of additional model or data. Our analysis shows that training with the entropy maximization loss has a more stable optimization process and better keeps model utility than existing methods. The contrastive gradient metric localizes the most influential weight for TSM erasure by taking both the gradient magnitude and direction into consideration. Extensive experiments across three model scales demonstrate that our method excels in handling large-scale forgetting requests while preserving model ability in language generation and reasoning. | 翻訳日:2024-08-12 16:07:28 公開日:2024-08-09 |
# 数保存散逸ダイナミクス下における二バンドフェルミオンにおける工学的ダーク状態の不安定性
Instability of the engineered dark state in two-band fermions under number-conserving dissipative dynamics ( http://arxiv.org/abs/2408.04987v1 ) ライセンス: Link先を確認 | A. A. Lyublinskaya, P. A. Nosov, I. S. Burmistrov, | (参考訳) 関連する量子多体状態は、散逸プロトコルによって生成および制御することができる。
これらのうち、粒子数保存プロトコルは、位相的に非自明な位相を安定化できるため、特に魅力的である。
パフォーマンスに根本的な制限はありますか?
本稿では,上バンドから下バンドへフェミオンを転送するために設計された2バンドフェミオン系を含むモデルの一般クラスを検討することで,この問題に対処する。
構成上、これらのモデルは、完全に満たされた下部バンドと空の上部バンドを備えた安定状態(暗黒状態)が保証されている。
弱い散逸の限界において、我々はフェルミオン密度の力学を長い長さと時間スケールで支配する方程式を導出する。
これらの方程式はフィッシャー=コルモゴロフ=ペトロフスキー=ピスクノフ反応拡散普遍性類に属する。
解析の結果, 人工暗黒状態は概して不安定であり, 上帯の粒子密度が有限である新しい定常状態へ導いた。
以上の結果から,暗黒状態の安定化には,数保存型散逸プロトコルは信頼性に欠ける可能性が示唆された。
Correlated quantum many-body states can be created and controlled by the dissipative protocols. Among these, particle number-conserving protocols are particularly appealing due to their ability to stabilize topologically nontrivial phases. Is there any fundamental limitation to their performance? We address this question by examining a general class of models involving a two-band fermion system subjected to dissipation designed to transfer fermions from the upper band to the lower band. By construction, these models have a guaranteed steady state -- a dark state -- with a completely filled lower band and an empty upper band. In the limit of weak dissipation, we derive equations governing the dynamics of the fermion densities over long length and time scales. These equations belong to the Fisher-Kolmogorov-Petrovsky-Piskunov reaction-diffusion universality class. Our analysis reveals that the engineered dark state is generically unstable, giving way to a new steady state with a finite density of particles in the upper band. Our results suggest that number-conserving dissipative protocols may not be a reliable universal tool for stabilizing dark states. | 翻訳日:2024-08-12 15:56:59 公開日:2024-08-09 |
# エルゴード海峡における非マルコビアン性の探索--エルゴートピーを指標として
Exploring Non-Markovianity in Ergodic Channels: Introducing Ergotropy as a Measure ( http://arxiv.org/abs/2408.04993v1 ) ライセンス: Link先を確認 | Ritam Basu, Anish Chakraborty, Himanshu Badhani, Mir Alimuddin, Samyadeb Bhattacharya, | (参考訳) 本研究では、特異な不動点を持つ量子演算の一般集合を特徴づける。
これらのチャネルは量子エルゴードチャネルと呼ばれる。
我々は任意の次元のチャネルに対してリンドブラッド型マスター方程式を構築した。
また、そのような一般的なチャネルのクラスに対して、非マルコビアン性(英語版)の側面を特徴づける。
興味深いことに、固定点が受動的状態であるなら、ある瞬間にエルゴトロピー減少チャネルであることが分かる。
エルゴトロピーの定式化は、量子電池において広く使われており、量子電池がユニタリ進化のみのエネルギー源としてどれだけ効果的に使用できるかを定量化している。
本研究は, 量子電池の有用性, あるいはシステムのエルゴトロピーがエルゴディック力学の下でどのように変化するかを検討する。
エルゴトロピーは常にマルコフ過程において減少するが、非マルコフエルゴディック力学の下では変動する。
非マルコフ過程におけるこのエルゴトロピー逆流は、非マルコフ性を測定する潜在的候補となる。
その結果、オープンダイナミクスにおける量子バッテリ進化の理解を深め、より効率的な量子技術への道を開いた。
In this work, we characterise a general set of quantum operations which possess a singular fixed point. These channels are dubbed as quantum ergodic channels. We have constructed Lindblad-type master equations for such channels for arbitrary dimensions. We also characterise the aspect of non-Markovianity for such a general class of channels. Interestingly, if the fixed point is considered a passive state, it turns out to be an ergotropy-decreasing channel at a given instant. The formalism of ergotropy is widely used in quantum batteries, where it quantifies how effectively a quantum battery can be used as an energy source under unitary evolution only. Our investigation explores how the usefulness of a quantum battery, or the ergotropy of a system, varies under ergodic dynamics. We observed that, while ergotropy always decreases in a Markovian process, it fluctuates under non-Markovian ergodic dynamics. This ergotropy backflow in the non-Markovian process makes it a potential candidate for measuring non-Markovianity. Consequently, this study enhances our understanding of quantum battery evolution in open dynamics and paves the way for more efficient quantum technology. | 翻訳日:2024-08-12 15:56:59 公開日:2024-08-09 |
# サイバー攻撃防止のためのニューロシンボリックAIの利用について
On the use of neurosymbolic AI for defending against cyber attacks ( http://arxiv.org/abs/2408.04996v1 ) ライセンス: Link先を確認 | Gudmund Grov, Jonas Halvorsen, Magnus Wiik Eckhoff, Bjørn Jervell Hansen, Martin Eian, Vasileios Mavroeidis, | (参考訳) すべてのサイバー攻撃を防げないことが一般に受け入れられており、サイバー攻撃を検出して応答する能力の必要性が生じる。
コネクショニストとシンボリックAIの両方が、このような検出と応答をサポートするために現在使用されている。
本稿では,ニューロシンボリックAIを用いてそれらを組み合わせることを提案する。
私たちは今日、AIを使用する際の課題のセットを特定し、ニューロシンボリックAIコミュニティの興味深い研究方向であると同時に、サイバーセキュリティ分野に影響を及ぼす可能性があると信じている一連のニューロシンボリックユースケースを提案します。
2つの概念実証実験を通して実現可能性を示す。
It is generally accepted that all cyber attacks cannot be prevented, creating a need for the ability to detect and respond to cyber attacks. Both connectionist and symbolic AI are currently being used to support such detection and response. In this paper, we make the case for combining them using neurosymbolic AI. We identify a set of challenges when using AI today and propose a set of neurosymbolic use cases we believe are both interesting research directions for the neurosymbolic AI community and can have an impact on the cyber security field. We demonstrate feasibility through two proof-of-concept experiments. | 翻訳日:2024-08-12 15:56:59 公開日:2024-08-09 |
# ProFuser: 大規模言語モデルの進歩的な融合
ProFuser: Progressive Fusion of Large Language Models ( http://arxiv.org/abs/2408.04998v1 ) ライセンス: Link先を確認 | Tianyuan Shi, Fanqi Wan, Canbin Huang, Xiaojun Quan, Chenliang Li, Ming Yan, Ji Zhang, | (参考訳) 様々な大規模言語モデル(LLM)の能力と利点を融合させることは、より強力で汎用的なモデルを構築するための経路を提供する一方で、訓練中に有利なモデルを適切に選択することが根本的な課題である。
既存の融合法は主に、モデル優位性を測定するための教師強制的な設定において、地平線上のクロスエントロピーを使用する訓練モードに焦点を当てており、モデル優位性に対する限られた洞察を与える可能性がある。
本稿では,トレーニングモードと推論モードの両方を組み込むことで,融合プロセスを強化する新しいアプローチを提案する。
提案手法は, クロスエントロピーだけでなく, 推論出力も考慮し, より総合的な評価を行うことで, モデル優位性を評価する。
2つのモードを効果的に組み合わせるために,推論モードからトレーニングモードへ段階的に移行するProFuserを導入する。
ProFuserの有効性を検証するために, vicuna-7b-v1.5, Llama-2-7b-chat, mpt-7b-8k-chatの3つのモデルを融合し, ベースライン法と比較して知識, 推論, 安全性の向上を実証した。
While fusing the capacities and advantages of various large language models (LLMs) offers a pathway to construct more powerful and versatile models, a fundamental challenge is to properly select advantageous model during the training. Existing fusion methods primarily focus on the training mode that uses cross entropy on ground truth in a teacher-forcing setup to measure a model's advantage, which may provide limited insight towards model advantage. In this paper, we introduce a novel approach that enhances the fusion process by incorporating both the training and inference modes. Our method evaluates model advantage not only through cross entropy during training but also by considering inference outputs, providing a more comprehensive assessment. To combine the two modes effectively, we introduce ProFuser to progressively transition from inference mode to training mode. To validate ProFuser's effectiveness, we fused three models, including vicuna-7b-v1.5, Llama-2-7b-chat, and mpt-7b-8k-chat, and demonstrated the improved performance in knowledge, reasoning, and safety compared to baseline methods. | 翻訳日:2024-08-12 15:56:59 公開日:2024-08-09 |
# 外科手術のモデリングと解析のための形式的アプローチ(拡張版)
A Formal Approach For Modelling And Analysing Surgical Procedures (Extended Version) ( http://arxiv.org/abs/2408.05001v1 ) ライセンス: Link先を確認 | Ioana Sandu, Rita Borgo, Prokar Dasgupta, Ramesh Thurairaja, Luca Viganò, | (参考訳) 外科手術は、しばしば「標準化」されるのではなく、むしろ外科医と外科チームの心の中で暗黙の知識として存在する。
この依存度は手術前計画や手術中の効果的なコミュニケーションにまで及ぶ。
本稿では, 外科手術の形式的, 自動的解析のための新しいアプローチを提案する。
手術手順の変異は、手術チームのメンバーが行う可能性のある変種や過ちをモデル化するために使用される。
本手法により,外科手術の意図する特性の違反を自動的に識別することができる。
Surgical procedures are often not "standardised" (i.e., defined in a unique and unambiguous way), but rather exist as implicit knowledge in the minds of the surgeon and the surgical team. This reliance extends to pre-surgery planning and effective communication during the procedure. We introduce a novel approach for the formal and automated analysis of surgical procedures, which we model as security ceremonies, leveraging well-established techniques developed for the analysis of such ceremonies. Mutations of a procedure are used to model variants and mistakes that members of the surgical team might make. Our approach allows us to automatically identify violations of the intended properties of a surgical procedure. | 翻訳日:2024-08-12 15:56:59 公開日:2024-08-09 |
# コミュニケーションエージェントに基づくデータリファインメントによるLLMのコードデバッグ能力向上
Enhancing the Code Debugging Ability of LLMs via Communicative Agent Based Data Refinement ( http://arxiv.org/abs/2408.05006v1 ) ライセンス: Link先を確認 | Weiqing Yang, Hanbin Wang, Zhenghao Liu, Xinze Li, Yukun Yan, Shuo Wang, Yu Gu, Minghe Yu, Zhiyuan Liu, Ge Yu, | (参考訳) デバッグはソフトウェア開発の重要な側面であるが、Large Language Models (LLMs) のデバッグ機能は、ほとんど探索されていないままである。
本稿ではまず,LLMのデバッグ機能を評価するための総合的なベンチマークであるDEBUGEVALを紹介する。
DEBUGEVALは、既存の高品質データセットからデータを収集し、BUGローカライゼーション、BUG識別、コードレビュー、コード修復など、デバッグの有効性を評価する4つの異なるタスクを設計する。
さらに,LLMのコードデバッグ能力を高めるために,教師付き微調整のための洗練されたコードデバッグデータを生成するCoMmunicative Agent Based DaTa Refinement FRamework (MASTER)を提案する。
具体的には、DBUGEVALの定義したタスクに従って洗練されたデータを生成するために、Code Quizzerを使用している。
その後、Code Learnerは批評家として行動し、解決できない発生した問題を予約する。
最後に、Code Teacherは、生成された問題に対処するための詳細なChain-of-Thoughtベースのソリューションを提供する。
我々は合成データを収集し、Code Learnerを微調整し、デバッグ能力を高め、NeuDebuggerモデルを実行します。
実験では, DEBUGEVAL のゼロショット設定における様々な LLM と NeuDebugger の評価を行った。
実験結果から,これらの 7B スケール LLM は,コード指向 LLM よりもデバッグ能力が弱いことが示された。
それとは対照的に、これらのより大きなモデル(70B以上)は、説得力のあるデバッグ機能を示している。
さらに,MASTERは,SFT (Supervised Fine-Tuning) LLM) のデータ合成により,コードデバッグ能力を向上する有効な手法であることを示す。
Debugging is a vital aspect of software development, yet the debugging capabilities of Large Language Models (LLMs) remain largely unexplored. This paper first introduces DEBUGEVAL, a comprehensive benchmark designed to evaluate the debugging capabilities of LLMs. DEBUGEVAL collects data from existing high-quality datasets and designs four different tasks to evaluate the debugging effectiveness, including BUG Localization, BUG Identification, Code Review, and Code Repair. Additionally, to enhance the code debugging ability of LLMs, this paper proposes a CoMmunicative Agent BaSed DaTa REfinement FRamework (MASTER), which generates the refined code debugging data for supervised finetuning. Specifically, MASTER employs the Code Quizzer to generate refined data according to the defined tasks of DEBUGEVAL. Then the Code Learner acts as a critic and reserves the generated problems that it can not solve. Finally, the Code Teacher provides a detailed Chain-of-Thought based solution to deal with the generated problem. We collect the synthesized data and finetune the Code Learner to enhance the debugging ability and conduct the NeuDebugger model. Our experiments evaluate various LLMs and NeuDebugger in the zero-shot setting on DEBUGEVAL. Experimental results demonstrate that these 7B-scale LLMs have weaker debugging capabilities, even these code-oriented LLMs. On the contrary, these larger models (over 70B) show convincing debugging ability. Our further analyses illustrate that MASTER is an effective method to enhance the code debugging ability by synthesizing data for Supervised Fine-Tuning (SFT) LLMs. | 翻訳日:2024-08-12 15:56:59 公開日:2024-08-09 |
# DreamCouple: 高品質なテキストから3D生成技術
DreamCouple: Exploring High Quality Text-to-3D Generation Via Rectified Flow ( http://arxiv.org/abs/2408.05008v1 ) ライセンス: Link先を確認 | Hangyu Li, Xiangxiang Chu, Dingyuan Shi, | (参考訳) SDS(Score Distillation Sampling)は、事前訓練されたテキスト-画像モデル拡散モデルを3Dモデルトレーニングの先駆けとして活用し、大きな成功を収めた。
現在、フローベース拡散モデルが世代ごとに新しいトレンドとなっている。
しかし, フローベース拡散モデルへのSDSの適用については, 未検討のままである。
私たちの仕事は、このギャップを埋めることを目的としています。
本稿では,SDSを整流に適応させ,新しい枠組みの下で過度にスムースな問題を再検討する。
問題は、モデルが複数のODEトラジェクトリの平均を学習していることを説明することができる。
そこで,DreamCoupleを提案する。DreamCoupleはランダムにサンプリングする代わりに,修正フローモデルを用いて結合ノイズを検出する。
ユニークなカップリングマッチング(UCM)の損失は、異なる軌跡を学習するためにモデルを導くため、過度にスムースな問題を解く。
我々は,NeRF法と3Dガウス法の両方に適用し,最先端の性能を実現する。
また、NeRFの初期化問題やより高速なトレーニング収束など、興味深いオープンな質問もいくつか挙げる。
私たちのコードはまもなくリリースされるでしょう。
The Score Distillation Sampling (SDS), which exploits pretrained text-to-image model diffusion models as priors to 3D model training, has achieved significant success. Currently, the flow-based diffusion model has become a new trend for generations. Yet, adapting SDS to flow-based diffusion models in 3D generation remains unexplored. Our work is aimed to bridge this gap. In this paper, we adapt SDS to rectified flow and re-examine the over-smoothing issue under this novel framework. The issue can be explained that the model learns an average of multiple ODE trajectories. Then we propose DreamCouple, which instead of randomly sampling noise, uses a rectified flow model to find the coupled noise. Its Unique Couple Matching (UCM) loss guides the model to learn different trajectories and thus solves the over-smoothing issue. We apply our method to both NeRF and 3D Gaussian splatting and achieve state-of-the-art performances. We also identify some other interesting open questions such as initialization issues for NeRF and faster training convergence. Our code will be released soon. | 翻訳日:2024-08-12 15:56:59 公開日:2024-08-09 |
# B\to \it{a}$崩壊における絡み合いとベル不等式違反
Entanglement and Bell inequality violation in $B\to \it{ΦΦ}$ decays ( http://arxiv.org/abs/2408.05010v1 ) ライセンス: Link先を確認 | Emidio Gabrielli, Luca Marzola, | (参考訳) LHCb実験で観測されたベクター中間子への$B$中間子の崩壊は、量子情報理論法を用いて粒子物理学現象を研究する理想的な実験室となる。
本稿では, 1対の$\it{\Phi}$中間子を生じる崩壊に着目し, 系のスピン相関における絡み合いの存在を調査し, ベルの不等式違反の量を定量化する。
以上の結果から,現在のLHCbデータにより,両症例とも5$\sigma$閾値を超える有意なエンタングルメントとベル不等式違反へのアクセスが可能であることが示唆された。
このことは、B$中間子崩壊の原因となる強い相互作用と電気弱相互作用が、高エネルギー現象の絡み合いと量子力学の性質の源として作用することを示している。
特に、ベル試験の結果を無効にできる実験装置の欠陥など、抜け穴の評価に注意が払われる。
The decays of the $B$ meson into vector mesons, observed at the LHCb experiment, provide an ideal laboratory to investigate particle physics phenomena with quantum information theory methods. In this article, we focus on the decays yielding a pair of $\it{\Phi}$ mesons to investigate the presence of entanglement in the spin correlations of the system and quantify the amount of Bell inequality violation it entails. Our results show that the present LHCb data allows access to entanglement and to the Bell inequality violation with a significance exceeding the 5$\sigma$ threshold in both the cases. This demonstrates that the strong and electroweak interactions responsible for the $B$ meson decay act as a source of entanglement and the quantum mechanics nature of high-energy phenomena. Particular attention is paid to the assessment of loopholes: deficiencies in the experimental setup which could invalidate the results of the Bell test. | 翻訳日:2024-08-12 15:56:59 公開日:2024-08-09 |
# テンソルネットワークシミュレーションの計算応用に関する調査研究
Survey on Computational Applications of Tensor Network Simulations ( http://arxiv.org/abs/2408.05011v1 ) ライセンス: Link先を確認 | Marcos Díez García, Antonio Márquez Romero, | (参考訳) テンソルネットワーク(英: Tensor network)は、古典的コンピュータ上の一般的な量子システムをシミュレートするための一般的で効率的な手法であり、より広い意味では高次元の数値問題を扱うためのフレームワークである。
本稿では, 機械学習, 数学的最適化, 材料科学, 量子化学, 量子回路シミュレーションなど, 様々な研究領域にまたがって, テンソルネットワークの最先端の応用と関連するトピックについて概説する。
本研究の目的は, テンソルネットワークのどのクラスに対してどのクラスが提案されているか, それらが他の古典的, 量子シミュレーション手法と比較してどのように機能するかを明らかにすることである。
我々は,このレビューを,テンソルネットワークの低レベル技術詳細ではなく,重要な結果や制限に焦点を絞った,非専門家による読みやすいテンソルネットワークアプリケーションに関するハイレベルなツアーとして意図している。
Tensor networks are a popular and computationally efficient approach to simulate general quantum systems on classical computers and, in a broader sense, a framework for dealing with high-dimensional numerical problems. This paper presents a broad literature review of state-of-the-art applications of tensor networks and related topics across many research domains including: machine learning, mathematical optimisation, materials science, quantum chemistry and quantum circuit simulation. This review aims to clarify which classes of relevant applications have been proposed for which class of tensor networks, and how these perform compared with other classical or quantum simulation methods. We intend this review to be a high-level tour on tensor network applications which is easy to read by non-experts, focusing on key results and limitations rather than low-level technical details of tensor networks. | 翻訳日:2024-08-12 15:56:59 公開日:2024-08-09 |
# トラップイオン実験による対称性保護トポロジカル秩序の学習
Learning symmetry-protected topological order from trapped-ion experiments ( http://arxiv.org/abs/2408.05017v1 ) ライセンス: Link先を確認 | Nicolas Sadoune, Ivan Pogorelov, Claire L. Edmunds, Giuliano Giudici, Giacomo Giudice, Christian D. Marciniak, Martin Ringbauer, Thomas Monz, Lode Pollet, | (参考訳) 古典的な機械学習は、量子データの後処理において極めて有用であることが証明されているが、典型的な学習アルゴリズムは、しばしば事前トレーニングを効果的にする必要がある。
本研究では,TK-SVM(テンソルカーネルサポートベクトルマシン)を用いて,トラップイオン量子コンピュータによって生成された実験データを解析する。
この教師なしの手法は直接解釈可能な訓練パラメータの恩恵を受け、非自明な弦順特徴化対称性保護トポロジカル位相(SPT)を識別することができる。
本稿では,スピン-1/2モデルとスピン-1モデルという2つの例に適用し,クラスタ状態とAKLT状態をSPTオーダーのパラダイムインスタンスとして取り上げる。
行列積状態を用いて、自明な位相とSPT位相をホストする量子回路の族を生成し、それらの間を鋭い位相遷移する。
スピン1の場合、量子ビットと量子ビットに基づく2つの異なるイオンマシン上にこれらの回路を実装する。
以上の結果から,TK-SVM法は,全てのノイズのある実験データセットの2つの位相を識別し,その堅牢性と量子データ解釈の有効性を強調した。
Classical machine learning has proven remarkably useful in post-processing quantum data, yet typical learning algorithms often require prior training to be effective. In this work, we employ a tensorial kernel support vector machine (TK-SVM) to analyze experimental data produced by trapped-ion quantum computers. This unsupervised method benefits from directly interpretable training parameters, allowing it to identify the non-trivial string-order characterizing symmetry-protected topological (SPT) phases. We apply our technique to two examples: a spin-1/2 model and a spin-1 model, featuring the cluster state and the AKLT state as paradigmatic instances of SPT order, respectively. Using matrix product states, we generate a family of quantum circuits that host a trivial phase and an SPT phase, with a sharp phase transition between them. For the spin-1 case, we implement these circuits on two distinct trapped-ion machines based on qubits and qutrits. Our results demonstrate that the TK-SVM method successfully distinguishes the two phases across all noisy experimental datasets, highlighting its robustness and effectiveness in quantum data interpretation. | 翻訳日:2024-08-12 15:56:59 公開日:2024-08-09 |
# マルチモーダルLLMのための命令調整不要な視覚トケ補完
Instruction Tuning-free Visual Token Complement for Multimodal LLMs ( http://arxiv.org/abs/2408.05019v1 ) ライセンス: Link先を確認 | Dongsheng Wang, Jiequan Cui, Miaoge Li, Wang Lin, Bo Chen, Hanwang Zhang, | (参考訳) 大規模言語モデル (LLM) のオープンコミュニティが成熟するにつれて、マルチモーダル LLM (MLLM) は視覚と言語の間のエレガントな橋渡しを約束している。
しかし、現在の研究は、高品質な命令ペアの必要性や、画像とテキストの学習目標における視覚情報の喪失といった課題によって、本質的に制限されている。
そこで本稿では,MLLM が欠落した視覚的特徴を回復し,応答精度を向上させるための Visual Token Complement フレームワーク (VTC) を提案する。
具体的には、VTCは、テキスト不関連特徴を特定するためのガイドとしてテキスト・ツー・イメージ生成を統合し、視覚的セレクタを開発し、補完的な視覚的トークンを生成し、元の視覚的入力を豊かにする。
さらに、視覚的セレクタを付加訓練なしで反復的に使用することにより、より視覚的な情報を抽出する反復戦略も設計されている。
特に、トレーニングパイプラインは追加のイメージテキストペアを必要としないため、望ましいチューニング不要なプロパティが提供される。
定性的かつ定量的な実験は、VTCの優位性と効率性を実証している。
As the open community of large language models (LLMs) matures, multimodal LLMs (MLLMs) have promised an elegant bridge between vision and language. However, current research is inherently constrained by challenges such as the need for high-quality instruction pairs and the loss of visual information in image-to-text training objectives. To this end, we propose a Visual Token Complement framework (VTC) that helps MLLMs regain the missing visual features and thus improve response accuracy. Specifically, our VTC integrates text-to-image generation as a guide to identifying the text-irrelevant features, and a visual selector is then developed to generate complementary visual tokens to enrich the original visual input. Moreover, an iterative strategy is further designed to extract more visual information by iteratively using the visual selector without any additional training. Notably, the training pipeline requires no additional image-text pairs, resulting in a desired instruction tuning-free property. Both qualitative and quantitative experiments demonstrate the superiority and efficiency of our VTC. | 翻訳日:2024-08-12 15:56:59 公開日:2024-08-09 |
# RadarPillars: 4次元レーダーポイント雲からの効率的な物体検出
RadarPillars: Efficient Object Detection from 4D Radar Point Clouds ( http://arxiv.org/abs/2408.05020v1 ) ライセンス: Link先を確認 | Alexander Musiat, Laurenz Reichardt, Michael Schulze, Oliver Wasenmüller, | (参考訳) 自動車レーダーシステムは、射程、方位、ドップラー速度だけでなく、標高データも提供するように進化してきた。
この余分な次元は、4次元レーダーを3次元の点雲として表現することができる。
その結果、LiDARデータのために開発された既存の3次元物体検出のためのディープラーニング手法が、これらのレーダポイント雲に適用されることが多い。
しかし、これは4Dレーダデータの特別な特性を無視している。
これらのギャップに対処するために,柱型物体検出ネットワークであるRadarPillarsを提案する。
放射速度データを分解し、効率的な特徴抽出のためのPillarAttentionを導入し、レーダーの空間性に対応するための層スケーリングを研究することで、RadarPillarsは、View-of-Delftデータセットの最先端検出結果を大幅に上回った。
重要なことに、これはパラメータ数を大幅に削減し、既存のメソッドを効率面で上回り、エッジデバイス上でのリアルタイムパフォーマンスを実現している。
Automotive radar systems have evolved to provide not only range, azimuth and Doppler velocity, but also elevation data. This additional dimension allows for the representation of 4D radar as a 3D point cloud. As a result, existing deep learning methods for 3D object detection, which were initially developed for LiDAR data, are often applied to these radar point clouds. However, this neglects the special characteristics of 4D radar data, such as the extreme sparsity and the optimal utilization of velocity information. To address these gaps in the state-of-the-art, we present RadarPillars, a pillar-based object detection network. By decomposing radial velocity data, introducing PillarAttention for efficient feature extraction, and studying layer scaling to accommodate radar sparsity, RadarPillars significantly outperform state-of-the-art detection results on the View-of-Delft dataset. Importantly, this comes at a significantly reduced parameter count, surpassing existing methods in terms of efficiency and enabling real-time performance on edge devices. | 翻訳日:2024-08-12 15:56:59 公開日:2024-08-09 |
# 機械読解における言語能力の学習セットフリー評価のためのベンチマークの検討
Investigating a Benchmark for Training-set free Evaluation of Linguistic Capabilities in Machine Reading Comprehension ( http://arxiv.org/abs/2408.05023v1 ) ライセンス: Link先を確認 | Viktor Schlegel, Goran Nenadic, Riza Batista-Navarro, | (参考訳) NLPシステムの性能は、クラウドソーシングによって大規模なデータセットを収集し、データ駆動モデルのトレーニングを行い、データの保持された部分で評価することで評価されるのが一般的である。
このアプローチは、突発的な相関と、自然言語の多様性を表す挑戦的な例の欠如に悩まされていることが示されている。
そこで本研究では,合成課題集合上でのトレーニングセット自由設定において,最適化モデルを評価するためのフレームワークについて検討する。
生成手法の単純さにもかかわらず、データは、MRCモデルの言語能力を評価するために、自然性や語彙の多様性に関して、クラウドソースのデータセットと競合することができる。
我々はさらに実験を行い、現状の言語モデルに基づく MRC システムは、評価された現象の一般的な概念を捉えることなく、挑戦セットを正しく成功させることができることを示した。
Performance of NLP systems is typically evaluated by collecting a large-scale dataset by means of crowd-sourcing to train a data-driven model and evaluate it on a held-out portion of the data. This approach has been shown to suffer from spurious correlations and the lack of challenging examples that represent the diversity of natural language. Instead, we examine a framework for evaluating optimised models in training-set free setting on synthetically generated challenge sets. We find that despite the simplicity of the generation method, the data can compete with crowd-sourced datasets with regard to naturalness and lexical diversity for the purpose of evaluating the linguistic capabilities of MRC models. We conduct further experiments and show that state-of-the-art language model-based MRC systems can learn to succeed on the challenge set correctly, although, without capturing the general notion of the evaluated phenomenon. | 翻訳日:2024-08-12 15:56:59 公開日:2024-08-09 |
# MIDI-to-Tab:マスク言語モデリングによるギタータブラチュア推論
MIDI-to-Tab: Guitar Tablature Inference via Masked Language Modeling ( http://arxiv.org/abs/2408.05024v1 ) ライセンス: Link先を確認 | Drew Edwards, Xavier Riley, Pedro Sarmento, Simon Dixon, | (参考訳) ギター・タブラチュアは、特定のチューニングにおいて、ギターの弦とフレットに各音符を割り当て、楽器の音符をどこで演奏するかを正確に示すことによって、伝統的な音楽表記の構造を充実させる。
シンボリックな音楽表現から表象を生成する問題は、この文字列と音符毎のフレット代入を作曲や演奏全体にわたって推測することである。
ギターでは、ほとんどのピッチに対して複数の文字列フリート割り当てが可能であるため、徹底的な探索アプローチを阻害する大きな組合せ空間が生じる。
現代のほとんどの手法は制約に基づく動的プログラミングを使ってコスト関数を最小化している(例えば手の位置運動)。
本研究では,シンボリックギターのタブラ推定のための新しい深層学習手法を提案する。
我々は、文字列に音符を割り当てるために、マスク付き言語モデリングパラダイムでエンコーダ・デコーダ変換モデルを訓練する。
このモデルは、まず25K以上のタブチュアのデータセットであるDadaGPで事前トレーニングされ、その後、プロが書き起こしたギター演奏のキュレートセットで微調整される。
タブラチュアの質を評価する主観的な性質を考慮し、ギタリスト間のユーザスタディを行い、同じ4バーの抜粋に対して複数バージョンのタブラチュアの演奏性を評価する。
その結果,本システムは競合するアルゴリズムよりも優れていた。
Guitar tablatures enrich the structure of traditional music notation by assigning each note to a string and fret of a guitar in a particular tuning, indicating precisely where to play the note on the instrument. The problem of generating tablature from a symbolic music representation involves inferring this string and fret assignment per note across an entire composition or performance. On the guitar, multiple string-fret assignments are possible for most pitches, which leads to a large combinatorial space that prevents exhaustive search approaches. Most modern methods use constraint-based dynamic programming to minimize some cost function (e.g.\ hand position movement). In this work, we introduce a novel deep learning solution to symbolic guitar tablature estimation. We train an encoder-decoder Transformer model in a masked language modeling paradigm to assign notes to strings. The model is first pre-trained on DadaGP, a dataset of over 25K tablatures, and then fine-tuned on a curated set of professionally transcribed guitar performances. Given the subjective nature of assessing tablature quality, we conduct a user study amongst guitarists, wherein we ask participants to rate the playability of multiple versions of tablature for the same four-bar excerpt. The results indicate our system significantly outperforms competing algorithms. | 翻訳日:2024-08-12 15:56:59 公開日:2024-08-09 |
# Rag and Roll: LLMベースのアプリケーションフレームワークにおける間接プロンプト操作のエンドツーエンド評価
Rag and Roll: An End-to-End Evaluation of Indirect Prompt Manipulations in LLM-based Application Frameworks ( http://arxiv.org/abs/2408.05025v1 ) ライセンス: Link先を確認 | Gianluca De Stefano, Giancarlo Pellegrino, Lea Schönherr, | (参考訳) Retrieval Augmented Generation (RAG) は、分散知識を欠くモデルによく用いられる手法である。
このプロセスは、応答を生成するためのLLMへの情報収集、インデックス化、検索、提供を含む。
柔軟性と低コストで人気が高まっているにもかかわらず、RAGのセキュリティへの影響は広く研究されていない。
このようなシステムのデータは、しばしば公開ソースから収集され、攻撃者がモデルの応答を操作する間接的なインジェクションのゲートウェイを提供する。
本稿では,RAGシステムのエンドツーエンドの間接的操作に対する安全性について検討する。
まず、プロトタイプアーキテクチャから派生した既存のRAGフレームワークパイプラインをレビューし、潜在的に重要な構成パラメータを特定する。
次に、攻撃者が間接的なプロンプト操作を行うために使用できるテクニックを探索する先行作業について検討する。
最後に、Rag n Rollを実装した。これは、エンドツーエンドのRAGアプリケーションに対するアタックの有効性を決定するフレームワークである。
以上の結果から,既存の攻撃は検索期間中に悪意のある文書のランキングを上げるために最適化されていることが示唆された。
しかし、上位は直ちに信頼できる攻撃にはならない。
ほとんどの攻撃は、様々な構成に対して、40%の成功率に落ち着き、不明瞭な回答を攻撃として考えると60%に上昇する可能性がある。
さらに、最適化されていないドキュメントを使用する場合、ターゲットクエリに2つ(あるいはそれ以上)をデプロイするアタッカーは、最適化されたドキュメントと同じ結果が得られる。
最後に、RAGの構成空間の探索は、最も成功した組み合わせが機能を著しく損なう攻撃の阻止に限られた影響を示した。
Retrieval Augmented Generation (RAG) is a technique commonly used to equip models with out of distribution knowledge. This process involves collecting, indexing, retrieving, and providing information to an LLM for generating responses. Despite its growing popularity due to its flexibility and low cost, the security implications of RAG have not been extensively studied. The data for such systems are often collected from public sources, providing an attacker a gateway for indirect prompt injections to manipulate the responses of the model. In this paper, we investigate the security of RAG systems against end-to-end indirect prompt manipulations. First, we review existing RAG framework pipelines deriving a prototypical architecture and identifying potentially critical configuration parameters. We then examine prior works searching for techniques that attackers can use to perform indirect prompt manipulations. Finally, implemented Rag n Roll, a framework to determine the effectiveness of attacks against end-to-end RAG applications. Our results show that existing attacks are mostly optimized to boost the ranking of malicious documents during the retrieval phase. However, a higher rank does not immediately translate into a reliable attack. Most attacks, against various configurations, settle around a 40% success rate, which could rise to 60% when considering ambiguous answers as successful attacks (those that include the expected benign one as well). Additionally, when using unoptimized documents, attackers deploying two of them (or more) for a target query can achieve similar results as those using optimized ones. Finally, exploration of the configuration space of a RAG showed limited impact in thwarting the attacks, where the most successful combination severely undermines functionality. | 翻訳日:2024-08-12 15:47:15 公開日:2024-08-09 |
# 大規模言語モデルを用いた局所プロジェクトの検索拡張コード補完
Retrieval-augmented code completion for local projects using large language models ( http://arxiv.org/abs/2408.05026v1 ) ライセンス: Link先を確認 | Marko Hostnik, Marko Robnik-Šikonja, | (参考訳) 大規模言語モデル(LLM)の使用は、ソフトウェア開発者の間でますます広まりつつある。
しかし、プライバシと計算の要件は商用ソリューションやLLMの使用に問題がある。
本研究では,局所的な実行に適した約1億6000万のパラメータを持つLLMの利用に焦点をあてる。
我々は、トランスアーキテクチャ、生成モデルGPT-2および検索適応RETROモデルに基づいて、オープンソースのPythonファイルに基づいて2つのモデルをトレーニングし、ベクトル埋め込みベースの検索の利点を実証的に評価し、比較する。
さらに,トークンのジャカード類似性に基づいてコードスニペットを検索するIn-context Search-augmented Generationを用いて,モデルの性能を向上する。
大規模モデル上でのインコンテクスト検索拡張生成の評価を行い,その単純さにもかかわらず,RETROアーキテクチャよりもアプローチが適していると結論付けた。
コード補完におけるLLMの潜在能力を最大限に発揮する上で、適切なトークン化の鍵となる役割を強調します。
The use of large language models (LLMs) is becoming increasingly widespread among software developers. However, privacy and computational requirements are problematic with commercial solutions and the use of LLMs. In this work, we focus on using LLMs with around 160 million parameters that are suitable for local execution and augmentation with retrieval from local projects. We train two models based on the transformer architecture, the generative model GPT-2 and the retrieval-adapted RETRO model, on open-source Python files, and empirically evaluate and compare them, confirming the benefits of vector embedding based retrieval. Further, we improve our models' performance with In-context retrieval-augmented generation, which retrieves code snippets based on the Jaccard similarity of tokens. We evaluate In-context retrieval-augmented generation on larger models and conclude that, despite its simplicity, the approach is more suitable than using the RETRO architecture. We highlight the key role of proper tokenization in achieving the full potential of LLMs in code completion. | 翻訳日:2024-08-12 15:47:15 公開日:2024-08-09 |
# 協調静的動的学習:Stripeライクな空間ターゲット検出のための半スーパービジョンフレームワーク
Collaborative Static-Dynamic Teaching: A Semi-Supervised Framework for Stripe-Like Space Target Detection ( http://arxiv.org/abs/2408.05029v1 ) ライセンス: Link先を確認 | Zijian Zhu, Ali Zia, Xuesong Li, Bingbing Dan, Yuebo Ma, Hongfeng Long, Kaili Lu, Enhai Liu, Rujin Zhao, | (参考訳) Stripeライクな宇宙目標検出(SSTD)は、宇宙の状況認識に不可欠である。
従来の教師なしの手法は、低信号対雑音比と可変ストライプのような空間ターゲットのシナリオで失敗し、弱い一般化をもたらす。
完全に教師付き学習手法はモデルの一般化を改善するが、訓練には広範囲のピクセルレベルラベルが必要である。
SSTDタスクでは、これらのラベルを手作業で作成することは、しばしば不正確で労働集約的である。
半教師付き学習(SSL)法は、これらのラベルの必要性を減らし、モデルの一般化性を高めるが、それらの性能は擬似ラベルの品質によって制限される。
これを解決するために,静的および動的教師モデルと学生モデルを含む,革新的な協調静的動的教師(CSDT)SSLフレームワークを導入する。
このフレームワークは、APL(Adaptive pseudo-labeling)戦略をカスタマイズし、初期静的教育から適応的協調教育に移行し、学生モデルのトレーニングを指導する。
指数移動平均(EMA)メカニズムは、学生モデルを通して新しいストライプのような知識を動的教師モデルにフィードバックし、擬似ラベルの品質を継続的に向上させる正のフィードバックループを作成することにより、このプロセスをさらに強化する。
さらに,マルチスケールデュアルパス畳み込み (MDPC) ブロックと特徴マップ重み付け (FMWA) ブロックを備えた新しいSSTDネットワークであるMSSA-Netを提案する。
大規模な実験により、AstroStripeSetおよびさまざまな地上および宇宙ベースの実世界のデータセット上で、我々のフレームワークの最先端性能を検証する。
Stripe-like space target detection (SSTD) is crucial for space situational awareness. Traditional unsupervised methods often fail in low signal-to-noise ratio and variable stripe-like space targets scenarios, leading to weak generalization. Although fully supervised learning methods improve model generalization, they require extensive pixel-level labels for training. In the SSTD task, manually creating these labels is often inaccurate and labor-intensive. Semi-supervised learning (SSL) methods reduce the need for these labels and enhance model generalizability, but their performance is limited by pseudo-label quality. To address this, we introduce an innovative Collaborative Static-Dynamic Teacher (CSDT) SSL framework, which includes static and dynamic teacher models as well as a student model. This framework employs a customized adaptive pseudo-labeling (APL) strategy, transitioning from initial static teaching to adaptive collaborative teaching, guiding the student model's training. The exponential moving average (EMA) mechanism further enhances this process by feeding new stripe-like knowledge back to the dynamic teacher model through the student model, creating a positive feedback loop that continuously enhances the quality of pseudo-labels. Moreover, we present MSSA-Net, a novel SSTD network featuring a multi-scale dual-path convolution (MDPC) block and a feature map weighted attention (FMWA) block, designed to extract diverse stripe-like features within the CSDT SSL training framework. Extensive experiments verify the state-of-the-art performance of our framework on the AstroStripeSet and various ground-based and space-based real-world datasets. | 翻訳日:2024-08-12 15:47:15 公開日:2024-08-09 |
# DETRとYOLOを基盤とした深層ネットワークを用いた畜産幼生数測定
Livestock Fish Larvae Counting using DETR and YOLO based Deep Networks ( http://arxiv.org/abs/2408.05032v1 ) ライセンス: Link先を確認 | Daniel Ortega de Carvalho, Luiz Felipe Teodoro Monteiro, Fernanda Marques Bazilio, Gabriel Toshio Hirokawa Higa, Hemerson Pistori, | (参考訳) 魚の幼虫を数えることは、水生栽培において重要な、しかし必要で時間のかかる作業である。
この問題に対処するため,本研究では,魚幼虫計数作業において,畳み込みニューラルネットワークやトランスフォーマーを含む4つのニューラルネットワークアーキテクチャを異なる大きさで評価する。
そこで,本研究では,先行研究よりも少ないデータ収集条件のアノテート画像データセットを新たに提示し,発見されたセルビムとドウラド幼虫の画像について報告する。
画像タイリング技術を用いて,大容量リアルタイム検出変換器を備えたMAPEの4.46% (\pm 4.70$) と,中型YOLOv8を用いた4.71% (\pm 4.98$) を実現した。
Counting fish larvae is an important, yet demanding and time consuming, task in aquaculture. In order to address this problem, in this work, we evaluate four neural network architectures, including convolutional neural networks and transformers, in different sizes, in the task of fish larvae counting. For the evaluation, we present a new annotated image dataset with less data collection requirements than preceding works, with images of spotted sorubim and dourado larvae. By using image tiling techniques, we achieve a MAPE of 4.46% ($\pm 4.70$) with an extra large real time detection transformer, and 4.71% ($\pm 4.98$) with a medium-sized YOLOv8. | 翻訳日:2024-08-12 15:47:15 公開日:2024-08-09 |
# ブラジルにおける標準化国家試験の枠組みにおけるLLMアーキテクチャの挙動の検討
Examining the Behavior of LLM Architectures Within the Framework of Standardized National Exams in Brazil ( http://arxiv.org/abs/2408.05035v1 ) ライセンス: Link先を確認 | Marcelo Sartori Locatelli, Matheus Prado Miranda, Igor Joaquim da Silva Costa, Matheus Torres Prates, Victor Thomé, Mateus Zaparoli Monteiro, Tomas Lacerda, Adriana Pagano, Eduardo Rios Neto, Wagner Meira Jr., Virgilio Almeida, | (参考訳) Exame Nacional do Ensino M\'edio (ENEM)はブラジルの学生にとって重要な試験であり、ブラジルのかなりの数の大学に入学するために必要である。
このテストは、数学、人文科学、自然科学、言語に関する4つの客観的な高校レベルのテストと、1つのエッセイからなる。
ブラジル政府の透明性政策により、学生の回答と社会経済的地位に関するアンケートは毎年公にされている(匿名化されている)。
大規模言語モデル(LLM)の文脈では、これらのデータは人間の異なるグループとAIを比較して、人間と機械の回答の分布にアクセスすることができる。
我々は、ENEMデータセットの特徴を活用し、GPT-3.5と4を比較し、ポルトガルのデータを用いて訓練されたモデルであるMariTalkを人間と比較し、その回答が実際の社会的グループとどのように関連し、モデルバイアスにどのような影響を及ぼすかを確認することを目的とした。
我々は,社会経済状態(SES)を用いて人間集団を分割し,その回答分布を各質問やエッセイのLLMと比較する。
ブラジルの多点検定において, LLM のパフォーマンスを人間と比較する際の有意なバイアスは見つからない。
同様の結論は、生成されたエッセイを分析する際に、人間のエッセイとLLMエッセイは、人間のエッセイと容易に分離できる単語の選択である、いくつかの重要な要因で異なることが観察される。
テキストは構文的にも異なっており、LLMは、平均的により少ない文と少ない思考単位を示すエッセイを作成した。
これらの結果は, ブラジルポルトガル語のENEM文脈では, LLM出力は人間の集団を表すものではなく, 全試験におけるブラジル学生の回答とは大きく異なることを示唆している。
The Exame Nacional do Ensino M\'edio (ENEM) is a pivotal test for Brazilian students, required for admission to a significant number of universities in Brazil. The test consists of four objective high-school level tests on Math, Humanities, Natural Sciences and Languages, and one writing essay. Students' answers to the test and to the accompanying socioeconomic status questionnaire are made public every year (albeit anonymized) due to transparency policies from the Brazilian Government. In the context of large language models (LLMs), these data lend themselves nicely to comparing different groups of humans with AI, as we can have access to human and machine answer distributions. We leverage these characteristics of the ENEM dataset and compare GPT-3.5 and 4, and MariTalk, a model trained using Portuguese data, to humans, aiming to ascertain how their answers relate to real societal groups and what that may reveal about the model biases. We divide the human groups by using socioeconomic status (SES), and compare their answer distribution with LLMs for each question and for the essay. We find no significant biases when comparing LLM performance to humans on the multiple-choice Brazilian Portuguese tests, as the distance between model and human answers is mostly determined by the human accuracy. A similar conclusion is found by looking at the generated text as, when analyzing the essays, we observe that human and LLM essays differ in a few key factors, one being the choice of words where model essays were easily separable from human ones. The texts also differ syntactically, with LLM generated essays exhibiting, on average, smaller sentences and less thought units, among other differences. These results suggest that, for Brazilian Portuguese in the ENEM context, LLM outputs represent no group of humans, being significantly different from the answers from Brazilian students across all tests. | 翻訳日:2024-08-12 15:47:15 公開日:2024-08-09 |
# 分子分極はいつ光フィルターのように振る舞うのか?
When do molecular polaritons behave like optical filters? ( http://arxiv.org/abs/2408.05036v1 ) ライセンス: Link先を確認 | Kai Schwennicke, Arghadip Koner, Juan B. Pérez-Sánchez, Wei Xiong, Noel C. Giebink, Marissa L. Weichman, Joel Yuen-Zhou, | (参考訳) この視点は、光子モード当たりの分子数が大きいときの限界に焦点をあてて、集合的な強い光-物質結合系で生じる分子偏光子によって特徴づけられるいくつかの線形光学効果を概説する。
このような状況下では、キャビティ内の分子吸収は、偏光子透過と素分子吸収スペクトルの重なりとして理解でき、偏光子が部分的に光学フィルタとして機能することを示唆している。
この枠組みは、偏光現象の多くの理論モデルに対して、同様の効果が、形状のレーザーパルスを持つキャビティの外で達成可能であることを明確に説明し、簡単な説明を提供する。
いくつかの修正を加えれば、この単純な概念図は極性系の非一貫性な非線形応答を理解するためにも適用できる。
しかし、この治療を超える現象を示す集団体制には、実験的な観察があることに留意する。
我々の分析は、古典光学を通して完全に説明できる偏光現象と、より高度な理論的な枠組みを必要とする現象とを明確に区別する必要があるという概念の重要性を浮き彫りにしている。
ここで提示される線形光学的アプローチは、分子の数が無限大になる傾向があり、大きいが有限な分子の数に対して非常に正確なときである。
ダークステート-ポラリトン緩和を促進する単一分子過程の速度が無視できない場合や、少ない分子と強く結合した系では、この処理の限界が強調される。
これらの領域のさらなる探査は、新しい極性現象を明らかにするために必要である。
This perspective outlines several linear optical effects featured by molecular polaritons arising in the collective strong light-matter coupling regime, focusing on the limit when the number of molecules per photon mode is large. We show that, under these circumstances, molecular absorption within a cavity can be understood as the overlap between the polariton transmission and bare molecular absorption spectra, suggesting that polaritons act in part as optical filters. This framework demystifies and provides a straightforward explanation for a large class of theoretical models of polaritonic phenomena, highlighting that similar effects might be achievable outside a cavity with shaped laser pulses. With a few modifications, this simple conceptual picture can also be adapted to understand the incoherent nonlinear response of polaritonic systems. However, we note that there are experimental observations in the collective regime that exhibit phenomena that go beyond this treatment. Our analysis underscores the importance of the notion that the field still needs to establish a clear distinction between polaritonic phenomena that can be fully explained through classical optics and those that require a more advanced theoretical framework. The linear optics approach presented here is exact when the number of molecules tends to infinity and is quite accurate for a large, but finite, number of molecules. We highlight the limitations of this treatment when the rates of the single-molecule processes that facilitate dark-state-to-polariton relaxation cannot be neglected and in systems under strong coupling with few molecules. Further exploration in these areas is needed to uncover novel polaritonic phenomena. | 翻訳日:2024-08-12 15:47:15 公開日:2024-08-09 |
# 予測セットの共形学習と医用画像分類への応用
A conformalized learning of a prediction set with applications to medical imaging classification ( http://arxiv.org/abs/2408.05037v1 ) ライセンス: Link先を確認 | Roy Hirsch, Jacob Goldberger, | (参考訳) 医用画像分類器は高い予測精度を達成できるが、その不確実性を定量化することは未解決の課題であり、診療所への配備を妨げている。
本稿では,任意の分類器を修正して真のラベルを含む予測セットを生成するアルゴリズムを提案する。
コンフォーマル予測しきい値のインスタンスベースのバージョンを予測するために、ネットワークをトレーニングする。
しきい値は、必要なカバレッジを保証するために適合する。
提案アルゴリズムをいくつかの標準医用画像分類データセットに適用した。
実験の結果,提案手法は所望のカバレッジを維持しつつ,予測セットの平均サイズを小さくすることで,現在の手法よりも優れていることが示された。
Medical imaging classifiers can achieve high predictive accuracy, but quantifying their uncertainty remains an unresolved challenge, which prevents their deployment in medical clinics. We present an algorithm that can modify any classifier to produce a prediction set containing the true label with a user-specified probability, such as 90%. We train a network to predict an instance-based version of the Conformal Prediction threshold. The threshold is then conformalized to ensure the required coverage. We applied the proposed algorithm to several standard medical imaging classification datasets. The experimental results demonstrate that our method outperforms current approaches in terms of smaller average size of the prediction set while maintaining the desired coverage. | 翻訳日:2024-08-12 15:47:15 公開日:2024-08-09 |
# BoFire: 実実験のためのベイズ最適化フレームワーク
BoFire: Bayesian Optimization Framework Intended for Real Experiments ( http://arxiv.org/abs/2408.05040v1 ) ライセンス: Link先を確認 | Johannes P. Dürholt, Thomas S. Asche, Johanna Kleinekorte, Gabriel Mancino-Ball, Benjamin Schiller, Simon Sung, Julian Keupp, Aaron Osburg, Toby Boyne, Ruth Misener, Rosona Eldred, Wagner Steuer Costa, Chrysoula Kappatou, Robert M. Lee, Dominik Linzner, David Walz, Niklas Wulkow, Behrang Shafei, | (参考訳) 私たちのオープンソースのPythonパッケージであるBoFireは、ベイジアン最適化(BO)と、新しい化学の開発と最適化に焦点を当てた他の実験設計(DoE)戦略を組み合わせています。
以前のBO実装は、例えば文学やソフトウェアに存在するため、化学産業における実世界の効果的な展開に相当な適応が必要である。
BoFireは、広範な構成性を備えたリッチな機能セットを提供し、メンテナンス可能なオープンソースソフトウェアを通じて、産業利用への迅速な研究貢献という私たちのビジョンを実現します。
問題定式化のJSONシリアライズ可能性のようなQOL機能により、BoFireは、自律的なラボとループ内のセットアップの両方のための共通アーキテクチャコンポーネントであるRESTful APIへのBOのシームレスな統合を可能にします。
本稿では,BoFireと他のBO実装の違いについて論じるとともに,BO研究が化学環境での実際の利用に適応する必要がある方法について概説する。
Our open-source Python package BoFire combines Bayesian Optimization (BO) with other design of experiments (DoE) strategies focusing on developing and optimizing new chemistry. Previous BO implementations, for example as they exist in the literature or software, require substantial adaptation for effective real-world deployment in chemical industry. BoFire provides a rich feature-set with extensive configurability and realizes our vision of fast-tracking research contributions into industrial use via maintainable open-source software. Owing to quality-of-life features like JSON-serializability of problem formulations, BoFire enables seamless integration of BO into RESTful APIs, a common architecture component for both self-driving laboratories and human-in-the-loop setups. This paper discusses the differences between BoFire and other BO implementations and outlines ways that BO research needs to be adapted for real-world use in a chemistry setting. | 翻訳日:2024-08-12 15:47:15 公開日:2024-08-09 |
# 低遅延構成による従来のビデオコーデックと学習ビデオコーデックのベンチマーク
Benchmarking Conventional and Learned Video Codecs with a Low-Delay Configuration ( http://arxiv.org/abs/2408.05042v1 ) ライセンス: Link先を確認 | Siyue Teng, Yuxuan Jiang, Ge Gao, Fan Zhang, Thomas Davis, Zoe Liu, David Bull, | (参考訳) ビデオ圧縮の最近の進歩は、新しい標準と学習ベースのビデオコーデックの開発により、コーディング性能が大幅に向上した。
しかし、これらの作業のほとんどは、ある程度のシステム遅延(MPEGコーデックのランダムアクセスモードなど)を可能にするアプリケーションシナリオに焦点を当てている。
本稿では,低遅延構成に基づく従来型および学習型ビデオ符号化手法の比較研究を行う。
具体的には、2つのMPEG標準コーデック(H.266/VVC VTMとJVET ECM)、2つのAOMコーデック(AV1 libaomとAVM)、2つの最近のニューラルビデオ符号化モデル(DCVC-DCとDCVC-FM)を含む。
その結果, YCbCr 4:2:0色空間におけるAOMおよびMPEG共通試験条件で定義された試験系列について, 公平かつ有意義な比較を行うことができた。
評価結果から、JVETのECMコーデックは、AOM AVM上での平均BDレートを16.1%、DCVC-FMで11.0%、テストされたすべてのコーデックの中で最高の全体的なコーディング性能を提供することが示された。
また,学習ビデオコーデック(DCVC-DC)とDCVC-FM(DCVC-FM)との不整合性も観察した。
Recent advances in video compression have seen significant coding performance improvements with the development of new standards and learning-based video codecs. However, most of these works focus on application scenarios that allow a certain amount of system delay (e.g., Random Access mode in MPEG codecs), which is not always acceptable for live delivery. This paper conducts a comparative study of state-of-the-art conventional and learned video coding methods based on a low delay configuration. Specifically, this study includes two MPEG standard codecs (H.266/VVC VTM and JVET ECM), two AOM codecs (AV1 libaom and AVM), and two recent neural video coding models (DCVC-DC and DCVC-FM). To allow a fair and meaningful comparison, the evaluation was performed on test sequences defined in the AOM and MPEG common test conditions in the YCbCr 4:2:0 color space. The evaluation results show that the JVET ECM codecs offer the best overall coding performance among all codecs tested, with a 16.1% (based on PSNR) average BD-rate saving over AOM AVM, and 11.0% over DCVC-FM. We also observed inconsistent performance with the learned video codecs, DCVC-DC and DCVC-FM, for test content with large background motions. | 翻訳日:2024-08-12 15:47:15 公開日:2024-08-09 |
# ゴッドビロン-ヴェイ不変量からの葉構造と2次元粒子を持つ新しい場の理論
New Field Theories with Foliation Structure and Subdimensional Particles from Godbillon-Vey Invariant ( http://arxiv.org/abs/2408.05048v1 ) ライセンス: Link先を確認 | Hiromi Ebisu, Masazumi Honda, Taiichi Nakanishi, Soichiro Shimamori, | (参考訳) 近年,フラクトンを含むサブ次元粒子は,様々な分野から注目されている。
このような物質相の顕著な特徴は、移動性の制約と地下状態退化(GSD)である。
本稿では,ゴッドビロン・ヴェイ不変量(Godbillon-Vey invariant)を動機とするBF様理論を提案する。
我々の理論は、自発対称性の破れを通じて運動性の制約と亜指数的なGSDを明確に保証する、より高次形式対称性を包含する。
また、BF様理論と同じ低エネルギー挙動を実現する格子スピンモデルについても論じる。
さらに、BF様理論と結合した動的物質理論についても検討する。
Recently, subdimensional particles including fractons have attracted much attention from various areas. Notable features of such matter phases are mobility constraints and subextensive ground state degeneracies (GSDs). In this paper, we propose a BF-like theory motivated by the Godbillon-Vey invariant, which is a mathematical invariant of the foliated manifold. Our theory hosts subsystem higher form symmetries which manifestly ensure the mobility constraint and subextensive GSD through the spontaneous symmetry breaking. We also discuss some lattice spin models which realize the same low energy behaviours as the BF-like theory. Furthermore, we explore dynamical matter theories which are coupled to the BF-like theory. | 翻訳日:2024-08-12 15:47:15 公開日:2024-08-09 |
# セッションベース推薦システムにおける適応重み付きGNNモデル
A GNN Model with Adaptive Weights for Session-Based Recommendation Systems ( http://arxiv.org/abs/2408.05051v1 ) ライセンス: Link先を確認 | Begüm Özbay, Dr. Resul Tugay, Prof. Dr. Şule Gündüz Öğüdücü, | (参考訳) セッションベースレコメンデーションシステムは,セッション中の次の項目を予測するために,逐次的なインタラクションに基づいてユーザの興味をモデル化することを目的としている。
本稿では,セッションベースレコメンデーション(SBR)に利用できる新しいアプローチを提案する。
我々の目標は、グラフニューラルネットワーク(GNN)ベクトルに適用された適応重み付け機構を導入することにより、既存のセッションベースレコメンデーションモデルであるSR-GNNモデルの予測精度を向上させることである。
このメカニズムは、研究中に様々な方法で得られた様々な側面情報を組み込むように設計されている。
アイテムは、重み付けメカニズムの結果、各セッション内で様々な重要性の度合いが割り当てられます。
我々は、この適応重み付け戦略がより正確な予測に寄与し、異なるシナリオにおけるSBRの全体的な性能を向上させると仮定する。
適応重み付け戦略は、各セッションにおけるアイテムの重要性を動的に調整することにより、SBRにおけるコールドスタート問題に対処するために利用することができ、新規ユーザや新たに追加されたアイテムなどのコールドスタート状況においてより優れたレコメンデーションを提供する。
Dressipiデータセットに対する実験的な評価は、ユーザエクスペリエンスの向上と、実際のアプリケーションにおける推奨結果の最適化の可能性を強調した従来のモデルと比較して、提案手法の有効性を示すものである。
Session-based recommendation systems aim to model users' interests based on their sequential interactions to predict the next item in an ongoing session. In this work, we present a novel approach that can be used in session-based recommendations (SBRs). Our goal is to enhance the prediction accuracy of an existing session-based recommendation model, the SR-GNN model, by introducing an adaptive weighting mechanism applied to the graph neural network (GNN) vectors. This mechanism is designed to incorporate various types of side information obtained through different methods during the study. Items are assigned varying degrees of importance within each session as a result of the weighting mechanism. We hypothesize that this adaptive weighting strategy will contribute to more accurate predictions and thus improve the overall performance of SBRs in different scenarios. The adaptive weighting strategy can be utilized to address the cold start problem in SBRs by dynamically adjusting the importance of items in each session, thus providing better recommendations in cold start situations, such as for new users or newly added items. Our experimental evaluations on the Dressipi dataset demonstrate the effectiveness of the proposed approach compared to traditional models in enhancing the user experience and highlighting its potential to optimize the recommendation results in real-world applications. | 翻訳日:2024-08-12 15:47:15 公開日:2024-08-09 |
# 眼底画像からの視標とカップの分割のための接地真実へのエッジ情報の統合
Integrating Edge Information into Ground Truth for the Segmentation of the Optic Disc and Cup from Fundus Images ( http://arxiv.org/abs/2408.05052v1 ) ライセンス: Link先を確認 | Yoga Sri Varshan V, Hitesh Gupta Kattamuri, Subin Sahayam, Umarani Jayaraman, | (参考訳) 視神経円板とカップセグメンテーションは緑内障、心筋梗塞、糖尿病網膜症の診断に有用である。
セグメンテーションタスクを実行するために開発された多くのディープラーニング手法は、U-Netベースのモデルアーキテクチャ上に構築されている。
それでも、U-Netとその変種は、必要な関心領域を過剰に分離/アンダーセグメントする傾向にある。
最も重要な結果がカップ・ツー・ディスク比の値であり、セグメント化された領域自体ではないため、我々は境界の下の領域よりも境界についてより懸念している。
これにより、学習領域に比べて学習エッジが重要になります。
本研究は,光学ディスクとカップの両端をラプラシアンフィルタを用いて基底真実から抽出することを目的としている。
次に、エッジを再構成して、光学ディスクカップ接地真実に加えて、エッジ接地真実を得る。
著者らは両基底真理を利用して、光学ディスクとカップエッジを対象とするU-Netとその変種アーキテクチャと、セグメンテーションのための光学ディスクカップ基底真理を研究する。
著者らは、REFUGEベンチマークデータセットとDrishti-GSデータセットを使用して研究を行い、その結果をダイスとハウスドルフ距離の測定値に集計した。
REFUGEデータセットの場合、光学ディスクの平均ダイススコアは0.7425から0.8859に改善され、ベースラインU-Netモデルでは平均ハウスドルフ距離は6.5810から3.0540に低下した。
同様に、光学カップの平均ダイススコアは0.6970から0.8639に改善され、一方平均ハウスドルフ距離は同じモデルでは5.2340から2.6323に減少した。
Drishti-GSデータセットでも同様の改善が観測されている。
ベースラインのU-Netとその変種(すなわち注意U-NetとU-Net++)と比較して、統合エッジを学習するモデルと光学ディスクとカップ領域は、検証とテストの両方で良好に動作した。
Optic disc and cup segmentation helps in the diagnosis of glaucoma, myocardial infarction, and diabetic retinopathy. Most deep learning methods developed to perform segmentation tasks are built on top of a U-Net-based model architecture. Nevertheless, U-Net and its variants have a tendency to over-segment/ under-segment the required regions of interest. Since the most important outcome is the value of cup-to-disc ratio and not the segmented regions themselves, we are more concerned about the boundaries rather than the regions under the boundaries. This makes learning edges important as compared to learning the regions. In the proposed work, the authors aim to extract both edges of the optic disc and cup from the ground truth using a Laplacian filter. Next, edges are reconstructed to obtain an edge ground truth in addition to the optic disc-cup ground truth. Utilizing both ground truths, the authors study several U-Net and its variant architectures with and without optic disc and cup edges as target, along with the optic disc-cup ground truth for segmentation. The authors have used the REFUGE benchmark dataset and the Drishti-GS dataset to perform the study, and the results are tabulated for the dice and the Hausdorff distance metrics. In the case of the REFUGE dataset, the optic disc mean dice score has improved from 0.7425 to 0.8859 while the mean Hausdorff distance has reduced from 6.5810 to 3.0540 for the baseline U-Net model. Similarly, the optic cup mean dice score has improved from 0.6970 to 0.8639 while the mean Hausdorff distance has reduced from 5.2340 to 2.6323 for the same model. Similar improvement has been observed for the Drishti-GS dataset as well. Compared to the baseline U-Net and its variants (i.e) the Attention U-Net and the U-Net++, the models that learn integrated edges along with the optic disc and cup regions performed well in both validation and testing datasets. | 翻訳日:2024-08-12 15:47:15 公開日:2024-08-09 |
# 並列グラフカラー化のための順序付けヒューリスティックとしてのグラフニューラルネットワーク
Graph Neural Networks as Ordering Heuristics for Parallel Graph Coloring ( http://arxiv.org/abs/2408.05054v1 ) ライセンス: Link先を確認 | Kenneth Langedal, Fredrik Manne, | (参考訳) グラフ彩色問題は、隣接する頂点のペアが同じ色を共有しないという制約付き無向グラフの頂点に対して、最小数の異なる色を割り当てることを要求する。
この問題は、いくつかの実世界の応用において、NP-ハード組合せ問題として徹底的に研究されている。
そのため、色付け品質、実行時間、および並列スケーラビリティのバランスが良いと多くの欲求的ヒューリスティックが示唆されている。
本研究では,グラフニューラルネットワーク(GNN)に基づく注文ヒューリスティックを導入し,既存のグリーディ順序ヒューリスティックを品質と性能の両方で上回ることを示す。
これまでの結果、GNNは高品質な彩色を生成できるが、過剰なランニング時間を犠牲にしている。
現在の論文は、既存の強欲なヒューリスティックと競合するために実行時間を短縮した最初の論文です。
我々のGNNモデルは、教師なし技術と教師なし技術の両方を用いて訓練されている。
実験結果から, 2層GNNモデルでは, カラー化品質に優れながら, 最大次数(LF)と最小次数(SL)のヒューリスティックスの実行時間を達成できることが示唆された。
層数の増加は色付け品質をさらに向上させ、SLがGNNよりも高速になるのは4層のみである。
最後に,GNNをベースとしたカラーリングヒューリスティックは,SLとLFの双方と比較して並列設定でのスケーリングに優れる。
The graph coloring problem asks for an assignment of the minimum number of distinct colors to vertices in an undirected graph with the constraint that no pair of adjacent vertices share the same color. The problem is a thoroughly studied NP-hard combinatorial problem with several real-world applications. As such, a number of greedy heuristics have been suggested that strike a good balance between coloring quality, execution time, and also parallel scalability. In this work, we introduce a graph neural network (GNN) based ordering heuristic and demonstrate that it outperforms existing greedy ordering heuristics both on quality and performance. Previous results have demonstrated that GNNs can produce high-quality colorings but at the expense of excessive running time. The current paper is the first that brings the execution time down to compete with existing greedy heuristics. Our GNN model is trained using both supervised and unsupervised techniques. The experimental results show that a 2-layer GNN model can achieve execution times between the largest degree first (LF) and smallest degree last (SL) ordering heuristics while outperforming both on coloring quality. Increasing the number of layers improves the coloring quality further, and it is only at four layers that SL becomes faster than the GNN. Finally, our GNN-based coloring heuristic achieves superior scaling in the parallel setting compared to both SL and LF. | 翻訳日:2024-08-12 15:47:15 公開日:2024-08-09 |
# 流線特異的トラクトグラフィーのための多次元パラメータ空間探索
Multi-dimensional Parameter Space Exploration for Streamline-specific Tractography ( http://arxiv.org/abs/2408.05056v1 ) ライセンス: Link先を確認 | Ruben Vink, Anna Vilanova, Maxime Chamberland, | (参考訳) トラクトグラフィーの予期せぬ課題の1つは、与えられたデータセットやバンドルの適切なパラメータを選択することである。
この課題に対処するために,SSPを用いたトラクトグラフィーの多次元パラメータ空間について検討する。
我が家
1) 合成データ上でのストリーム単位パラメータを用いた最先端確率追跡手法の検証,及び
2) 実世界のデータを用いた合理化に着目し,パラメータ空間に対する洞察を得る方法を示す。
本研究では,SSPがパラメータ空間のパターンを明らかにするためにどのように使用できるかを示すことで,SSPの潜在的付加価値を示す。
One of the unspoken challenges of tractography is choosing the right parameters for a given dataset or bundle. In order to tackle this challenge, we explore the multi-dimensional parameter space of tractography using streamline-specific parameters (SSP). We 1) validate a state-of-the-art probabilistic tracking method using per-streamline parameters on synthetic data, and 2) show how we can gain insights into the parameter space by focusing on streamline acceptance using real-world data. We demonstrate the potential added value of SSP to the current state of tractography by showing how SSP can be used to reveal patterns in the parameter space. | 翻訳日:2024-08-12 15:47:15 公開日:2024-08-09 |
# SELD-Mamba:音源距離推定による音場定位・検出のための選択的状態空間モデル
SELD-Mamba: Selective State-Space Model for Sound Event Localization and Detection with Source Distance Estimation ( http://arxiv.org/abs/2408.05057v1 ) ライセンス: Link先を確認 | Da Mu, Zhicheng Zhang, Haobo Yue, Zehao Wang, Jin Tang, Jianqin Yin, | (参考訳) Sound Event Localization and Detection (SELD)タスクでは、Transformerベースのモデルが印象的な機能を示している。
しかし、トランスフォーマーの自己保持機構の二次的な複雑さは計算の非効率性をもたらす。
本稿では,選択状態空間モデルであるMambaを利用するSELD-Mambaと呼ばれるSELDのネットワークアーキテクチャを提案する。
本研究では,イベント独立ネットワークV2(EINV2)を基本フレームワークとして採用し,コンバータブロックを双方向のMambaブロックに置き換え,より広い範囲のコンテキスト情報を取得するとともに,計算効率を向上する。
さらに,2段階の訓練手法を実装し,第1段階は音事象検出(SED)とDoA推定の方向性に着目し,第2段階は音源距離推定(SDE)の損失を再導入する。
2024 DCASE Challenge Task3 データセットによる実験結果から,SELD における選択的状態空間モデルの有効性を実証し,SELD の性能向上における2段階トレーニング手法の利点を明らかにする。
In the Sound Event Localization and Detection (SELD) task, Transformer-based models have demonstrated impressive capabilities. However, the quadratic complexity of the Transformer's self-attention mechanism results in computational inefficiencies. In this paper, we propose a network architecture for SELD called SELD-Mamba, which utilizes Mamba, a selective state-space model. We adopt the Event-Independent Network V2 (EINV2) as the foundational framework and replace its Conformer blocks with bidirectional Mamba blocks to capture a broader range of contextual information while maintaining computational efficiency. Additionally, we implement a two-stage training method, with the first stage focusing on Sound Event Detection (SED) and Direction of Arrival (DoA) estimation losses, and the second stage reintroducing the Source Distance Estimation (SDE) loss. Our experimental results on the 2024 DCASE Challenge Task3 dataset demonstrate the effectiveness of the selective state-space model in SELD and highlight the benefits of the two-stage training approach in enhancing SELD performance. | 翻訳日:2024-08-12 15:47:15 公開日:2024-08-09 |
# 半単純分岐長分布を用いた変分ベイズ系統推定
Variational Bayesian Phylogenetic Inference with Semi-implicit Branch Length Distributions ( http://arxiv.org/abs/2408.05058v1 ) ライセンス: Link先を確認 | Tianyu Xie, Frederick A. Matsen IV, Marc A. Suchard, Cheng Zhang, | (参考訳) 分子配列の収集に関連する進化の歴史を再構築することは、現代のベイズ系統解析の主要な主題である。
しかし、一般的なマルコフ連鎖モンテカルロ法は系統樹の複雑な空間、特に配列の数が大きい場合、非効率である。
もう一つのアプローチは変分ベイズ系統推定(VBPI)であり、推論問題を最適化問題に変換する。
有効ではあるが、VBPIで使用される木の枝長に対するデフォルトの対角対角対数正規近似は、しばしば正確な後部の複雑さを捉えるのに不十分である。
本研究では,グラフニューラルネットワークを用いた半単純階層分布に基づく分岐長変動後続の柔軟な系を提案する。
この半単純構成は、単純置換同変分布を出力し、したがって、異なる木トポロジーにまたがる非ユークリッド分岐長空間を容易に扱えることを示す。
半単純変分分布の難解な限界確率に対処するために、確率最適化のためのいくつかの代替の下界を開発する。
本稿では,ベンチマークデータを用いたベースライン法に対する提案手法の有効性を,限界推定と分岐長後部近似の両面から示す。
Reconstructing the evolutionary history relating a collection of molecular sequences is the main subject of modern Bayesian phylogenetic inference. However, the commonly used Markov chain Monte Carlo methods can be inefficient due to the complicated space of phylogenetic trees, especially when the number of sequences is large. An alternative approach is variational Bayesian phylogenetic inference (VBPI) which transforms the inference problem into an optimization problem. While effective, the default diagonal lognormal approximation for the branch lengths of the tree used in VBPI is often insufficient to capture the complexity of the exact posterior. In this work, we propose a more flexible family of branch length variational posteriors based on semi-implicit hierarchical distributions using graph neural networks. We show that this semi-implicit construction emits straightforward permutation equivariant distributions, and therefore can handle the non-Euclidean branch length space across different tree topologies with ease. To deal with the intractable marginal probability of semi-implicit variational distributions, we develop several alternative lower bounds for stochastic optimization. We demonstrate the effectiveness of our proposed method over baseline methods on benchmark data examples, in terms of both marginal likelihood estimation and branch length posterior approximation. | 翻訳日:2024-08-12 15:37:31 公開日:2024-08-09 |
# GLEAMS: ローカルな説明とグローバルな説明のギャップを埋める
GLEAMS: Bridging the Gap Between Local and Global Explanations ( http://arxiv.org/abs/2408.05060v1 ) ライセンス: Link先を確認 | Giorgio Visani, Vincenzo Stanzione, Damien Garreau, | (参考訳) 機械学習アルゴリズムの説明可能性は非常に重要であり、近年多くの手法が登場している。
局所的なポストホックメソッドは、各特徴に属性スコアを割り当て、その予測の重要性を示す。
しかし、これらの手法はそれぞれの例について再計算する必要がある。
一方、グローバルなアプローチが存在する一方で、過度に単純化され、信頼できないか、過度に複雑である説明をしばしば生み出す。
このギャップを埋めるために,入力空間を分割し,各サブリージョン内で解釈可能なモデルを学習する新しい手法であるGLEAMSを提案する。
我々は、GLEAMSが合成データと実世界のデータの両方で有効であることを示し、その望ましい特性と人間の理解可能な洞察を強調した。
The explainability of machine learning algorithms is crucial, and numerous methods have emerged recently. Local, post-hoc methods assign an attribution score to each feature, indicating its importance for the prediction. However, these methods require recalculating explanations for each example. On the other side, while there exist global approaches they often produce explanations that are either overly simplistic and unreliable or excessively complex. To bridge this gap, we propose GLEAMS, a novel method that partitions the input space and learns an interpretable model within each sub-region, thereby providing both faithful local and global surrogates. We demonstrate GLEAMS' effectiveness on both synthetic and real-world data, highlighting its desirable properties and human-understandable insights. | 翻訳日:2024-08-12 15:37:31 公開日:2024-08-09 |
# 脱獄したGenAIモデルが実質的ハームを引き起こす:GenAIを利用したアプリケーションは、PromptWaresに脆弱性がある
A Jailbroken GenAI Model Can Cause Substantial Harm: GenAI-powered Applications are Vulnerable to PromptWares ( http://arxiv.org/abs/2408.05061v1 ) ライセンス: Link先を確認 | Stav Cohen, Ron Bitton, Ben Nassi, | (参考訳) 本稿では,JailbreakされたGenAIモデルが,GenAIをベースとしたアプリケーションに重大なダメージを与え,PromptWareを促進することを論じる。
PromptWareはユーザ入力を利用してGenAIモデルをジェイルブレイクし、GenAIベースのアプリケーションのコンテキスト内で悪意あるアクティビティを強制/実行します。
まず、Plan & Executeアーキテクチャ(ReAct、関数呼び出しなど)をターゲットにしたマルウェアとして動作するPromptWareの簡単な実装を紹介します。
攻撃者は、GenAIベースのアプリケーションのロジックが攻撃者に知られていることを考慮し、望ましい出力を生成するユーザ入力を作成することで、望ましい実行フローを強制できることを示す。
我々は、GenAIエンジンへの冗長なAPI呼び出しにお金と計算資源を浪費する無限ループに入るために、GenAIを搭載したアシスタントの実行をトリガーするDoS攻撃の適用を実証する。
次に、攻撃者に対してロジックが不明なGenAIベースのアプリケーションをターゲットにしたAdvanced PromptWare Threat (APwT) という、より洗練されたPromptWareの実装を紹介します。
攻撃者は、GenAIエンジンの高度なAI機能を利用して、特権をエスカレートし、アプリケーションのコンテキストを分析し、貴重な資産を特定し、悪意のあるアクティビティを推論し、そのうちの1つを決定し、実行するための6つのステップからなる、推論時間でキルチェーンを起動するユーザインプットを作成することができる。
我々は、GenAI搭載のeコマースチャットボットに対するAPwTの適用を実証し、SQLテーブルの変更をトリガーできることを示す。
In this paper we argue that a jailbroken GenAI model can cause substantial harm to GenAI-powered applications and facilitate PromptWare, a new type of attack that flips the GenAI model's behavior from serving an application to attacking it. PromptWare exploits user inputs to jailbreak a GenAI model to force/perform malicious activity within the context of a GenAI-powered application. First, we introduce a naive implementation of PromptWare that behaves as malware that targets Plan & Execute architectures (a.k.a., ReAct, function calling). We show that attackers could force a desired execution flow by creating a user input that produces desired outputs given that the logic of the GenAI-powered application is known to attackers. We demonstrate the application of a DoS attack that triggers the execution of a GenAI-powered assistant to enter an infinite loop that wastes money and computational resources on redundant API calls to a GenAI engine, preventing the application from providing service to a user. Next, we introduce a more sophisticated implementation of PromptWare that we name Advanced PromptWare Threat (APwT) that targets GenAI-powered applications whose logic is unknown to attackers. We show that attackers could create user input that exploits the GenAI engine's advanced AI capabilities to launch a kill chain in inference time consisting of six steps intended to escalate privileges, analyze the application's context, identify valuable assets, reason possible malicious activities, decide on one of them, and execute it. We demonstrate the application of APwT against a GenAI-powered e-commerce chatbot and show that it can trigger the modification of SQL tables, potentially leading to unauthorized discounts on the items sold to the user. | 翻訳日:2024-08-12 15:37:31 公開日:2024-08-09 |
# 1次元長距離北エフモデルにおけるエルゴトロピー、有界エネルギーおよび絡み合い
Ergotropy, bound energy and entanglement in 1D long range Kitaev model ( http://arxiv.org/abs/2408.05063v1 ) ライセンス: Link先を確認 | Akash Mitra, Shashi C. L. Srivastava, | (参考訳) 近年, 1次元共形場理論(Phys. Rev. B, 107,075116(20230))において, 近傍ホッピングに近接する自由フェルミオン鎖に対して, 系サイズと半鎖エンタングルメントエントロピーの正方形の基底状態の積, 熱力学的量, 境界エネルギーの積の線形関係が確立されている。
共形対称性が壊れた領域において、この関係を1D Kitaevモデルと、指数$\alpha$のパワーローとして距離で崩壊するペアリング項を用いて検討する。
解析的に、$\alpha=1$ の場合、この関係は$\alpha \to \infty$ の場合と同じ勾配で持続することを示す。
共形対称性は $\alpha<3/2$ [Phys. Rev. Lett., 113,156402(2014)] で破られることを思い出す。
線形性は$\alpha$の中間値に対して持続することを示す。
長距離ペアリングの存在は、仕事、すなわちエルゴトロピーのためにより多くのエネルギーを抽出するのに役立つ。
解析的に、エルゴトロピーはシステムサイズが$\alpha=1$と対数的に増加し、システムサイズが$\alpha=0$に比例することを示した。
Recently, a linear relationship between product of bound energy, a thermodynamic quantity, of a ground state with system size and square of half-chain entanglement entropy has been established for free fermionic chain with nearest neighbor hopping and conjectured to be true for all 1D conformal field theories [Phys. Rev. B, 107,075116(20230]. We probe this relationship in domain where conformal symmetry is broken using 1D Kitaev model with pairing term which decays with distance as a power-law with exponent $\alpha$. We analytically show that for $\alpha=1$, this relationship persists with same slope as found in $\alpha \to \infty$ case where conformal symmetry is unbroken. We recall that conformal symmetry is broken for $\alpha<3/2$ [Phys. Rev. Lett., 113,156402(2014)]. We numerically show that linearity persists for intermediate values of $\alpha$. The presence of long range pairing helps in extracting more energy for the work i.e. ergotropy. We show analytically that ergotropy increases logarithmically with system size for $\alpha=1$ and becomes proportional to system size for $\alpha=0$ (numerically). | 翻訳日:2024-08-12 15:37:31 公開日:2024-08-09 |
# 空間転写学における細胞型デコンボリューションのためのマスク付き対向神経回路網
Masked adversarial neural network for cell type deconvolution in spatial transcriptomics ( http://arxiv.org/abs/2408.05065v1 ) ライセンス: Link先を確認 | Lin Huang, Xiaofei Liu, Shunfang Wang, Wenwen Min, | (参考訳) 疾患関連組織における細胞型組成の正確な決定は、疾患標的を特定するために重要である。
多くの既存の空間転写学(ST)技術は単細胞分解能を達成できないため、正確に細胞型を決定することは困難である。
この問題に対処するため、様々なデコンボリューション手法が開発されている。
これらの方法の多くは、STデータスポット内のインファー細胞タイプを参照して、同じ組織から単一細胞RNAシークエンシング(scRNA-seq)データを使用する。
しかし、彼らはしばしば scRNA-seq と ST のデータの違いを見落としている。
この制限を克服するため,Masked Adversarial Neural Network (MACD)を提案する。
MACDは、実際のSTデータとscRNA-seqデータから生成されたシミュレーションSTデータとの整合に逆学習を用いる。
それらを統一潜在空間にマッピングすることで、2種類のデータ間の差を最小限にすることができる。
さらに、MACDはマスキング技術を用いて、実際のSTデータの特徴を効果的に学習し、ノイズを軽減する。
シミュレーションした32個のデータセットと2つの実データに対してMACDを評価し,その精度をセル型デコンボリューションの精度で検証した。
この論文で使用されるすべてのコードと公開データセットは、https://github.com/wenwenmin/MACDとhttps://zenodo.org/records/12804822で入手できる。
Accurately determining cell type composition in disease-relevant tissues is crucial for identifying disease targets. Most existing spatial transcriptomics (ST) technologies cannot achieve single-cell resolution, making it challenging to accurately determine cell types. To address this issue, various deconvolution methods have been developed. Most of these methods use single-cell RNA sequencing (scRNA-seq) data from the same tissue as a reference to infer cell types in ST data spots. However, they often overlook the differences between scRNA-seq and ST data. To overcome this limitation, we propose a Masked Adversarial Neural Network (MACD). MACD employs adversarial learning to align real ST data with simulated ST data generated from scRNA-seq data. By mapping them into a unified latent space, it can minimize the differences between the two types of data. Additionally, MACD uses masking techniques to effectively learn the features of real ST data and mitigate noise. We evaluated MACD on 32 simulated datasets and 2 real datasets, demonstrating its accuracy in performing cell type deconvolution. All code and public datasets used in this paper are available at https://github.com/wenwenmin/MACD and https://zenodo.org/records/12804822. | 翻訳日:2024-08-12 15:37:31 公開日:2024-08-09 |
# RT-Surv:大規模非構造電子健康記録の大規模言語モデル構築による放射線治療後の死亡予測の改善
RT-Surv: Improving Mortality Prediction After Radiotherapy with Large Language Model Structuring of Large-Scale Unstructured Electronic Health Records ( http://arxiv.org/abs/2408.05074v1 ) ライセンス: Link先を確認 | Sangjoon Park, Chan Woo Wee, Seo Hee Choi, Kyung Hwan Kim, Jee Suk Chang, Hong In Yoon, Ik Jae Lee, Yong Bae Kim, Jaeho Cho, Ki Chang Keum, Chang Geol Lee, Hwa Kyung Byun, Woong Sub Koom, | (参考訳) 正確な患者選択は、放射線治療(RT)において非効率な治療を防ぐために重要である。
従来の生存予測モデルは、構造化データに依存し、精度を欠くことが多い。
本研究では, 大規模言語モデル(LLM)が非構造化電子健康記録(EHR)データを構成する可能性について検討し, 包括的臨床情報統合による生存予測精度の向上を図る。
2013年から2023年にかけてのyonsei Cancer CenterにおけるRT治療患者34,276人を対象に,構造的および非構造的データを含む分析を行った。
オープンソース LLM を用いて、単発学習による非構造化 EHR データを構造化し、その性能をドメイン固有の医療用 LLM とより小さな変種と比較した。
生存予測モデルは、統計的、機械学習、深層学習のアプローチを用いて、構造化データとLLM構造化データの両方を取り入れて開発された。
臨床専門家はLLM構造化データの精度を評価した。
オープンソースのLLMは、追加のトレーニングなしで構造化されていないEHRデータを構築する際に87.5%の精度を達成し、ドメイン固有の医療用LLMを著しく上回り、わずか35.8%の精度にしか達しなかった。
より大きなLSMは、特に患者の生存率と密接な相関を持つ、一般的な状態や病気の範囲といった臨床的に関係のある特徴を抽出する上で、より効果的であった。
LLMを構造化した臨床特徴を生存予測モデルに組み込むことで精度が向上し、深層学習モデルのCインデックスは0.737から0.820に増加した。
これらのモデルは、臨床的に重要な因子を強調することで、より解釈可能になった。
本研究は, 特定の医療訓練を受けなくても, 大規模非構造化EMHデータを効果的に構築することができ, 臨床予測モデルの精度と解釈可能性を大幅に向上させることができることを示した。
Accurate patient selection is critical in radiotherapy (RT) to prevent ineffective treatments. Traditional survival prediction models, relying on structured data, often lack precision. This study explores the potential of large language models (LLMs) to structure unstructured electronic health record (EHR) data, thereby improving survival prediction accuracy through comprehensive clinical information integration. Data from 34,276 patients treated with RT at Yonsei Cancer Center between 2013 and 2023 were analyzed, encompassing both structured and unstructured data. An open-source LLM was used to structure the unstructured EHR data via single-shot learning, with its performance compared against a domain-specific medical LLM and a smaller variant. Survival prediction models were developed using statistical, machine learning, and deep learning approaches, incorporating both structured and LLM-structured data. Clinical experts evaluated the accuracy of the LLM-structured data. The open-source LLM achieved 87.5% accuracy in structuring unstructured EHR data without additional training, significantly outperforming the domain-specific medical LLM, which reached only 35.8% accuracy. Larger LLMs were more effective, particularly in extracting clinically relevant features like general condition and disease extent, which closely correlated with patient survival. Incorporating LLM-structured clinical features into survival prediction models significantly improved accuracy, with the C-index of deep learning models increasing from 0.737 to 0.820. These models also became more interpretable by emphasizing clinically significant factors. This study shows that general-domain LLMs, even without specific medical training, can effectively structure large-scale unstructured EHR data, substantially enhancing the accuracy and interpretability of clinical predictive models. | 翻訳日:2024-08-12 15:37:31 公開日:2024-08-09 |
# DeepInteraction++: 自律運転のためのマルチモードインタラクション
DeepInteraction++: Multi-Modality Interaction for Autonomous Driving ( http://arxiv.org/abs/2408.05075v1 ) ライセンス: Link先を確認 | Zeyu Yang, Nan Song, Wei Li, Xiatian Zhu, Li Zhang, Philip H. S. Torr, | (参考訳) 既存の高性能自動運転システムは、信頼性の高いシーン理解のためのマルチモーダル融合戦略に依存している。
しかしながら、この設計は、モダリティ固有の強度を見落とし、最終的にモデル性能を妨げているため、基本的に制限されている。
この制限に対処するため、本研究では、各モードごとの表現を学習・維持できる新しいモダリティインタラクション戦略を導入し、知覚パイプライン全体において、それぞれの特徴を活用できるようにする。
提案手法の有効性を実証するため,マルチモーダル表現型対話エンコーダとマルチモーダル予測型対話デコーダを特徴とするマルチモーダル対話フレームワークであるDeepInteraction++を設計した。
具体的には、情報交換のための特別な注意操作と、個別のモダリティ特化表現の統合を備えたデュアルストリーム変換器として実装される。
我々のマルチモーダル表現学習は、より困難な計画作業に欠かせない、オブジェクト中心、精密なサンプリングベースの特徴アライメントと、グローバルな密集情報拡散の両方を取り入れています。
このデコーダは、異なる表現から情報を統一的なモダリティに依存しない方法で交互に集約し、マルチモーダルな予測相互作用を実現することにより、予測を反復的に洗練するように設計されている。
大規模実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
私たちのコードはhttps://github.com/fudan-zvg/DeepInteraction.comで利用可能です。
Existing top-performance autonomous driving systems typically rely on the multi-modal fusion strategy for reliable scene understanding. This design is however fundamentally restricted due to overlooking the modality-specific strengths and finally hampering the model performance. To address this limitation, in this work, we introduce a novel modality interaction strategy that allows individual per-modality representations to be learned and maintained throughout, enabling their unique characteristics to be exploited during the whole perception pipeline. To demonstrate the effectiveness of the proposed strategy, we design DeepInteraction++, a multi-modal interaction framework characterized by a multi-modal representational interaction encoder and a multi-modal predictive interaction decoder. Specifically, the encoder is implemented as a dual-stream Transformer with specialized attention operation for information exchange and integration between separate modality-specific representations. Our multi-modal representational learning incorporates both object-centric, precise sampling-based feature alignment and global dense information spreading, essential for the more challenging planning task. The decoder is designed to iteratively refine the predictions by alternately aggregating information from separate representations in a unified modality-agnostic manner, realizing multi-modal predictive interaction. Extensive experiments demonstrate the superior performance of the proposed framework on both 3D object detection and end-to-end autonomous driving tasks. Our code is available at https://github.com/fudan-zvg/DeepInteraction. | 翻訳日:2024-08-12 15:37:31 公開日:2024-08-09 |
# 分散ロバスト最適化と統合されたラベル平滑化に基づくフレキシブルな未確認領域へのデータの一般化
Generalizing Few Data to Unseen Domains Flexibly Based on Label Smoothing Integrated with Distributionally Robust Optimization ( http://arxiv.org/abs/2408.05082v1 ) ライセンス: Link先を確認 | Yangdi Wang, Zhi-Hai Zhang, Su Xiu Xu, Wenming Guo, | (参考訳) 大規模なデータセットにディープニューラルネットワーク(DNN)を適用すると、一般的にオーバーフィッティングが発生する。
オーバーフィッティングをもたらす主な理由は、小規模なデータセットが現実世界の状況を反映できないことである。
ラベル平滑化 (LS) は, 1ホットラベルと一様ラベルベクトルを混合することにより, オーバーフィッティングを防止する効果的な正規化手法である。
しかし、LSはラベルのみに焦点を当て、既存のデータの分布を無視している。
本稿では、DNNのトレーニングにおいて、既存のデータ分布を柔軟に非表示領域にシフトさせることにより、分散ロバストな最適化(DRO)をLSに導入する。
具体的には、DROを統合する際に、LSの正規化をDNNパラメータの正規化項に拡張できることを示す。
正規化用語は、既存のデータを目に見えない領域に移行し、新しいデータを生成するために利用することができる。
さらに,DNNを学習するための近似勾配定位ラベル平滑化アルゴリズム(GI-LS)を提案する。
既存のデータのシフトがGI-LSの収束に影響を与えないことを示す。
GI-LSは一連のハイパーパラメータを組み込んでいるので、これらのハイパーパラメータの比較的最適な組み合わせを見つけるためにベイズ最適化(BO)を用いることも検討する。
小型の異常分類タスクを事例として,GI-LSの評価を行い,その性能について明らかにした。
Overfitting commonly occurs when applying deep neural networks (DNNs) on small-scale datasets, where DNNs do not generalize well from existing data to unseen data. The main reason resulting in overfitting is that small-scale datasets cannot reflect the situations of the real world. Label smoothing (LS) is an effective regularization method to prevent overfitting, avoiding it by mixing one-hot labels with uniform label vectors. However, LS only focuses on labels while ignoring the distribution of existing data. In this paper, we introduce the distributionally robust optimization (DRO) to LS, achieving shift the existing data distribution flexibly to unseen domains when training DNNs. Specifically, we prove that the regularization of LS can be extended to a regularization term for the DNNs parameters when integrating DRO. The regularization term can be utilized to shift existing data to unseen domains and generate new data. Furthermore, we propose an approximate gradient-iteration label smoothing algorithm (GI-LS) to achieve the findings and train DNNs. We prove that the shift for the existing data does not influence the convergence of GI-LS. Since GI-LS incorporates a series of hyperparameters, we further consider using Bayesian optimization (BO) to find the relatively optimal combinations of these hyperparameters. Taking small-scale anomaly classification tasks as a case, we evaluate GI-LS, and the results clearly demonstrate its superior performance. | 翻訳日:2024-08-12 15:37:31 公開日:2024-08-09 |
# セミマリンゲールモデルにおける期待シグネチャとシグネチャ累積について
On expected signatures and signature cumulants in semimartingale models ( http://arxiv.org/abs/2408.05085v1 ) ライセンス: Link先を確認 | Peter K. Friz, Paul P. Hager, Nikolas Tapia, | (参考訳) シグネチャと期待シグネチャの概念は、データサイエンス、特にシーケンシャルなデータ分析において不可欠である。
カルタン型の開発であるシグネチャ変換は、パスを高次元の特徴ベクトルに変換し、その固有の特性をキャプチャする。
自然条件下では、署名の期待は署名の法則を決定し、データの分布を統計的に要約する。
この性質は、機械学習と確率過程における堅牢なモデリングと推論を促進する。
筆者らによる以前の研究(統一署名累積と一般化Magnus展開, FoM Sigma '22]に基づいて、期待されるシグネチャの実際の計算を再考する。
いくつかの新しい公式が与えられる。
予測された)シグネチャのログ変換は、ログシグネチャ(署名累積)につながり、複雑さを著しく減少させる。
The concept of signatures and expected signatures is vital in data science, especially for sequential data analysis. The signature transform, a Cartan type development, translates paths into high-dimensional feature vectors, capturing their intrinsic characteristics. Under natural conditions, the expectation of the signature determines the law of the signature, providing a statistical summary of the data distribution. This property facilitates robust modeling and inference in machine learning and stochastic processes. Building on previous work by the present authors [Unified signature cumulants and generalized Magnus expansions, FoM Sigma '22] we here revisit the actual computation of expected signatures, in a general semimartingale setting. Several new formulae are given. A log-transform of (expected) signatures leads to log-signatures (signature cumulants), offering a significant reduction in complexity. | 翻訳日:2024-08-12 15:37:31 公開日:2024-08-09 |
# 言語モデルから新しい実験仮説を生成する:クロスダプティブ一般化のケーススタディ
Generating novel experimental hypotheses from language models: A case study on cross-dative generalization ( http://arxiv.org/abs/2408.05086v1 ) ライセンス: Link先を確認 | Kanishka Misra, Najoung Kim, | (参考訳) ニューラルネットワーク言語モデル(LM)は複雑な言語知識を捉えるのに成功している。
しかしながら、言語習得を理解するための彼らのユーティリティはまだ議論されている。
本研究は,人間と実験する新たな実験仮説を導出するために,シミュレーション学習者としてLMを用いたケーススタディを提示することによって,この議論に貢献する。
このパラダイムを横断的一般化(CDG: Cross-dative generalization)の研究に応用する: 子指向の音声で訓練されたLMを用いて、新しい動詞を生産的に一般化する(彼女は、私にボールをひっ掛けた)。
トレーニング露光の特性は、新しい動詞の(モデル化されていない)代替構文への一般化を促進するのか?
そこで,本論文では,主題と受取人の特性の観点から,新約動詞が出現する露呈状況を体系的に変化させ,未モデル化約動詞構成における新約動詞の使用状況を分析した。
子どものCDGの既知のパターンを再現するLMは、新しい仮説を探求するための前提条件である。
その後のシミュレーションでは、LMのCDG上での新規動詞の露出コンテキストの特徴のニュアンスな役割が明らかにされた。
被曝条件の最初の言語的議論が固有であり, 明確で, 短く, かつ, 被曝条件の原型的アニマシー期待に適合している場合, CDGは促進される。
これらのパターンは、ディベートにおける調和的アライメントの特徴であり、談話の卓越度で上位にランクされた特徴を持つ議論は、他方に先行する傾向にある。
このことは、CDGが露出コンテキストの特徴、特に最初の言葉による議論が調和的に一致していることから、内部でCDGが促進されるという新たな仮説を生み出している。
我々は、この仮説を子どもにテストできる将来の実験を提案して結論付ける。
Neural network language models (LMs) have been shown to successfully capture complex linguistic knowledge. However, their utility for understanding language acquisition is still debated. We contribute to this debate by presenting a case study where we use LMs as simulated learners to derive novel experimental hypotheses to be tested with humans. We apply this paradigm to study cross-dative generalization (CDG): productive generalization of novel verbs across dative constructions (she pilked me the ball/she pilked the ball to me) -- acquisition of which is known to involve a large space of contextual features -- using LMs trained on child-directed speech. We specifically ask: "what properties of the training exposure facilitate a novel verb's generalization to the (unmodeled) alternate construction?" To answer this, we systematically vary the exposure context in which a novel dative verb occurs in terms of the properties of the theme and recipient, and then analyze the LMs' usage of the novel verb in the unmodeled dative construction. We find LMs to replicate known patterns of children's CDG, as a precondition to exploring novel hypotheses. Subsequent simulations reveal a nuanced role of the features of the novel verbs' exposure context on the LMs' CDG. We find CDG to be facilitated when the first postverbal argument of the exposure context is pronominal, definite, short, and conforms to the prototypical animacy expectations of the exposure dative. These patterns are characteristic of harmonic alignment in datives, where the argument with features ranking higher on the discourse prominence scale tends to precede the other. This gives rise to a novel hypothesis that CDG is facilitated insofar as the features of the exposure context -- in particular, its first postverbal argument -- are harmonically aligned. We conclude by proposing future experiments that can test this hypothesis in children. | 翻訳日:2024-08-12 15:37:31 公開日:2024-08-09 |
# グラフ自己教師型学習のためのノードと近隣ノードのブートストラップ遅延
Bootstrap Latents of Nodes and Neighbors for Graph Self-Supervised Learning ( http://arxiv.org/abs/2408.05087v1 ) ライセンス: Link先を確認 | Yunhui Liu, Huaisong Zhang, Tieke He, Tao Zheng, Jianhua Zhao, | (参考訳) コントラスト学習はグラフ自己教師型学習において重要なパラダイムである。
しかし、モデル崩壊の防止と識別表現の学習には負のサンプルが必要である。
これらの負のサンプルは必然的に重い計算、メモリオーバーヘッド、クラス衝突を引き起こし、表現学習を妥協させる。
近年の研究では, ブートストラップグラフラテント (BGRL) を例として, 負のサンプルを排除し, 競争性能と拡張性を向上させる手法が提案されている。
しかし、BGRLは固有のグラフホモフィリーを無視し、基礎となる正の対について貴重な洞察を与える。
我々のモチベーションは、少数の接地的正のペアを微妙に導入することでBGRLを著しく改善する、という観察から生じる。
自己監督された設定の下でラベルがなければ、基底的正の対は得られないが、グラフの辺はノイズの多い正の対を反映することができる。
そこで我々はノード近傍のペアで正のペア集合を拡張することを提案する。
その後、アンカーノードに対する隣人の支持率を予測するために、クロスアテンションモジュールを導入する。
このスコアは、各隣接ノードからの正の支持を定量化し、トレーニング目標にエンコードされる。
その結果, 負の正試料と雑音の正試料とのクラス衝突を緩和し, クラス内コンパクト性を同時に向上させることができた。
5つのベンチマークデータセットと3つのダウンストリームタスクノード分類、ノードクラスタリング、ノード類似性検索で大規模な実験が行われた。
提案手法は,クラス内コンパクト性を高めたノード表現を生成し,最先端性能を実現する。
Contrastive learning is a significant paradigm in graph self-supervised learning. However, it requires negative samples to prevent model collapse and learn discriminative representations. These negative samples inevitably lead to heavy computation, memory overhead and class collision, compromising the representation learning. Recent studies present that methods obviating negative samples can attain competitive performance and scalability enhancements, exemplified by bootstrapped graph latents (BGRL). However, BGRL neglects the inherent graph homophily, which provides valuable insights into underlying positive pairs. Our motivation arises from the observation that subtly introducing a few ground-truth positive pairs significantly improves BGRL. Although we can't obtain ground-truth positive pairs without labels under the self-supervised setting, edges in the graph can reflect noisy positive pairs, i.e., neighboring nodes often share the same label. Therefore, we propose to expand the positive pair set with node-neighbor pairs. Subsequently, we introduce a cross-attention module to predict the supportiveness score of a neighbor with respect to the anchor node. This score quantifies the positive support from each neighboring node, and is encoded into the training objective. Consequently, our method mitigates class collision from negative and noisy positive samples, concurrently enhancing intra-class compactness. Extensive experiments are conducted on five benchmark datasets and three downstream task node classification, node clustering, and node similarity search. The results demonstrate that our method generates node representations with enhanced intra-class compactness and achieves state-of-the-art performance. | 翻訳日:2024-08-12 15:37:31 公開日:2024-08-09 |
# UNIC:マルチ教師蒸留によるユニバーサル分類モデル
UNIC: Universal Classification Models via Multi-teacher Distillation ( http://arxiv.org/abs/2408.05088v1 ) ライセンス: Link先を確認 | Mert Bulent Sariyildiz, Philippe Weinzaepfel, Thomas Lucas, Diane Larlus, Yannis Kalantidis, | (参考訳) 事前訓練されたモデルはコモディティになり、幅広いタスクに対して強力な結果をもたらしている。
本研究は分類に焦点をあて,いくつかの補完的な事前学習モデルから得られるユニークなエンコーダを学習する。
我々は、様々な分類タスクにおけるより強力な一般化を目指しています。
このようなエンコーダをマルチティーチンガー蒸留により学習することを提案する。
我々はまず, 補足力を持つ複数の強い教師が推進する標準蒸留を徹底的に分析した。
そこで本研究では, 基本蒸留装置の改良を徐々に提案する。
このうち, 拡張可能なプロジェクタのはしごでエンコーダのアーキテクチャを充実させ, 蒸留中の中間的特徴の影響を増大させるとともに, 教師の影響力のバランスを良くする正規化機構である教師ドロップを導入する。
最終蒸留戦略は,どの教師と同じ能力の学生モデルにつながり,各課題における最高の教師のパフォーマンスを維持・改善する。
プロジェクトページとコード:https://europe.naverlabs.com/unic
Pretrained models have become a commodity and offer strong results on a broad range of tasks. In this work, we focus on classification and seek to learn a unique encoder able to take from several complementary pretrained models. We aim at even stronger generalization across a variety of classification tasks. We propose to learn such an encoder via multi-teacher distillation. We first thoroughly analyse standard distillation when driven by multiple strong teachers with complementary strengths. Guided by this analysis, we gradually propose improvements to the basic distillation setup. Among those, we enrich the architecture of the encoder with a ladder of expendable projectors, which increases the impact of intermediate features during distillation, and we introduce teacher dropping, a regularization mechanism that better balances the teachers' influence. Our final distillation strategy leads to student models of the same capacity as any of the teachers, while retaining or improving upon the performance of the best teacher for each task. Project page and code: https://europe.naverlabs.com/unic | 翻訳日:2024-08-12 15:37:31 公開日:2024-08-09 |
# Loc4Plan: アウトドアビジョンと言語ナビゲーションのための計画前の位置
Loc4Plan: Locating Before Planning for Outdoor Vision and Language Navigation ( http://arxiv.org/abs/2408.05090v1 ) ライセンス: Link先を確認 | Huilin Tian, Jingke Meng, Wei-Shi Zheng, Yuan-Ming Li, Junkai Yan, Yunong Zhang, | (参考訳) VLN(Vision and Language Navigation)は、視覚環境において、エージェントが指示を理解し、目的地に向かうことを要求する課題である。
この問題を軽減するために、従来の研究は主に自然言語を視覚入力に基盤付けることに焦点を当てていたが、接地過程におけるエージェントの空間的位置情報の重要な役割を無視した。
本研究ではまず,空間的位置が屋外VLNの接地に与える影響について検討し,人間のナビゲーションからインスピレーションを得た。
現実のナビゲーションのシナリオでは、目的地への道を計画する前に、人間が現在位置を知る必要がある。
この観察は、航法過程における空間的局所化の重要な役割を浮き彫りにする。
本研究では,屋外VLNタスクにおける行動計画のための空間認識を取り入れた新しい枠組みであるLocating be for Planning(Loc4Plan)を紹介する。
Loc4Planの背景にある主な考え方は、ブロック対応空間位置決め(BAL)モジュールと空間対応行動計画(SAP)モジュールからなる、対応するガイダンスに基づいて決定動作を計画する前に空間的位置決めを行うことである。
具体的には,エージェントが環境中の空間的位置を認識するのを助けるために,BALモジュールによって達成される位置を反映する次の交差点からの距離を測定する位置予測器を学習することを提案する。
位置決め処理後,空間情報を組み込んだSAPモジュールを提案する。
Touchdownとmap2seqデータセットに関する大規模な実験は、提案されたLoc4PlanがSOTAメソッドより優れていることを示している。
Vision and Language Navigation (VLN) is a challenging task that requires agents to understand instructions and navigate to the destination in a visual environment.One of the key challenges in outdoor VLN is keeping track of which part of the instruction was completed. To alleviate this problem, previous works mainly focus on grounding the natural language to the visual input, but neglecting the crucial role of the agent's spatial position information in the grounding process. In this work, we first explore the substantial effect of spatial position locating on the grounding of outdoor VLN, drawing inspiration from human navigation. In real-world navigation scenarios, before planning a path to the destination, humans typically need to figure out their current location. This observation underscores the pivotal role of spatial localization in the navigation process. In this work, we introduce a novel framework, Locating be for Planning (Loc4Plan), designed to incorporate spatial perception for action planning in outdoor VLN tasks. The main idea behind Loc4Plan is to perform the spatial localization before planning a decision action based on corresponding guidance, which comprises a block-aware spatial locating (BAL) module and a spatial-aware action planning (SAP) module. Specifically, to help the agent perceive its spatial location in the environment, we propose to learn a position predictor that measures how far the agent is from the next intersection for reflecting its position, which is achieved by the BAL module. After the locating process, we propose the SAP module to incorporate spatial information to ground the corresponding guidance and enhance the precision of action planning. Extensive experiments on the Touchdown and map2seq datasets show that the proposed Loc4Plan outperforms the SOTA methods. | 翻訳日:2024-08-12 15:37:31 公開日:2024-08-09 |
# PriPHiT: ディープニューラルネットワークのプライバシ保護階層的トレーニング
PriPHiT: Privacy-Preserving Hierarchical Training of Deep Neural Networks ( http://arxiv.org/abs/2408.05092v1 ) ライセンス: Link先を確認 | Yamin Sepehri, Pedram Pad, Pascal Frossard, L. Andrea Dunbar, | (参考訳) ディープニューラルネットワークのトレーニングフェーズには、かなりのリソースが必要で、クラウドサーバ上で実行されることが多い。
しかし、トレーニングデータセットにセンシティブなコンテンツ、例えば顔画像が含まれている場合、プライバシー上の懸念が生じる。
本研究では、エッジデバイスとクラウドサーバの両方でディープラーニングモデルのトレーニングフェーズを実行する方法を提案する。
提案するプライバシ保存方法は,敵の早期出口を利用してエッジのセンシティブなコンテンツを抑制し,タスク関連情報をクラウドに送信する。
このアプローチでは、トレーニングフェーズ中にノイズの追加を取り入れて、差分プライバシー保証を提供する。
本手法は,様々な深層学習アーキテクチャを用いて,多様な顔属性を持つ顔データセット上で広範囲に検証し,その優れた性能を示す。
また、異なるホワイトボックス攻撃や深い復元攻撃に対する防御を成功させ、プライバシ保護の有効性を実証する。
The training phase of deep neural networks requires substantial resources and as such is often performed on cloud servers. However, this raises privacy concerns when the training dataset contains sensitive content, e.g., face images. In this work, we propose a method to perform the training phase of a deep learning model on both an edge device and a cloud server that prevents sensitive content being transmitted to the cloud while retaining the desired information. The proposed privacy-preserving method uses adversarial early exits to suppress the sensitive content at the edge and transmits the task-relevant information to the cloud. This approach incorporates noise addition during the training phase to provide a differential privacy guarantee. We extensively test our method on different facial datasets with diverse face attributes using various deep learning architectures, showcasing its outstanding performance. We also demonstrate the effectiveness of privacy preservation through successful defenses against different white-box and deep reconstruction attacks. | 翻訳日:2024-08-12 15:37:31 公開日:2024-08-09 |
# 幻覚における秩序--大言語モデルにおけるベンチマークと反射プロンプトとしての秩序の推論
Order Matters in Hallucination: Reasoning Order as Benchmark and Reflexive Prompting for Large-Language-Models ( http://arxiv.org/abs/2408.05093v1 ) ライセンス: Link先を確認 | Zikai Xie, | (参考訳) 大規模言語モデル(LLM)は、その誕生以来、様々な学術分野や産業分野にまたがって大きな注目を集めてきた。
しかし、これらのモデルは「ハロシン化問題」に悩まされることが多く、出力は文法的にも論理的にも一貫性があるが、事実の正確さは欠如している。
最近発見され広く議論されている特に厄介な問題は、複数のLLMが誤って「9.11$>$9.9」と推測する数値比較誤差である。
LLMが回答と推論を生成する順序が一貫性に影響を及ぼすことがわかった。
具体的には、LSMが最初に回答を生成し、次に推論プロセスを生成してから結論を出すと、結果は著しく異なる。
そこで本研究では,LLMの一貫性を評価するための新しいベンチマーク手法を提案する。
このベンチマークは、LLMが回答を作成し、その後正当化を生成するインスタンスを効果的に識別する。
さらに、この問題を緩和するために設計された、新規かつ素直な迅速な戦略を導入する。
実験結果から,本手法は直接質問よりも多種多様なLLMの性能向上を図っている。
この作業は、LLMの重大な欠陥に光を当てるだけでなく、信頼性を高めるための実用的なソリューションも提供する。
Large language models (LLMs) have generated significant attention since their inception, finding applications across various academic and industrial domains. However, these models often suffer from the "hallucination problem", where outputs, though grammatically and logically coherent, lack factual accuracy or are entirely fabricated. A particularly troubling issue discovered and widely discussed recently is the numerical comparison error where multiple LLMs incorrectly infer that "9.11$>$9.9". We discovered that the order in which LLMs generate answers and reasoning impacts their consistency. Specifically, results vary significantly when an LLM generates an answer first and then provides the reasoning versus generating the reasoning process first and then the conclusion. Inspired by this, we propose a new benchmark method for assessing LLM consistency: comparing responses generated through these two different approaches. This benchmark effectively identifies instances where LLMs fabricate answers and subsequently generate justifications. Furthermore, we introduce a novel and straightforward prompt strategy designed to mitigate this issue. Experimental results demonstrate that this strategy improves performance across various LLMs compared to direct questioning. This work not only sheds light on a critical flaw in LLMs but also offers a practical solution to enhance their reliability. | 翻訳日:2024-08-12 15:37:31 公開日:2024-08-09 |
# 復号時間制御のアンロック:コントラスト付きグラディエントフリー多目的アライメント
Unlocking Decoding-time Controllability: Gradient-Free Multi-Objective Alignment with Contrastive Prompts ( http://arxiv.org/abs/2408.05094v1 ) ライセンス: Link先を確認 | Tingchen Fu, Yupeng Hou, Julian McAuley, Rui Yan, | (参考訳) 多目的アライメントのタスクは、異なるユーザのパーソナライズされた要求を満たすために、大きな言語モデルの異なるアライメント目標(例えば、助け、無害、誠実さ)のバランスと制御を目標とする。
しかし、従来の手法では、複数のモデルをトレーニングして様々なユーザの好みに対処する傾向があり、トレーニングされたモデルの数は、アライメントの目的の数と異なる好みの数とで線形に増加する。
一方、既存の手法は拡張性に乏しく、考慮すべき新たなアライメント対象ごとに大幅な再訓練が必要である。
従来の手法の限界を考慮し、専門家のプロンプトと相手のプロンプトを構成するMCA(Multi-Objective Contrastive Alignemnt)を提案する。
提案手法は,異なるアライメント目的において,よく分散されたParetoフロントを得る上で,従来の手法よりも優れていることが確認された。
The task of multi-objective alignment aims at balancing and controlling the different alignment objectives (e.g., helpfulness, harmlessness and honesty) of large language models to meet the personalized requirements of different users. However, previous methods tend to train multiple models to deal with various user preferences, with the number of trained models growing linearly with the number of alignment objectives and the number of different preferences. Meanwhile, existing methods are generally poor in extensibility and require significant re-training for each new alignment objective considered. Considering the limitation of previous approaches, we propose MCA (Multi-objective Contrastive Alignemnt), which constructs an expert prompt and an adversarial prompt for each objective to contrast at the decoding time and balances the objectives through combining the contrast. Our approach is verified to be superior to previous methods in obtaining a well-distributed Pareto front among different alignment objectives. | 翻訳日:2024-08-12 15:27:33 公開日:2024-08-09 |
# マルチモーダル大言語モデルを用いた双曲学習
Hyperbolic Learning with Multimodal Large Language Models ( http://arxiv.org/abs/2408.05097v1 ) ライセンス: Link先を確認 | Paolo Mandica, Luca Franco, Konstantinos Kallidromitis, Suzanne Petryk, Fabio Galasso, | (参考訳) ハイパーボリック埋め込みは、画像セグメンテーションやアクティブラーニングを含む様々なディープラーニングタスクにおける不確実性や階層的関係の計測において、その効果を実証している。
しかし、現代の視覚言語モデル(VLM)における応用は限られている。
特筆すべき例外はMERUであり、これはCLIP ViT-largeモデルにおける双曲空間の階層的特性を活用している。
本稿では,パラメータ(ビリオン)の桁数によるマルチモーダル双曲モデルのスケーリングとBLIP-2アーキテクチャを用いた学習複雑性について述べる。
双曲的埋め込みはユークリッド埋め込みに存在しない不確実性についての潜在的な洞察を与えるが、我々の分析はこれらのモデルのスケーリングが特に困難であることを明らかにしている。
本稿では, BLIP-2のハイパーボリックバージョンに対する新たなトレーニング戦略を提案する。これはユークリッドと同等の性能を達成できると同時に, トレーニングプロセス全体の安定性を維持しつつ, 埋め込み毎に不確実性を有意義に示すものである。
Hyperbolic embeddings have demonstrated their effectiveness in capturing measures of uncertainty and hierarchical relationships across various deep-learning tasks, including image segmentation and active learning. However, their application in modern vision-language models (VLMs) has been limited. A notable exception is MERU, which leverages the hierarchical properties of hyperbolic space in the CLIP ViT-large model, consisting of hundreds of millions parameters. In our work, we address the challenges of scaling multi-modal hyperbolic models by orders of magnitude in terms of parameters (billions) and training complexity using the BLIP-2 architecture. Although hyperbolic embeddings offer potential insights into uncertainty not present in Euclidean embeddings, our analysis reveals that scaling these models is particularly difficult. We propose a novel training strategy for a hyperbolic version of BLIP-2, which allows to achieve comparable performance to its Euclidean counterpart, while maintaining stability throughout the training process and showing a meaningful indication of uncertainty with each embedding. | 翻訳日:2024-08-12 15:27:33 公開日:2024-08-09 |
# スパイクニューラルネットワークにおける層同期の限界を克服する
Overcoming the Limitations of Layer Synchronization in Spiking Neural Networks ( http://arxiv.org/abs/2408.05098v1 ) ライセンス: Link先を確認 | Roel Koopman, Amirreza Yousefzadeh, Mahyar Shahsavari, Guangzhi Tang, Manolis Sifalakis, | (参考訳) 現在、機械学習アプリケーションにおけるニューラルネット処理は、活性化関数を評価する前に、前層のすべてのニューロンからの入力電流を階層内のニューロンが集約する層同期に依存している。
これは、脳内の処理が非同期であるにもかかわらず、神経生物学と整合していると称される人工スパイキングニューラルネットワーク(SNN)でも実践されている。
しかし、真に非同期なシステムでは、すべてのニューロンがその閾値を同時に評価し、シナプス前電流を受けるとスパイクを発生させることができる。
レイヤ同期はレイテンシとエネルギー効率において潜在的に有益であるが、以前レイヤ同期でトレーニングされたモデルの非同期実行には、ネットワークのダイナミクスとパフォーマンスのミスマッチが伴う可能性がある。
本稿では,ネットワーク同期を実装したシミュレーション環境上の3つのデータセットにこの問題を文書化して定量化する手法を提案する。
そして、非同期処理に適したモデルを学ぶための、新しいバックプロパゲーションベースのトレーニング手法である非層バックプロップで問題に対処する。
異なるニューロン実行スケジューリング戦略を使用するモデルをトレーニングし、それらのニューロンはより反応性が高いが、一貫して全体的なスパイク密度(50%まで)が低く、すべてのスパイクを統合することなく正しい決定(最大2倍)に達し、より優れた精度(最大10%以上)を達成することを示した。
我々の発見は、非同期イベントベースの(ニューロモーフィックな)AIコンピューティングは、確かにより効率的であることを示しているが、その恩恵を受けるためには、SNNモデルをトレーニングする方法を真剣に再考する必要がある。
Currently, neural-network processing in machine learning applications relies on layer synchronization, whereby neurons in a layer aggregate incoming currents from all neurons in the preceding layer, before evaluating their activation function. This is practiced even in artificial Spiking Neural Networks (SNNs), which are touted as consistent with neurobiology, in spite of processing in the brain being, in fact asynchronous. A truly asynchronous system however would allow all neurons to evaluate concurrently their threshold and emit spikes upon receiving any presynaptic current. Omitting layer synchronization is potentially beneficial, for latency and energy efficiency, but asynchronous execution of models previously trained with layer synchronization may entail a mismatch in network dynamics and performance. We present a study that documents and quantifies this problem in three datasets on our simulation environment that implements network asynchrony, and we show that models trained with layer synchronization either perform sub-optimally in absence of the synchronization, or they will fail to benefit from any energy and latency reduction, when such a mechanism is in place. We then "make ends meet" and address the problem with unlayered backprop, a novel backpropagation-based training method, for learning models suitable for asynchronous processing. We train with it models that use different neuron execution scheduling strategies, and we show that although their neurons are more reactive, these models consistently exhibit lower overall spike density (up to 50%), reach a correct decision faster (up to 2x) without integrating all spikes, and achieve superior accuracy (up to 10% higher). Our findings suggest that asynchronous event-based (neuromorphic) AI computing is indeed more efficient, but we need to seriously rethink how we train our SNN models, to benefit from it. | 翻訳日:2024-08-12 15:27:33 公開日:2024-08-09 |
# AI駆動のJavaパフォーマンステスト - 結果品質とテスト時間とのバランス
AI-driven Java Performance Testing: Balancing Result Quality with Testing Time ( http://arxiv.org/abs/2408.05100v1 ) ライセンス: Link先を確認 | Luca Traini, Federico Di Menna, Vittorio Cortellessa, | (参考訳) パフォーマンステストは、ソフトウェアシステムの効率性の問題を明らかにすることを目的としている。
効果的かつ実用的なものにするためには、パフォーマンステストの設計は結果の品質とテスト時間の間の合理的なトレードオフを達成しなければなりません。
これは、ジャスト・イン・タイムのコンパイルのため、ソフトウェアが実行のウォームアップフェーズを行うJavaコンテキストで特に困難になる。
この段階では、性能測定は厳しい変動を受け、性能試験結果の品質に悪影響を及ぼす可能性がある。
しかしながら、これらのアプローチは、しばしばウォームアップフェーズの最適以下の見積もりを提供し、結果として不十分または過剰なウォームアップイテレーションが生まれ、結果の品質を低下させるか、テスト時間を増加させる可能性がある。
この問題に適切に対処する方法についてはまだ合意が得られていない。
本稿では,実行時のウォームアップイテレーションを動的に停止するAIベースのフレームワークを提案し,検討する。
具体的には、テスト実行中のウォームアップフェーズの終了を予測するために、最近のAI for Time Series Classification(TSC)を活用している。
JMHマイクロベンチマークの実行から得られた50万の計測セグメントに対して、3つの異なるTSCモデルをトレーニングして実験を行う。
その結果,我々のフレームワークは,最先端および最先端の手法によって提供されるウォームアップ推定の精度を著しく向上させることがわかった。
この高い推定精度により、マイクロベンチマークの最大+35.3%の結果品質またはテスト時間が純改善される。
我々の研究は、ウォームアップフェーズの終了を動的に推定するためにAIを統合することで、Javaのパフォーマンステストのコスト効率が向上することを示した。
Performance testing aims at uncovering efficiency issues of software systems. In order to be both effective and practical, the design of a performance test must achieve a reasonable trade-off between result quality and testing time. This becomes particularly challenging in Java context, where the software undergoes a warm-up phase of execution, due to just-in-time compilation. During this phase, performance measurements are subject to severe fluctuations, which may adversely affect quality of performance test results. However, these approaches often provide suboptimal estimates of the warm-up phase, resulting in either insufficient or excessive warm-up iterations, which may degrade result quality or increase testing time. There is still a lack of consensus on how to properly address this problem. Here, we propose and study an AI-based framework to dynamically halt warm-up iterations at runtime. Specifically, our framework leverages recent advances in AI for Time Series Classification (TSC) to predict the end of the warm-up phase during test execution. We conduct experiments by training three different TSC models on half a million of measurement segments obtained from JMH microbenchmark executions. We find that our framework significantly improves the accuracy of the warm-up estimates provided by state-of-practice and state-of-the-art methods. This higher estimation accuracy results in a net improvement in either result quality or testing time for up to +35.3% of the microbenchmarks. Our study highlights that integrating AI to dynamically estimate the end of the warm-up phase can enhance the cost-effectiveness of Java performance testing. | 翻訳日:2024-08-12 15:27:33 公開日:2024-08-09 |
# MooER:ムーアスレッドからのLLMに基づく音声認識と翻訳モデル
MooER: LLM-based Speech Recognition and Translation Models from Moore Threads ( http://arxiv.org/abs/2408.05101v1 ) ライセンス: Link先を確認 | Junhao Xu, Zhenlin Liang, Yi Liu, Yichao Hu, Jian Li, Yajun Zheng, Meng Cai, Hua Wang, | (参考訳) 本論文では,ムーアスレッドの大規模自動音声認識(ASR)/自動音声翻訳(AST)モデルであるMooERを提案する。
オープンソースおよび自己収集音声データを含む5000hの擬似ラベル付きデータセットをトレーニングに使用する。
我々は、最大数十万時間のラベル付き音声データでトレーニングされた他のオープンソースモデルに匹敵するパフォーマンスを達成する。
一方、Covost2 Zh2enテストセットで実施した実験は、我々のモデルが他のオープンソースのLLMよりも優れていることを示唆している。
BLEUスコア25.2を得る。
本論文の主な貢献は以下のとおりである。
まず,手書きの注釈や選択を伴わずに擬似ラベル付きデータの小さなサイズを用いて,音声関連タスク(ASRやASTを含む)におけるエンコーダとLLMの訓練戦略を提案する。
第2に、ASRとASTモデルをリリースし、近い将来、トレーニングコードと戦略をオープンソース化する予定です。
さらに、8whスケールのトレーニングデータに基づいてトレーニングされたモデルも、後にリリースされる予定である。
In this paper, we present MooER, a LLM-based large-scale automatic speech recognition (ASR) / automatic speech translation (AST) model of Moore Threads. A 5000h pseudo labeled dataset containing open source and self collected speech data is used for training. We achieve performance comparable to other open source models trained with up to hundreds of thousands of hours of labeled speech data. Meanwhile, experiments conducted on Covost2 Zh2en testset suggest that our model outperforms other open source Speech LLMs. A BLEU score of 25.2 can be obtained. The main contributions of this paper are summarized as follows. First, this paper presents a training strategy for encoders and LLMs on speech related tasks (including ASR and AST) using a small size of pseudo labeled data without any extra manual annotation and selection. Second, we release our ASR and AST models and plan to open-source our training code and strategy in the near future. Moreover, a model trained on 8wh scale training data is planned to be released later on. | 翻訳日:2024-08-12 15:27:33 公開日:2024-08-09 |
# LLMはいかにして多様性の文化的統一を識別するか?
How Well Do LLMs Identify Cultural Unity in Diversity? ( http://arxiv.org/abs/2408.05102v1 ) ライセンス: Link先を確認 | Jialin Li, Junli Wang, Junjie Hu, Ming Jiang, | (参考訳) 大規模言語モデル(LLM)の文化的認識に関する多くの研究は、ジオカルチャーの多様性に対するモデルの感受性に焦点を当てている。
しかし、文化の相違に加えて、文化の共通点も存在している。
例えば、米国のブライダルベールは、中国のホンガイトウと同様の文化的な役割を担っている。
本研究では,概念の文化的統一性を理解するために,デコーダのみのLLMを評価するためのベンチマークデータセットCUNITを紹介する。
具体的には、CUNITは10か国で285の伝統的な文化的概念に基づいて構築された1,425の評価例で構成されている。
概念ごとの文化的特徴の体系的手動アノテーションに基づいて, 異文化間の文化的関連性を計算する。
このデータセットに基づいて,LLMが高度に関連付けられた異文化のコンセプトペアを識別する能力を評価するために,コントラストマッチングタスクを設計する。
我々は3つの強力なLCMを3つのポピュラーなプロンプト戦略を用いて評価し、CUNITで抽出された概念の特徴を全て与えるか、全く特徴を全く与えないかという設定のもとに、衣料概念に関する各国の文化団体が食品と大きく異なることを発見した。
我々の分析によると、LLMは人間に比べて、概念間の異文化的な関連を捉えることに制限されている。
さらに、地理的・文化的近接性は、異文化間関係の獲得におけるモデル性能に弱い影響を示す。
Much work on the cultural awareness of large language models (LLMs) focuses on the models' sensitivity to geo-cultural diversity. However, in addition to cross-cultural differences, there also exists common ground across cultures. For instance, a bridal veil in the United States plays a similar cultural-relevant role as a honggaitou in China. In this study, we introduce a benchmark dataset CUNIT for evaluating decoder-only LLMs in understanding the cultural unity of concepts. Specifically, CUNIT consists of 1,425 evaluation examples building upon 285 traditional cultural-specific concepts across 10 countries. Based on a systematic manual annotation of cultural-relevant features per concept, we calculate the cultural association between any pair of cross-cultural concepts. Built upon this dataset, we design a contrastive matching task to evaluate the LLMs' capability to identify highly associated cross-cultural concept pairs. We evaluate 3 strong LLMs, using 3 popular prompting strategies, under the settings of either giving all extracted concept features or no features at all on CUNIT Interestingly, we find that cultural associations across countries regarding clothing concepts largely differ from food. Our analysis shows that LLMs are still limited to capturing cross-cultural associations between concepts compared to humans. Moreover, geo-cultural proximity shows a weak influence on model performance in capturing cross-cultural associations. | 翻訳日:2024-08-12 15:27:33 公開日:2024-08-09 |
# 第21回量子物理学・論理国際会議に参加して
Proceedings of the 21st International Conference on Quantum Physics and Logic ( http://arxiv.org/abs/2408.05113v1 ) ライセンス: Link先を確認 | Alejandro Díaz-Caro, Vladimir Zamdzhiev, | (参考訳) この巻は2024年7月15日から19日までアルゼンチンのブエノスアイレスで開催された第21回量子物理学・論理国際会議(QPL 2024)の手続きを含む。
QPLは毎年恒例のカンファレンスであり、量子計算、量子物理学、および関連する分野の数学的基盤に取り組んでいる学術的、産業的な研究者を集めている。
主な焦点は、代数的および分類的構造、形式言語、意味論的方法、および物理系、物理過程、およびそれらの構成の研究に適用可能な他の数学的およびコンピュータ科学技術の使用である。
This volume contains the proceedings of the 21st International Conference on Quantum Physics and Logic (QPL 2024), which was held from July 15th to 19th, 2024, in Buenos Aires, Argentina, organized jointly by Universidad de Buenos Aires and Universidad Nacional de Quilmes. QPL is an annual conference that brings together academic and industry researchers working on the mathematical foundations of quantum computation, quantum physics, and related areas. The main focus is on the use of algebraic and categorical structures, formal languages, semantic methods, as well as other mathematical and computer scientific techniques applicable to the study of physical systems, physical processes, and their composition. | 翻訳日:2024-08-12 15:27:33 公開日:2024-08-09 |
# 限定測定によるパラメタライズド量子モデルの概念学習
Concept learning of parameterized quantum models from limited measurements ( http://arxiv.org/abs/2408.05116v1 ) ライセンス: Link先を確認 | Beng Yee Gan, Po-Wei Huang, Elies Gil-Fuster, Patrick Rebentrost, | (参考訳) 量子状態に対する可観測物の期待値の古典的な学習は、学習量子状態やチャネルの自然な変種である。
学習理論のフレームワークは、そのような統計量を学ぶのに必要なサンプルの複雑さと測定ショット数を確立するが、これらの2つの変数間の相互作用は、これまで十分に定量化されていなかった。
本研究では、古典的モデリングにおいて量子計測の確率論的性質を考慮し、これらの量について単一の統合学習フレームワークで議論する。
パラメータ化量子モデルを学習し、学習アルゴリズムの性能に対する2つの変数の非対称効果と相互作用を定量化する。
これらの結果から, サンプルサイズの増加は古典機械の学習性能を高めるが, 単発推定であっても, 測定値の増大による改善は, 一定の因子を超えた漸近的に容易となることがわかった。
さらに、パラメータ化量子回路モデルの古典的サロゲーションに対する測定ノイズの影響について、我々の枠組みと理論的保証を適用した。
我々の研究は、量子システムの古典的学習における有限計測ノイズの操作的影響を分析するための新しいツールを提供する。
Classical learning of the expectation values of observables for quantum states is a natural variant of learning quantum states or channels. While learning-theoretic frameworks establish the sample complexity and the number of measurement shots per sample required for learning such statistical quantities, the interplay between these two variables has not been adequately quantified before. In this work, we take the probabilistic nature of quantum measurements into account in classical modelling and discuss these quantities under a single unified learning framework. We provide provable guarantees for learning parameterized quantum models that also quantify the asymmetrical effects and interplay of the two variables on the performance of learning algorithms. These results show that while increasing the sample size enhances the learning performance of classical machines, even with single-shot estimates, the improvements from increasing measurements become asymptotically trivial beyond a constant factor. We further apply our framework and theoretical guarantees to study the impact of measurement noise on the classical surrogation of parameterized quantum circuit models. Our work provides new tools to analyse the operational influence of finite measurement noise in the classical learning of quantum systems. | 翻訳日:2024-08-12 15:27:33 公開日:2024-08-09 |
# 眼の向こう側:網膜OCTA画像を用いた早期認知症検出のための関係モデル
Beyond the Eye: A Relational Model for Early Dementia Detection Using Retinal OCTA Images ( http://arxiv.org/abs/2408.05117v1 ) ライセンス: Link先を確認 | Shouyue Liu, Jinkui Hao, Yonghuai Liu, Huazhu Fu, Xinyu Guo, Shuting Zhang, Yitian Zhao, | (参考訳) アルツハイマー病(AD)や軽度認知障害(MCI)などの認知症の早期発見は、タイムリーな介入と潜在的治療を可能にするために不可欠である。
AD/MCIの正確な検出は、大規模な集団スクリーニングに適合する可能性を制限する、現在の診断技術の複雑さ、コスト、そしてしばしば侵襲的な性質のために困難である。
網膜と脳の胚の起源と生理的特徴が共有されていることから、網膜イメージングはADのリスクが高い個人を特定するための、迅速かつ費用対効果のある代替手段として出現している。
本稿では、早期発症AD(EOAD)とMCI患者を制御から識別するために、網膜光コヒーレンストモグラフィー(OCTA)を用いた新しいPolarNet+を提案する。
提案手法は,まずカルト座標から極座標へのOCTA画像のマッピングを行い,糖尿病網膜症研究(ETDRS)グリッド解析の早期治療を概説した。
次に,包括的かつ臨床的に有用な情報抽出のための3次元画像のシリアライズと解析を行う多視点モジュールを提案する。
最後に、グラフに埋め込まれたシーケンスを抽象化し、検出タスクを一般的なグラフ分類問題に変換する。
地域関係モジュールは、マルチビューモジュールの後に適用され、サブリージョン間の関係を発掘する。
このような地域関係分析は、既知の目脳リンクを検証し、新しい識別パターンを明らかにする。
Early detection of dementia, such as Alzheimer's disease (AD) or mild cognitive impairment (MCI), is essential to enable timely intervention and potential treatment. Accurate detection of AD/MCI is challenging due to the high complexity, cost, and often invasive nature of current diagnostic techniques, which limit their suitability for large-scale population screening. Given the shared embryological origins and physiological characteristics of the retina and brain, retinal imaging is emerging as a potentially rapid and cost-effective alternative for the identification of individuals with or at high risk of AD. In this paper, we present a novel PolarNet+ that uses retinal optical coherence tomography angiography (OCTA) to discriminate early-onset AD (EOAD) and MCI subjects from controls. Our method first maps OCTA images from Cartesian coordinates to polar coordinates, allowing approximate sub-region calculation to implement the clinician-friendly early treatment of diabetic retinopathy study (ETDRS) grid analysis. We then introduce a multi-view module to serialize and analyze the images along three dimensions for comprehensive, clinically useful information extraction. Finally, we abstract the sequence embedding into a graph, transforming the detection task into a general graph classification problem. A regional relationship module is applied after the multi-view module to excavate the relationship between the sub-regions. Such regional relationship analyses validate known eye-brain links and reveal new discriminative patterns. | 翻訳日:2024-08-12 15:27:33 公開日:2024-08-09 |
# バイナリ分類における注意点検
Cautious Calibration in Binary Classification ( http://arxiv.org/abs/2408.05120v1 ) ライセンス: Link先を確認 | Mari-Liis Allikivi, Joonas Järve, Meelis Kull, | (参考訳) 慎重であることは、意思決定パイプラインに統合された機械学習システムの信頼性を高めるために不可欠である。
キャリブレーションされた確率は最適な意思決定に役立つが、完全なキャリブレーションは達成不可能であり、不信と過信の間に変動する。
これはリスクの高いシナリオにおいて重要な問題となり、時には過大評価でさえ、予想されるコストを極端に上回る可能性がある。
これらのシナリオでは、平均的なバランスを達成するだけでなく、予測される各確率が不信に傾くことが重要です。
本研究では,二項分類における慎重な校正という新しい概念を紹介する。
提案手法は,各予測確率に対して意図的に過小評価された確率推定値を生成することを目的としている。
本稿では、リスクの高いシナリオにおけるこのアプローチの重要性を強調し、慎重なキャリブレーションマップを学習するための理論的根拠を持つ方法を提案する。
実験を通じて,本手法を様々な手法と比較し,注意深い校正のために考案されたものではないが,この文脈で適用できる方法などを検討した。
私たちは、我々のアプローチが慎重な見積もりを提供する上で最も一貫性があることを示します。
私たちの研究は、この新しいフレームワークのさらなる発展のための強力なベースラインを確立します。
Being cautious is crucial for enhancing the trustworthiness of machine learning systems integrated into decision-making pipelines. Although calibrated probabilities help in optimal decision-making, perfect calibration remains unattainable, leading to estimates that fluctuate between under- and overconfidence. This becomes a critical issue in high-risk scenarios, where even occasional overestimation can lead to extreme expected costs. In these scenarios, it is important for each predicted probability to lean towards underconfidence, rather than just achieving an average balance. In this study, we introduce the novel concept of cautious calibration in binary classification. This approach aims to produce probability estimates that are intentionally underconfident for each predicted probability. We highlight the importance of this approach in a high-risk scenario and propose a theoretically grounded method for learning cautious calibration maps. Through experiments, we explore and compare our method to various approaches, including methods originally not devised for cautious calibration but applicable in this context. We show that our approach is the most consistent in providing cautious estimates. Our work establishes a strong baseline for further developments in this novel framework. | 翻訳日:2024-08-12 15:27:33 公開日:2024-08-09 |
# カメラを用いたスマートシステムにおける電磁信号注入攻撃のモデル化:応用と軽減
Modeling Electromagnetic Signal Injection Attacks on Camera-based Smart Systems: Applications and Mitigation ( http://arxiv.org/abs/2408.05124v1 ) ライセンス: Link先を確認 | Youqian Zhang, Michael Cheung, Chunxi Yang, Xinwei Zhai, Zitong Shen, Xinyu Ji, Eugene Y. Fu, Sze-Yiu Chau, Xiapu Luo, | (参考訳) 多くの安全・セキュリティクリティカルなシステムはカメラに頼って周囲を感知し、さらに人工知能(AI)が捉えた画像を分析して重要な決定を下すことができる。
しかし、関連する攻撃ベクトル、すなわち電磁波が出現し、これらのシステムの完全性に脅威を与えている。
このような攻撃により、攻撃者はリモートで画像を操作でき、不正なAI判断、例えば自動運転車が障害物を検出するのに失敗し、衝突する。
このような攻撃に対して異なるシステムがどう反応するかについての理解の欠如は、重大なセキュリティリスクをもたらす。
さらに、この脅威を軽減する効果的な解決策は示されていない。
これらのギャップに対処するため,攻撃をモデル化し,敵画像を生成するシミュレーション手法を開発した。
厳密な解析により,シミュレーションした対向画像の効果が実際の攻撃と区別できないことを確認した。
この方法では、複雑な攻撃装置を構築することなく、研究者やエンジニアが様々なAIビジョンアプリケーションのこれらの攻撃に対する感受性を迅速に評価できる。
実験では、ほとんどのモデルがこれらの攻撃に対する脆弱性を示し、その堅牢性を高める必要性を強調しました。
幸いなことに、我々のモデリングとシミュレーション手法は、より弾力性のあるモデルを開発するための足場として役立ちます。
本研究は,攻撃に対する堅牢性を向上させるための対人訓練に関するパイロット研究であり,この脅威を緩和するための有望な方向を提供するため,最大91%の性能回復による顕著な改善が示された。
Numerous safety- or security-critical systems depend on cameras to perceive their surroundings, further allowing artificial intelligence (AI) to analyze the captured images to make important decisions. However, a concerning attack vector has emerged, namely, electromagnetic waves, which pose a threat to the integrity of these systems. Such attacks enable attackers to manipulate the images remotely, leading to incorrect AI decisions, e.g., autonomous vehicles missing detecting obstacles ahead resulting in collisions. The lack of understanding regarding how different systems react to such attacks poses a significant security risk. Furthermore, no effective solutions have been demonstrated to mitigate this threat. To address these gaps, we modeled the attacks and developed a simulation method for generating adversarial images. Through rigorous analysis, we confirmed that the effects of the simulated adversarial images are indistinguishable from those from real attacks. This method enables researchers and engineers to rapidly assess the susceptibility of various AI vision applications to these attacks, without the need for constructing complicated attack devices. In our experiments, most of the models demonstrated vulnerabilities to these attacks, emphasizing the need to enhance their robustness. Fortunately, our modeling and simulation method serves as a stepping stone toward developing more resilient models. We present a pilot study on adversarial training to improve their robustness against attacks, and our results demonstrate a significant improvement by recovering up to 91% performance, offering a promising direction for mitigating this threat. | 翻訳日:2024-08-12 15:27:33 公開日:2024-08-09 |
# 大規模言語モデルとテーマ分析:ソーシャルメディアにおけるヘイトスピーチ研究における人間とAIのシナジー
Large Language Models and Thematic Analysis: Human-AI Synergy in Researching Hate Speech on Social Media ( http://arxiv.org/abs/2408.05126v1 ) ライセンス: Link先を確認 | Petre Breazu, Miriam Schirmer, Songbo Hu, Napoleon Kastos, | (参考訳) 人工知能(AI)のダイナミックな分野において、テキスト分析のためのLarge Language Models(LLMs)の開発と応用は学術的に重要な関心事である。
質的分析における様々なLSMの有望な能力にもかかわらず、人文科学や社会科学におけるそれらの利用は十分に検討されていない。
本稿は, GPT-4に関する実験研究を文書化することにより, 質的分析におけるLCMに関する新たな文献に貢献する。
この研究は、以前他の研究者によって分析されたEUのプロジェクトに由来するYouTubeデータセットを使用して、テーマ分析(TA)を実行することに焦点を当てている。
このデータセットは、2015年の難民危機の余波と2017年のスウェーデン国民選挙に先立ち、2016年のスウェーデンにおけるロマ移民の表現に関するものだ。
本研究は,人文科学と社会科学の質的研究において,人間の知能とAIのスケーラビリティと効率性を組み合わせる可能性を理解することを目的としている。
さらに,LLMをこれらの分野に適用するための今後の方向性についても論じる。
In the dynamic field of artificial intelligence (AI), the development and application of Large Language Models (LLMs) for text analysis are of significant academic interest. Despite the promising capabilities of various LLMs in conducting qualitative analysis, their use in the humanities and social sciences has not been thoroughly examined. This article contributes to the emerging literature on LLMs in qualitative analysis by documenting an experimental study involving GPT-4. The study focuses on performing thematic analysis (TA) using a YouTube dataset derived from an EU-funded project, which was previously analyzed by other researchers. This dataset is about the representation of Roma migrants in Sweden during 2016, a period marked by the aftermath of the 2015 refugee crisis and preceding the Swedish national elections in 2017. Our study seeks to understand the potential of combining human intelligence with AI's scalability and efficiency, examining the advantages and limitations of employing LLMs in qualitative research within the humanities and social sciences. Additionally, we discuss future directions for applying LLMs in these fields. | 翻訳日:2024-08-12 15:27:33 公開日:2024-08-09 |
# ChatGPTは優れたソフトウェアライブラリアンか? : ソフトウェアライブラリレコメンデーションにおけるChatGPTの利用に関する探索的研究
Is ChatGPT a Good Software Librarian? An Exploratory Study on the Use of ChatGPT for Software Library Recommendations ( http://arxiv.org/abs/2408.05128v1 ) ライセンス: Link先を確認 | Jasmine Latendresse, SayedHassan Khatoonabadi, Ahmad Abdellatif, Emad Shihab, | (参考訳) ソフトウェアライブラリは、ソフトウェアシステムの機能、効率、保守性において重要な役割を果たす。
開発者はコーディングプロセスの合理化にLarge Language Models (LLMs) をますます頼りにしているため、適切なライブラリを推奨するこれらのモデルの有効性は不可欠だが、まだほとんど解明されていない。
本稿では,ソフトウェアライブラリアンとしてのChatGPTの有効性を評価し,改善すべき領域を特定する。
GPT-3.5 Turboを用いて1万のStack Overflow質問に対してPythonコードを生成する実験を行った。
以上の結果から,ChatGPTは人間の開発者よりも10%近い頻度でサードパーティ製ライブラリを使用していることが明らかとなり,広く採用され,確立された選択肢が好まれる。
しかし、推奨ライブラリの14.2%は制限付きのコピーレフトライセンスを持っていたが、ChatGPTは明示的に通信しなかった。
さらに、ライブラリの6.5%はすぐには動作せず、潜在的な開発者の混乱と時間の浪費につながった。
ChatGPTは効果的なソフトウェアライブラリであり得るが、保守性メトリクスとライセンスに関するより明確な情報を提供することによって改善されるべきである。
LLM生成コードをプロジェクトに統合する前に、厳格な依存性管理プラクティスとライブラリライセンスの二重チェックを実装することを推奨します。
Software libraries play a critical role in the functionality, efficiency, and maintainability of software systems. As developers increasingly rely on Large Language Models (LLMs) to streamline their coding processes, the effectiveness of these models in recommending appropriate libraries becomes crucial yet remains largely unexplored. In this paper, we assess the effectiveness of ChatGPT as a software librarian and identify areas for improvement. We conducted an empirical study using GPT-3.5 Turbo to generate Python code for 10,000 Stack Overflow questions. Our findings show that ChatGPT uses third-party libraries nearly 10% more often than human developers, favoring widely adopted and well-established options. However, 14.2% of the recommended libraries had restrictive copyleft licenses, which were not explicitly communicated by ChatGPT. Additionally, 6.5% of the libraries did not work out of the box, leading to potential developer confusion and wasted time. While ChatGPT can be an effective software librarian, it should be improved by providing more explicit information on maintainability metrics and licensing. We recommend that developers implement rigorous dependency management practices and double-check library licenses before integrating LLM-generated code into their projects. | 翻訳日:2024-08-12 15:27:33 公開日:2024-08-09 |
# データサイエンスライブラリのデフォルト引数のアンボックスによる変更
Unboxing Default Argument Breaking Changes in 1 + 2 Data Science Libraries ( http://arxiv.org/abs/2408.05129v1 ) ライセンス: Link先を確認 | João Eduardo Montandon, Luciana Lourdes Silva, Cristiano Politowski, Daniel Prates, Arthur de Brito Bonifácio, Ghizlane El Boussaidi, | (参考訳) データサイエンス(DS)は現代のソフトウェアの基礎となり、企業サービスを改善するためにデータ駆動型決定を可能にする。
現代のソフトウェア開発のプラクティスに従って、データサイエンティストは、タスクをサポートするためにサードパーティのライブラリを使用します。
これらのツールが提供するAPIは、設定する引数の広範なリストを必要とすることが多いため、データサイエンティストは、使用を単純化するためにデフォルトの値に依存する。
これらのデフォルト値は時間とともに変更可能であることが判明し、DABC(Deefault Argument Breaking Change)として定義された特定のタイプの破壊的変更につながることが判明した。
この研究は、データサイエンスタスク(Scikit Learn、NumPy、Pandas)で頻繁に使用される3つのPythonライブラリにおいて、93のDABCが500万以上のクライアントアプリケーションに対する潜在的な影響を研究していることを明らかにした。
35%のScikit Learnクライアントが影響を受ける一方、NumPyクライアントは0.13%しか影響しない。
DABCを導入した主な理由は、APIの保守性を高めることであるが、関数の振る舞いを変えることが多い。
サードパーティDSライブラリにおけるDABCの管理の重要性について論じ、開発者がアプリケーションにおけるこれらの変更の潜在的影響を軽減するための洞察を提供する。
Data Science (DS) has become a cornerstone for modern software, enabling data-driven decisions to improve companies services. Following modern software development practices, data scientists use third-party libraries to support their tasks. As the APIs provided by these tools often require an extensive list of arguments to be set up, data scientists rely on default values to simplify their usage. It turns out that these default values can change over time, leading to a specific type of breaking change, defined as Default Argument Breaking Change (DABC). This work reveals 93 DABCs in three Python libraries frequently used in Data Science tasks -- Scikit Learn, NumPy, and Pandas -- studying their potential impact on more than 500K client applications. We find out that the occurrence of DABCs varies significantly depending on the library; 35% of Scikit Learn clients are affected, while only 0.13% of NumPy clients are impacted. The main reason for introducing DABCs is to enhance API maintainability, but they often change the function's behavior. We discuss the importance of managing DABCs in third-party DS libraries and provide insights for developers to mitigate the potential impact of these changes in their applications. | 翻訳日:2024-08-12 15:27:33 公開日:2024-08-09 |
# レンジメンバーシップ推論攻撃
Range Membership Inference Attacks ( http://arxiv.org/abs/2408.05131v1 ) ライセンス: Link先を確認 | Jiashu Tao, Reza Shokri, | (参考訳) 機械学習モデルは、トレーニングデータに関するプライベート情報をリークする可能性があるが、このリスクを測定する標準的な方法は、メンバシップ推論攻撃(MIA)に基づいており、大きな制限がある。
彼らは、与えられたデータポイント \textit{exactly} がトレーニングポイントと一致するかどうかのみチェックし、同じプライベート情報を示す類似または部分的に重複するデータの可能性を無視する。
この問題に対処するために、RaMIA(Ra Range Memberation Inference attack)のクラスを導入し、モデルが特定の範囲の任意のデータ(プライバシのセマンティクスに基づいて定義された)でトレーニングされたかどうかをテストする。
我々は、RaMIAsのゲームを定式化し、その複雑な仮説に対する原理的な統計的試験を設計する。
また,RaMIAは,表や画像,言語など,さまざまな種類のデータに対して,MIAよりも正確かつ包括的にプライバシ損失を捉えることができることを示す。
RaMIAは、機械学習アルゴリズムのより包括的で意味のあるプライバシー監査の道を開く。
Machine learning models can leak private information about their training data, but the standard methods to measure this risk, based on membership inference attacks (MIAs), have a major limitation. They only check if a given data point \textit{exactly} matches a training point, neglecting the potential of similar or partially overlapping data revealing the same private information. To address this issue, we introduce the class of range membership inference attacks (RaMIAs), testing if the model was trained on any data in a specified range (defined based on the semantics of privacy). We formulate the RaMIAs game and design a principled statistical test for its complex hypotheses. We show that RaMIAs can capture privacy loss more accurately and comprehensively than MIAs on various types of data, such as tabular, image, and language. RaMIA paves the way for a more comprehensive and meaningful privacy auditing of machine learning algorithms. | 翻訳日:2024-08-12 15:27:33 公開日:2024-08-09 |
# Bosonic Kitaevモデルにおける隠れた曲面空間
Hidden curved spaces in Bosonic Kitaev model ( http://arxiv.org/abs/2408.05132v1 ) ライセンス: Link先を確認 | Chenwei Lv, Qi Zhou, | (参考訳) 曲面空間における量子物質は、平坦空間では到達できない顕著な性質を示す。
実験室の曲面空間にアクセスするには、物理歪みをシステムに実装する必要があるという通念がある。
この考え方とは対照的に, ボソニック・キタエフモデルでは, 物理的歪みがなければ2つの双曲曲面が容易に存在し, キラル量子輸送やキラル反応拡散などの興味深い現象が生じる。
有限化学ポテンシャルはこれらの2つの双曲面を結合し、システムの大きさとともに指数関数的に感度が増大する量子センサーを提供する。
この結果から,曲線空間における量子現象を歪みなく探求したり,散逸することなく非エルミート現象にアクセスしたりする前例のない機会が得られた。
我々の研究は、幾何学が小さな信号を増幅する新しい種類の量子センサーも提案している。
Quantum matter in curved spaces exhibits remarkable properties unattainable in flat spaces. To access curved spaces in laboratories, the conventional wisdom is that physical distortions need to be implemented into a system. In contrast to this belief, here, we show that two hyperbolic surfaces readily exist in bosonic Kitaev model in the absence of any physical distortions and give rise to a range of intriguing phenomena, such as chiral quantum transport or chiral reaction-diffusion. A finite chemical potential couples these two hyperbolic surfaces, delivering a quantum sensor whose sensitivity grows exponentially with the size of the system. Our results provide experimentalists with an unprecedented opportunity to explore intriguing quantum phenomena in curve spaces without distortion or access non-Hermitian phenomena without dissipation. Our work also suggests a new class of quantum sensors in which geometry amplifies small signals. | 翻訳日:2024-08-12 15:16:47 公開日:2024-08-09 |
# Cycle-Configuration:分子推論のための新しいグラフ理論記述子セット
Cycle-Configuration: A Novel Graph-theoretic Descriptor Set for Molecular Inference ( http://arxiv.org/abs/2408.05136v1 ) ライセンス: Link先を確認 | Bowen Song, Jianshen Zhu, Naveed Ahmed Azam, Kazuya Haraguchi, Liang Zhao, Tatsuya Akutsu, | (参考訳) 本稿では,複合整数線形プログラミング (MILP) と機械学習 (ML) に基づく分子推論フレームワークであるmol-infer の標準 "2層 (2L) モデル" で使用可能な,CC (Cycle-configuration) と呼ばれる新しい化学グラフ記述系を提案する。
提案された記述子は、これまでのフレームワークでは不可能であった芳香族環に現れる正統/メタ/パラパターンの概念を捉えている。
計算実験により、新しいディスクリプタが供給されると、27の試験された化学特性の全てに対して、同様のまたはより良い性能の予測関数を構築することができることが示された。
また, CC記述子 (2L+CCモデル) を用いた2Lモデルの下で, 所望の特性を持つ化学グラフを求めるMILP式も提供する。
最大50個の非水素頂点を持つ化学グラフを実時間で推定できることを示す。
In this paper, we propose a novel family of descriptors of chemical graphs, named cycle-configuration (CC), that can be used in the standard "two-layered (2L) model" of mol-infer, a molecular inference framework based on mixed integer linear programming (MILP) and machine learning (ML). Proposed descriptors capture the notion of ortho/meta/para patterns that appear in aromatic rings, which has been impossible in the framework so far. Computational experiments show that, when the new descriptors are supplied, we can construct prediction functions of similar or better performance for all of the 27 tested chemical properties. We also provide an MILP formulation that asks for a chemical graph with desired properties under the 2L model with CC descriptors (2L+CC model). We show that a chemical graph with up to 50 non-hydrogen vertices can be inferred in a practical time. | 翻訳日:2024-08-12 15:16:47 公開日:2024-08-09 |
# 複合推論における包括的強化型ハイブリッドRAGシステム
A Hybrid RAG System with Comprehensive Enhancement on Complex Reasoning ( http://arxiv.org/abs/2408.05141v1 ) ライセンス: Link先を確認 | Ye Yuan, Chengwu Liu, Jingyang Yuan, Gongbo Sun, Siqi Li, Ming Zhang, | (参考訳) Retrieval-augmented Generation (RAG) は、大規模言語モデル(LLM)がそれらの精度を高め、外部知識ベースを統合することで幻覚を減らすことを可能にするフレームワークである。
本稿では,検索品質,拡張推論能力,数値計算能力の向上など,総合的な最適化によって強化されたハイブリッドRAGシステムを提案する。
我々はWebページのテキストチャンクとテーブルを洗練し、幻覚を減らす属性予測器を追加し、LLMナレッジ・エクストラクタとナレッジ・グラフ・エクストラクタを実行し、最後にすべての参照で推論戦略を構築した。
我々は,メタCRAG KDD Cup 2024コンペティションを通じてCRAGデータセットのシステム評価を行った。
局所評価とオンライン評価の両方で,我々のシステムは複雑な推論能力を大幅に向上させることを示した。
局所評価では,ベースラインモデルと比較して精度が大幅に向上し,誤差率も大幅に低下し,スコアの顕著な増加を実現した。
一方,提案システムの性能と一般化能力を実証し,オンラインアセスメントにおける卓越した成果を得た。
我々のシステムのソースコードは \url{https://gitlab.aicrowd.com/shizueyy/crag-new} で公開されている。
Retrieval-augmented generation (RAG) is a framework enabling large language models (LLMs) to enhance their accuracy and reduce hallucinations by integrating external knowledge bases. In this paper, we introduce a hybrid RAG system enhanced through a comprehensive suite of optimizations that significantly improve retrieval quality, augment reasoning capabilities, and refine numerical computation ability. We refined the text chunks and tables in web pages, added attribute predictors to reduce hallucinations, conducted LLM Knowledge Extractor and Knowledge Graph Extractor, and finally built a reasoning strategy with all the references. We evaluated our system on the CRAG dataset through the Meta CRAG KDD Cup 2024 Competition. Both the local and online evaluations demonstrate that our system significantly enhances complex reasoning capabilities. In local evaluations, we have significantly improved accuracy and reduced error rates compared to the baseline model, achieving a notable increase in scores. In the meanwhile, we have attained outstanding results in online assessments, demonstrating the performance and generalization capabilities of the proposed system. The source code for our system is released in \url{https://gitlab.aicrowd.com/shizueyy/crag-new}. | 翻訳日:2024-08-12 15:16:47 公開日:2024-08-09 |
# 雑音環境におけるqubit-oscillatorシステムによるパッシブ誤差補正
Passive error correction with a qubit-oscillator system in noisy environment ( http://arxiv.org/abs/2408.05145v1 ) ライセンス: Link先を確認 | Yanzhang Zhu, Myung-Joong Hwang, | (参考訳) 本稿では,2光子緩和による高調波発振器に結合した量子ビットからなるオープン量子系について検討し,そのような系を用いて,受動誤差補正が可能な猫量子ビットを構築できることを実証する。
この目的のために、まず2光子緩和を伴う開量子ラビモデルによって記述されたクビット・オシレータ系の定常状態が、リンドブラッド・マスター方程式の強い対称性を破る超ラジカル相転移を経ることを示した。
強い対称性を損なう位相において, クビット・オシレータ結合強度を調整することにより, キャット・クビットを定常状態に安定化できることを示し, システム周波数の変動による誤差に対して受動的誤差補正を実現できることを示した。
本研究では,強い対称性を持つクビットオシレータ系における散逸相の理解を深め,それらを受動誤差補正に活用する方法を舗装する。
In this paper, we study an open quantum system consisting of a qubit coupled to a harmonic oscillator subject to two-photon relaxation and demonstrate that such a system can be utilized to construct a cat qubit capable of passive error correction. To this end, we first show that the steady state of the qubit-oscillator system, described by the open quantum Rabi model with two-photon relaxation, undergoes a superradiant phase transition that breaks the strong symmetry of the Lindblad master equation. In the strong symmetry-broken phase, we show that a cat qubit can be stabilized in the steady state by tuning the qubit-oscillator coupling strength and demonstrate that passive error correction can be realized against errors due to fluctuations in the system frequencies. Our study deepens the understanding of dissipative phases in a qubit-oscillator system with strong symmetry and paves the way to utilize them for passive error correction. | 翻訳日:2024-08-12 15:16:47 公開日:2024-08-09 |
# ゲームにおける性能予測とメカニズム設計
Performative Prediction on Games and Mechanism Design ( http://arxiv.org/abs/2408.05146v1 ) ライセンス: Link先を確認 | António Góis, Mehrnaz Mofakhami, Fernando P. Santos, Simon Lacoste-Julien, Gauthier Gidel, | (参考訳) 予測はしばしば、彼らが予測しようとする現実に影響を及ぼす。
既存の作業は、この効果の下での精度の最大化に重点を置いているが、モデルデプロイメントは、特にマルチエージェントシナリオにおいて、意図しない重要な影響をもたらす可能性がある。
本研究では,社会福祉が精度の最大化の代替目的である具体的なゲーム理論におけるパフォーマンス予測について検討する。
我々は,集団行動を予測する際に,社会的福祉に悪影響を及ぼすリスクジレンマシナリオについて検討する。
ベイズエージェントの行動モデルに関する知識を仮定することにより、よりよいトレードオフをどうやって達成し、それらをメカニズム設計に利用するかを示す。
Predictions often influence the reality which they aim to predict, an effect known as performativity. Existing work focuses on accuracy maximization under this effect, but model deployment may have important unintended impacts, especially in multiagent scenarios. In this work, we investigate performative prediction in a concrete game-theoretic setting where social welfare is an alternative objective to accuracy maximization. We explore a collective risk dilemma scenario where maximising accuracy can negatively impact social welfare, when predicting collective behaviours. By assuming knowledge of a Bayesian agent behavior model, we then show how to achieve better trade-offs and use them for mechanism design. | 翻訳日:2024-08-12 15:16:47 公開日:2024-08-09 |
# Gemma Scope:Gemma 2であらゆる場所でオープンスパースオートエンコーダ
Gemma Scope: Open Sparse Autoencoders Everywhere All At Once on Gemma 2 ( http://arxiv.org/abs/2408.05147v1 ) ライセンス: Link先を確認 | Tom Lieberum, Senthooran Rajamanoharan, Arthur Conmy, Lewis Smith, Nicolas Sonnerat, Vikrant Varma, János Kramár, Anca Dragan, Rohin Shah, Neel Nanda, | (参考訳) スパースオートエンコーダ(SAE)は、ニューラルネットワークの潜在表現のスパース分解を、一見解釈可能な特徴に学習するための教師なしの方法である。
彼らの可能性に対する近年の興奮にもかかわらず、業界外の研究応用は、SAEの総合的なスイートをトレーニングするコストによって制限されている。
本稿では,JumpReLU SAEのオープンスイートであるGemma Scopeを紹介し,Gemma 2 2Bおよび9BのサブレイヤおよびGemma 2 27Bベースモデルの選択レイヤをトレーニングした。
主に Gemma 2 の事前訓練モデルで SAE を訓練するが、さらに Gemma 2 9B で訓練された SAE を比較のためにリリースする。
各SAEの品質を標準メトリクスで評価し、その結果を公表する。
私たちは、これらのSAEウェイトをリリースすることによって、コミュニティにとってより野心的な安全性と解釈可能性の研究を容易にするのに役立つことを願っています。
重量とチュートリアルはhttps://huggingface.co/google/gemma-scopeで、インタラクティブなデモはhttps://www.neuronpedia.org/gemma-scopeで見ることができる。
Sparse autoencoders (SAEs) are an unsupervised method for learning a sparse decomposition of a neural network's latent representations into seemingly interpretable features. Despite recent excitement about their potential, research applications outside of industry are limited by the high cost of training a comprehensive suite of SAEs. In this work, we introduce Gemma Scope, an open suite of JumpReLU SAEs trained on all layers and sub-layers of Gemma 2 2B and 9B and select layers of Gemma 2 27B base models. We primarily train SAEs on the Gemma 2 pre-trained models, but additionally release SAEs trained on instruction-tuned Gemma 2 9B for comparison. We evaluate the quality of each SAE on standard metrics and release these results. We hope that by releasing these SAE weights, we can help make more ambitious safety and interpretability research easier for the community. Weights and a tutorial can be found at https://huggingface.co/google/gemma-scope and an interactive demo can be found at https://www.neuronpedia.org/gemma-scope | 翻訳日:2024-08-12 15:16:47 公開日:2024-08-09 |
# HPCとディープラーニングの再現性に及ぼす浮動小数点非連想性の影響
Impacts of floating-point non-associativity on reproducibility for HPC and deep learning applications ( http://arxiv.org/abs/2408.05148v1 ) ライセンス: Link先を確認 | Sanjif Shanmugavelu, Mathieu Taillefumier, Christopher Culver, Oscar Hernandez, Mark Coletti, Ada Sedova, | (参考訳) 浮動小数点非連想性(FPNA)による並列プログラムのラン・バイ・ランの変動は、反復アルゴリズムの再現性に大きな影響を与えることが知られている。
非再現性は確率的プログラムの正確性テストの効率と有効性に悪影響を及ぼす。
近年、深層学習(DL)トレーニングとFPNAへの推論パイプラインの感度は極端であり、商用アプリケーションへの認証、堅牢性と感度の正確な評価、バグ検出を防止できることが判明している。
科学計算アプリケーションにおける新しいアプローチは、DLモデルと高性能コンピューティング(HPC)シミュレーションを結合し、デバッグとテストの課題が増大した。
ここでは、現代の並列プログラミングモデルにおけるFPNAの統計的性質の調査、GPU上でのアトミック操作を決定論的代替品に置き換えるパフォーマンスと生産性への影響の分析、GPUデプロイメントのコンテキスト内で最近追加されたPyTorchフレームワーク内の決定論的オプションの検討、実行時の変動を誘発する入力パラメータの影響の解明と定量化、およびドキュメントの信頼性と完全性に関する報告を行う。
最後に,DLパイプラインの推論部分にGroq LPU$^{TM}$アクセラレータを用いて,決定論的ハードウェアによって提供される自動決定性を活用する戦略を評価する。
我々はこの戦略が再現性と正しさの努力の中でもたらす利益を実証する。
Run-by-run variability in parallel programs caused by floating-point non-associativity (FPNA) has been known to significantly affect reproducibility in iterative algorithms, due to accumulating errors. Non-reproducibility negatively affects efficiency and effectiveness of correctness testing for stochastic programs. Recently, the sensitivity of deep learning (DL) training and inference pipelines to FPNA have been found to be extreme, and can prevent certification for commercial applications, accurate assessment of robustness and sensitivity, and bug detection. New approaches in scientific computing applications have coupled DL models with high-performance computing (HPC) simulations, leading to an aggravation of debugging and testing challenges. Here we perform an investigation of the statistical properties of FPNA within modern parallel programming models, analyze performance and productivity impacts of replacing atomic operations with deterministic alternatives on GPUs, and examine the recently-added deterministic options within the PyTorch framework within the context of GPU deployment, uncovering and quantifying the impacts of input parameters triggering run-by-run variability and reporting on the reliability and completeness of the documentation. Finally, we evaluate the strategy of exploiting automatic determinism provided by deterministic hardware, using the Groq LPU$^{TM}$ accelerator for inference portions of the DL pipeline. We demonstrate the benefits that this strategy can provide within reproducibility and correctness efforts. | 翻訳日:2024-08-12 15:16:47 公開日:2024-08-09 |
# アタック: 名前付きエンティティ認識データセットによるサイバーアタック属性の強化を目指す
AttackER: Towards Enhancing Cyber-Attack Attribution with a Named Entity Recognition Dataset ( http://arxiv.org/abs/2408.05149v1 ) ライセンス: Link先を確認 | Pritam Deka, Sampath Rajapaksha, Ruby Rani, Amirah Almutairi, Erisa Karafili, | (参考訳) サイバー攻撃の帰属は、専門家が攻撃指向の対策や法的措置を実施できるようにする重要なプロセスである。
アナリストは、このタスクの複雑な性質を考えると、主に手動で属性を実行する。
AIおよびより具体的には、自然言語処理(NLP)技術を利用して、属性プロセス中にサイバーセキュリティアナリストをサポートすることができる。
これらのテクニックは強力だが、攻撃属性ドメインにおけるデータセットの欠如に対処する必要がある。
この作業では、このギャップを埋めて、私たちの知る限り、サイバー攻撃の帰属に関する最初のデータセットを提供します。
NLPの分野から名付けられたエンティティ認識(NER)手法を用いて,サイバーセキュリティテキストから攻撃属性情報を抽出する目的で,我々のデータセットを設計した。
他のサイバーセキュリティのNERデータセットとは異なり、私たちのデータセットは、フレーズや文にまたがるいくつかのものを含む、コンテキストの詳細を持った豊富なアノテーションセットを提供します。
攻撃属性に対するデータセットの有効性を示すため,広範囲な実験を行い,NLP手法を適用した。
これらの実験は、サイバー攻撃アトリビューションのためのサイバーセキュリティデータセットにおけるNERタスクを改善するためのLarge Language Models(LLM)機能の可能性を強調している。
Cyber-attack attribution is an important process that allows experts to put in place attacker-oriented countermeasures and legal actions. The analysts mainly perform attribution manually, given the complex nature of this task. AI and, more specifically, Natural Language Processing (NLP) techniques can be leveraged to support cybersecurity analysts during the attribution process. However powerful these techniques are, they need to deal with the lack of datasets in the attack attribution domain. In this work, we will fill this gap and will provide, to the best of our knowledge, the first dataset on cyber-attack attribution. We designed our dataset with the primary goal of extracting attack attribution information from cybersecurity texts, utilizing named entity recognition (NER) methodologies from the field of NLP. Unlike other cybersecurity NER datasets, ours offers a rich set of annotations with contextual details, including some that span phrases and sentences. We conducted extensive experiments and applied NLP techniques to demonstrate the dataset's effectiveness for attack attribution. These experiments highlight the potential of Large Language Models (LLMs) capabilities to improve the NER tasks in cybersecurity datasets for cyber-attack attribution. | 翻訳日:2024-08-12 15:16:47 公開日:2024-08-09 |
# ロバスト信号変調分類のためのメタラーニング誘導ラベルノイズ蒸留
Meta-Learning Guided Label Noise Distillation for Robust Signal Modulation Classification ( http://arxiv.org/abs/2408.05151v1 ) ライセンス: Link先を確認 | Xiaoyang Hao, Zhixi Feng, Tongqing Peng, Shuyuan Yang, | (参考訳) 自動変調分類(AMC)は、モノのインターネット(IoT)の物理的層脅威に対処する有効な方法である。
しかし、ディープニューラルネットワーク(DNN)の性能とロバスト性に大きな影響を及ぼすラベルのラベル付けが実際に行われていることもしばしばある。
本稿では,頑健なAMCのためのメタラーニングガイド付きラベルノイズ蒸留法を提案する。
具体的には,TSHN(Teach-student heterogeneous Network)フレームワークを提案し,ラベルノイズを蒸留・再利用する。
ラベルが表現であるという考えに基づいて、信頼されたメタラーニングを持つ教師ネットワークは、信頼できないラベルサンプルを分割して征服し、ラベルの再評価と修正によって生徒ネットワークを指導する。
さらに,多視点信号 (MVS) 手法を提案する。
広範にわたる実験結果から,本手法は様々な複雑なラベルノイズシナリオにおける信号AMCの性能とロバスト性を大幅に向上させることができることが示唆された。
Automatic modulation classification (AMC) is an effective way to deal with physical layer threats of the internet of things (IoT). However, there is often label mislabeling in practice, which significantly impacts the performance and robustness of deep neural networks (DNNs). In this paper, we propose a meta-learning guided label noise distillation method for robust AMC. Specifically, a teacher-student heterogeneous network (TSHN) framework is proposed to distill and reuse label noise. Based on the idea that labels are representations, the teacher network with trusted meta-learning divides and conquers untrusted label samples and then guides the student network to learn better by reassessing and correcting labels. Furthermore, we propose a multi-view signal (MVS) method to further improve the performance of hard-to-classify categories with few-shot trusted label samples. Extensive experimental results show that our methods can significantly improve the performance and robustness of signal AMC in various and complex label noise scenarios, which is crucial for securing IoT applications. | 翻訳日:2024-08-12 15:16:47 公開日:2024-08-09 |
# パルス密度変調MEMSマイクロホンを用いたニューロモルフィックキーワードスポッティング
Neuromorphic Keyword Spotting with Pulse Density Modulation MEMS Microphones ( http://arxiv.org/abs/2408.05156v1 ) ライセンス: Link先を確認 | Sidi Yaya Arnaud Yarga, Sean U. N. Wood, | (参考訳) キーワードスポッティング(KWS)タスクは、事前に定義された単語を検出するために、連続的なオーディオストリーム監視を伴い、連続処理のために低エネルギーデバイスを必要とする。
ニューロモルフィックデバイスはこのエネルギー課題に効果的に対処する。
しかしながら、マイクロホンからスパイキングニューラルネットワーク(SNN)まで、一般的なニューロモルフィックKWSパイプラインは、複数の処理段階を必要とする。
現代のデバイスにおけるパルス密度変調(PDM)マイクロフォンの人気と、スパイキングニューロンとの類似性を活用し、直接マイクロホン-SNN接続を提案する。
このアプローチは中間段階を排除し、特に計算コストを削減している。
このシステムはGoogle Speech Command(GSC)データセットで91.54\%の精度を達成し、バイオインスパイアされたGSCであるSpking Speech Command(SSC)データセットの最先端技術を上回った。
さらに,ネットワーク活動と接続性の変化が観察されたことにより,ニューロモルフィックデバイス実装におけるエネルギー消費が著しく低くなる可能性が示唆された。
The Keyword Spotting (KWS) task involves continuous audio stream monitoring to detect predefined words, requiring low energy devices for continuous processing. Neuromorphic devices effectively address this energy challenge. However, the general neuromorphic KWS pipeline, from microphone to Spiking Neural Network (SNN), entails multiple processing stages. Leveraging the popularity of Pulse Density Modulation (PDM) microphones in modern devices and their similarity to spiking neurons, we propose a direct microphone-to-SNN connection. This approach eliminates intermediate stages, notably reducing computational costs. The system achieved an accuracy of 91.54\% on the Google Speech Command (GSC) dataset, surpassing the state-of-the-art for the Spiking Speech Command (SSC) dataset which is a bio-inspired encoded GSC. Furthermore, the observed sparsity in network activity and connectivity indicates potential for remarkably low energy consumption in a neuromorphic device implementation. | 翻訳日:2024-08-12 15:16:47 公開日:2024-08-09 |
# EasyInv: DDIMの高速かつ優れたインバージョンを目指して
EasyInv: Toward Fast and Better DDIM Inversion ( http://arxiv.org/abs/2408.05159v1 ) ライセンス: Link先を確認 | Ziyue Zhang, Mingbao Lin, Shuicheng Yan, Rongrong Ji, | (参考訳) 本稿では,従来の反復最適化手法の非効率性や性能制限に対処することにより,DDIMの逆変換の分野を大幅に発展させる,簡単かつ斬新なアプローチであるEasyInvを紹介する。
EasyInvのコアとなるのは、インバージョン処理の精度と信頼性を高めるために、インバージョンノイズを近似するための洗練された戦略である。
元の画像に関する豊富な情報をカプセル化した初期潜伏状態の優先順位付けにより、EasyInvは、ノイズアイテムの反復的洗練をクリアする。
その代わり,前段階から現在までの潜伏状態の方法論的集約を導入し,初期潜伏状態の影響を効果的に増大させ,騒音の影響を緩和する。
本稿では,従来のDDIMインバージョン手法と同等あるいは同等以上の結果を提供できること,特にモデルの精度が制限されている場合,計算資源が不足している場合について述べる。
同時に、我々のEasyInvは、オフザシェルフ反復最適化技術よりも推論効率を3倍に向上させる。
This paper introduces EasyInv, an easy yet novel approach that significantly advances the field of DDIM Inversion by addressing the inherent inefficiencies and performance limitations of traditional iterative optimization methods. At the core of our EasyInv is a refined strategy for approximating inversion noise, which is pivotal for enhancing the accuracy and reliability of the inversion process. By prioritizing the initial latent state, which encapsulates rich information about the original images, EasyInv steers clear of the iterative refinement of noise items. Instead, we introduce a methodical aggregation of the latent state from the preceding time step with the current state, effectively increasing the influence of the initial latent state and mitigating the impact of noise. We illustrate that EasyInv is capable of delivering results that are either on par with or exceed those of the conventional DDIM Inversion approach, especially under conditions where the model's precision is limited or computational resources are scarce. Concurrently, our EasyInv offers an approximate threefold enhancement regarding inference efficiency over off-the-shelf iterative optimization techniques. | 翻訳日:2024-08-12 15:16:47 公開日:2024-08-09 |
# ハイパーエッジ補完によるフェデレーションハイパーグラフ学習
Federated Hypergraph Learning with Hyperedge Completion ( http://arxiv.org/abs/2408.05160v1 ) ライセンス: Link先を確認 | Linfeng Luo, Fengxiao Tang, Xiyu Liu, Zhiqi Guo, Zihao Qiu, Ming Zhao, | (参考訳) ハイパーグラフニューラルネットワークは、ノード間の高次関係をキャプチャすることで、従来のグラフニューラルネットワークを強化する。
データ複雑性と相互接続性が増大するにつれて、グラフ構造データを分割して分散的に保存することが一般的になり、サブグラフ上でのフェデレート学習の必要性が強調される。
本研究では,フェデレートハイパーグラフ学習のための新しいアルゴリズムであるFedHGNを提案する。
本アルゴリズムは,分散デバイスに格納されたハイパーグラフのサブグラフを用いて,ローカルなHGNNモデルをフェデレートした方法でトレーニングする。
さらに、ハイパーエッジが複数のクライアントにまたがる可能性があることを考慮し、クロスクライアントのハイパーエッジ機能収集を中央サーバで行うトレーニングプロセスの前に、事前トレーニングのステップが採用される。
このようにして、ノードフィーチャーアグリゲーションフェーズ中に、欠落したクロスクライアント情報を中央サーバから補うことができる。
7つの実世界のデータセットによる実験結果から,提案手法の有効性を確認し,従来のフェデレーショングラフ学習法と比較して,その性能上の優位性を示す。
Hypergraph neural networks enhance conventional graph neural networks by capturing high-order relationships among nodes, which proves vital in data-rich environments where interactions are not merely pairwise. As data complexity and interconnectivity grow, it is common for graph-structured data to be split and stored in a distributed manner, underscoring the necessity of federated learning on subgraphs. In this work, we propose FedHGN, a novel algorithm for federated hypergraph learning. Our algorithm utilizes subgraphs of a hypergraph stored on distributed devices to train local HGNN models in a federated manner:by collaboratively developing an effective global HGNN model through sharing model parameters while preserving client privacy. Additionally, considering that hyperedges may span multiple clients, a pre-training step is employed before the training process in which cross-client hyperedge feature gathering is performed at the central server. In this way, the missing cross-client information can be supplemented from the central server during the node feature aggregation phase. Experimental results on seven real-world datasets confirm the effectiveness of our approach and demonstrate its performance advantages over traditional federated graph learning methods. | 翻訳日:2024-08-12 15:16:46 公開日:2024-08-09 |
# MADE-WIC:コードの弱さを探索する複数のアノテーション付きデータセット
MADE-WIC: Multiple Annotated Datasets for Exploring Weaknesses In Code ( http://arxiv.org/abs/2408.05163v1 ) ライセンス: Link先を確認 | Moritz Mock, Jorge Melegati, Max Kretschmann, Nicolás E. Díaz Ferreyra, Barbara Russo, | (参考訳) 本稿では,多種多様な最先端アプローチを活用した技術的負債とコードの弱点に対する注釈付き関数とコメントの大規模なデータセットであるMADE-WICを提案する。
約860Kのコード関数と、12のオープンソースプロジェクトからの2.7M以上の関連コメントが含まれている。
私たちの知る限りでは、そのようなデータセットは公開されていません。
MADE-WICは、コード弱点と技術的負債を検出するために設計されたツールのテストと比較を行う、キュレートされたデータセットを研究者に提供することを目的としている。
既存のデータセットを融合させた結果,アノテーション定義やデータセット構築に関するバイアスを制御することで,ツールのパフォーマンスを評価することが可能になった。
デモビデオはhttps://www.youtube.com/watch?
v=GaQodPrcb6E。
In this paper, we present MADE-WIC, a large dataset of functions and their comments with multiple annotations for technical debt and code weaknesses leveraging different state-of-the-art approaches. It contains about 860K code functions and more than 2.7M related comments from 12 open-source projects. To the best of our knowledge, no such dataset is publicly available. MADE-WIC aims to provide researchers with a curated dataset on which to test and compare tools designed for the detection of code weaknesses and technical debt. As we have fused existing datasets, researchers have the possibility to evaluate the performance of their tools by also controlling the bias related to the annotation definition and dataset construction. The demonstration video can be retrieved at https://www.youtube.com/watch?v=GaQodPrcb6E. | 翻訳日:2024-08-12 15:16:46 公開日:2024-08-09 |
# カイラル量子配線を用いた決定論的リモート絡み合わせ
Deterministic remote entanglement using a chiral quantum interconnect ( http://arxiv.org/abs/2408.05164v1 ) ライセンス: Link先を確認 | Aziza Almanakly, Beatriz Yankelevich, Max Hays, Bharath Kannan, Reouven Assouly, Alex Greene, Michael Gingras, Bethany M. Niedzielski, Hannah Stickler, Mollie E. Schwartz, Kyle Serniak, Joel I-J. Wang, Terry P. Orlando, Simon Gustavsson, Jeffrey A. Grover, William D. Oliver, | (参考訳) 量子相互接続は非局所計算ノード間の絡み合い分布を促進する。
超伝導プロセッサでは、マイクロ波光子がこの分布を媒介する自然な手段である。
しかし、多くの既存のアーキテクチャはノード接続性と方向性を制限している。
本研究では、2つの名前のついた同一モジュール間のカイラル量子相互接続を別々のマイクロ波パッケージに構築する。
量子干渉を利用して、必要に応じてマイクロ波光子を放出し、これらのモジュール間で選択された方向に吸収する。
我々は,吸収効率を最大化するために,モデルなし強化学習を用いてプロトコルを最適化する。
放出過程をその期間の半ばで停止させることで、主に伝播損失によって制限された62.4 +/- 1.6%(光子伝播)と62.1 +/- 1.2%(光子伝播)の4ビットW状態の形で、モジュール間のリモートの絡み合いを生成する。
この量子ネットワークアーキテクチャは、モジュラーおよび拡張可能な量子計算のための非ローカルプロセッサ間のオール・ツー・オール接続を可能にする。
Quantum interconnects facilitate entanglement distribution between non-local computational nodes. For superconducting processors, microwave photons are a natural means to mediate this distribution. However, many existing architectures limit node connectivity and directionality. In this work, we construct a chiral quantum interconnect between two nominally identical modules in separate microwave packages. We leverage quantum interference to emit and absorb microwave photons on demand and in a chosen direction between these modules. We optimize the protocol using model-free reinforcement learning to maximize absorption efficiency. By halting the emission process halfway through its duration, we generate remote entanglement between modules in the form of a four-qubit W state with 62.4 +/- 1.6% (leftward photon propagation) and 62.1 +/- 1.2% (rightward) fidelity, limited mainly by propagation loss. This quantum network architecture enables all-to-all connectivity between non-local processors for modular and extensible quantum computation. | 翻訳日:2024-08-12 15:16:46 公開日:2024-08-09 |
# ビジョンファウンデーションモデルを用いたHARデータセットの弱アノテーション
Weak-Annotation of HAR Datasets using Vision Foundation Models ( http://arxiv.org/abs/2408.05169v1 ) ライセンス: Link先を確認 | Marius Bock, Kristof Van Laerhoven, Michael Moeller, | (参考訳) ウェアラブルベースのデータアノテーションは、これまでも退屈で時間を要する作業であり、研究者がかなりの時間を割く必要があるため、人間活動認識分野内のデータセットは、関連する分野で利用可能なデータセットと比較して、豊かさとサイズが不足している。
近年、CLIPのようなビジョン基盤モデルが注目され、ビジョンコミュニティが堅牢で一般化可能な特徴表現を見つけるのに役立っている。
ウェアラブルコミュニティ内の大多数の研究者が、ウェアラブルデータの限られた表現性を克服し、リリース前のベンチマークデータセットをオフラインで正確にラベル付けするために、視覚的モダリティを頼りにしているため、我々は、人間のアノテーションによって注釈付けされる必要のあるデータの量を大幅に削減する、新しいクラスタリングベースのアノテーションパイプラインを提案する。
提案手法を用いることで,3つのHARベンチマークデータセットに対して平均的なラベル付け精度を90%近い精度で達成できることがわかった。
弱アノテートされたデータセットを用いて、3つのベンチマークデータセットのすべてに完全に教師付きディープラーニング分類器の精度スコアをマッチングできることをさらに実証する。
コードと補足的な数字と結果はgithub.com/mariusbock/weak_harで公開されている。
As wearable-based data annotation remains, to date, a tedious, time-consuming task requiring researchers to dedicate substantial time, benchmark datasets within the field of Human Activity Recognition in lack richness and size compared to datasets available within related fields. Recently, vision foundation models such as CLIP have gained significant attention, helping the vision community advance in finding robust, generalizable feature representations. With the majority of researchers within the wearable community relying on vision modalities to overcome the limited expressiveness of wearable data and accurately label their to-be-released benchmark datasets offline, we propose a novel, clustering-based annotation pipeline to significantly reduce the amount of data that needs to be annotated by a human annotator. We show that using our approach, the annotation of centroid clips suffices to achieve average labelling accuracies close to 90% across three publicly available HAR benchmark datasets. Using the weakly annotated datasets, we further demonstrate that we can match the accuracy scores of fully-supervised deep learning classifiers across all three benchmark datasets. Code as well as supplementary figures and results are publicly downloadable via github.com/mariusbock/weak_har. | 翻訳日:2024-08-12 15:16:46 公開日:2024-08-09 |
# グラフニューラルネットワークを用いた量子LDPC符号の復号
Decoding Quantum LDPC Codes Using Graph Neural Networks ( http://arxiv.org/abs/2408.05170v1 ) ライセンス: Link先を確認 | Vukan Ninkovic, Ognjen Kundacina, Dejan Vukobratovic, Christian Häger, Alexandre Graell i Amat, | (参考訳) 本稿では,グラフニューラルネットワーク(GNN)に基づく量子低密度パリティチェック(QLDPC)符号の復号法を提案する。
Belief Propagation (BP)ベースのQLDPCデコーダと同様に、提案したGNNベースのQLDPCデコーダはQLDPCコードのスパースグラフ構造を利用しており、メッセージパスのデコーダとして実装することができる。
提案アルゴリズムは,従来のQLDPC復号アルゴリズムとニューラル強化QLDPC復号アルゴリズムの両クラスを比較した。
シミュレーションの結果,GNNをベースとしたデコーダの性能は,競合する手法と比較して高い複雑性を示した。
In this paper, we propose a novel decoding method for Quantum Low-Density Parity-Check (QLDPC) codes based on Graph Neural Networks (GNNs). Similar to the Belief Propagation (BP)-based QLDPC decoders, the proposed GNN-based QLDPC decoder exploits the sparse graph structure of QLDPC codes and can be implemented as a message-passing decoding algorithm. We compare the proposed GNN-based decoding algorithm against selected classes of both conventional and neural-enhanced QLDPC decoding algorithms across several QLDPC code designs. The simulation results demonstrate excellent performance of GNN-based decoders along with their low complexity compared to competing methods. | 翻訳日:2024-08-12 15:05:23 公開日:2024-08-09 |
# ほぼ特異な超伝導回路の連続量子化」について
On "Consistent Quantization of Nearly Singular Superconducting Circuits" ( http://arxiv.org/abs/2408.05174v1 ) ライセンス: Link先を確認 | I. L. Egusquiza, A. Parra-Rodriguez, | (参考訳) Rymarz と DiVincenzo (Phys) による分析。
超伝導回路の量子化に関するX 13 021017 (2023) は、それらの一般的な結論を正当化するには不十分である。
様々な理由から、実験的および理論的結果といくつかの相違点の1つは、ジョセフソン接合の存在下での拡張変数とコンパクト変数の間の長期にわたる論争である。
The analysis conducted by Rymarz and DiVincenzo (Phys. Rev. X 13, 021017 (2023)) regarding quantization of superconducting circuits is insufficient to justify their general conclusions, most importantly the need to discard Kirchhoff's laws to effect variable reductions. Amongst a variety of reasons, one source of several disagreements with experimental and theoretical results is the long-standing dispute between extended vs compact variables in the presence of Josephson junctions. | 翻訳日:2024-08-12 15:05:23 公開日:2024-08-09 |
# クロージャモデルを超えて:物理インフォームドニューラルネットワークによるカオスシステム学習
Beyond Closure Models: Learning Chaotic-Systems via Physics-Informed Neural Operators ( http://arxiv.org/abs/2408.05177v1 ) ライセンス: Link先を確認 | Chuwei Wang, Julius Berner, Zongyi Li, Di Zhou, Jiayun Wang, Jane Bae, Anima Anandkumar, | (参考訳) カオスシステムの長期的挙動を正確に予測することは、気候モデリングなどの様々な応用に不可欠である。
しかし、このような予測を達成するには、多くの現実の状況において高価で非現実的なカオスシステムの不安定な性質を考慮するために、高密度の時空間格子上で反復的な計算が必要である。
このような完全解法シミュレーションに対する別のアプローチは、粗いグリッドを使用して、粗いグリッドシミュレーションでは取得されない微細スケールからの全体的な情報を近似する \textit{closure model} を通じてエラーを修正することである。
近年、MLアプローチはクロージャモデリングに使われてきたが、一般的には高価な完全解法シミュレーション(FRS)から多くのトレーニングサンプルを必要とする。
この研究において、閉包モデルを学習するための標準的なアプローチは、モデルのサイズがどの程度であっても、一般的な問題に対する大きな近似誤差に悩まされ、それは写像の非特異性に由来する、というより、より基本的な制限を証明します。
本稿では,この制限を克服する物理インフォームド・ニューラル演算子(PINO)を用いて,クロージャモデルや粗いグリッド解法を使わずにエンド・ツー・エンドの学習手法を提案する。
まず、粗いグリッドソルバからのデータに基づいてPINOモデルをトレーニングし、それを(少量の)FRSと物理ベースの損失で微調整する。
ニューラル作用素の離散化のない性質は、閉包モデルが直面する粗い格子の制限に苦しめられず、カオスシステムの長期的な統計を確実に近似することができることを意味する。
我々のPINOモデルは、相対誤差が$\sim 5\%$のFRSと比較して120倍のスピードアップを達成する。
対照的に、粗いグリッドソルバと結合したクロージャモデルは、同じFRSデータセットでトレーニングされた場合、PINOよりも58ドル遅いが、エラーはより高い$\sim205\%である。
Accurately predicting the long-term behavior of chaotic systems is crucial for various applications such as climate modeling. However, achieving such predictions typically requires iterative computations over a dense spatiotemporal grid to account for the unstable nature of chaotic systems, which is expensive and impractical in many real-world situations. An alternative approach to such a full-resolved simulation is using a coarse grid and then correcting its errors through a \textit{closure model}, which approximates the overall information from fine scales not captured in the coarse-grid simulation. Recently, ML approaches have been used for closure modeling, but they typically require a large number of training samples from expensive fully-resolved simulations (FRS). In this work, we prove an even more fundamental limitation, i.e., the standard approach to learning closure models suffers from a large approximation error for generic problems, no matter how large the model is, and it stems from the non-uniqueness of the mapping. We propose an alternative end-to-end learning approach using a physics-informed neural operator (PINO) that overcomes this limitation by not using a closure model or a coarse-grid solver. We first train the PINO model on data from a coarse-grid solver and then fine-tune it with (a small amount of) FRS and physics-based losses on a fine grid. The discretization-free nature of neural operators means that they do not suffer from the restriction of a coarse grid that closure models face, and they can provably approximate the long-term statistics of chaotic systems. In our experiments, our PINO model achieves a 120x speedup compared to FRS with a relative error $\sim 5\%$. In contrast, the closure model coupled with a coarse-grid solver is $58$x slower than PINO while having a much higher error $\sim205\%$ when the closure model is trained on the same FRS dataset. | 翻訳日:2024-08-12 15:05:23 公開日:2024-08-09 |
# ECG-FM:オープン心電図基礎モデル
ECG-FM: An Open Electrocardiogram Foundation Model ( http://arxiv.org/abs/2408.05178v1 ) ライセンス: Link先を確認 | Kaden McKeen, Laura Oliva, Sameer Masood, Augustin Toma, Barry Rubin, Bo Wang, | (参考訳) 心電図 (ECG) はユビキタス診断検査である。
従来のタスク固有のECG分析モデルでは、大量の高価なECGアノテーションや関連するラベルをトレーニングする必要がある。
転送学習技術は、一般化を改善し、ラベル付きデータへの依存を減らすことが示されている。
本稿では,ECG分析のオープン基盤モデルであるECG-FMについて述べる。
ECG-FMはトランスフォーマーベースのアーキテクチャを採用し、ECG固有の拡張とコントラスト学習と連続的な信号マスキングの目的を用いて2.5万のサンプルに事前訓練されている。
透過的評価には,心電図の解釈ラベル,左室放出率の低下,心室トロポニン異常を予測できる様々な下流タスクが含まれる。
基礎モデルとしてのECG-FMの有効性を実証し、その文脈情報の指令が強靭な性能、豊富な事前学習された埋め込み、信頼性の高い解釈可能性をもたらすことを示す。
オープンウェイトなプラクティスが欠如しているため、基礎モデルの採用の観点から、ECG分析が他の医療機械学習サブフィールドに遅れをとっている点を強調します。
私たちのコードはhttps://github.com/bowang-lab/ECG-FM/で利用可能です。
The electrocardiogram (ECG) is a ubiquitous diagnostic test. Conventional task-specific ECG analysis models require large numbers of expensive ECG annotations or associated labels to train. Transfer learning techniques have been shown to improve generalization and reduce reliance on labeled data. We present ECG-FM, an open foundation model for ECG analysis, and conduct a comprehensive study performed on a dataset of 1.66 million ECGs sourced from both publicly available and private institutional sources. ECG-FM adopts a transformer-based architecture and is pretrained on 2.5 million samples using ECG-specific augmentations and contrastive learning, as well as a continuous signal masking objective. Our transparent evaluation includes a diverse range of downstream tasks, where we predict ECG interpretation labels, reduced left ventricular ejection fraction, and abnormal cardiac troponin. Affirming ECG-FM's effectiveness as a foundation model, we demonstrate how its command of contextual information results in strong performance, rich pretrained embeddings, and reliable interpretability. Due to a lack of open-weight practices, we highlight how ECG analysis is lagging behind other medical machine learning subfields in terms of foundation model adoption. Our code is available at https://github.com/bowang-lab/ECG-FM/. | 翻訳日:2024-08-12 15:05:23 公開日:2024-08-09 |
# AXOLOTL-24におけるDeep-change:意味的変化モデリングのためのWSDおよびWSIモデルのオーケストレーション
Deep-change at AXOLOTL-24: Orchestrating WSD and WSI Models for Semantic Change Modeling ( http://arxiv.org/abs/2408.05184v1 ) ライセンス: Link先を確認 | Denis Kokosinskii, Mikhail Kuklin, Nikolay Arefyev, | (参考訳) 本稿では,AXOLOTL-24共有タスクのセマンティック・チェンジ・モデリングにおける最初のサブタスクの解について述べる。
このサブタスクの目的は、より古い時代からのこの単語の感覚と、この単語の獲得した感覚を表すクラスタの間に、より新しい時代から、特定の多文語の使用集合を分配することである。
本稿では,この課題を解く3つの新しい手法を提案し,実験する。
提案手法は,第1サブスタンクの2つの公式指標に基づいてSOTA結果を得る。
さらに、与えられた単語の使用法が、与えられた感覚定義のいずれかによって説明されないかどうかを判断できるモデルを開発する。
このモデルは、我々のメソッドの1つのコンポーネントとして機能するが、それ自体で有用である可能性がある。
This paper describes our solution of the first subtask from the AXOLOTL-24 shared task on Semantic Change Modeling. The goal of this subtask is to distribute a given set of usages of a polysemous word from a newer time period between senses of this word from an older time period and clusters representing gained senses of this word. We propose and experiment with three new methods solving this task. Our methods achieve SOTA results according to both official metrics of the first substask. Additionally, we develop a model that can tell if a given word usage is not described by any of the provided sense definitions. This model serves as a component in one of our methods, but can potentially be useful on its own. | 翻訳日:2024-08-12 15:05:23 公開日:2024-08-09 |
# 限定スーパービジョンによるビデオ異常検出のためのクロスドメイン学習
Cross-Domain Learning for Video Anomaly Detection with Limited Supervision ( http://arxiv.org/abs/2408.05191v1 ) ライセンス: Link先を確認 | Yashika Jain, Ali Dabouei, Min Xu, | (参考訳) ビデオ異常検出(VAD)は、監視ビデオにおけるセキュリティ脅威などの異常事象の識別を自動化する。
実世界のアプリケーションでは、VADモデルはクロスドメイン設定で効果的に動作し、トレーニングデータによく表現されていない稀な異常やシナリオを特定する必要がある。
しかし、既存のクロスドメインのVADメソッドは教師なし学習に重点を置いており、結果として実世界の期待に届かないパフォーマンスをもたらす。
ソースドメインの映像レベルラベルは, 管理の弱さ, すなわちコスト効率が低いことから, 外部ラベル付きデータと組み合わせることで, クロスドメインのパフォーマンス向上に寄与する可能性が示唆された。
そこで本研究では, 予測バイアスを推定し, 予測不確実性を用いて学習を適応的に最小化することにより, 学習中の外部データを組み込んだ, VADにおけるクロスドメイン学習(CDL)の枠組みを新たに導入する。
UCF-Crime と XD-Violence の2つの大規模VADデータセット上で,様々な構成で実施した総合的な実験を通じて,提案した CDL フレームワークの有効性を実証する。
UCF-Crimeでは平均19.6%,XD-Violenceでは12.87%の絶対改善を実現した。
Video Anomaly Detection (VAD) automates the identification of unusual events, such as security threats in surveillance videos. In real-world applications, VAD models must effectively operate in cross-domain settings, identifying rare anomalies and scenarios not well-represented in the training data. However, existing cross-domain VAD methods focus on unsupervised learning, resulting in performance that falls short of real-world expectations. Since acquiring weak supervision, i.e., video-level labels, for the source domain is cost-effective, we conjecture that combining it with external unlabeled data has notable potential to enhance cross-domain performance. To this end, we introduce a novel weakly-supervised framework for Cross-Domain Learning (CDL) in VAD that incorporates external data during training by estimating its prediction bias and adaptively minimizing that using the predicted uncertainty. We demonstrate the effectiveness of the proposed CDL framework through comprehensive experiments conducted in various configurations on two large-scale VAD datasets: UCF-Crime and XD-Violence. Our method significantly surpasses the state-of-the-art works in cross-domain evaluations, achieving an average absolute improvement of 19.6% on UCF-Crime and 12.87% on XD-Violence. | 翻訳日:2024-08-12 15:05:23 公開日:2024-08-09 |
# サブスタンスからの分離スタイル:データ選択とプレゼンテーションによるクロスジェネリックなオーサリング属性の強化
Separating Style from Substance: Enhancing Cross-Genre Authorship Attribution through Data Selection and Presentation ( http://arxiv.org/abs/2408.05192v1 ) ライセンス: Link先を確認 | Steven Fincke, Elizabeth Boschee, | (参考訳) 2つの文書が同じ著者によって書かれたかどうかを判断する作業は、機械と人間の両方にとって困難である。
このタスクは、2つの文書が異なるトピック(例えば野球対政治)について書かれたり、異なるジャンル(例えばブログ記事対学術論文)で書かれた場合、さらに難しい。
マシンにとって問題は、トピック境界を越えた実世界のトレーニング例の相対的欠如と、クロスジェンレデータの欠如によって複雑である。
著者帰属に関する話題情報への依存を回避し,それに応じて,そのトピックがどうであれ,より強固にスタイルを示す情報を組み込むことを強制する,データ選択の訓練方法と新しい学習カリキュラムを提案する。
これらの改良により、平均的なクロスジャンルの著者の属性が62.7%向上し、また、世代ごとの条件が16.6%向上した。
The task of deciding whether two documents are written by the same author is challenging for both machines and humans. This task is even more challenging when the two documents are written about different topics (e.g. baseball vs. politics) or in different genres (e.g. a blog post vs. an academic article). For machines, the problem is complicated by the relative lack of real-world training examples that cross the topic boundary and the vanishing scarcity of cross-genre data. We propose targeted methods for training data selection and a novel learning curriculum that are designed to discourage a model's reliance on topic information for authorship attribution and correspondingly force it to incorporate information more robustly indicative of style no matter the topic. These refinements yield a 62.7% relative improvement in average cross-genre authorship attribution, as well as 16.6% in the per-genre condition. | 翻訳日:2024-08-12 15:05:23 公開日:2024-08-09 |
# HistoKernel:Pan-Cancer予測モデルのための全スライド画像レベル最大値離散カーネル
HistoKernel: Whole Slide Image Level Maximum Mean Discrepancy Kernels for Pan-Cancer Predictive Modelling ( http://arxiv.org/abs/2408.05195v1 ) ライセンス: Link先を確認 | Piotr Keller, Muhammad Dawood, Brinder Singh Chohan, Fayyaz ul Amir Afsar Minhas, | (参考訳) 計算病理学(CPath)における機械学習は、複数ギガピクセルの全体スライド画像(WSI)からパッチレベルの予測を集約し、生存予測や薬物効果予測といった重要なタスクのためのWSIレベルの予測スコアを生成する。
しかし、現在のメソッドは、WSI内のパッチセット間の分散的な違いを明示的に特徴づけるものではない。
我々は、下流予測タスクにおける予測性能を向上させるために、WSI間の分布類似性を測定する新しい最大平均離散性(MMD)カーネルであるHistoKernelを紹介する。
包括的分析により、検索(n = 9,362)、薬物感受性回帰(n = 551)、点突然変異分類(n = 3,419)、生存分析(n = 2,291)など、機械学習タスクにおけるHistoKernelの有効性が示された。
さらに、HistoKernelはマルチモーダルデータをシームレスに統合し、パッチレベルの説明可能性のための新しい摂動に基づく方法を提供する。
この研究は、WSIレベルの予測モデリングのためのカーネルベースの手法の使用の先駆者であり、研究のための新しい道を開いた。
コードはhttps://github.com/pkeller00/HistoKernelで入手できる。
Machine learning in computational pathology (CPath) often aggregates patch-level predictions from multi-gigapixel Whole Slide Images (WSIs) to generate WSI-level prediction scores for crucial tasks such as survival prediction and drug effect prediction. However, current methods do not explicitly characterize distributional differences between patch sets within WSIs. We introduce HistoKernel, a novel Maximum Mean Discrepancy (MMD) kernel that measures distributional similarity between WSIs for enhanced prediction performance on downstream prediction tasks. Our comprehensive analysis demonstrates HistoKernel's effectiveness across various machine learning tasks, including retrieval (n = 9,362), drug sensitivity regression (n = 551), point mutation classification (n = 3,419), and survival analysis (n = 2,291), outperforming existing deep learning methods. Additionally, HistoKernel seamlessly integrates multi-modal data and offers a novel perturbation-based method for patch-level explainability. This work pioneers the use of kernel-based methods for WSI-level predictive modeling, opening new avenues for research. Code is available at https://github.com/pkeller00/HistoKernel. | 翻訳日:2024-08-12 15:05:23 公開日:2024-08-09 |
# GFlowNetを用いた細胞形態誘導小分子生成
Cell Morphology-Guided Small Molecule Generation with GFlowNets ( http://arxiv.org/abs/2408.05196v1 ) ライセンス: Link先を確認 | Stephen Zhewen Lu, Ziqing Lu, Ehsan Hajiramezanali, Tommaso Biancalani, Yoshua Bengio, Gabriele Scalia, Michał Koziarski, | (参考訳) HCI(High-Content Imaging)を含む高濃度の表現型スクリーニングは、タンパク質標的を事前に知ることなく新規な治療を特徴付ける能力で近年人気を集めている。
分子-フェノタイプ相互作用を予測し、表現するための深層学習技術と組み合わせることで、これらの進歩は、薬物発見の応用を著しく加速し、促進する可能性を秘めている。
本研究は、HCI誘導分子設計の新しい課題に焦点を当てる。
分子設計のための生成モデルは、例えば、報酬関数として興味のある表現型に分子をリンクする教師付きモデルで、HCIデータによって導かれる。
しかし、ラベル付きデータと高次元の読み出しデータを組み合わせることで、これらの手法を困難かつ非現実的に訓練することができる。
我々は、GFlowNetsの報酬として潜在類似性を定義するために、教師なしのマルチモーダルジョイント埋め込みを利用する別のアプローチを考える。
提案モデルでは, 予め注釈付けされた表現型ラベルに頼らずに, 与えられた画像ターゲットに類似した表現型効果を生じさせる新しい分子の生成を学習する。
提案手法は, ターゲットと形態的, 構造的類似性の高い分子を生成し, 独立オラクルモデルにより確認された同様の生物活性の可能性を高めることを実証する。
High-content phenotypic screening, including high-content imaging (HCI), has gained popularity in the last few years for its ability to characterize novel therapeutics without prior knowledge of the protein target. When combined with deep learning techniques to predict and represent molecular-phenotype interactions, these advancements hold the potential to significantly accelerate and enhance drug discovery applications. This work focuses on the novel task of HCI-guided molecular design. Generative models for molecule design could be guided by HCI data, for example with a supervised model that links molecules to phenotypes of interest as a reward function. However, limited labeled data, combined with the high-dimensional readouts, can make training these methods challenging and impractical. We consider an alternative approach in which we leverage an unsupervised multimodal joint embedding to define a latent similarity as a reward for GFlowNets. The proposed model learns to generate new molecules that could produce phenotypic effects similar to those of the given image target, without relying on pre-annotated phenotypic labels. We demonstrate that the proposed method generates molecules with high morphological and structural similarity to the target, increasing the likelihood of similar biological activity, as confirmed by an independent oracle model. | 翻訳日:2024-08-12 15:05:23 公開日:2024-08-09 |
# TaSL: 言語モデル継続学習のためのタスクスキルのローカライゼーションと統合
TaSL: Task Skill Localization and Consolidation for Language Model Continual Learning ( http://arxiv.org/abs/2408.05200v1 ) ライセンス: Link先を確認 | Yujie Feng, Xu Chu, Yongxin Xu, Zexin Lu, Bo Liu, Philip S. Yu, Xiao-Ming Wu, | (参考訳) 言語モデル継続学習(CL)は、大規模な言語モデル(LLM)を、再学習せずに動的現実世界環境に適応できる可能性から、近年大きな関心を集めている。
この分野で重要な課題は、新しいタスクを学ぶ際に、モデルが以前獲得した知識を失う、破滅的な忘れことである。
既存の手法では、タスク毎のタスク固有の知識を得るために、複数のパラメータ効率の良い微調整ブロック(PEFT)を用いることが多いが、これらの手法は効率を欠き、タスク間相互作用による知識伝達の可能性を見落としている。
本稿では,タスクスキル・ローカライゼーションと統合(TaSL)と呼ばれる新しい言語モデルのためのCLフレームワークを提案する。
TaSLはまず、パラメータ依存に基づいてモデルを'スキルユニット'に分割し、よりきめ細かい制御を可能にします。
そして、新しいタスクのためのスキルユニットの重要性の分布を特定するために、新しいグループワイドスキルローカライズ技術を用いる。
この重要度分布を従来の課題と比較することにより、タスク固有の知識を保持し、忘れないようにし、双方向の知識伝達を容易にするタスク共有知識を更新する、きめ細かいスキル統合戦略を実現する。
その結果、TaSLは、以前の知識の保持と、新しいタスクにおける卓越した能力のバランスを保っている。
TaSLはまた、汎用モデルに適した強力な一般化可能性を示し、LoRAのようなPEFTメソッドをカスタマイズできる。
さらに、メモリリプレイとの統合によってパフォーマンスがさらに向上する、顕著な拡張性を示している。
2つのCLベンチマーク(モデルサイズが220Mから7Bまで)の大規模な実験は、さまざまな設定でTaSLとその変種の有効性を実証している。
Language model continual learning (CL) has recently garnered significant interest due to its potential to adapt large language models (LLMs) to dynamic real-world environments without re-training. A key challenge in this field is catastrophic forgetting, where models lose previously acquired knowledge when learning new tasks. Existing methods commonly employ multiple parameter-efficient fine-tuning (PEFT) blocks to acquire task-specific knowledge for each task, but these approaches lack efficiency and overlook the potential for knowledge transfer through task interaction. In this paper, we present a novel CL framework for language models called Task Skill Localization and Consolidation (TaSL), which enhances knowledge transfer without relying on memory replay. TaSL first divides the model into `skill units' based on parameter dependencies, enabling more granular control. It then employs a novel group-wise skill localization technique to identify the importance distribution of skill units for a new task. By comparing this importance distribution with those from previous tasks, we implement a fine-grained skill consolidation strategy that retains task-specific knowledge, thereby preventing forgetting, and updates task-shared knowledge, which facilitates bi-directional knowledge transfer. As a result, TaSL achieves a superior balance between retaining previous knowledge and excelling in new tasks. TaSL also shows strong generalizability, suitable for general models and customizable for PEFT methods like LoRA. Additionally, it demonstrates notable extensibility, allowing integration with memory replay to further enhance performance. Extensive experiments on two CL benchmarks, with varying model sizes (from 220M to 7B), demonstrate the effectiveness of TaSL and its variants across different settings. | 翻訳日:2024-08-12 15:05:23 公開日:2024-08-09 |
# 多様な中学生を対象とした理科教科書のパーソナライズのための大規模言語モデルの能力評価
Evaluating the capability of large language models to personalize science texts for diverse middle-school-age learners ( http://arxiv.org/abs/2408.05204v1 ) ライセンス: Link先を確認 | Michael Vaccaro Jr, Mikayla Friday, Arash Zaghi, | (参考訳) OpenAIのGPTシリーズを含む大規模言語モデル(LLM)は、近年大きく進歩している。
多様な分野にわたる専門知識とユーザが提供するプロンプトへの迅速な適応性で知られ、LLMはパーソナライズドラーニング(PL)ツールとしてユニークなポテンシャルを持っている。
この可能性にもかかわらず、K-12教育への応用はほとんど未調査のままである。
本稿では,中学生を対象とした教育科学テキストのパーソナライズにおける GPT-4 の有効性を評価するために,初めてランダム化制御試験 (n = 23) を行った。
本研究は, GPT-4を用いて, 授業中に選択した選択に基づいて, 学生の学習嗜好をプロファイルした。
実験グループでは,GPT-4を用いて,学生の予測プロファイルに適合する科学テキストの書き直しを行い,制御グループでは,学習嗜好に反する文章の書き直しを行った。
Mann-Whitney U テストの結果、学生はプロフィールと整列する(p = .059)ときに書き直されたテキストをかなり好んだ(.10レベル)。
これらの結果から, GPT-4は多様な学習者の嗜好を効果的に解釈・調整し, PL技術の進歩を示すことが示唆された。
本研究の限界と教育における人工知能の利用に関する倫理的考察についても論じる。
Large language models (LLMs), including OpenAI's GPT-series, have made significant advancements in recent years. Known for their expertise across diverse subject areas and quick adaptability to user-provided prompts, LLMs hold unique potential as Personalized Learning (PL) tools. Despite this potential, their application in K-12 education remains largely unexplored. This paper presents one of the first randomized controlled trials (n = 23) to evaluate the effectiveness of GPT-4 in personalizing educational science texts for middle school students. In this study, GPT-4 was used to profile student learning preferences based on choices made during a training session. For the experimental group, GPT-4 was used to rewrite science texts to align with the student's predicted profile while, for students in the control group, texts were rewritten to contradict their learning preferences. The results of a Mann-Whitney U test showed that students significantly preferred (at the .10 level) the rewritten texts when they were aligned with their profile (p = .059). These findings suggest that GPT-4 can effectively interpret and tailor educational content to diverse learner preferences, marking a significant advancement in PL technology. The limitations of this study and ethical considerations for using artificial intelligence in education are also discussed. | 翻訳日:2024-08-12 15:05:23 公開日:2024-08-09 |
# Kalman-Inspireed Feature Propagation for Video Face Super-Resolution (特集:スーパーリゾリューション)
Kalman-Inspired Feature Propagation for Video Face Super-Resolution ( http://arxiv.org/abs/2408.05205v1 ) ライセンス: Link先を確認 | Ruicheng Feng, Chongyi Li, Chen Change Loy, | (参考訳) 顔画像の超高解像度化が期待できる進歩にもかかわらず、ビデオ顔の超高解像度化はいまだに未発見のままである。
既存のアプローチでは、一般的なビデオ超解像ネットワークをデータセットに適応させるか、確立された顔画像超解像モデルを個々のビデオフレームに独立して適用する。
これらのパラダイムは、顔の詳細を再構築したり、時間的一貫性を維持する際の課題に直面する。
これらの問題に対処するために、我々はKalman-inspired Feature Propagation (KEEP)と呼ばれる新しいフレームワークを紹介します。
カルマンフィルタの原理は,従来の復元フレームからの情報を用いて,現在のフレームの復元過程をガイドし,調整することができる。
広汎な実験により,映像フレーム全体にわたって顔の細部を連続的にキャプチャする手法の有効性が実証された。
コードとビデオのデモはhttps://jnjaby.github.io/projects/KEEPで公開されている。
Despite the promising progress of face image super-resolution, video face super-resolution remains relatively under-explored. Existing approaches either adapt general video super-resolution networks to face datasets or apply established face image super-resolution models independently on individual video frames. These paradigms encounter challenges either in reconstructing facial details or maintaining temporal consistency. To address these issues, we introduce a novel framework called Kalman-inspired Feature Propagation (KEEP), designed to maintain a stable face prior over time. The Kalman filtering principles offer our method a recurrent ability to use the information from previously restored frames to guide and regulate the restoration process of the current frame. Extensive experiments demonstrate the effectiveness of our method in capturing facial details consistently across video frames. Code and video demo are available at https://jnjaby.github.io/projects/KEEP. | 翻訳日:2024-08-12 15:05:23 公開日:2024-08-09 |
# マルチゲージカスタマイズモデル生成
Multi-Garment Customized Model Generation ( http://arxiv.org/abs/2408.05206v1 ) ライセンス: Link先を確認 | Yichen Liu, Penghui Du, Yi Liu Quanwei Zhang, | (参考訳) 本稿では,複数の衣服を自由な組み合わせで合成する未探索課題に対処することを目的とした,遅延拡散モデル(LDM)に基づく統合フレームワークであるマルチガーメントカスタマイズモデル生成を提案する。
この方法は、さまざまなテキストプロンプトに基づいて、さまざまなターゲットの衣装を身に着けたカスタマイズされたモデルを生成することに焦点を当てている。
第一の課題は、衣服の複雑なテクスチャを保ちながら、衣服の自然な外観を維持することであり、異なる衣服からの情報が互いに干渉しないようにすることである。
これらの課題に対処するために,我々はまず,共有重み付きトレーニング可能なUNetコピーである衣料エンコーダを開発した。
第2に,脱結合型マルチガーメント機能融合による複数衣服の条件生成をサポートし,複数の衣服特徴をバックボーンネットワークに注入し,衣服情報間の衝突を著しく軽減する。
さらに、提案する衣料エンコーダは、IP-AdapterやControlNetといった他の拡張モジュールと組み合わせることができるプラグイン・アンド・プレイモジュールであり、生成されたモデルの多様性と制御性を高める。
大規模な実験により、既存の代替品よりもアプローチが優れていることが示され、複数ピースの衣料品の組み合わせで画像を生成するための新たな道が開かれた。
This paper introduces Multi-Garment Customized Model Generation, a unified framework based on Latent Diffusion Models (LDMs) aimed at addressing the unexplored task of synthesizing images with free combinations of multiple pieces of clothing. The method focuses on generating customized models wearing various targeted outfits according to different text prompts. The primary challenge lies in maintaining the natural appearance of the dressed model while preserving the complex textures of each piece of clothing, ensuring that the information from different garments does not interfere with each other. To tackle these challenges, we first developed a garment encoder, which is a trainable UNet copy with shared weights, capable of extracting detailed features of garments in parallel. Secondly, our framework supports the conditional generation of multiple garments through decoupled multi-garment feature fusion, allowing multiple clothing features to be injected into the backbone network, significantly alleviating conflicts between garment information. Additionally, the proposed garment encoder is a plug-and-play module that can be combined with other extension modules such as IP-Adapter and ControlNet, enhancing the diversity and controllability of the generated models. Extensive experiments demonstrate the superiority of our approach over existing alternatives, opening up new avenues for the task of generating images with multiple-piece clothing combinations | 翻訳日:2024-08-12 15:05:23 公開日:2024-08-09 |
# VITA: Open-Source Interactive Omni Multimodal LLMを目指して
VITA: Towards Open-Source Interactive Omni Multimodal LLM ( http://arxiv.org/abs/2408.05211v1 ) ライセンス: Link先を確認 | Chaoyou Fu, Haojia Lin, Zuwei Long, Yunhang Shen, Meng Zhao, Yifan Zhang, Xiong Wang, Di Yin, Long Ma, Xiawu Zheng, Ran He, Rongrong Ji, Yunsheng Wu, Caifeng Shan, Xing Sun, | (参考訳) GPT-4oの目覚ましいマルチモーダル機能とインタラクティブな体験は、実用的応用においてその必要性を浮き彫りにしているが、オープンソースモデルが両方の領域で優れていることは滅多にない。
本稿では,ビデオ,画像,テキスト,オーディオモダリティの同時処理と解析に有効な,世界初のオープンソースマルチモーダル大言語モデルであるVITAを紹介する。
言語基盤としてMixtral 8x7Bを出発点として、中国語の語彙を拡張し、バイリンガル・インストラクション・チューニングを行った。
さらに、マルチモーダルアライメントとインストラクションチューニングの2段階のマルチタスク学習を通じて、視覚的および音声機能を備えた言語モデルを提供する。
VITAは、多言語、視覚、および音声理解の堅牢な基礎的能力を示しており、その強力な性能は、単調なベンチマークとマルチモーダルなベンチマークの両方で証明されている。
基礎的能力の他に、我々は自然のマルチモーダルな人間とコンピュータのインタラクション体験を向上させるためにかなりの進歩を遂げた。
我々の知る限りでは、MLLMにおける非覚醒相互作用と音声割り込みを利用するのは初めてである。
VITAはオープンソースコミュニティにとって、マルチモーダル理解とインタラクションのシームレスな統合を探求する第一歩です。
VITAがオープンソースに近いものにするには、まだ多くの作業が必要ですが、パイオニアとしての役割が、その後の研究の基盤となることを願っています。
プロジェクトページ: https://vita-home.github.io
The remarkable multimodal capabilities and interactive experience of GPT-4o underscore their necessity in practical applications, yet open-source models rarely excel in both areas. In this paper, we introduce VITA, the first-ever open-source Multimodal Large Language Model (MLLM) adept at simultaneous processing and analysis of Video, Image, Text, and Audio modalities, and meanwhile has an advanced multimodal interactive experience. Starting from Mixtral 8x7B as a language foundation, we expand its Chinese vocabulary followed by bilingual instruction tuning. We further endow the language model with visual and audio capabilities through two-stage multi-task learning of multimodal alignment and instruction tuning. VITA demonstrates robust foundational capabilities of multilingual, vision, and audio understanding, as evidenced by its strong performance across a range of both unimodal and multimodal benchmarks. Beyond foundational capabilities, we have made considerable progress in enhancing the natural multimodal human-computer interaction experience. To the best of our knowledge, we are the first to exploit non-awakening interaction and audio interrupt in MLLM. VITA is the first step for the open-source community to explore the seamless integration of multimodal understanding and interaction. While there is still lots of work to be done on VITA to get close to close-source counterparts, we hope that its role as a pioneer can serve as a cornerstone for subsequent research. Project Page: https://vita-home.github.io. | 翻訳日:2024-08-12 15:05:23 公開日:2024-08-09 |