このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240816となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 計算機科学に着目したJupyter-Materials-based Repository Webサイトの概要
An Outline for a Jupyter-Materials-Based Repository Website Focused on the Computational Sciences ( http://arxiv.org/abs/2409.12246v1 ) ライセンス: Link先を確認 | Peter Berg, Zachary Kelly, | (参考訳) インターネットへのアクセスが、インターネットプロバイダの信頼性とスピードとともにますます広まりつつある中、インターネットベースの学習ツールも実装されている。
これらのツールは、学生が大学を離れて有意義な仕事をする機会を提供するが、しばしば大学や学生にとって経済的にコストがかかる。
さらに、先進国や遠隔地の限られた高コストインターネットアクセスは、これらのツールを意味のある方法で実装するための障壁となり、教育の質と提供される機会の両方に不平等をもたらす。
本稿では,Jupyter Notebooks を用いた計算科学のためのオープンソース教科書やその他の補足学習教材を中心に,低コストで軽量なリポジトリサイトの開発プロセスとメリットを概説する。
このウェブサイトは、学生が教科書やその他の資料を集中した場所からダウンロードし、オフラインまたは限定的なインターネットアクセスで使用できるようにすることに焦点を当てている。
インターネットアクセスが唯一の制約要因ではない。合理的な価格のパーソナルコンピュータへのアクセスもまた、インターネットベースの学習ツールの有効性を制限している。
そこで本研究では,オープンソースのJupyter Notebook教科書のオンラインリポジトリを拡大する手段として,低コストRaspberry Piキットをこの開発プロセスに統合する可能性についても検討する。
本論文は,カナダの大学と遠隔地コミュニティに焦点を当てるが,Webサイトが提案するアプリケーションの多くは,世界中で関係している。
As access to the internet has become increasingly ubiquitous, along with the reliability and speed of internet providers, so too has the implementation of internet-based learning tools. These tools provide students opportunities to do meaningful work away from university, however, often at a financial cost to universities and students. Moreover, limited and high-cost internet access in less-developed countries and remote areas acts as a barrier to implementing these tools in a meaningful way, leading to inequalities in both the quality of education and the opportunities provided. This paper outlines the development process, and benefits, of a low-cost and light-weight repository website centered around disseminating open-source textbooks and other supplemental learning materials for computational sciences using Jupyter Notebooks. The website focuses on allowing students to download their textbooks and other materials from a centralized location, to be used offline or with limited internet access. Internet access is not the only constraining factor; access to reasonably priced personal computers also limits the effectiveness of internet-based learning tools. As such, this paper will also explore the feasibility of integrating low-cost Raspberry Pi kits into this development process as a way of increasing the reach of an online repository of open-source Jupyter Notebook textbooks. While this paper focuses on Canadian universities and remote communities, many of the website's proposed applications are relevant worldwide. | 翻訳日:2024-11-07 15:38:21 公開日:2024-08-16 |
# オーレスンドにおける火災発生時刻のモデル化
Modelling Fire Incidents Response Times in Ålesund ( http://arxiv.org/abs/2409.15282v1 ) ライセンス: Link先を確認 | J. Christmas, R. Bergmann, A. Zhakatayev, J. Rebenda, S. Singh, | (参考訳) In the ESGI-156 project with {\AA}lesund Brannvesen we developed a model for response time to fire incidents on public available data for {\AA}lesund。
異なるシナリオについて検討し、応答時間を示すインタラクティブソフトウェアへの第一歩について述べる。
In the ESGI-156 project together with {\AA}lesund Brannvesen we develop a model for response times to fire incidents on publicly available data for {\AA}lesund. We investigate different scenarios and a first step towards an interactive software for illustrating the response times. | 翻訳日:2024-11-06 20:16:59 公開日:2024-08-16 |
# VERA:検索拡張システムの検証と評価
VERA: Validation and Evaluation of Retrieval-Augmented Systems ( http://arxiv.org/abs/2409.03759v1 ) ライセンス: Link先を確認 | Tianyu Ding, Adi Banerjee, Laurent Mombaerts, Yunhong Li, Tarik Borogovac, Juan Pablo De la Cruz Weinstein, | (参考訳) 様々なアプリケーションでRAG(Retrieval-Augmented Generation)システムの利用が増加し、RAGシステムの正確性、安全性、ユーザ意図との整合性を確保するために、厳密なプロトコルが必要である。
本稿では,検索情報を利用した大規模言語モデル(LLM)からの出力の透明性と信頼性を高めるためのフレームワークであるVERA(Validation and Evaluation of Retrieval-Augmented Systems)を紹介する。
VERAは2つの重要な方法でRAGシステムを評価する方法を改善している。(1)多次元メトリクスの集合を1つの総合的なランキングスコアに含めるクロスエンコーダベースのメカニズムを導入し、個別のメトリクスの優先順位付けの課題に対処し、(2)文書リポジトリ全体にわたるLCMベースのメトリクスに関するブートストラップ統計を用いて、信頼性境界の確立、リポジトリのトピックスカバレッジの確保、検索システムの全体的な信頼性の向上などである。
いくつかのユースケースを通じて、VERAが意思決定プロセスを強化し、AIアプリケーションを信頼する方法を実証する。
LLMに基づくRAG評価尺度の理論的理解に寄与するだけでなく、責任あるAIシステムの実践的実装も促進し、信頼性と透明な生成AI技術の発展に大きな進展をもたらした。
The increasing use of Retrieval-Augmented Generation (RAG) systems in various applications necessitates stringent protocols to ensure RAG systems accuracy, safety, and alignment with user intentions. In this paper, we introduce VERA (Validation and Evaluation of Retrieval-Augmented Systems), a framework designed to enhance the transparency and reliability of outputs from large language models (LLMs) that utilize retrieved information. VERA improves the way we evaluate RAG systems in two important ways: (1) it introduces a cross-encoder based mechanism that encompasses a set of multidimensional metrics into a single comprehensive ranking score, addressing the challenge of prioritizing individual metrics, and (2) it employs Bootstrap statistics on LLM-based metrics across the document repository to establish confidence bounds, ensuring the repositorys topical coverage and improving the overall reliability of retrieval systems. Through several use cases, we demonstrate how VERA can strengthen decision-making processes and trust in AI applications. Our findings not only contribute to the theoretical understanding of LLM-based RAG evaluation metric but also promote the practical implementation of responsible AI systems, marking a significant advancement in the development of reliable and transparent generative AI technologies. | 翻訳日:2024-09-15 05:46:11 公開日:2024-08-16 |
# DivDiff: 多様な人間の動作予測のための条件付き拡散モデル
DivDiff: A Conditional Diffusion Model for Diverse Human Motion Prediction ( http://arxiv.org/abs/2409.00014v1 ) ライセンス: Link先を確認 | Hua Yu, Yaqing Hou, Wenbin Pei, Qiang Zhang, | (参考訳) 横型人間の動き予測(英: Diverse Human Motion Prediction、HMP)は、観察された人間の動きの順序から複数の可視な将来の動きを予測することを目的としている。
これは、将来の人間の動きの正確な記述を確保しながら、潜在的な人間の動きの多様性のために難しい課題である。
現在の解は低多様性か表現性に制限がある。
最近の denoising diffusion model (DDPM) は、生成タスクにおいて潜在的な生成能力を保っている。
しかし、DDPMを多様なHMPに直接導入することはいくつかの問題を引き起こす。
DDPMは人間の動きの潜在的なパターンの多様性を高めることができるが、DDPMの進行過程における大きなノイズ障害のため、予測された人間の動きは時間とともに不明瞭になる。
この現象は、予測された人間の動きを制御しにくくし、予測された動きの品質に深刻な影響を与え、現実のシナリオにおける実用性を制限する。
そこで本研究では,より多様で現実的な人間の動きを予測するために,DivDiffと呼ばれる条件拡散に基づく新しい生成モデルを提案する。
具体的には、DivDiffはDDPMをバックボーンとして使用し、DCTとトランスフォーマー機構を組み込んで観察されたヒトの動作シーケンスを符号化し、DDPMの逆過程を指示する。
より重要なことは、予測された人間の動作に対する人間の骨格的制約を強制するために、多角化強化サンプリング機能(DRSF)を設計することである。
DRSFは、人骨格から取得した情報を事前知識として利用し、前方プロセスで導入された重大な障害を減らす。
Human3.6MとHumanEva-Iの2つの広く使われているデータセットで得られた実験の結果は、我々のモデルが多様性と精度の両面で競合性能を得ることを示した。
Diverse human motion prediction (HMP) aims to predict multiple plausible future motions given an observed human motion sequence. It is a challenging task due to the diversity of potential human motions while ensuring an accurate description of future human motions. Current solutions are either low-diversity or limited in expressiveness. Recent denoising diffusion models (DDPM) hold potential generative capabilities in generative tasks. However, introducing DDPM directly into diverse HMP incurs some issues. Although DDPM can increase the diversity of the potential patterns of human motions, the predicted human motions become implausible over time because of the significant noise disturbances in the forward process of DDPM. This phenomenon leads to the predicted human motions being hard to control, seriously impacting the quality of predicted motions and restricting their practical applicability in real-world scenarios. To alleviate this, we propose a novel conditional diffusion-based generative model, called DivDiff, to predict more diverse and realistic human motions. Specifically, the DivDiff employs DDPM as our backbone and incorporates Discrete Cosine Transform (DCT) and transformer mechanisms to encode the observed human motion sequence as a condition to instruct the reverse process of DDPM. More importantly, we design a diversified reinforcement sampling function (DRSF) to enforce human skeletal constraints on the predicted human motions. DRSF utilizes the acquired information from human skeletal as prior knowledge, thereby reducing significant disturbances introduced during the forward process. Extensive results received in the experiments on two widely-used datasets (Human3.6M and HumanEva-I) demonstrate that our model obtains competitive performance on both diversity and accuracy. | 翻訳日:2024-09-08 15:50:41 公開日:2024-08-16 |
# 社会工学ラビリンスをナビゲートする:責任を負うAIのための動的認証
Navigating the sociotechnical labyrinth: Dynamic certification for responsible embodied AI ( http://arxiv.org/abs/2409.00015v1 ) ライセンス: Link先を確認 | Georgios Bakirtzis, Andrea Aler Tubella, Andreas Theodorou, David Danks, Ufuk Topcu, | (参考訳) 社会技術的要求は、人工知能(AI)システムのガバナンスを形成する。
インボディードAI技術が現代社会の様々な側面を急速に変えつつある時代において、その固有の動的適応性は、機会と課題のユニークなブレンドを示す。
従来の規制メカニズムは、しばしば静的(あるいは遅いペースで)技術のために設計され、AIシステムの流動性と進化する性質に直面すると、横断的に自分自身を見つける。
さらに、例えば、AIの典型的な問題、例えば、システムの振る舞いの頻繁な不透明さと予測不可能さは、追加の社会技術的課題をもたらします。
このような相互接続的な問題に対処するために,AIシステムの継続的進化に追随するように特別に設計された適応型規制フレームワークである動的認証の概念を導入する。
これらの課題の複雑さは、技術、社会政府、規制といった複数の領域において共通の進歩を必要とします。
提案する学際的アプローチは,AIシステムの安全性,倫理的,実践的な展開を保証し,それらが運用する実世界のコンテキストと双方向に整合させることを目的としている。
これにより、迅速な技術進歩と効果的な規制監督のギャップを埋め、AIシステムが目的を達成するだけでなく、倫理基準や社会的価値にも準拠することを目指している。
Sociotechnical requirements shape the governance of artificially intelligent (AI) systems. In an era where embodied AI technologies are rapidly reshaping various facets of contemporary society, their inherent dynamic adaptability presents a unique blend of opportunities and challenges. Traditional regulatory mechanisms, often designed for static -- or slower-paced -- technologies, find themselves at a crossroads when faced with the fluid and evolving nature of AI systems. Moreover, typical problems in AI, for example, the frequent opacity and unpredictability of the behaviour of the systems, add additional sociotechnical challenges. To address these interconnected issues, we introduce the concept of dynamic certification, an adaptive regulatory framework specifically crafted to keep pace with the continuous evolution of AI systems. The complexity of these challenges requires common progress in multiple domains: technical, socio-governmental, and regulatory. Our proposed transdisciplinary approach is designed to ensure the safe, ethical, and practical deployment of AI systems, aligning them bidirectionally with the real-world contexts in which they operate. By doing so, we aim to bridge the gap between rapid technological advancement and effective regulatory oversight, ensuring that AI systems not only achieve their intended goals but also adhere to ethical standards and societal values. | 翻訳日:2024-09-08 15:50:41 公開日:2024-08-16 |
# 機械学習とクラウドコンピューティングを用いた作物現象推定のための光・レーダ衛星データの新しい融合
A Novel Fusion of Optical and Radar Satellite Data for Crop Phenology Estimation using Machine Learning and Cloud Computing ( http://arxiv.org/abs/2409.00020v1 ) ライセンス: Link先を確認 | Shahab Aldin Shojaeezadeh, Abdelrazek Elnashar, Tobias Karl David Weber, | (参考訳) 作物の表現学は作物の成長段階を決定づけ、食品の安全性を高めるために農業経営戦略を植え、適応させる決定者にとって貴重な情報である。
大地観測データユビキティの時代には、リモートセンシング(RS)データに基づいて作物の表現学を正確に予測する試みが試みられている。
しかし、ほとんどの研究は、表現学の大規模な解釈に焦点を当てるか、より正確で確実な手法を用いて評価されたRSデータの価値を活用する上で、作物モデルコミュニティを支援するには不十分な方法を開発した。
そこで我々は、ランドサットとセンチネル2(ハーモナイズドランドサットとセンチネルのデータベース; HLS)とセンチネル1のレーダを機械学習(ML)モデルで融合させる新しい枠組みを用いて、ドイツ全土の8大作物と13の現象学的発達を30mスケールで推定する。
われわれは,2017年から2021年にかけて,ドイツ気象庁(DWD)の国立表現学ネットワークに基づいて,表現学の発達を検出する上で,RSデータの最良の組み合わせを見つけるために,徹底的な特徴融合解析を提案した。
全国で30mで予測された作物の表現学では,R2>0.9の精度が非常に高く,平均絶対誤差 (MAE) < 2 (days) が極めて低かった。
これらの結果から,光学的およびレーダ的データセットの融合戦略は精度が高く,実用的応用にも高い関連性があることが示唆された。
その後の不確実性分析により,光・レーダデータの融合は作物の成長段階を予測するRSの信頼性を高めることが示唆された。
これらの改善は、作物モデルのキャリブレーションや評価に役立ち、インフォメーションな農業決定を促進し、世界的な食糧需要の増加に対応するために持続可能な食品生産に寄与することが期待されている。
Crop phenology determines crop growth stages and is valuable information for decision makers to plant and adapt agricultural management strategies to enhance food security. In the era of big Earth observation data ubiquity, attempts have been made to accurately predict crop phenology based on Remote Sensing (RS) data. However, most studies either focused on large scale interpretations of phenology or developed methods which are not adequate to help crop modeler communities on leveraging the value of RS data evaluated using more accurate and confident methods. Here, we estimate phenological developments for eight major crops and 13 phenological stages across Germany at 30m scale using a novel framework which fuses Landsat and Sentinel 2 (Harmonized Landsat and Sentinel data base; HLS) and radar of Sentinel 1 with a Machine Learning (ML) model. We proposed a thorough feature fusion analysis to find the best combinations of RS data on detecting phenological developments based on the national phenology network of Germany (German Meteorological Service; DWD) between 2017 and 2021. The nation-wide predicted crop phenology at 30 m resolution showed a very high precision of R2 > 0.9 and a very low Mean Absolute Error (MAE) < 2 (days). These results indicate that our fusing strategy of optical and radar datasets is highly performant with an accuracy highly relevant for practical applications, too. The subsequent uncertainty analysis indicated that fusing optical and radar data increases the reliability of the RS predicted crop growth stages. These improvements are expected to be useful for crop model calibrations and evaluations, facilitate informed agricultural decisions, and contribute to sustainable food production to address the increasing global food demand. | 翻訳日:2024-09-08 15:50:41 公開日:2024-08-16 |
# TACOS:スパイクニューラルネットワークにおけるタスク非依存連続学習
TACOS: Task Agnostic Continual Learning in Spiking Neural Networks ( http://arxiv.org/abs/2409.00021v1 ) ライセンス: Link先を確認 | Nicholas Soures, Peter Helfer, Anurag Daram, Tej Pandit, Dhireesha Kudithipudi, | (参考訳) 破滅的な干渉は、新しい情報を学ぶ際に学習した情報が失われることであり、機械学習において依然として大きな課題である。
生物はこの問題に悩まされないようで、研究者たちは生物学からインスピレーションを得て、人工知能システムにおける記憶の保持を改善してきた。
しかしながら、バイオインスパイアされたメカニズムを使用する以前の試みは、トレーニング中のタスク境界情報や推論中の明示的なタスク識別に依存するシステム、現実のシナリオでは利用できない情報、が典型的である。
ここでは, シナプス統合やメタ可塑性などの神経誘発機構は, シナプス局所情報のみを用いて, タスクの認識を必要とせず, 新たなタスクのトレーニング時に増大する必要のない固定メモリサイズで, スパイクニューラルネットワークにおける破滅的干渉を軽減することができることを示す。
我々のモデルであるTACOSは、神経変調と複雑なシナプス力学を組み合わせることで、以前の情報を保護しながら新しい学習を可能にする。
画像認識タスクにおけるTACOSの評価を行い、破滅的干渉を減らす効果を実証した。
以上の結果から,TACOSはドメイン・インクリメンタル・ラーニングのシナリオにおいて,既存の正規化手法よりも優れていることがわかった。
また,各神経誘発機構の寄与を別々に解明するためのアブレーション研究の結果も報告した。
Catastrophic interference, the loss of previously learned information when learning new information, remains a major challenge in machine learning. Since living organisms do not seem to suffer from this problem, researchers have taken inspiration from biology to improve memory retention in artificial intelligence systems. However, previous attempts to use bio-inspired mechanisms have typically resulted in systems that rely on task boundary information during training and/or explicit task identification during inference, information that is not available in real-world scenarios. Here, we show that neuro-inspired mechanisms such as synaptic consolidation and metaplasticity can mitigate catastrophic interference in a spiking neural network, using only synapse-local information, with no need for task awareness, and with a fixed memory size that does not need to be increased when training on new tasks. Our model, TACOS, combines neuromodulation with complex synaptic dynamics to enable new learning while protecting previous information. We evaluate TACOS on sequential image recognition tasks and demonstrate its effectiveness in reducing catastrophic interference. Our results show that TACOS outperforms existing regularization techniques in domain-incremental learning scenarios. We also report the results of an ablation study to elucidate the contribution of each neuro-inspired mechanism separately. | 翻訳日:2024-09-08 15:40:57 公開日:2024-08-16 |
# クロスモーダルエンティティ一貫性によるマルチメディアコンテンツの誤情報検出:デュアルラーニングアプローチ
Detecting Misinformation in Multimedia Content through Cross-Modal Entity Consistency: A Dual Learning Approach ( http://arxiv.org/abs/2409.00022v1 ) ライセンス: Link先を確認 | Zhe Fu, Kanlun Wang, Wangjiaxuan Xin, Lina Zhou, Shi Chen, Yaorong Ge, Daniel Janies, Dongsong Zhang, | (参考訳) ソーシャルメディアコンテンツのランドスケープは、テキストからマルチモーダルフォーマットまで、大きく進化してきた。
この進化は誤報に対処する上で大きな課題となる。
これまでの研究では、主に単一のモダリティやテキストイメージの組み合わせに焦点を当てており、マルチモーダルな誤報を検出するためのギャップを残している。
実体整合性の概念はマルチモーダルな誤情報の検出において有望であるが、スカラー値への表現を単純化することは、異なるモダリティにまたがる高次元表現の本質的な複雑さを見落としている。
これらの制約に対処するために,マルチメディア誤情報検出(MultiMD)フレームワークを提案する。
提案手法は,誤情報検出性能の向上だけでなく,異なるモダリティ間でのエンティティ一貫性の表現学習の改善を可能にする。
以上の結果から,MultiMDは最先端のベースラインモデルよりも優れており,誤情報検出における各モダリティの重要性を強調している。
本研究は,マルチモーダル誤報検出に関する新しい方法論的および技術的知見を提供する。
The landscape of social media content has evolved significantly, extending from text to multimodal formats. This evolution presents a significant challenge in combating misinformation. Previous research has primarily focused on single modalities or text-image combinations, leaving a gap in detecting multimodal misinformation. While the concept of entity consistency holds promise in detecting multimodal misinformation, simplifying the representation to a scalar value overlooks the inherent complexities of high-dimensional representations across different modalities. To address these limitations, we propose a Multimedia Misinformation Detection (MultiMD) framework for detecting misinformation from video content by leveraging cross-modal entity consistency. The proposed dual learning approach allows for not only enhancing misinformation detection performance but also improving representation learning of entity consistency across different modalities. Our results demonstrate that MultiMD outperforms state-of-the-art baseline models and underscore the importance of each modality in misinformation detection. Our research provides novel methodological and technical insights into multimodal misinformation detection. | 翻訳日:2024-09-08 15:40:57 公開日:2024-08-16 |
# 認知領域における因果関係のベイズネットワークモデルと西インド・コホートにおける重症度評価
Bayesian Network Modeling of Causal Influence within Cognitive Domains and Clinical Dementia Severity Ratings for Western and Indian Cohorts ( http://arxiv.org/abs/2408.12669v1 ) ライセンス: Link先を確認 | Wupadrasta Santosh Kumar, Sayali Rajendra Bhutare, Neelam Sinha, Thomas Gregor Issac, | (参考訳) 本研究は、アルツハイマー病神経画像イニシアチブ(ADNI)とインド縦断老化研究(LASI)の2つの異なる老化データセットにまたがる、臨床認知症評価(CDR)と6つのドメインスコアの因果関係について検討した。
ベイジアンネットワークモデルから導出したDAGを用いて、ドメインスコア間の依存性と、そのグローバルCDRへの影響を分析する。
提案手法では,PCアルゴリズムを用いて両方のデータセットのDAG構造を推定し,西インドと西インド間の因果関係とエッジ強度の顕著な差異を明らかにした。
この分析は、両方のデータセットにおけるメモリ機能に対するCDRスコアの強い依存を強調しているが、エッジ強度とノード度には大きな違いがある。
これらの知見とは対照的に,認知症進行の個体差や類似性を解明し,対象とする介入を通知し,多様な地域社会における認知症理解を改善するための洞察を提供することを目的としている。
This study investigates the causal relationships between Clinical Dementia Ratings (CDR) and its six domain scores across two distinct aging datasets: the Alzheimer's Disease Neuroimaging Initiative (ADNI) and the Longitudinal Aging Study of India (LASI). Using Directed Acyclic Graphs (DAGs) derived from Bayesian network models, we analyze the dependencies among domain scores and their influence on the global CDR. Our approach leverages the PC algorithm to estimate the DAG structures for both datasets, revealing notable differences in causal relationships and edge strengths between the Western and Indian populations. The analysis highlights a stronger dependency of CDR scores on memory functions in both datasets, but with significant variations in edge strengths and node degrees. By contrasting these findings, we aim to elucidate population-specific differences and similarities in dementia progression, providing insights that could inform targeted interventions and improve understanding of dementia across diverse demographic contexts. | 翻訳日:2024-09-01 17:02:13 公開日:2024-08-16 |
# HLS DSEの効率的なタスク転送
Efficient Task Transfer for HLS DSE ( http://arxiv.org/abs/2408.13270v1 ) ライセンス: Link先を確認 | Zijian Ding, Atefeh Sohrabizadeh, Weikai Li, Zongyue Qin, Yizhou Sun, Jason Cong, | (参考訳) 近年,高レベル合成(HLS)によるドメイン固有アーキテクチャの設計の生産性向上のために,モデルに基づく最適化手法の利用が提案されている。
それらは、設計の時間を要するパフォーマンス見積やシミュレーションをプロキシモデルに置き換え、ハードウェア最適化を導くために自動的にプラグマを挿入する。
本研究では,高次合成(HLS)設計空間探索(DSE)に関わる課題を,HLSツールの進化する展望を通して解決する。
これらのツールが発達するにつれて、結果の質(QoR)は大幅に変化し、異なるツールチェーン間の最適な設計戦略の維持が複雑になる。
ツールチェーンの変更に対して効率的に適応するように設計されたモデルベースのエクスプローラーを活用するタスク転送学習スキームであるActive-CEMを紹介する。
このアプローチは、大規模な再評価を必要とせずに、新しいツールチェーンの下で高品質な設計構成を識別することで、サンプル効率を最適化する。
ツールチェーン不変モデリングを取り入れることで、方法論をさらに洗練する。
これにより、ツールチェーンのブラックボックス実装の変更にもかかわらず、QoRの変更をより正確に予測できます。
新しいツールチェーンに移行するHLSynベンチマークの実験結果は、AutoDSEと比較して平均パフォーマンスが1.58$\times$、HARPよりも1.2$\times$、サンプル効率が5.26$\times$、ランタイムが2.7$\times$であることを示している。
There have been several recent works proposed to utilize model-based optimization methods to improve the productivity of using high-level synthesis (HLS) to design domain-specific architectures. They would replace the time-consuming performance estimation or simulation of design with a proxy model, and automatically insert pragmas to guide hardware optimizations. In this work, we address the challenges associated with high-level synthesis (HLS) design space exploration (DSE) through the evolving landscape of HLS tools. As these tools develop, the quality of results (QoR) from synthesis can vary significantly, complicating the maintenance of optimal design strategies across different toolchains. We introduce Active-CEM, a task transfer learning scheme that leverages a model-based explorer designed to adapt efficiently to changes in toolchains. This approach optimizes sample efficiency by identifying high-quality design configurations under a new toolchain without requiring extensive re-evaluation. We further refine our methodology by incorporating toolchain-invariant modeling. This allows us to predict QoR changes more accurately despite shifts in the black-box implementation of the toolchains. Experiment results on the HLSyn benchmark transitioning to new toolchain show an average performance improvement of 1.58$\times$ compared to AutoDSE and a 1.2$\times$ improvement over HARP, while also increasing the sample efficiency by 5.26$\times$, and reducing the runtime by 2.7$\times$. | 翻訳日:2024-09-01 16:52:18 公開日:2024-08-16 |
# 家庭内キッチンロボットにおける停職命令の処理
Handling abort commands for household kitchen robots ( http://arxiv.org/abs/2408.14480v1 ) ライセンス: Link先を確認 | Darius Has, Adrian Groza, Mihai Pomarlan, | (参考訳) ロボットに与えられた中止命令を処理するためのソリューションを提案する。
このソリューションは、家庭用キッチンロボットによる実行シナリオで実証されている。
このロボットは、事前に受信したコマンドを優雅にキャンセルするために、実行すべきアクションのシーケンスを見つけるために計画されている。
計画ドメイン定義言語(PDDL)はキッチンの活動や振る舞いをモデル化するためのドメインを記述するために使用され、このドメインはDBPediaのようなオンラインオントロジーや知識グラフからの知識に富んでいる。
異なるシナリオで得られた結果について議論する。
We propose a solution for handling abort commands given to robots. The solution is exemplified with a running scenario with household kitchen robots. The robot uses planning to find sequences of actions that must be performed in order to gracefully cancel a previously received command. The Planning Domain Definition Language (PDDL) is used to write a domain to model kitchen activities and behaviours, and this domain is enriched with knowledge from online ontologies and knowledge graphs, like DBPedia. We discuss the results obtained in different scenarios. | 翻訳日:2024-09-01 16:52:18 公開日:2024-08-16 |
# 統計学者のためのブラウン運動学の授業
A Tutorial on Brownian Motion for Biostatisticians ( http://arxiv.org/abs/2408.16011v1 ) ライセンス: Link先を確認 | Elvis Han Cui, | (参考訳) この写本は、統計学者の確率論の基本的な確率論的な過程であるブラウン運動を詳細に探求している。
基本的定義と性質から始まり、ブラウン運動の構成とそのマルコフ特性を含む。
この文書は、カルフン・ローヴ拡大、反射原理、レヴィの連続性のモジュラリティといった先進的なトピックに展開している。
厳密な証明と定理を通じて、原稿はブラウンパスの非微分可能性、零集合の振る舞い、局所時間の重要性を検証している。
このノートはまた、ドンスカーの定理やブラーメンハルの0-1法則のような重要な結果を取り上げ、確率過程の研究におけるそれらの意味を強調している。
This manuscript provides an in-depth exploration of Brownian Motion, a fundamental stochastic process in probability theory for Biostatisticians. It begins with foundational definitions and properties, including the construction of Brownian motion and its Markovian characteristics. The document delves into advanced topics such as the Karhunen-Loeve expansion, reflection principles, and Levy's modulus of continuity. Through rigorous proofs and theorems, the manuscript examines the non-differentiability of Brownian paths, the behavior of zero sets, and the significance of local time. The notes also cover important results like Donsker's theorem and Blumenthal's 0-1 law, emphasizing their implications in the study of stochastic processes. | 翻訳日:2024-09-01 16:32:17 公開日:2024-08-16 |
# 複数単語表現の特徴推定に大規模言語モデルを用いる:具体性,有価性,覚醒性
Using large language models to estimate features of multi-word expressions: Concreteness, valence, arousal ( http://arxiv.org/abs/2408.16012v1 ) ライセンス: Link先を確認 | Gonzalo Martínez, Juan Diego Molero, Sandra González, Javier Conde, Marc Brysbaert, Pedro Reviriego, | (参考訳) 本研究では,多語表現の具体性,有価度,覚醒度を正確に推定する大規模言語モデル (LLM) の可能性について検討する。
従来の人工知能(AI)の手法とは異なり、LLMは多語表現のニュアンスな意味を捉えることができる。
本研究は,ChatGPT-4oの硬度,粘度,覚醒の予測能力について系統的に評価した。
研究1では,ChatGPT-4oは多語表現に対する人間の具体性評価(r = .8)と強い相関を示した。
研究2では, 個々の単語の有意性と覚醒的評価, マッチング, 過去のAIモデルよりも優れていた。
研究3では,大規模人体ベンチマークの欠如にもかかわらず,有望な結果を示した。
これらの知見は,多語表現に関連する有意義な心理言語学的データを生成するLLMの可能性を明らかにするものである。
研究者が刺激選択を行うのを助けるために、126,397の英語単語と63,680の多語表現に対して、具体性、価、覚醒のAI規範を持つデータセットを提供する。
This study investigates the potential of large language models (LLMs) to provide accurate estimates of concreteness, valence and arousal for multi-word expressions. Unlike previous artificial intelligence (AI) methods, LLMs can capture the nuanced meanings of multi-word expressions. We systematically evaluated ChatGPT-4o's ability to predict concreteness, valence and arousal. In Study 1, ChatGPT-4o showed strong correlations with human concreteness ratings (r = .8) for multi-word expressions. In Study 2, these findings were repeated for valence and arousal ratings of individual words, matching or outperforming previous AI models. Study 3 extended the prevalence and arousal analysis to multi-word expressions and showed promising results despite the lack of large-scale human benchmarks. These findings highlight the potential of LLMs for generating valuable psycholinguistic data related to multiword expressions. To help researchers with stimulus selection, we provide datasets with AI norms of concreteness, valence and arousal for 126,397 English single words and 63,680 multi-word expressions | 翻訳日:2024-09-01 16:32:17 公開日:2024-08-16 |
# 凸性に基づく音声表現モデルのプルーニング
Convexity-based Pruning of Speech Representation Models ( http://arxiv.org/abs/2408.11858v1 ) ライセンス: Link先を確認 | Teresa Dorszewski, Lenka Tětková, Lars Kai Hansen, | (参考訳) トランスフォーマーアーキテクチャをベースとし,自己教師付き学習によって訓練された音声表現モデルは,音声認識や話者認識,キーワードスポッティング,感情検出などのタスクを解く上で大きな可能性を示している。
一般的には、より大きなモデルによってパフォーマンスが向上する。
しかし、そのような大規模なトランスフォーマーシステムに関わる重要な計算努力は、組み込みおよび実世界のアプリケーションにとっての課題である。
近年の研究では、NLPの変圧器モデルには大きな冗長性があることが示されており、大規模層刈りは実現可能である(Sajjad et al , 2023)。
本稿では,音声モデルにおける層プルーニングについて検討する。
我々は凸度基準に基づいてプルーニングの判断を下す。
分類領域の凸性は、最近、NLPやオーディオを含む様々なアプリケーション領域において、その後の微調整性能の指標として提案されている。
実証的な調査では、一部のケースで性能や改善が失われることなく、計算作業が大幅に削減されることが判明した。
Speech representation models based on the transformer architecture and trained by self-supervised learning have shown great promise for solving tasks such as speech and speaker recognition, keyword spotting, emotion detection, and more. Typically, it is found that larger models lead to better performance. However, the significant computational effort involved in such large transformer systems is a challenge for embedded and real-world applications. Recent work has shown that there is significant redundancy in the transformer models for NLP and massive layer pruning is feasible (Sajjad et al., 2023). Here, we investigate layer pruning in audio models. We base the pruning decision on a convexity criterion. Convexity of classification regions has recently been proposed as an indicator of subsequent fine-tuning performance in a range of application domains, including NLP and audio. In empirical investigations, we find a massive reduction in the computational effort with no loss of performance or even improvements in certain cases. | 翻訳日:2024-08-23 18:26:17 公開日:2024-08-16 |
# 金融深層強化学習のためのグラディエント還元畳み込みニューラルネットワーク政策
Gradient Reduction Convolutional Neural Network Policy for Financial Deep Reinforcement Learning ( http://arxiv.org/abs/2408.11859v1 ) ライセンス: Link先を確認 | Sina Montazeri, Haseebullah Jumakhan, Sonia Abrasiabian, Amir Mirzaeinia, | (参考訳) 本稿では、金融データ処理のための畳み込みニューラルネットワーク(CNN)の以前の探索に基づいて、CNNモデルの予測性能と財務表データの堅牢性を改善するための2つの重要な拡張を紹介する。
まず、入力段階で正規化層を統合し、一貫した機能のスケーリングを保証する。
この修正は、トレーニングのダイナミクスを安定化し、さまざまな財務データセットにわたるモデルの一般化を改善するのに役立つと仮定されている。
第二に、グラディエント・リダクション・アーキテクチャ(Gradient Reduction Architecture)を採用しています。
この強化は、モデルがデータ内のより複雑で微妙なパターンをキャプチャできるようにするように設計されている。
これらの進歩は、金融アプリケーションに固有の複雑さと変動性に、より単純なモデルが苦戦する以前の研究で特定された制限に、直接反応する。
最初のテストでは、これらの変更によって精度とモデルの安定性が向上し、より深く、よりニュアンスの高いネットワークアーキテクチャが、金銭的な予測タスクに多大な恩恵をもたらすことが示唆された。
本稿では、これらの拡張の実装について詳述し、制御された実験環境でのモデルの性能への影響を評価する。
Building on our prior explorations of convolutional neural networks (CNNs) for financial data processing, this paper introduces two significant enhancements to refine our CNN model's predictive performance and robustness for financial tabular data. Firstly, we integrate a normalization layer at the input stage to ensure consistent feature scaling, addressing the issue of disparate feature magnitudes that can skew the learning process. This modification is hypothesized to aid in stabilizing the training dynamics and improving the model's generalization across diverse financial datasets. Secondly, we employ a Gradient Reduction Architecture, where earlier layers are wider and subsequent layers are progressively narrower. This enhancement is designed to enable the model to capture more complex and subtle patterns within the data, a crucial factor in accurately predicting financial outcomes. These advancements directly respond to the limitations identified in previous studies, where simpler models struggled with the complexity and variability inherent in financial applications. Initial tests confirm that these changes improve accuracy and model stability, suggesting that deeper and more nuanced network architectures can significantly benefit financial predictive tasks. This paper details the implementation of these enhancements and evaluates their impact on the model's performance in a controlled experimental setting. | 翻訳日:2024-08-23 18:26:17 公開日:2024-08-16 |
# リスクとNLP設計--手続き文書QAを事例として
Risks and NLP Design: A Case Study on Procedural Document QA ( http://arxiv.org/abs/2408.11860v1 ) ライセンス: Link先を確認 | Nikita Haduong, Alice Gao, Noah A. Smith, | (参考訳) NLPシステムが大規模に展開されるにつれて、その潜在的なネガティブな影響に対する懸念が研究コミュニティの注目を集めているが、リスクに関する議論は主に抽象的なレベルで、汎用AIやNLPアプリケーションに焦点を当てている。
より具体的なアプリケーションやユーザに対して分析を専門化すれば,ユーザに対するリスクや害に対する評価の明確化や,それらを緩和するための具体的な戦略の明確化が実現するのではないか,と私たちは主張する。
本論文は,創傷やアレルギー反応などのユーザに対して明確なリスクを負うプロシージャ文書質問応答法(ProcDocQA)を考案した。
ケーススタディでは、既存の言語モデルが「ゼロショット」モードで適用され、ウェブ上の質問に答えた人間よりもレシピに関する現実世界の質問に定量的に答えることが示されている。
AIリスクに関する理論的研究から得られた新しいアンケートを用いて、リスク指向のエラー分析を行い、リスクの低いリスクとより良いパフォーマンスでデプロイされる将来のシステムの設計を通知する。
As NLP systems are increasingly deployed at scale, concerns about their potential negative impacts have attracted the attention of the research community, yet discussions of risk have mostly been at an abstract level and focused on generic AI or NLP applications. We argue that clearer assessments of risks and harms to users--and concrete strategies to mitigate them--will be possible when we specialize the analysis to more concrete applications and their plausible users. As an illustration, this paper is grounded in cooking recipe procedural document question answering (ProcDocQA), where there are well-defined risks to users such as injuries or allergic reactions. Our case study shows that an existing language model, applied in "zero-shot" mode, quantitatively answers real-world questions about recipes as well or better than the humans who have answered the questions on the web. Using a novel questionnaire informed by theoretical work on AI risk, we conduct a risk-oriented error analysis that could then inform the design of a future system to be deployed with lower risk of harm and better performance. | 翻訳日:2024-08-23 18:26:17 公開日:2024-08-16 |
# 同じ言葉を語る - AIのための臨床データの標準化におけるLLMの活用
Speaking the Same Language: Leveraging LLMs in Standardizing Clinical Data for AI ( http://arxiv.org/abs/2408.11861v1 ) ライセンス: Link先を確認 | Arindam Sett, Somaye Hashemifar, Mrunal Yadav, Yogesh Pandit, Mohsen Hejrati, | (参考訳) 医療産業における人工知能(AI)の導入は、臨床結果の将来的な向上、優れた医療へのアクセスの拡大、コスト削減、患者の満足度の向上など、大きな注目を集めている。
それでも、持続する主要なハードルは、アクセス可能なマルチモーダル医療データの品質と、AI方法論の進化に関連している。
本研究は、医療データの標準化など、特定の課題に対処するため、大規模言語モデルの採用を念頭においている。
我々は、これらのモデルを用いて臨床データスキーマを、ファストヘルスケア相互運用性リソースのような確立されたデータ標準属性に識別し、マッピングすることを提唱する。
この結果から,大規模言語モデルを用いることで,手作業によるデータキュレーションの必要性が大幅に低減され,データ標準化プロセスの有効性が向上することが示唆された。
その結果、提案手法は、医療におけるAIの統合を迅速化し、患者のケアの質を向上させるとともに、AIのためのデータ作成に必要な時間と資金を最小化することができる。
The implementation of Artificial Intelligence (AI) in the healthcare industry has garnered considerable attention, attributable to its prospective enhancement of clinical outcomes, expansion of access to superior healthcare, cost reduction, and elevation of patient satisfaction. Nevertheless, the primary hurdle that persists is related to the quality of accessible multi-modal healthcare data in conjunction with the evolution of AI methodologies. This study delves into the adoption of large language models to address specific challenges, specifically, the standardization of healthcare data. We advocate the use of these models to identify and map clinical data schemas to established data standard attributes, such as the Fast Healthcare Interoperability Resources. Our results illustrate that employing large language models significantly diminishes the necessity for manual data curation and elevates the efficacy of the data standardization process. Consequently, the proposed methodology has the propensity to expedite the integration of AI in healthcare, ameliorate the quality of patient care, whilst minimizing the time and financial resources necessary for the preparation of data for AI. | 翻訳日:2024-08-23 18:26:17 公開日:2024-08-16 |
# 相対論的量子力学と量子重力における位相時間とエレンフェストの定理
Phase time and Ehrenfest's theorem in relativistic quantum mechanics and quantum gravity ( http://arxiv.org/abs/2408.08953v1 ) ライセンス: Link先を確認 | Leonardo Chataignier, | (参考訳) 我々は、これまで量子重力における時間問題の解として提案されてきた位相時間の概念を再考する。
具体的には、宇宙の波動関数の位相とともに構成空間の幾何学が、ある条件下では、確率が定義できる正定値内積の定義につながることを示す。
このノルムは時間発展の下で保存され、通常の量子力学のものと類似したエレンフェストの定理のバージョンを得る。
この手法は、相対論的量子力学と正準量子重力の文脈において、位相時間と相対的なエレンフェスト定理を定義するための以前の試みで遭遇したいくつかの困難を回避し、それが内部積のゲージ固定の概念とどのように結びついているかに対処する。
短い見通しで締めくくります。
We revisit the concept of phase time, which has been previously proposed as a solution to the problem of time in quantum gravity. Concretely, we show how the geometry of configuration space together with the phase of the wave function of the universe can, under certain conditions, lead to the definition of a positive-definite inner product from which probabilities can be defined. The norm is conserved under time evolution, and we obtain a version of Ehrenfest's theorem that is analogous to the one in ordinary quantum mechanics. We address how the present approach avoids some difficulties that were encountered in previous attempts at defining an Ehrenfest theorem relative to phase time in the context of relativistic quantum mechanics and canonical quantum gravity, and how it is connected to a notion of gauge fixing the inner product. We conclude with a brief outlook. | 翻訳日:2024-08-21 18:50:03 公開日:2024-08-16 |
# 分散カーネルに基づく量子機械学習
Distributed and Secure Kernel-Based Quantum Machine Learning ( http://arxiv.org/abs/2408.10265v1 ) ライセンス: Link先を確認 | Arjhun Swaminathan, Mete Akgün, | (参考訳) 量子コンピューティングは機械学習に革命をもたらすことを約束し、クラスタリングや距離推定といったタスクにおいて、大幅な効率向上を提供する。
さらに、量子テレポーテーションや量子鍵分布といったセキュアなプロトコルを可能にするため、測定仮定や非閉鎖定理といった基本原理を通じてセキュリティを強化している。
セキュアな量子機械学習の進歩は注目に値するが、カーネルベースの機械学習技術のセキュアで分散的な量子アナログの開発はいまだに未調査である。
本研究では,データ分散時の多項式,ラジアル基底関数(RBF),ラプラシアカーネルなどの共通カーネルを量子特徴写像を用いてセキュアに計算する手法を提案する。
本手法では,セキュアで分散的なカーネル学習を実現するために,量子テレポーテーションを利用する堅牢なフレームワークを提案する。
提案したアーキテクチャは、IBMのQiskit Aer Simulatorを使って、さまざまな公開データセットで検証されている。
Quantum computing promises to revolutionize machine learning, offering significant efficiency gains in tasks such as clustering and distance estimation. Additionally, it provides enhanced security through fundamental principles like the measurement postulate and the no-cloning theorem, enabling secure protocols such as quantum teleportation and quantum key distribution. While advancements in secure quantum machine learning are notable, the development of secure and distributed quantum analogues of kernel-based machine learning techniques remains underexplored. In this work, we present a novel approach for securely computing common kernels, including polynomial, radial basis function (RBF), and Laplacian kernels, when data is distributed, using quantum feature maps. Our methodology introduces a robust framework that leverages quantum teleportation to ensure secure and distributed kernel learning. The proposed architecture is validated using IBM's Qiskit Aer Simulator on various public datasets. | 翻訳日:2024-08-21 18:28:07 公開日:2024-08-16 |
# 計画のための拡散モデル:体系的文献レビュー
Diffusion Model for Planning: A Systematic Literature Review ( http://arxiv.org/abs/2408.10266v1 ) ライセンス: Link先を確認 | Toshihide Ubukata, Jialong Li, Kenji Tei, | (参考訳) 複雑なデータ分布を効果的に捉えるために確率過程を利用する拡散モデルは、それらの性能を生成モデルとして示しており、反復的復調過程を通じて画像関連タスクにおいて顕著な成功を収めている。
近年、拡散モデルがさらに適用され、計画作業における強力な能力を示し、2023年以降、関連する出版物が著しい成長を遂げている。
本研究は,フィールドの理解を深め,フィールドの開発を促進するために,近年の拡散モデルの計画への応用に関する体系的な文献レビューを行う。
具体的には、以下の観点から、現在の文献を分類し、論じる。
一 拡散モデルに基づく計画の評価に使用する関連するデータセット及びベンチマーク
二 サンプリング効率等の側面に対処する基礎研究
三 適応性を高めるための技能中心及び条件誘導計画
四 安全性及び堅牢性を高めるための安全及び不確実性管理機構
(v)自律運転のようなドメイン固有のアプリケーション。
最後に,本分野における課題と今後の方向性について考察する。
Diffusion models, which leverage stochastic processes to capture complex data distributions effectively, have shown their performance as generative models, achieving notable success in image-related tasks through iterative denoising processes. Recently, diffusion models have been further applied and show their strong abilities in planning tasks, leading to a significant growth in related publications since 2023. To help researchers better understand the field and promote the development of the field, we conduct a systematic literature review of recent advancements in the application of diffusion models for planning. Specifically, this paper categorizes and discusses the current literature from the following perspectives: (i) relevant datasets and benchmarks used for evaluating diffusion modelbased planning; (ii) fundamental studies that address aspects such as sampling efficiency; (iii) skill-centric and condition-guided planning for enhancing adaptability; (iv) safety and uncertainty managing mechanism for enhancing safety and robustness; and (v) domain-specific application such as autonomous driving. Finally, given the above literature review, we further discuss the challenges and future directions in this field. | 翻訳日:2024-08-21 18:28:07 公開日:2024-08-16 |
# IoT DDoS攻撃検出のための機械学習の効率化に向けて
Towards Efficient Machine Learning Method for IoT DDoS Attack Detection ( http://arxiv.org/abs/2408.10267v1 ) ライセンス: Link先を確認 | P Modi, | (参考訳) IoTデバイスとそのユーザの増加に伴い、IoTのセキュリティは、有害なセキュリティ攻撃から保護されることを確実にする、という大きな関心事になっている。
近年、IoTデバイスでは、DDoS攻撃のさまざまなバリエーションが増加している。
DDoS攻撃を適切なタイミングで検出できないと、被害者の組織に金銭的および評判が損なわれる可能性がある。
IoTデバイスで実行されるこれらの攻撃は、インターネット上で実行されるアプリケーションの大幅なダウンタイムを引き起こす可能性がある。
研究者は、人工知能技術を用いて専門モデルを開発し、利用してきたが、これらのモデルは、100%の精度に到達するまで常に改善の範囲があるため、最良の精度を提供していない。
本稿では,最も有用な特徴のみを選択し,それらの特徴をXGBoostモデルに渡すハイブリッド特徴選択アルゴリズムを提案する。
私たちのモデルは、CIC IDS 2017データセットで99.993%の精度、CIC IoT 2023データセットで97.64%のリコールを実現しています。
全体として、この研究は、より正確で同等のモデルを提供することで、IoT DDoS攻撃を検出する分野の研究者や実装者に役立つだろう。
With the rise in the number of IoT devices and its users, security in IoT has become a big concern to ensure the protection from harmful security attacks. In the recent years, different variants of DDoS attacks have been on the rise in IoT devices. Failure to detect DDoS attacks at the right time can result in financial and reputational loss for victim organizations. These attacks conducted with IoT devices can cause a significant downtime of applications running on the Internet. Although researchers have developed and utilized specialized models using artificial intelligence techniques, these models do not provide the best accuracy as there is always a scope of improvement until 100% accuracy is attained. We propose a hybrid feature selection algorithm that selects only the most useful features and passes those features into an XGBoost model, the results of which are explained using feature importances. Our model attains an accuracy of 99.993% on the CIC IDS 2017 dataset and a recall of 97.64 % on the CIC IoT 2023 dataset. Overall, this research would help researchers and implementers in the field of detecting IoT DDoS attacks by providing a more accurate and comparable model. | 翻訳日:2024-08-21 18:28:07 公開日:2024-08-16 |
# 大規模言語モデルを用いたストリームライナーのリアルタイム生成
Realtime Generation of Streamliners with Large Language Models ( http://arxiv.org/abs/2408.10268v1 ) ライセンス: Link先を確認 | Florentina Voboril, Vaidyanathan Peruvemba Ramaswamy, Stefan Szeider, | (参考訳) 本稿では,Large Language Models (LLM) を用いた制約プログラミングにおいて,ストリームライナーを生成する新しい手法StreamLLMを提案する。
ストリームライナーは、検索スペースを狭め、複雑な問題を解決するスピードと実現可能性を高める制約である。
伝統的に、ストリームライナーは手動で作成されるか、体系的に結合された原子制約と高効率のオフラインテストによって生成される。
提案手法では, LLM を用いて効率的なストリームライナーを提案する。
当社のシステムStreamLLMは,MiniZinc制約言語で指定された問題の合理化を図り,LLMへのフィードバックを高速な経験的テストと統合する。
数百のテストインスタンスを含む10の問題を含む厳密な経験的評価は、制約プログラミングの領域におけるLLMの変換能力を示す、非常に励みやすい結果を示している。
This paper presents the novel method StreamLLM for generating streamliners in constraint programming using Large Language Models (LLMs). Streamliners are constraints that narrow the search space, enhancing the speed and feasibility of solving complex problems. Traditionally, streamliners were crafted manually or generated through systematically combined atomic constraints with high-effort offline testing. Our approach uses LLMs to propose effective streamliners. Our system StreamLLM generates streamlines for problems specified in the MiniZinc constraint programming language and integrates feedback to the LLM with quick empirical tests. Our rigorous empirical evaluation involving ten problems with several hundreds of test instances shows robust results that are highly encouraging, showcasing the transforming power of LLMs in the domain of constraint programming. | 翻訳日:2024-08-21 18:28:07 公開日:2024-08-16 |
# OpenCity: 交通予測のためのオープン時空間基盤モデル
OpenCity: Open Spatio-Temporal Foundation Models for Traffic Prediction ( http://arxiv.org/abs/2408.10269v1 ) ライセンス: Link先を確認 | Zhonghang Li, Long Xia, Lei Shi, Yong Xu, Dawei Yin, Chao Huang, | (参考訳) 正確な交通予測は、効率的な都市計画と交通管理に不可欠であり、効率的な資源配分と旅行体験の向上を可能にする。
しかし、既存のモデルは一般化の限界に直面し、目に見えない地域や都市でゼロショットの予測に苦慮し、長期的な精度は低下した。
これは主に、交通データの空間的および時間的不均一性を扱う際の固有の課題と、時間と空間間の大きな分散シフトによるものである。
本研究では,交通予測のための汎用性,弾力性,適応性を備えた時空間基礎モデルを構築するための新たな可能性の開拓を目指す。
この目的を達成するために、我々はOpenCityという新しい基盤モデルを導入し、多様なデータ特性から基礎となる時空間パターンを効果的に捕捉し、正規化し、多様な都市環境におけるゼロショットの一般化を容易にする。
OpenCityはTransformerアーキテクチャとグラフニューラルネットワークを統合して、トラフィックデータの複雑な時空間依存性をモデル化する。
大規模で異種なトラフィックデータセット上でOpenCityを事前学習することにより、幅広いトラフィック予測シナリオにシームレスに適用可能な、リッチで一般化可能な表現を学習することができる。
実験の結果,OpenCityは異常なゼロショット予測性能を示した。
さらにOpenCityは、有望なスケーリング法則を示し、最小限のオーバーヘッドで新しい都市環境に適応可能な、真の1対1のトラフィック予測ソリューションを開発する可能性を示唆している。
提案したOpenCityモデルをオープンソースにしました。
Accurate traffic forecasting is crucial for effective urban planning and transportation management, enabling efficient resource allocation and enhanced travel experiences. However, existing models often face limitations in generalization, struggling with zero-shot prediction on unseen regions and cities, as well as diminished long-term accuracy. This is primarily due to the inherent challenges in handling the spatial and temporal heterogeneity of traffic data, coupled with the significant distribution shift across time and space. In this work, we aim to unlock new possibilities for building versatile, resilient and adaptive spatio-temporal foundation models for traffic prediction. To achieve this goal, we introduce a novel foundation model, named OpenCity, that can effectively capture and normalize the underlying spatio-temporal patterns from diverse data characteristics, facilitating zero-shot generalization across diverse urban environments. OpenCity integrates the Transformer architecture with graph neural networks to model the complex spatio-temporal dependencies in traffic data. By pre-training OpenCity on large-scale, heterogeneous traffic datasets, we enable the model to learn rich, generalizable representations that can be seamlessly applied to a wide range of traffic forecasting scenarios. Experimental results demonstrate that OpenCity exhibits exceptional zero-shot predictive performance. Moreover, OpenCity showcases promising scaling laws, suggesting the potential for developing a truly one-for-all traffic prediction solution that can adapt to new urban contexts with minimal overhead. We made our proposed OpenCity model open-source and it is available at the following link: https://github.com/HKUDS/OpenCity. | 翻訳日:2024-08-21 18:28:07 公開日:2024-08-16 |
# SEAL: 価値アライメントのための体系的エラー解析
SEAL: Systematic Error Analysis for Value ALignment ( http://arxiv.org/abs/2408.10270v1 ) ライセンス: Link先を確認 | Manon Revel, Matteo Cargnelutti, Tyna Eloundou, Greg Leppert, | (参考訳) Reinforcement Learning from Human Feedback (RLHF) は、言語モデル(LM)を2進選好に基づいてトレーニングし、これらのRMを用いて基本LMを微調整することで、人間の価値に合わせることを目的としている。
その重要性にもかかわらず、RLHFの内部機構はよく分かっていない。
本稿では,人的価値,すなわち特徴インプリント,アライメント抵抗,アライメントロバストネスのモデル化とアライメントの有効性を評価するための新しい指標を提案する。
データセットを対象の特徴(望まれる値)とスポイラー特徴(望ましくない概念)に分類する。
これらの特徴に対してRMスコアを回帰することにより、RMがそれらにどのような報酬を与えるかを定量化します。
本研究では, RMが人間の嗜好と一致しない選好データセットの比率としてアライメント抵抗を定義し, 摂動入力に対するRM応答を分析してアライメントロバスト性を評価する。
Anthropic/hh-rlhf 選好データセットや OpenAssistant RM などのオープンソースコンポーネントを用いた実験により,ターゲット特徴の顕著なインプリントと,スポイラー特徴に対する顕著な感度が明らかになった。
LM-labelers がヒトの嗜好に反する部分のアライメント抵抗が 26% の頻度で観測された。
さらに、アライメントデータセット内のあいまいなエントリから、不整合が生じることも少なくない。
これらの結果は、価値アライメントをより深く理解するために、RMとアライメントデータセットの両方を精査することの重要性を強調している。
Reinforcement Learning from Human Feedback (RLHF) aims to align language models (LMs) with human values by training reward models (RMs) on binary preferences and using these RMs to fine-tune the base LMs. Despite its importance, the internal mechanisms of RLHF remain poorly understood. This paper introduces new metrics to evaluate the effectiveness of modeling and aligning human values, namely feature imprint, alignment resistance and alignment robustness. We categorize alignment datasets into target features (desired values) and spoiler features (undesired concepts). By regressing RM scores against these features, we quantify the extent to which RMs reward them - a metric we term feature imprint. We define alignment resistance as the proportion of the preference dataset where RMs fail to match human preferences, and we assess alignment robustness by analyzing RM responses to perturbed inputs. Our experiments, utilizing open-source components like the Anthropic/hh-rlhf preference dataset and OpenAssistant RMs, reveal significant imprints of target features and a notable sensitivity to spoiler features. We observed a 26% incidence of alignment resistance in portions of the dataset where LM-labelers disagreed with human preferences. Furthermore, we find that misalignment often arises from ambiguous entries within the alignment dataset. These findings underscore the importance of scrutinizing both RMs and alignment datasets for a deeper understanding of value alignment. | 翻訳日:2024-08-21 18:28:07 公開日:2024-08-16 |
# データ駆動型火災モデリング - ニューラルネットワークによる最初の順序時間とモデルパラメータの学習
Data-Driven Fire Modeling: Learning First Arrival Times and Model Parameters with Neural Networks ( http://arxiv.org/abs/2408.10271v1 ) ライセンス: Link先を確認 | Xin Tong, Bryan Quaife, | (参考訳) データ駆動技術は、ファイアサイエンスにおける物理ベースのモデルを補完するためにますます応用されている。
しかし、十分な量のデータセットが不足しているため、特定の機械学習技術の適用が妨げられ続けている。
本稿では、シミュレーションデータを用いて、火災科学のダイナミクスをパラメータ化するためのニューラルネットワークの能力について検討する。
特に,火災時の5つのキーパラメータを最初の到着時刻にマップするニューラルネットワークと,それに対応する逆問題について検討する。
シミュレーションデータを使用することで、エラー、必要なデータセットサイズ、ニューラルネットワークの収束特性を特徴付けることができる。
逆問題に対して、各キーパラメータを推定する際のネットワークの感度を定量化する。
この発見は、ファイアサイエンスにおける機械学習の可能性を示し、限られたデータセットサイズに関連する課題を強調し、ニューラルネットワークの感度を定量化し、ファイアスプレッドダイナミックスを管理する主要なパラメータを推定する。
Data-driven techniques are being increasingly applied to complement physics-based models in fire science. However, the lack of sufficiently large datasets continues to hinder the application of certain machine learning techniques. In this paper, we use simulated data to investigate the ability of neural networks to parameterize dynamics in fire science. In particular, we investigate neural networks that map five key parameters in fire spread to the first arrival time, and the corresponding inverse problem. By using simulated data, we are able to characterize the error, the required dataset size, and the convergence properties of these neural networks. For the inverse problem, we quantify the network's sensitivity in estimating each of the key parameters. The findings demonstrate the potential of machine learning in fire science, highlight the challenges associated with limited dataset sizes, and quantify the sensitivity of neural networks to estimate key parameters governing fire spread dynamics. | 翻訳日:2024-08-21 18:28:07 公開日:2024-08-16 |
# 遺伝的データ解析のための条件付き階層型ベイズタッカー分解
Conditional Hierarchical Bayesian Tucker Decomposition for Genetic Data Analysis ( http://arxiv.org/abs/1911.12426v7 ) ライセンス: Link先を確認 | Adam Sandler, Diego Klabjan, Yuan Luo, | (参考訳) 我々は、大規模で多次元のスパースカウントデータセットを分析し、遺伝的データに対するユニークな洞察を提供するために教師なしのグループを見つける。
本研究は,4種類のがん(乳癌,肺がん,前立腺がん,大腸癌)と自閉症スペクトラム障害の共通危険因子を見つけるために,患者の変異に基づく遺伝子および生物学的経路群を作成する。
そこで我々は,遅延ディリクレ割り当てを複数の次元に拡張し,階層的トピックモデリングのための異なる手法を設計する。
条件付き階層的ベイズ・タッカー分解モデルはベースラインモデルよりも一貫性が高い。
We analyze large, multi-dimensional, sparse counting data sets, finding unsupervised groups to provide unique insights into genetic data. We create gene and biological pathway groups based on patients' variants to find common risk factors for four common types of cancer (breast, lung, prostate, and colorectal) and autism spectrum disorder. To accomplish this, we extend latent Dirichlet allocation to multiple dimensions and design distinct methods for hierarchical topic modeling. We find that our conditional hierarchical Bayesian Tucker decomposition models are more coherent than baseline models. | 翻訳日:2024-08-21 06:51:56 公開日:2024-08-16 |
# 大きな空間次元における非線形波動伝播と黒体熱法則
Nonlinear wave propagation in large extra spatial dimensions and the blackbody thermal laws ( http://arxiv.org/abs/2308.02685v2 ) ライセンス: Link先を確認 | I. Soares, R. Turcati, S. B. Duarte, | (参考訳) 大きな余剰空間次元における非線形波動伝搬(d=2$以上)は、不変の $\mathcal{F}\left(=-(1/4)F_{\mu\nu}F^{\mu\nu}\right)$ にのみ依存する非線形電磁力学理論の文脈で研究される。
本報では,外部の均一電場および磁場の影響下での伝搬波について考察する。
スペクトルエネルギー密度分布の一般化やステファン・ボルツマン法則などの背景定数電場の存在下での黒体放射に関する特徴を得る。
興味深いことに、周波数スペクトルに対する異方性的な寄与は、電磁場の非線形性に関連して現れる。
また、この状況下での長波長状態とWienの変位法について検討した。
エネルギー、圧力、エントロピー、熱容量密度などの熱平衡における対応する熱力学量についても考察する。
Nonlinear wave propagation in large extra spatial dimensions (on and above $d=2$) is investigated in the context of nonlinear electrodynamics theories that depend exclusively on the invariant $\mathcal{F}\left(=-(1/4)F_{\mu\nu}F^{\mu\nu}\right)$. In this vein, we consider propagating waves under the influence of external uniform electric and magnetic fields. Features related to the blackbody radiation in the presence of a background constant electric field such as the generalization of the spectral energy density distribution and the Stefan-Boltzmann law are obtained. Interestingly enough, anisotropic contributions to the frequency spectrum appear in connection to the nonlinearity of the electromagnetic field. In addition, the long wavelength regime and Wien's displacement law in this situation are studied. The corresponding thermodynamics quantities at thermal equilibrium, such as energy, pressure, entropy, and heat capacity densities are contemplated as well. | 翻訳日:2024-08-21 04:26:45 公開日:2024-08-16 |
# プログラム構造を考慮した事前条件生成
Program Structure Aware Precondition Generation ( http://arxiv.org/abs/2310.02154v2 ) ライセンス: Link先を確認 | Elizabeth Dinella, Shuvendu Lahiri, Mayur Naik, | (参考訳) コードから自然条件を推定するための新しい手法を提案する。
本手法は, 精度(試験生成器のモジュロ)と自然さの両面から, 高品質なプレコンディションを生成する。
先行研究は、ブール述語の組み合わせによって、スクラッチからプレコンディションを生成するが、読みやすさと理解の容易さに欠ける。
私たちのイノベーションは、プログラム変換を通じて事前条件を推論するために、ターゲットメソッドの構造をシードとして活用することにあります。
評価の結果,本手法を用いて推定した前提条件に対して,人間がより容易に推論できることが示唆された。
最後に、我々のテクニックを大規模に適用可能なフレームワークにインスタンス化する。
実世界の87のプロジェクトにフレームワークを適用することで,約18kのJava(メソッド,プレコンディション)ペアのデータセットを提示する。
我々はこのデータセットを用いて、我々のアプローチを評価し、事前条件推論における将来の研究に役立つ洞察を引き出す。
We introduce a novel approach for inferring natural preconditions from code. Our technique produces preconditions of high quality in terms of both correctness (modulo a test generator) and naturalness. Prior works generate preconditions from scratch through combinations of boolean predicates, but fall short in readability and ease of comprehension. Our innovation lies in, instead, leveraging the structure of a target method as a seed to infer a precondition through program transformations. Our evaluation shows that humans can more easily reason over preconditions inferred using our approach. Lastly, we instantiate our technique into a framework which can be applied at scale. We present a dataset of ~18k Java (method, precondition) pairs obtained by applying our framework to 87 real-world projects. We use this dataset to both evaluate our approach and draw useful insights for future research in precondition inference. | 翻訳日:2024-08-21 04:16:54 公開日:2024-08-16 |
# 細胞複合体のガウス過程
Gaussian Processes on Cellular Complexes ( http://arxiv.org/abs/2311.01198v2 ) ライセンス: Link先を確認 | Mathieu Alain, So Takao, Brooks Paige, Marc Peter Deisenroth, | (参考訳) 近年、トポロジ的帰納バイアスを考慮したグラフ上の機械学習モデルの開発にかなりの関心が寄せられている。
特に、これらの構造上のガウス過程には、不確実性も考慮できるため、近年注目されている。
しかし、グラフは2つの頂点間の関係のモデル化に限られる。
本稿では、この二進的設定を超えて、頂点、辺、およびセルとして知られる一般化の1つの間の相互作用を含む多進的関係を考察する。
具体的には、これらの高次セル間の相互作用を捉えるグラフの一般化である、細胞複合体上のガウス過程を提案する。
私たちの重要な貢献の1つは、2つの新しいカーネルの導出である。1つはグラフ Mat\'ern カーネルを一般化し、もう1つは異なる細胞型の情報をさらに混合する。
In recent years, there has been considerable interest in developing machine learning models on graphs to account for topological inductive biases. In particular, recent attention has been given to Gaussian processes on such structures since they can additionally account for uncertainty. However, graphs are limited to modelling relations between two vertices. In this paper, we go beyond this dyadic setting and consider polyadic relations that include interactions between vertices, edges and one of their generalisations, known as cells. Specifically, we propose Gaussian processes on cellular complexes, a generalisation of graphs that captures interactions between these higher-order cells. One of our key contributions is the derivation of two novel kernels, one that generalises the graph Mat\'ern kernel and one that additionally mixes information of different cell types. | 翻訳日:2024-08-21 04:07:00 公開日:2024-08-16 |
# Reward ModelはMitigateをアンサンブルするが、Rewardのハッキングを排除しない
Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate Reward Hacking ( http://arxiv.org/abs/2312.09244v3 ) ライセンス: Link先を確認 | Jacob Eisenstein, Chirag Nagpal, Alekh Agarwal, Ahmad Beirami, Alex D'Amour, DJ Dvijotham, Adam Fisch, Katherine Heller, Stephen Pfohl, Deepak Ramachandran, Peter Shaw, Jonathan Berant, | (参考訳) リワードモデルは、言語モデルアプリケーションを人間の好みに合わせる上で重要な役割を果たす。
しかし、この設定は、高い推定報酬を達成するために報酬モデルにおけるエラーを利用する言語モデルにインセンティブを与え、これはしばしば「emph{reward hacking}」と呼ばれる現象である。
自然な緩和とは、報酬モデルの集合を訓練し、より堅牢な報酬推定を得るためにモデル出力を集約することである。
トレーニング時間(強化学習)と推論時間(再評価)の両方でアライメントに報酬アンサンブルを適用する方法について検討する。
まず、報酬モデルが \emph{underspecified} であることが示される: 分布シフトによってアライメントで使用する場合、同様に分配される報酬モデルは非常に異なる報酬が得られる。
第二に、不特定性は過度に最適化され、1つの報酬モデルへのアライメントは、同じデータでトレーニングされた別の報酬モデルによって測定される報酬を改善することはない。
第3に、報酬アンサンブルの使用により過最適化が緩和され、それらの「emph{pretraining}」シードによって変化するアンサンブルは、それらの「emph{fine-tuning"シードによってのみ異なるアンサンブルよりも、より一般化される。
しかし、事前訓練された報酬のアンサンブルでさえ、報酬のハッキングを排除していない:我々は、アンサンブルのすべての報酬モデルが同様のエラーパターンを示すため、アンサンブルによって緩和されないいくつかの質的な報酬のハッキング現象を示す。
Reward models play a key role in aligning language model applications towards human preferences. However, this setup creates an incentive for the language model to exploit errors in the reward model to achieve high estimated reward, a phenomenon often termed \emph{reward hacking}. A natural mitigation is to train an ensemble of reward models, aggregating over model outputs to obtain a more robust reward estimate. We explore the application of reward ensembles to alignment at both training time (through reinforcement learning) and inference time (through reranking). First, we show that reward models are \emph{underspecified}: reward models that perform similarly in-distribution can yield very different rewards when used in alignment, due to distribution shift. Second, underspecification results in overoptimization, where alignment to one reward model does not improve reward as measured by another reward model trained on the same data. Third, overoptimization is mitigated by the use of reward ensembles, and ensembles that vary by their \emph{pretraining} seeds lead to better generalization than ensembles that differ only by their \emph{fine-tuning} seeds, with both outperforming individual reward models. However, even pretrain reward ensembles do not eliminate reward hacking: we show several qualitative reward hacking phenomena that are not mitigated by ensembling because all reward models in the ensemble exhibit similar error patterns. | 翻訳日:2024-08-21 03:57:15 公開日:2024-08-16 |
# G-SciEdBERT:ドイツにおける科学評価のための文脈的LLM
G-SciEdBERT: A Contextualized LLM for Science Assessment Tasks in German ( http://arxiv.org/abs/2402.06584v2 ) ライセンス: Link先を確認 | Ehsan Latif, Gyeong-Geon Lee, Knut Neumann, Tamara Kastorff, Xiaoming Zhai, | (参考訳) 自然言語処理の進歩は、ドイツ語 (eg , German BERT [G-BERT]) など、様々な言語における自動スコアリングシステムへの道を開いた。
ドイツ語で書かれた質問に対する自動的な回答は複雑な作業であり、科学領域における文脈的知識が欠如しており、学生の書き方と整合していないため、標準のG-BERTでは困難である。
本稿は,ドイツ科学教育の文脈化のための言語モデルであるG-SciEdBERT(G-SciEdBERT)について述べる。
G-BERTを用いて,G-SciEdBERTを,国際学生評価プログラム(PISA)2018上で,3Mトークンを用いた30万のドイツ語書記科学応答コーパスで事前訓練した。
我々はG-SciEdBERTを2Mトークンで20Kの学生書き起こしで微調整し,評価精度について検討した。
そして、スコアパフォーマンスをG-BERTと比較した。
G-SciEdBERTでは,G-BERTに比べて2次重み付きKappaが10.2%増加した(平均差0.1026,SD=0.069)。
これらの洞察は、文脈化された自動スコアリングの精度を高めるために訓練された、G-SciEdBERTのような特殊言語モデルの重要性を浮き彫りにしている。
The advancement of natural language processing has paved the way for automated scoring systems in various languages, such as German (e.g., German BERT [G-BERT]). Automatically scoring written responses to science questions in German is a complex task and challenging for standard G-BERT as they lack contextual knowledge in the science domain and may be unaligned with student writing styles. This paper presents a contextualized German Science Education BERT (G-SciEdBERT), an innovative large language model tailored for scoring German-written responses to science tasks and beyond. Using G-BERT, we pre-trained G-SciEdBERT on a corpus of 30K German written science responses with 3M tokens on the Programme for International Student Assessment (PISA) 2018. We fine-tuned G-SciEdBERT on an additional 20K student-written responses with 2M tokens and examined the scoring accuracy. We then compared its scoring performance with G-BERT. Our findings revealed a substantial improvement in scoring accuracy with G-SciEdBERT, demonstrating a 10.2% increase of quadratic weighted Kappa compared to G-BERT (mean difference = 0.1026, SD = 0.069). These insights underline the significance of specialized language models like G-SciEdBERT, which is trained to enhance the accuracy of contextualized automated scoring, offering a substantial contribution to the field of AI in education. | 翻訳日:2024-08-21 03:47:26 公開日:2024-08-16 |
# マルチエージェントコラボレーションによるフェアネス監査
Fairness Auditing with Multi-Agent Collaboration ( http://arxiv.org/abs/2402.08522v3 ) ライセンス: Link先を確認 | Martijn de Vos, Akash Dhasade, Jade Garcia Bourrée, Anne-Marie Kermarrec, Erwan Le Merrer, Benoit Rottembourg, Gilles Tredan, | (参考訳) 公正監査における既存の作業は、各監査が独立して実行されることを前提としている。
本稿では,複数のエージェントが協調して作業し,それぞれが異なるタスクに対して同じプラットフォームを監査する。
エージェントは、協調戦略と適切なデータポイントを抽出する戦略の2つのレバーを持っている。
これらのレバーの相互作用を理論的に比較する。
私たちの主な発見は
(i)コラボレーションは一般に正確な監査に有用である。
二 基本サンプリング方法が有効であることがしばしば証明され、
3)質問に対する広範囲な調整は,エージェントの数が増加するにつれて,監査の精度が低下することが多い。
3つの大きなデータセットの実験は、我々の理論的結果を確認します。
本研究は,意思決定にMLモデルを使用するプラットフォームの公正度監査において,協調を動機づけるものである。
Existing work in fairness auditing assumes that each audit is performed independently. In this paper, we consider multiple agents working together, each auditing the same platform for different tasks. Agents have two levers: their collaboration strategy, with or without coordination beforehand, and their strategy for sampling appropriate data points. We theoretically compare the interplay of these levers. Our main findings are that (i) collaboration is generally beneficial for accurate audits, (ii) basic sampling methods often prove to be effective, and (iii) counter-intuitively, extensive coordination on queries often deteriorates audits accuracy as the number of agents increases. Experiments on three large datasets confirm our theoretical results. Our findings motivate collaboration during fairness audits of platforms that use ML models for decision-making. | 翻訳日:2024-08-21 03:37:26 公開日:2024-08-16 |
# テキストデータストリームにおけるドリフトハッシュタグの時間的解析:グラフベースアプリケーション
Temporal Analysis of Drifting Hashtags in Textual Data Streams: A Graph-Based Application ( http://arxiv.org/abs/2402.10230v2 ) ライセンス: Link先を確認 | Cristiano M. Garcia, Alceu de Souza Britto Jr, Jean Paul Barddal, | (参考訳) Twitterが最初にサポートしたハッシュタグは、今では複数のソーシャルメディアプラットフォームで使われている。
ハッシュタグは、類似トピックのタグ付け、トラッキング、グループ化に役立ちます。
本稿では,ハッシュタグ#mybodymychoiceに関するハッシュタグストリームに基づいて,2018年から2022年にかけての年次スナップショットにおけるハッシュタグコミュニティを明らかにするために,Girvan-Newman法を用いて,グラフ解析とテキストデータストリームの概念を用いてハッシュタグドリフトを経時的に分析する。
また,本研究で発見されたハッシュタグの関連性についても考察した。
我々のアプローチは、ソーシャルメディア上のエンティティに関する意見や感情パターンの変化を、時間とともに監視するのに有用である。
ハッシュタグ#mybodymychoiceは、当初は女性の権利、中絶、身体自治と結びついていたが、我々は、薬物の合法化、予防接種、政治抗議、戦争、公民権など、研究期間中に漂流したことを観察した。
2021年は、コミュニティが発見し、それぞれのサイズから、#mybodymychoiceがワクチン接種やコビッド19関連のトピックに顕著な流れがあったことが示唆された、最も重要な漂流年であった。
Initially supported by Twitter, hashtags are now used on several social media platforms. Hashtags are helpful for tagging, tracking, and grouping posts on similar topics. In this paper, based on a hashtag stream regarding the hashtag #mybodymychoice, we analyze hashtag drifts over time using concepts from graph analysis and textual data streams using the Girvan-Newman method to uncover hashtag communities in annual snapshots between 2018 and 2022. In addition, we offer insights about some correlated hashtags found in the study. Our approach can be useful for monitoring changes over time in opinions and sentiment patterns about an entity on social media. Even though the hashtag #mybodymychoice was initially coupled with women's rights, abortion, and bodily autonomy, we observe that it suffered drifts during the studied period across topics such as drug legalization, vaccination, political protests, war, and civil rights. The year 2021 was the most significant drifting year, in which the communities detected and their respective sizes suggest that #mybodymychoice had a significant drift to vaccination and Covid-19-related topics. | 翻訳日:2024-08-21 03:37:26 公開日:2024-08-16 |
# DyCE: ディープラーニング圧縮とリアルタイムスケーリングのための動的構成可能なエグジット
DyCE: Dynamically Configurable Exiting for Deep Learning Compression and Real-time Scaling ( http://arxiv.org/abs/2403.01695v2 ) ライセンス: Link先を確認 | Qingyuan Wang, Barry Cardiff, Antoine Frappé, Benoit Larras, Deepu John, | (参考訳) 従来のディープラーニング(DL)モデル圧縮とスケーリング手法は、モデルコンポーネントの変更に焦点を合わせ、すべてのサンプルに対して結果に均一に影響を与えます。
しかし、サンプルの難易度が異なるため、サンプルの複雑さに基づく計算に適応する動的モデルは、圧縮とスケーリングの新しい視点を提供する。
この可能性にもかかわらず、既存の動的モデルは典型的にはモノリシックでモデル固有のものであり、幅広い圧縮とスケーリングの方法として一般化可能性を制限する。
さらに、ほとんどのDLシステムは固定されており、一度デプロイするとスケールを調整できないため、様々なリアルタイム要求に対応できない。
本稿では,動的に構成可能なDyCEについて紹介する。DyCEは,実行時のDLモデルの性能・複雑さのトレードオフを,推論ハードウェアの再初期化や再デプロイを必要とせずに調整できるシステムである。
DyCEは、元のモデルの中間層に小さな出口ネットワークを追加することで、許容可能な結果が得られれば、計算を早期に終了させることができる。
また、DyCEは効率的な動的モデルの設計を分離し、新しいベースモデルへの適応を容易にし、圧縮とスケーリングにおいて潜在的に一般的な使用を可能にする。
また、最適化された構成を生成し、エグジットネットワークのタイプと位置を決定し、所望のパフォーマンスと複雑さのトレードオフを達成する方法を提案する。
簡単な設定の切り替えを可能にすることで、DyCEはよりきめ細かなパフォーマンスチューニングをリアルタイムで提供する。
深部畳み込みニューラルネットワーク(CNN)を用いた画像分類タスクによるDyCEの有効性を示す。
DyCEは、ResNet152では23.5%、ImageNetではConvNextv2-tinyでは25.9%、精度は0.5%未満である。
Conventional deep learning (DL) model compression and scaling methods focus on altering the model's components, impacting the results across all samples uniformly. However, since samples vary in difficulty, a dynamic model that adapts computation based on sample complexity offers a novel perspective for compression and scaling. Despite this potential, existing dynamic models are typically monolithic and model-specific, limiting their generalizability as broad compression and scaling methods. Additionally, most deployed DL systems are fixed, unable to adjust their scale once deployed and, therefore, cannot adapt to the varying real-time demands. This paper introduces DyCE, a dynamically configurable system that can adjust the performance-complexity trade-off of a DL model at runtime without requiring re-initialization or redeployment on inference hardware. DyCE achieves this by adding small exit networks to intermediate layers of the original model, allowing computation to terminate early if acceptable results are obtained. DyCE also decouples the design of an efficient dynamic model, facilitating easy adaptation to new base models and potential general use in compression and scaling. We also propose methods for generating optimized configurations and determining the types and positions of exit networks to achieve desired performance and complexity trade-offs. By enabling simple configuration switching, DyCE provides fine-grained performance tuning in real-time. We demonstrate the effectiveness of DyCE through image classification tasks using deep convolutional neural networks (CNNs). DyCE significantly reduces computational complexity by 23.5% for ResNet152 and 25.9% for ConvNextv2-tiny on ImageNet, with accuracy reductions of less than 0.5%. | 翻訳日:2024-08-21 03:27:41 公開日:2024-08-16 |
# 非対称リワードを用いたモデルベース強化学習のためのダイナミクスの爆発的対称性
Exploiting Symmetry in Dynamics for Model-Based Reinforcement Learning with Asymmetric Rewards ( http://arxiv.org/abs/2403.19024v3 ) ライセンス: Link先を確認 | Yasin Sonmez, Neelay Junnarkar, Murat Arcak, | (参考訳) 強化学習における最近の研究は、政策を訓練する際のサンプル効率を改善するためにモデル内の対称性を活用している。
一般的に用いられる単純化の前提は、力学と報酬の両方が同じ対称性を示すということであるが、多くの実世界の環境では、力学モデルは報酬モデルとは無関係に対称性を示す。
本稿では,対称性が適用可能な制御理論における強化学習と学習の問題の範囲を広げ,対称性を示す力学のみを仮定する。
カルタンの移動フレーム法を用いて力学を学習する手法を導入する。
数値実験により,提案手法がより正確な力学モデルを学習できることが実証された。
Recent work in reinforcement learning has leveraged symmetries in the model to improve sample efficiency in training a policy. A commonly used simplifying assumption is that the dynamics and reward both exhibit the same symmetry; however, in many real-world environments, the dynamical model exhibits symmetry independent of the reward model. In this paper, we assume only the dynamics exhibit symmetry, extending the scope of problems in reinforcement learning and learning in control theory to which symmetry techniques can be applied. We use Cartan's moving frame method to introduce a technique for learning dynamics that, by construction, exhibit specified symmetries. Numerical experiments demonstrate that the proposed method learns a more accurate dynamical model | 翻訳日:2024-08-21 03:17:53 公開日:2024-08-16 |
# エンド・ツー・エンド帯域フィードバックを持つマルチステージシステムの分散非線形学習
Distributed No-Regret Learning for Multi-Stage Systems with End-to-End Bandit Feedback ( http://arxiv.org/abs/2404.04509v2 ) ライセンス: Link先を確認 | I-Hong Hou, | (参考訳) 本稿では,エンド・ツー・エンドの帯域フィードバックを用いたマルチステージシステムについて検討する。
このようなシステムでは、各ジョブは複数のステージを通過して、それぞれ異なるエージェントによって管理され、結果を生成する必要があります。
各エージェントは自身のアクションを制御し、仕事の最終結果のみを学習する。
次段階のエージェントによる行動に関する知識もコントロールも持っていない。
本研究の目的は,敵対的環境におけるサブ線形後悔を実現するために,分散オンライン学習アルゴリズムを開発することである。
本稿では,エージェント1つとステージ1つしか考慮しない従来のマルチアームバンディット問題を大幅に拡張する。
従来のマルチアームバンディット問題における探索・探索ジレンマに加え、多段階の考察は第3の要素である教育を導入し、エージェントは次の段階におけるエージェントの学習を促進するためにその行動を選択する必要があることを示す。
新たに導入された探索-探索-教育のトリレンマを解決するために,簡単な分散オンライン学習アルゴリズムである$\epsilon-$EXP3を提案する。
理論的には、$\epsilon-$EXP3アルゴリズムは、サブ線形後悔を実現するための非回帰ポリシーであることを証明している。
シミュレーションの結果,$\epsilon-$EXP3アルゴリズムは,従来のマルチアームバンディット問題に対して,既存のオンライン学習アルゴリズムを著しく上回ることがわかった。
This paper studies multi-stage systems with end-to-end bandit feedback. In such systems, each job needs to go through multiple stages, each managed by a different agent, before generating an outcome. Each agent can only control its own action and learn the final outcome of the job. It has neither knowledge nor control on actions taken by agents in the next stage. The goal of this paper is to develop distributed online learning algorithms that achieve sublinear regret in adversarial environments. The setting of this paper significantly expands the traditional multi-armed bandit problem, which considers only one agent and one stage. In addition to the exploration-exploitation dilemma in the traditional multi-armed bandit problem, we show that the consideration of multiple stages introduces a third component, education, where an agent needs to choose its actions to facilitate the learning of agents in the next stage. To solve this newly introduced exploration-exploitation-education trilemma, we propose a simple distributed online learning algorithm, $\epsilon-$EXP3. We theoretically prove that the $\epsilon-$EXP3 algorithm is a no-regret policy that achieves sublinear regret. Simulation results show that the $\epsilon-$EXP3 algorithm significantly outperforms existing no-regret online learning algorithms for the traditional multi-armed bandit problem. | 翻訳日:2024-08-21 03:08:08 公開日:2024-08-16 |
# iMTSP: インペラティブ学習による最小限のマルチトラベリングセールスマン問題の解決
iMTSP: Solving Min-Max Multiple Traveling Salesman Problem with Imperative Learning ( http://arxiv.org/abs/2405.00285v3 ) ライセンス: Link先を確認 | Yifan Guo, Zhongqiang Ren, Chen Wang, | (参考訳) 本稿では,各エージェントが各都市を総括して訪問し,最長ツアーの長さを最小化することを目的とした,MTSP(Min-Max Multiple Traveling Salesman Problem)について考察する。
MTSPは広く研究されているが、NP硬度のため、大規模問題に対する準最適解を得ることは依然として困難である。
データ駆動手法の最近の取り組みは、厳密な監督の必要性と勾配推定のばらつきに直面する問題に直面する。
本稿では,インペラティブラーニング(IL)の概念を用いて,MTSPを二段階最適化問題として再定義することでこの問題に対処する。
これには、MTSPを複数の単一エージェントの旅行セールスマン問題(TSP)に分解するアロケーションネットワークの導入が含まれる。
これらのTSPソリューションからの最長のツアーは、アロケーションネットワークを自己監督するために使用され、その結果、新しい自己監督型、双方向のエンドツーエンド学習フレームワークが生まれ、これは命令型MTSP(iMTSP)と呼ばれる。
また、最適化中の高分散勾配問題に対処するために、制御変数に基づく勾配推定アルゴリズムを導入する。
以上の結果から,Google OR-Tools MTSPソルバと比較して,勾配推定器が高度強化学習ベースラインよりも20%高速に収束し,ツアー長が最大80%短いことが示唆された。
This paper considers a Min-Max Multiple Traveling Salesman Problem (MTSP), where the goal is to find a set of tours, one for each agent, to collectively visit all the cities while minimizing the length of the longest tour. Though MTSP has been widely studied, obtaining near-optimal solutions for large-scale problems is still challenging due to its NP-hardness. Recent efforts in data-driven methods face challenges of the need for hard-to-obtain supervision and issues with high variance in gradient estimations, leading to slow convergence and highly suboptimal solutions. We address these issues by reformulating MTSP as a bilevel optimization problem, using the concept of imperative learning (IL). This involves introducing an allocation network that decomposes the MTSP into multiple single-agent traveling salesman problems (TSPs). The longest tour from these TSP solutions is then used to self-supervise the allocation network, resulting in a new self-supervised, bilevel, end-to-end learning framework, which we refer to as imperative MTSP (iMTSP). Additionally, to tackle the high-variance gradient issues during the optimization, we introduce a control variate-based gradient estimation algorithm. Our experiments showed that these innovative designs enable our gradient estimator to converge 20% faster than the advanced reinforcement learning baseline and find up to 80% shorter tour length compared with Google OR-Tools MTSP solver, especially in large-scale problems (e.g. 1000 cities and 15 agents). | 翻訳日:2024-08-21 02:48:22 公開日:2024-08-16 |
# データ可視化教育におけるChatGPT : 学生の視点から
ChatGPT in Data Visualization Education: A Student Perspective ( http://arxiv.org/abs/2405.00748v2 ) ライセンス: Link先を確認 | Nam Wook Kim, Hyung-Kwon Ko, Grace Myers, Benjamin Bach, | (参考訳) 事前にプログラムされた応答に依存する従来の教育チャットボットとは異なり、ChatGPTのような大規模言語モデル駆動チャットボットは、高度な概念の理解から複雑な問題の解決まで、学生のニーズに対処するための動的リソースとして機能する、驚くべき汎用性を示している。
本研究では,これらの技術が学際的,プロジェクト指向のデータ可視化コースにおける学生の学習に与える影響について検討する。
学期を通じて、学生はChatGPTを4つの異なるプロジェクトに適用し、Tableau、D3、Vega-liteといったさまざまなツールを使ってデータ視覚化を設計、実装した。
課題ごとの会話記録とリフレクション調査を収集し,ChatGPTの経験についてより深い知見を得るために,選択した学生とのインタビューを行った。
分析では,ChatGPTの活用のメリットと障壁,学生の質問行動,支援のタイプ,課題の成果とエンゲージメントに与える影響について検討した。
本稿では,ChatGPTの基本インターフェースを超えて,データ可視化教育に適した教育ソリューションの設計について論じる。
Unlike traditional educational chatbots that rely on pre-programmed responses, large-language model-driven chatbots, such as ChatGPT, demonstrate remarkable versatility to serve as a dynamic resource for addressing student needs from understanding advanced concepts to solving complex problems. This work explores the impact of such technology on student learning in an interdisciplinary, project-oriented data visualization course. Throughout the semester, students engaged with ChatGPT across four distinct projects, designing and implementing data visualizations using a variety of tools such as Tableau, D3, and Vega-lite. We collected conversation logs and reflection surveys after each assignment and conducted interviews with selected students to gain deeper insights into their experiences with ChatGPT. Our analysis examined the advantages and barriers of using ChatGPT, students' querying behavior, the types of assistance sought, and its impact on assignment outcomes and engagement. We discuss design considerations for an educational solution tailored for data visualization education, extending beyond ChatGPT's basic interface. | 翻訳日:2024-08-21 02:48:22 公開日:2024-08-16 |
# WhatsAppグループにおける有害コンテンツに関する議論を支援する会話エージェント
Conversational Agents to Facilitate Deliberation on Harmful Content in WhatsApp Groups ( http://arxiv.org/abs/2405.20254v2 ) ライセンス: Link先を確認 | Dhruv Agarwal, Farhana Shahid, Aditya Vashistha, | (参考訳) WhatsAppグループは、偽情報、ヘイトスピーチ、偏光コンテンツ、噂などの有害コンテンツの拡散の温床となっている。
プラットフォームのエンドツーエンドの暗号化を考えると、モデレーションの責任はグループ管理者やメンバーにかかっている。
もう1つのアプローチはファクトチェックであり、これはスケール不可能であり、事実コンテンツ(例えば、誤報)としか競合できないが、主観的コンテンツ(例えば、ヘイトスピーチ)には対抗できない。
最近の文献に基づいて、オープンで包括的な議論である議論を代替として検討する。
WhatsAppグループにおける有害コンテンツに対する議論の促進における会話エージェントの役割について検討する。
インドのWhatsAppユーザー21人と半構造化インタビューを行い、サンプルエージェントの紹介にデザインプローブを用いた。
参加者は匿名の必要性を表明し、審議に必要な労力を減らすためにAI支援を推奨した。
彼らはエージェントの中立性を高く評価したが、エコーチャンバー群における熟考の有用性を指摘した。
この結果から,プライバシ対グループダイナミクス,言論の自由など,そのようなエージェントの設計上の緊張感が浮き彫りになった。
本稿では,レンズとしての熟考理論を用いた熟考の有効性について論じるとともに,モデレーションとファクトチェックとの比較を行い,将来的なシステム設計の提言を行う。
最終的に、この研究は、ソーシャルメディア上のプライベートグループチャットで有害なコンテンツと戦うための熟考システムの設計に関する洞察を提供することによって、CSCWを前進させる。
WhatsApp groups have become a hotbed for the propagation of harmful content including misinformation, hate speech, polarizing content, and rumors, especially in Global South countries. Given the platform's end-to-end encryption, moderation responsibilities lie on group admins and members, who rarely contest such content. Another approach is fact-checking, which is unscalable, and can only contest factual content (e.g., misinformation) but not subjective content (e.g., hate speech). Drawing on recent literature, we explore deliberation -- open and inclusive discussion -- as an alternative. We investigate the role of a conversational agent in facilitating deliberation on harmful content in WhatsApp groups. We conducted semi-structured interviews with 21 Indian WhatsApp users, employing a design probe to showcase an example agent. Participants expressed the need for anonymity and recommended AI assistance to reduce the effort required in deliberation. They appreciated the agent's neutrality but pointed out the futility of deliberation in echo chamber groups. Our findings highlight design tensions for such an agent, including privacy versus group dynamics and freedom of speech in private spaces. We discuss the efficacy of deliberation using deliberative theory as a lens, compare deliberation with moderation and fact-checking, and provide design recommendations for future such systems. Ultimately, this work advances CSCW by offering insights into designing deliberative systems for combating harmful content in private group chats on social media. | 翻訳日:2024-08-21 02:38:38 公開日:2024-08-16 |
# 大規模言語モデルに対する適応論理制御
Adaptable Logical Control for Large Language Models ( http://arxiv.org/abs/2406.13892v2 ) ライセンス: Link先を確認 | Honghua Zhang, Po-Nien Kung, Masahiro Yoshida, Guy Van den Broeck, Nanyun Peng, | (参考訳) 大規模言語モデル(LLM)が人間の指示に従って様々なタスクで成功したにもかかわらず、推論時にモデル生成を制御することは永続的な課題である。
本稿では,LLM生成のトラクタブルかつフレキシブルな制御を容易にし,論理的制約を確実に追従できるフレームワークであるCtrl-Gを紹介する。
Ctrl-G は任意の生産可能な LLM と隠れマルコフモデルを組み合わせることで、LCM の出力は決定論的有限オートマトンとして表される論理的制約に従うことができる。
TULU2-7Bモデルに適用されたCtrl-Gは、対話的テキスト編集作業においてGPT3.5とGPT4よりも優れており、特に、論理的制約に従ってテキスト挿入/継続を生成するタスクでは、GPT4よりも30%高い満足度を達成する。
中規模の言語モデル(例: GPT2-large)に適用した場合、Ctrl-Gは標準ベンチマークで大きなマージンで制約付き生成に勝っている。
さらに、概念実証研究として、Ctrl-Gベンチマークを用いてLLM推論を補助し、Ctrl-Gの適用を先導し、従来の言語生成タスクを超える制約付き生成アプローチを実験する。
Despite the success of Large Language Models (LLMs) on various tasks following human instructions, controlling model generation at inference time poses a persistent challenge. In this paper, we introduce Ctrl-G, an adaptable framework that facilitates tractable and flexible control of LLM generation to reliably follow logical constraints. Ctrl-G combines any production-ready LLM with a Hidden Markov Model, enabling LLM outputs to adhere to logical constraints represented as deterministic finite automata. We show that Ctrl-G, when applied to a TULU2-7B model, outperforms GPT3.5 and GPT4 on the task of interactive text editing: specifically, for the task of generating text insertions/continuations following logical constraints, Ctrl-G achieves over 30% higher satisfaction rate in human evaluation compared to GPT4. When applied to medium-size language models (e.g., GPT2-large), Ctrl-G also beats its counterparts for constrained generation by large margins on standard benchmarks. Additionally, as a proof-of-concept study, we experiment Ctrl-G on the Grade School Math benchmark to assist LLM reasoning, foreshadowing the application of Ctrl-G, as well as other constrained generation approaches, beyond traditional language generation tasks. | 翻訳日:2024-08-21 02:28:42 公開日:2024-08-16 |
# グラフ完全性試験のための量子アルゴリズム
Quantum Algorithm for Testing Graph Completeness ( http://arxiv.org/abs/2407.20069v2 ) ライセンス: Link先を確認 | Sara Giordano, Miguel A. Martin-Delgado, | (参考訳) グラフ完全性をテストすることは、コンピュータ科学とネットワーク理論において重要な問題である。
量子計算を利用して、Szegedy量子ウォークと量子位相推定(QPE)を用いた効率的なアルゴリズムを提案する。
提案アルゴリズムは,ノード数と隣接行列を入力として,量子ウォーク演算子を構築し,QPEを適用して固有値を推定する。
これらの固有値はグラフの構造的性質を明らかにし、その完全性を決定することができる。
完全グラフ中のノード数とマークされたノード数の関係を確立し、成功確率と実行時間を最適化する。
アルゴリズムの時間複雑性は$\mathcal{O}(\log^2n)$であり、$n$はグラフのノード数である。
古典的な方法よりも明確な量子的優位性を提供します
このアプローチは、ネットワーク構造解析、古典的なルーティングアルゴリズムの評価、ペア比較に基づくシステム評価に有用である。
Testing graph completeness is a critical problem in computer science and network theory. Leveraging quantum computation, we present an efficient algorithm using the Szegedy quantum walk and quantum phase estimation (QPE). Our algorithm, which takes the number of nodes and the adjacency matrix as input, constructs a quantum walk operator and applies QPE to estimate its eigenvalues. These eigenvalues reveal the graph's structural properties, enabling us to determine its completeness. We establish a relationship between the number of nodes in a complete graph and the number of marked nodes, optimizing the success probability and running time. The time complexity of our algorithm is $\mathcal{O}(\log^2n)$, where $n$ is the number of nodes of the graph. offering a clear quantum advantage over classical methods. This approach is useful in network structure analysis, evaluating classical routing algorithms, and assessing systems based on pairwise comparisons. | 翻訳日:2024-08-21 01:49:20 公開日:2024-08-16 |
# LLMの編集はハームを注入できるか?
Can Editing LLMs Inject Harm? ( http://arxiv.org/abs/2407.20224v3 ) ライセンス: Link先を確認 | Canyu Chen, Baixiang Huang, Zekun Li, Zhaorun Chen, Shiyang Lai, Xiongxiao Xu, Jia-Chen Gu, Jindong Gu, Huaxiu Yao, Chaowei Xiao, Xifeng Yan, William Yang Wang, Philip Torr, Dawn Song, Kai Shu, | (参考訳) 知識編集は、大規模言語モデル(LLM)における誤りまたは時代遅れの知識を修正するために、ますます採用されている。
LLMに害を注入するために知識編集を使用できるのか?
本稿では,LLMの新たなタイプの安全脅威である編集攻撃として知識編集を再構築し,新たに構築されたデータセットEditAttackを用いて体系的な調査を行うことを提案する。
具体的には、誤情報注入とバイアス注入を含む編集攻撃の典型的な2つの安全性リスクに焦点を当てる。
誤情報注入の危険性については,まずコモンセンス誤情報注入とロングテール誤情報注入に分類する。
そして, 編集攻撃は両種類の誤報をLSMに注入し, 特にコモンセンスな誤報注入に有効であることが判明した。
偏差注入のリスクは, 偏差文をLLMに高効率で注入できるだけでなく, 1つの偏差文注入は, LLMの一般出力に偏差を生じさせる可能性があること, また, LLMの全体公正性に対する破滅的な影響を示す。
さらに,LLMの一般的な知識と推論能力に影響を及ぼすような,編集攻撃のステルス性の高さを明らかにし,実証的証拠による編集攻撃の防御の難しさを示す。
本研究は, LLMの安全性向上に向けた知識編集技術の誤用リスクの増大と, LLMの誤報や偏見を新たなチャネルとして広める可能性を示すものである。
Knowledge editing has been increasingly adopted to correct the false or outdated knowledge in Large Language Models (LLMs). Meanwhile, one critical but under-explored question is: can knowledge editing be used to inject harm into LLMs? In this paper, we propose to reformulate knowledge editing as a new type of safety threat for LLMs, namely Editing Attack, and conduct a systematic investigation with a newly constructed dataset EditAttack. Specifically, we focus on two typical safety risks of Editing Attack including Misinformation Injection and Bias Injection. For the risk of misinformation injection, we first categorize it into commonsense misinformation injection and long-tail misinformation injection. Then, we find that editing attacks can inject both types of misinformation into LLMs, and the effectiveness is particularly high for commonsense misinformation injection. For the risk of bias injection, we discover that not only can biased sentences be injected into LLMs with high effectiveness, but also one single biased sentence injection can cause a bias increase in general outputs of LLMs, which are even highly irrelevant to the injected sentence, indicating a catastrophic impact on the overall fairness of LLMs. Then, we further illustrate the high stealthiness of editing attacks, measured by their impact on the general knowledge and reasoning capacities of LLMs, and show the hardness of defending editing attacks with empirical evidence. Our discoveries demonstrate the emerging misuse risks of knowledge editing techniques on compromising the safety alignment of LLMs and the feasibility of disseminating misinformation or bias with LLMs as new channels. | 翻訳日:2024-08-21 01:49:20 公開日:2024-08-16 |
# ビジュアルアートワークの創造性を評価するためにCNNモデルを使用する
Using a CNN Model to Assess Visual Artwork's Creativity ( http://arxiv.org/abs/2408.01481v2 ) ライセンス: Link先を確認 | Zhehan Zhang, Meihua Qian, Li Luo, Ripon Saha, Qianyi Gao, Xinxin Song, | (参考訳) 芸術的創造性を評価することは、長い間研究者に挑戦してきた。
近年の研究は、絵画ではなく、絵画の創造性を評価するために機械学習を適用している。
我々の研究は、人間の絵画の創造性を自動評価するCNNモデルを開発することで、このギャップに対処する。
専門家や子どもによる600点の絵のデータセットを用いて, 精度90%, 評価時間を人間よりも高速に評価した。
このアプローチは、芸術的創造性評価の進歩における機械学習の可能性を示し、従来の方法よりも効率的な代替手段を提供する。
Assessing artistic creativity has long challenged researchers, with traditional methods proving time-consuming. Recent studies have applied machine learning to evaluate creativity in drawings, but not paintings. Our research addresses this gap by developing a CNN model to automatically assess the creativity of human paintings. Using a dataset of six hundred paintings by professionals and children, our model achieved 90% accuracy and faster evaluation times than human raters. This approach demonstrates the potential of machine learning in advancing artistic creativity assessment, offering a more efficient alternative to traditional methods. | 翻訳日:2024-08-21 01:39:16 公開日:2024-08-16 |
# 信頼・認識型防衛によるフェデレーション学習における悪意ある攻撃の軽減
Mitigating Malicious Attacks in Federated Learning via Confidence-aware Defense ( http://arxiv.org/abs/2408.02813v2 ) ライセンス: Link先を確認 | Qilei Li, Ahmed M. Abdelmoniem, | (参考訳) Federated Learning(FL)は、分散機械学習ダイアグラムで、複数のクライアントがプライベートなローカルデータを共有せずに、グローバルモデルを協調的にトレーニングすることができる。
しかし、FLシステムは、データ中毒やモデル中毒によって悪意あるクライアントで起こっている攻撃に弱いため、集約されたグローバルモデルの性能が低下する可能性がある。
既存の防御方法は通常、特定の種類の中毒を緩和することに焦点を当てており、しばしば目に見えないタイプの攻撃に対して効果がない。
これらのメソッドはまた、攻撃が適度に発生したと仮定する。
その結果、攻撃された悪意あるクライアントから更新を検出し、対処する際に、精度と堅牢性の観点から、これらの手法は著しく失敗する可能性がある。
これらの課題を克服するために,本研究では,ローカルモデルの信頼性スコアを基準として,ローカルアップデートの信頼性を評価する,悪意のあるクライアントを検出するための,シンプルかつ効果的なフレームワークである信頼性・アウェア・ディフェンス(CAD)を提案する。
我々の重要な洞察は、攻撃の種類に関わらず悪意のある攻撃は、モデルを以前の状態から逸脱させ、予測を行う際の不確実性を高めることである。
したがってCADは、様々な種類の攻撃やデータ不均一性の下でも、潜在的に悪意のある更新を正確に識別し緩和することにより、モデル中毒とデータ中毒攻撃の両方に包括的に有効である。
実験により,モデルの精度と安定性を向上することにより,FLシステムの各種攻撃に対する堅牢性を大幅に向上することを示す。
Federated Learning (FL) is a distributed machine learning diagram that enables multiple clients to collaboratively train a global model without sharing their private local data. However, FL systems are vulnerable to attacks that are happening in malicious clients through data poisoning and model poisoning, which can deteriorate the performance of aggregated global model. Existing defense methods typically focus on mitigating specific types of poisoning and are often ineffective against unseen types of attack. These methods also assume an attack happened moderately while is not always holds true in real. Consequently, these methods can significantly fail in terms of accuracy and robustness when detecting and addressing updates from attacked malicious clients. To overcome these challenges, in this work, we propose a simple yet effective framework to detect malicious clients, namely Confidence-Aware Defense (CAD), that utilizes the confidence scores of local models as criteria to evaluate the reliability of local updates. Our key insight is that malicious attacks, regardless of attack type, will cause the model to deviate from its previous state, thus leading to increased uncertainty when making predictions. Therefore, CAD is comprehensively effective for both model poisoning and data poisoning attacks by accurately identifying and mitigating potential malicious updates, even under varying degrees of attacks and data heterogeneity. Experimental results demonstrate that our method significantly enhances the robustness of FL systems against various types of attacks across various scenarios by achieving higher model accuracy and stability. | 翻訳日:2024-08-20 23:45:42 公開日:2024-08-16 |
# 幻覚における秩序--大言語モデルにおけるベンチマークと反射プロンプトとしての秩序の推論
Order Matters in Hallucination: Reasoning Order as Benchmark and Reflexive Prompting for Large-Language-Models ( http://arxiv.org/abs/2408.05093v2 ) ライセンス: Link先を確認 | Zikai Xie, | (参考訳) 大規模言語モデル(LLM)は、その誕生以来、様々な学術分野や産業分野にまたがって大きな注目を集めてきた。
しかし、これらのモデルは「ハロシン化問題」に悩まされることが多く、出力は文法的にも論理的にも一貫性があるが、事実の正確さは欠如している。
最近発見され広く議論されている特に厄介な問題は、複数のLLMが誤って「9.11$>$9.9」と推測する数値比較誤差である。
LLMが回答と推論を生成する順序が一貫性に影響を及ぼすことがわかった。
具体的には、LSMが最初に回答を生成し、次に推論プロセスを生成してから結論を出すと、結果は著しく異なる。
そこで本研究では,LLMの一貫性を評価するための新しいベンチマーク手法を提案する。
このベンチマークは、LLMが回答を作成し、その後正当化を生成するインスタンスを効果的に識別する。
さらに、この問題を緩和するために設計された、新規かつ素直な迅速な戦略を導入する。
実験結果から,本手法は直接質問よりも多種多様なLLMの性能向上を図っている。
この作業は、LLMの重大な欠陥に光を当てるだけでなく、信頼性を高めるための実用的なソリューションも提供する。
Large language models (LLMs) have generated significant attention since their inception, finding applications across various academic and industrial domains. However, these models often suffer from the "hallucination problem", where outputs, though grammatically and logically coherent, lack factual accuracy or are entirely fabricated. A particularly troubling issue discovered and widely discussed recently is the numerical comparison error where multiple LLMs incorrectly infer that "9.11$>$9.9". We discovered that the order in which LLMs generate answers and reasoning impacts their consistency. Specifically, results vary significantly when an LLM generates an answer first and then provides the reasoning versus generating the reasoning process first and then the conclusion. Inspired by this, we propose a new benchmark method for assessing LLM consistency: comparing responses generated through these two different approaches. This benchmark effectively identifies instances where LLMs fabricate answers and subsequently generate justifications. Furthermore, we introduce a novel and straightforward prompt strategy designed to mitigate this issue. Experimental results demonstrate that this strategy improves performance across various LLMs compared to direct questioning. This work not only sheds light on a critical flaw in LLMs but also offers a practical solution to enhance their reliability. | 翻訳日:2024-08-20 23:45:42 公開日:2024-08-16 |
# 投機的拡散復号:拡散による言語生成の高速化
Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion ( http://arxiv.org/abs/2408.05636v2 ) ライセンス: Link先を確認 | Jacob K Christopher, Brian R Bartoldson, Bhavya Kailkhura, Ferdinando Fioretto, | (参考訳) 投機的復号化は,モデル出力の品質を犠牲にすることなく,大規模言語モデル推論を高速化する手法として広く採用されている。
この技術は並列シーケンス検証を可能にすることで顕著な速度向上を実現しているが、既存のドラフトモデルにおけるインクリメンタルトークン生成に依存しているため、その効率は本質的に制限されている。
この制限を克服するために、離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
これにより、ドラフトと検証の両方のステップの並列化が可能になり、推論プロセスに対する大幅なスピードアップが実現される。
提案手法であるSpeculative Diffusion Decoding (SpecDiff) を,標準言語生成ベンチマーク上で検証し,標準生成プロセスの最大8.7倍,既存の投機的デコーディングの最大2.5倍の高速化を実現することを実証した。
Speculative decoding has emerged as a widely adopted method to accelerate large language model inference without sacrificing the quality of the model outputs. While this technique has facilitated notable speed improvements by enabling parallel sequence verification, its efficiency remains inherently limited by the reliance on incremental token generation in existing draft models. To overcome this limitation, this paper proposes an adaptation of speculative decoding which uses discrete diffusion models to generate draft sequences. This allows parallelization of both the drafting and verification steps, providing significant speed-ups to the inference process. Our proposed approach, Speculative Diffusion Decoding (SpecDiff), is validated on standard language generation benchmarks and empirically demonstrated to provide a up to 8.7x speed-up over standard generation processes and up to 2.5x speed-up over existing speculative decoding approaches. | 翻訳日:2024-08-20 23:45:42 公開日:2024-08-16 |
# DSTベンチマーク問題に直面する不正確な信念融合
Imprecise Belief Fusion Facing a DST benchmark problem ( http://arxiv.org/abs/2408.08928v1 ) ライセンス: Link先を確認 | Francisco Aragão, João Alcântara, | (参考訳) Dempster-Shafer Theory (DST) に情報を統合すると、我々は異常な振る舞いに直面している: 同等の専門知識と信頼性を持つエージェントは、この理論の信念の組み合わせ則に従えば、彼らの意見を無視することができる。
この問題は、信念の融合が、人工知能でしばしば起こるように、利用可能な情報が不正確である状況に対処する固有の部分であることから興味深い。
我々は、DST形式装置を確率論理のものと同一準同型に賭けることに成功した。
そこで我々は,DST組み合わせ規則を,その規則によって提案される異常を解消することを目的とした新たな融合プロセスに置き換えることにより,問題となる入力問題を解決する。
DSTパラドックス問題に新しい融合法を適用した。
When we merge information in Dempster-Shafer Theory (DST), we are faced with anomalous behavior: agents with equal expertise and credibility can have their opinion disregarded after resorting to the belief combination rule of this theory. This problem is interesting because belief fusion is an inherent part of dealing with situations where available information is imprecise, as often occurs in Artificial Intelligence. We managed to identify an isomorphism betwin the DST formal apparatus into that of a Probabilistic Logic. Thus, we solved the problematic inputs affair by replacing the DST combination rule with a new fusion process aiming at eliminating anomalies proposed by that rule. We apply the new fusion method to the DST paradox Problem. | 翻訳日:2024-08-20 23:26:14 公開日:2024-08-16 |
# DePrompt:大規模言語モデルにおける個人識別情報の脱感作と評価
DePrompt: Desensitization and Evaluation of Personal Identifiable Information in Large Language Model Prompts ( http://arxiv.org/abs/2408.08930v1 ) ライセンス: Link先を確認 | Xiongtao Sun, Gan Liu, Zhipeng He, Hui Li, Xiaoguang Li, | (参考訳) Promptは、大規模言語モデル(LLM)との相互作用において重要なリンクとして機能し、モデル出力の精度と解釈可能性に大きな影響を及ぼす。
しかし、正確で高品質な応答を取得するには正確なプロンプトが必要であるため、必然的に個人識別情報(PII)漏洩の重大なリスクが生じる。
そこで本稿では, 利用者が安全かつ透過的にLDMを利用できるようにするためのデセンシタイズ保護・有効性評価フレームワークであるDePromptを提案する。
具体的には,プライバシ保護手法として大規模モデルの微調整技術を活用することで,コンテキスト属性を統合してプライバシタイプを定義し,高精度なPIIエンティティ識別を実現する。
さらに,素早い脱感作シナリオにおける重要な特徴の分析を通じて,識別子とプライバシ属性のリンクを乱しながら重要な意味的内容を保持する逆生成脱感作手法を考案した。
さらに,プライバシとユーザビリティのバランスを改善するためのユーティリティ評価指標を提案する。
私たちのフレームワークはプロンプトに適応可能で、テキストのユーザビリティに依存したシナリオに拡張できます。
ベンチマークや他のモデル手法との比較により,我々の脱感作が優れたプライバシ保護ユーティリティとモデル推論結果を示すことを示す実験結果が得られた。
Prompt serves as a crucial link in interacting with large language models (LLMs), widely impacting the accuracy and interpretability of model outputs. However, acquiring accurate and high-quality responses necessitates precise prompts, which inevitably pose significant risks of personal identifiable information (PII) leakage. Therefore, this paper proposes DePrompt, a desensitization protection and effectiveness evaluation framework for prompt, enabling users to safely and transparently utilize LLMs. Specifically, by leveraging large model fine-tuning techniques as the underlying privacy protection method, we integrate contextual attributes to define privacy types, achieving high-precision PII entity identification. Additionally, through the analysis of key features in prompt desensitization scenarios, we devise adversarial generative desensitization methods that retain important semantic content while disrupting the link between identifiers and privacy attributes. Furthermore, we present utility evaluation metrics for prompt to better gauge and balance privacy and usability. Our framework is adaptable to prompts and can be extended to text usability-dependent scenarios. Through comparison with benchmarks and other model methods, experimental evaluations demonstrate that our desensitized prompt exhibit superior privacy protection utility and model inference results. | 翻訳日:2024-08-20 23:26:14 公開日:2024-08-16 |
# パーソナライズされた協調フィルタリング:変分オートエンコーダアプローチ
Personalized Federated Collaborative Filtering: A Variational AutoEncoder Approach ( http://arxiv.org/abs/2408.08931v1 ) ライセンス: Link先を確認 | Zhiwei Li, Guodong Long, Tianyi Zhou, Jing Jiang, Chengqi Zhang, | (参考訳) Federated Collaborative Filtering (FedCF)は、フェデレートされた環境でプライバシを保存する新しいレコメンデーションフレームワークの開発に焦点を当てた新興分野である。
既存のFedCFメソッドは通常、分散協調フィルタリング(CF)アルゴリズムとプライバシ保護メカニズムを組み合わせて、パーソナライズされた情報をユーザ埋め込みベクタに保存する。
しかし、ユーザ埋め込みは通常、不均一なクライアント間での詳細なパーソナライゼーションの豊富な情報を保持するには不十分である。
本稿では,ユーザのパーソナライズされた情報を潜在変数とニューラルモデルに同時に保存することで,新たなパーソナライズされたFedCF手法を提案する。
具体的には、ユーザ知識のモデリングを2つのエンコーダに分割し、それぞれが共有知識とパーソナライズド知識を別々に取得するように設計されている。
次に、グローバルエンコーダとローカルエンコーダのパーソナライズと一般化のバランスをとるために、パーソナライズされたゲーティングネットワークを適用する。
さらに,提案手法を効果的に学習するために,ユーザインタラクションベクトル再構成と不足値予測を統合することで,CF問題を特殊変分オートエンコーダ(VAE)タスクとしてモデル化する。
デコーダは、ユーザが対話したアイテムからの暗黙のフィードバックを再構築すると同時に、ユーザが関心を持っているかもしれないがまだ対話していないアイテムを予測するように訓練されている。
ベンチマークによる実験結果から,提案手法が他のベースライン法よりも優れ,優れた性能を示すことが示された。
Federated Collaborative Filtering (FedCF) is an emerging field focused on developing a new recommendation framework with preserving privacy in a federated setting. Existing FedCF methods typically combine distributed Collaborative Filtering (CF) algorithms with privacy-preserving mechanisms, and then preserve personalized information into a user embedding vector. However, the user embedding is usually insufficient to preserve the rich information of the fine-grained personalization across heterogeneous clients. This paper proposes a novel personalized FedCF method by preserving users' personalized information into a latent variable and a neural model simultaneously. Specifically, we decompose the modeling of user knowledge into two encoders, each designed to capture shared knowledge and personalized knowledge separately. A personalized gating network is then applied to balance personalization and generalization between the global and local encoders. Moreover, to effectively train the proposed framework, we model the CF problem as a specialized Variational AutoEncoder (VAE) task by integrating user interaction vector reconstruction with missing value prediction. The decoder is trained to reconstruct the implicit feedback from items the user has interacted with, while also predicting items the user might be interested in but has not yet interacted with. Experimental results on benchmark datasets demonstrate that the proposed method outperforms other baseline methods, showcasing superior performance. | 翻訳日:2024-08-20 23:26:14 公開日:2024-08-16 |
# RoarGraph: 効率的なクロスモーダル近似近傍探索のための2部グラフ
RoarGraph: A Projected Bipartite Graph for Efficient Cross-Modal Approximate Nearest Neighbor Search ( http://arxiv.org/abs/2408.08933v1 ) ライセンス: Link先を確認 | Meng Chen, Kai Zhang, Zhenying He, Yinan Jing, X. Sean Wang, | (参考訳) Approximate Nearest Neighbor Search (ANNS)は、レコメンデーションシステムや大規模言語モデルベースのアプリケーションを含む、多くのアプリケーションにおいて、基本的で重要なコンポーネントである。
異なるモダリティから共有された高次元空間に特徴ベクトルとして変換するマルチモーダルニューラルネットワークの進歩により、クロスモーダルANNSは、あるモダリティ(例えばテキスト)からデータベクトルをクエリとして使用して、最も類似したアイテム(例えば、画像やビデオ)を検索する。
しかし、異なるモダリティからの埋め込みの間には固有の分布ギャップがあり、クロスモーダルクエリはベースデータへのアウト・オブ・ディストリビューション(OOD)となる。
その結果、最先端のANNSアプローチでは、OODワークロードのパフォーマンスが低下する。
本稿では,OODワークロードの特性を定量的に分析し,そのANNS効率について理解する。
単一モードのワークロードとは異なり、OODクエリはベースデータから空間的に逸脱し、OODクエリのk-nearest隣人は埋め込み空間では互いに離れている。
この性質は既存のANNSアプローチの仮定を破り、効率的な探索のために設計をミスマッチさせる。
OODワークロードからの洞察を得て、クエリ分散のガイダンスに基づいて構築された効率的なANNSグラフインデックスであるpRojected bipartite Graph (RoarGraph)を提案する。
大規模な実験により、RoarGraphは最新のクロスモーダルデータセットに対する最先端のアプローチを大幅に上回り、OODクエリの90%のリコールレートで最大3.56倍の高速化を実現している。
Approximate Nearest Neighbor Search (ANNS) is a fundamental and critical component in many applications, including recommendation systems and large language model-based applications. With the advancement of multimodal neural models, which transform data from different modalities into a shared high-dimensional space as feature vectors, cross-modal ANNS aims to use the data vector from one modality (e.g., texts) as the query to retrieve the most similar items from another (e.g., images or videos). However, there is an inherent distribution gap between embeddings from different modalities, and cross-modal queries become Out-of-Distribution (OOD) to the base data. Consequently, state-of-the-art ANNS approaches suffer poor performance for OOD workloads. In this paper, we quantitatively analyze the properties of the OOD workloads to gain an understanding of their ANNS efficiency. Unlike single-modal workloads, we reveal OOD queries spatially deviate from base data, and the k-nearest neighbors of an OOD query are distant from each other in the embedding space. The property breaks the assumptions of existing ANNS approaches and mismatches their design for efficient search. With insights from the OOD workloads, we propose pRojected bipartite Graph (RoarGraph), an efficient ANNS graph index built under the guidance of query distribution. Extensive experiments show that RoarGraph significantly outperforms state-of-the-art approaches on modern cross-modal datasets, achieving up to 3.56x faster search speed at a 90% recall rate for OOD queries. | 翻訳日:2024-08-20 23:26:14 公開日:2024-08-16 |
# 動的脅威モデリングとコスト効率を用いたMDPによる目標防衛の移動
A Factored MDP Approach To Moving Target Defense With Dynamic Threat Modeling and Cost Efficiency ( http://arxiv.org/abs/2408.08934v1 ) ライセンス: Link先を確認 | Megha Bose, Praveen Paruchuri, Akshat Kumar, | (参考訳) 移動目標防衛(MTD)は、進化するサイバー脅威に対抗するための、積極的な動的枠組みとして登場した。
従来のMTDアプローチは、攻撃者の知識と行動に関する仮定に依存することが多い。
しかし、現実のシナリオは本質的により複雑で、アダプティブアタッカーや、彼らの支払いや意図に関する事前知識が限られている。
本稿では,事前に定義された攻撃者の支払いに依存しないマルコフ決定プロセス(MDP)モデルを用いたMTDの新しいアプローチを提案する。
本フレームワークは,動的ベイズネットワークを用いて,攻撃者のリアルタイム応答をディフェンダーMDPに統合する。
MDPモデルを用いることで、包括的で現実的なシステム表現を提供する。
新たなデータが出現するにつれて、攻撃応答予測器にインクリメンタルなアップデートも組み込んでいます。
これにより、適応的で堅牢な防御機構が確保される。
さらに,MTDの構成を切り替えることのコストを考慮し,実行と防衛のコストのバランスをとるために報奨構造に統合する。
まず、後悔に関する理論的ネガティブな結果を通じて、問題の課題を強調します。
しかし、実証的な評価は、高い不確実性と動的に変化する攻撃環境を特徴とするシナリオにおけるフレームワークの有効性を示す。
Moving Target Defense (MTD) has emerged as a proactive and dynamic framework to counteract evolving cyber threats. Traditional MTD approaches often rely on assumptions about the attackers knowledge and behavior. However, real-world scenarios are inherently more complex, with adaptive attackers and limited prior knowledge of their payoffs and intentions. This paper introduces a novel approach to MTD using a Markov Decision Process (MDP) model that does not rely on predefined attacker payoffs. Our framework integrates the attackers real-time responses into the defenders MDP using a dynamic Bayesian Network. By employing a factored MDP model, we provide a comprehensive and realistic system representation. We also incorporate incremental updates to an attack response predictor as new data emerges. This ensures an adaptive and robust defense mechanism. Additionally, we consider the costs of switching configurations in MTD, integrating them into the reward structure to balance execution and defense costs. We first highlight the challenges of the problem through a theoretical negative result on regret. However, empirical evaluations demonstrate the frameworks effectiveness in scenarios marked by high uncertainty and dynamically changing attack landscapes. | 翻訳日:2024-08-20 23:26:14 公開日:2024-08-16 |
# 量子回路最適化の現状と今後の方向性
Quantum Circuit Optimization: Current trends and future direction ( http://arxiv.org/abs/2408.08941v1 ) ライセンス: Link先を確認 | Geetha Karuppasamy, Varun Puram, Stevens Johnson, Johnson P Thomas, | (参考訳) 与えられた問題に対する量子回路の最適化は、より高速な計算を実現し、ノイズによる誤差を減らすために非常に重要である。
最適化は常に正確性を確保しながら達成しなければならない。
本稿では,近年の量子回路最適化の進歩について述べる。
ハードウェアに依存しない最適化だけでなく、ハードウェアに依存しない最適化も提示される。
解析アルゴリズム,ヒューリスティックアルゴリズム,機械学習に基づくアルゴリズム,ハイブリッド量子古典アルゴリズムなど,量子回路を最適化するための最先端手法について論じる。
さらに、各手法の利点と欠点とそれに関連する課題が強調される。
また、この分野での潜在的研究機会についても論じる。
Optimization of quantum circuits for a given problem is very important in order to achieve faster calculations as well as reduce errors due to noise. Optimization has to be achieved while ensuring correctness at all times. In this survey paper, recent advancements in quantum circuit optimization are explored. Both hardware independent as well as hardware dependent optimization are presented. State-of-the-art methods for optimizing quantum circuits, including analytical algorithms, heuristic algorithms, machine learning-based algorithms, and hybrid quantum-classical algorithms are discussed. Additionally, the advantages and disadvantages of each method and the challenges associated with them are highlighted. Moreover, the potential research opportunities in this field are also discussed. | 翻訳日:2024-08-20 23:26:14 公開日:2024-08-16 |
# グローキングが創発的相転移であることを示す情報理論的進展対策
Information-Theoretic Progress Measures reveal Grokking is an Emergent Phase Transition ( http://arxiv.org/abs/2408.08944v1 ) ライセンス: Link先を確認 | Kenzo Clauw, Sebastiano Stramaglia, Daniele Marinazzo, | (参考訳) 本稿では,遅延記憶の後にモデルが突然一般化するグルーキングに着目し,ニューラルネットワークの創発現象を考察する。
この相転移を理解するために、高次相互情報を用いて、トレーニング中のニューロン間の集団行動(アレルギー)と共有特性(冗長性)を分析する。
我々は、グルーキングの前に異なる位相を識別し、それが起こると予測できる。
我々は、ニューロン間の相乗的相互作用によって生じる創発的な相転移をグルーキングとみなす。
重み劣化と重み初期化が創発的位相を促進できることを示す。
This paper studies emergent phenomena in neural networks by focusing on grokking where models suddenly generalize after delayed memorization. To understand this phase transition, we utilize higher-order mutual information to analyze the collective behavior (synergy) and shared properties (redundancy) between neurons during training. We identify distinct phases before grokking allowing us to anticipate when it occurs. We attribute grokking to an emergent phase transition caused by the synergistic interactions between neurons as a whole. We show that weight decay and weight initialization can enhance the emergent phase. | 翻訳日:2024-08-20 23:26:14 公開日:2024-08-16 |
# LLM時代における著者の貢献--問題・方法論・課題
Authorship Attribution in the Era of LLMs: Problems, Methodologies, and Challenges ( http://arxiv.org/abs/2408.08946v1 ) ライセンス: Link先を確認 | Baixiang Huang, Canyu Chen, Kai Shu, | (参考訳) 著者の正確な帰属は、デジタルコンテンツの完全性を維持し、法医学的な調査を改善し、誤情報や盗作のリスクを軽減するために重要である。
真の著作者の信頼性と説明責任を維持するためには、適切な著作者帰属の強制的な要求に対処することが不可欠である。
LLM(Large Language Models)の急速な進歩は、人間と機械のオーサシップの境界を曖昧にし、従来の手法に重大な課題をもたらした。
本稿では, LLM 時代における著者帰属に関する最新の研究を概観する総合的な文献レビューを紹介する。
本調査は,(1)人文テキスト属性,(2)LLM生成テキスト検出,(3)LLM生成テキスト属性,(4)Human-LLM共著テキスト属性の4つを分類することにより,この分野の景観を体系的に探索する。
また、著者帰属法の一般化と説明可能性の確保に関わる課題についても論じる。
一般化には、さまざまな領域をまたいで一般化する能力が必要であるが、説明可能性には、これらのモデルによる決定に対する透明性と理解可能な洞察が強調されている。
既存の手法とベンチマークの長所と短所を評価することにより、この分野における重要なオープン問題と今後の研究方向性を明らかにする。
この文献レビューは、この急速に発展する分野における最先端の理解に関心を持つ研究者や実践者のためのロードマップを提供する。
追加のリソースとドキュメントのキュレートされたリストはhttps://llm-authorship.github.ioで定期的に更新されている。
Accurate attribution of authorship is crucial for maintaining the integrity of digital content, improving forensic investigations, and mitigating the risks of misinformation and plagiarism. Addressing the imperative need for proper authorship attribution is essential to uphold the credibility and accountability of authentic authorship. The rapid advancements of Large Language Models (LLMs) have blurred the lines between human and machine authorship, posing significant challenges for traditional methods. We presents a comprehensive literature review that examines the latest research on authorship attribution in the era of LLMs. This survey systematically explores the landscape of this field by categorizing four representative problems: (1) Human-written Text Attribution; (2) LLM-generated Text Detection; (3) LLM-generated Text Attribution; and (4) Human-LLM Co-authored Text Attribution. We also discuss the challenges related to ensuring the generalization and explainability of authorship attribution methods. Generalization requires the ability to generalize across various domains, while explainability emphasizes providing transparent and understandable insights into the decisions made by these models. By evaluating the strengths and limitations of existing methods and benchmarks, we identify key open problems and future research directions in this field. This literature review serves a roadmap for researchers and practitioners interested in understanding the state of the art in this rapidly evolving field. Additional resources and a curated list of papers are available and regularly updated at https://llm-authorship.github.io | 翻訳日:2024-08-20 23:26:14 公開日:2024-08-16 |
# 中性原子配列に対するフォールトトレラント光配線
Fault-tolerant optical interconnects for neutral-atom arrays ( http://arxiv.org/abs/2408.08955v1 ) ライセンス: Link先を確認 | Josiah Sinclair, Joshua Ramette, Brandon Grinkemeyer, Dolev Bluvstein, Mikhail Lukin, Vladan Vuletić, | (参考訳) 我々はニュートラル原子配列に基づく局所的誤り訂正モジュールの大規模なフォールトトレラント接続を可能にするためにフォトニックリンクを用いて解析する。
提案手法は, 境界雑音に対する表面符号の堅牢性を示す最近の理論的結果を利用しており, 原子配列量子コンピューティングの最近の実験的進歩と論理量子ビットと光学量子ネットワーク技術を組み合わせたものである。
局所2量子Rydbergゲートと非局所ベルペアの誤差は, 蒸留や時空のオーバーヘッドを伴わずに, それぞれ1%以下, 10%以下で達成できることがわかった。
レンズ、単一の光学キャビティ、またはキャビティの配列との相互接続を実現することで、1-50MHzの範囲でベル対の生成率を実現することができる。
論理量子ビットを直接対向すると、この速度は25-2000kHzの範囲での誤差補正サイクルに変換され、フォールトトレランスの要件をすべて満たし、100kHzの論理クロックサイクルでは十分速い。
We analyze the use of photonic links to enable large-scale fault-tolerant connectivity of locally error-corrected modules based on neutral atom arrays. Our approach makes use of recent theoretical results showing the robustness of surface codes to boundary noise and combines recent experimental advances in atom array quantum computing with logical qubits with optical quantum networking techniques. We find the conditions for fault-tolerance can be achieved with local two-qubit Rydberg gate and non-local Bell pair errors below 1% and 10%, respectively, without requiring distillation or space-time overheads. Realizing the interconnects with a lens, a single optical cavity, or an array of cavities enables a Bell pair generation rate in the 1-50 MHz range. When directly interfacing logical qubits, this rate translates to error-correction cycles in the 25-2000 kHz range, satisfying all requirements for fault tolerance and in the upper range fast enough for 100 kHz logical clock cycles. | 翻訳日:2024-08-20 23:26:14 公開日:2024-08-16 |
# 信頼モデリングと文脈学習による大規模言語モデルの適応ガードレール
Adaptive Guardrails For Large Language Models via Trust Modeling and In-Context Learning ( http://arxiv.org/abs/2408.08959v1 ) ライセンス: Link先を確認 | Jinwei Hu, Yi Dong, Xiaowei Huang, | (参考訳) ガードレールは、LLMを人間の期待に合わせるために有害または有害な応答を緩和することで、大型言語モデル(LLM)の不可欠な部分となっている。
しかし,既存のガードレール方式では個々のユーザのニーズやアクセス権は考慮されておらず,同じルールですべてのユーザを扱います。
本研究では,ユーザ信頼度に基づく機密コンテンツへのアクセスを動的に調整するために,信頼モデリングによって支援され,コンテキスト内学習により強化された適応型ガードレール機構を提案する。
ダイレクト・インタラクション・トラストと権限検証・トラストの組み合わせを利用することで、コンテンツモデレーションの厳格さを正確に調整し、ユーザの信頼性と質問の特定のコンテキストに合わせる。
実験により,適応ガードレールは多様なユーザニーズを効果的に満たし,機密情報を確保しつつ既存のガードレールの実用性を向上し,コンテキスト認識の知識ベースを通じて潜在的に有害なコンテンツを正確に管理することを示す。
この研究は、ガードレールシステムに信頼指向の概念を導入し、次世代LLMの倫理的展開に関する言説を豊かにするスケーラブルなソリューションを提供する。
Guardrails have become an integral part of Large language models (LLMs), by moderating harmful or toxic response in order to maintain LLMs' alignment to human expectations. However, the existing guardrail methods do not consider different needs and access rights of individual users, and treat all the users with the same rule. This study introduces an adaptive guardrail mechanism, supported by trust modeling and enhanced with in-context learning, to dynamically modulate access to sensitive content based on user trust metrics. By leveraging a combination of direct interaction trust and authority-verified trust, the system precisely tailors the strictness of content moderation to align with the user's credibility and the specific context of their inquiries. Our empirical evaluations demonstrate that the adaptive guardrail effectively meets diverse user needs, outperforming existing guardrails in practicality while securing sensitive information and precisely managing potentially hazardous content through a context-aware knowledge base. This work is the first to introduce trust-oriented concept within a guardrail system, offering a scalable solution that enriches the discourse on ethical deployment for next-generation LLMs. | 翻訳日:2024-08-20 23:26:14 公開日:2024-08-16 |
# BnSentMix: 感情分析のための多言語ベンガル英語コードミクシングデータセット
BnSentMix: A Diverse Bengali-English Code-Mixed Dataset for Sentiment Analysis ( http://arxiv.org/abs/2408.08964v1 ) ライセンス: Link先を確認 | Sadia Alam, Md Farhan Ishmam, Navid Hasin Alvee, Md Shahnewaz Siddique, Md Azam Hossain, Abu Raihan Mostofa Kamal, | (参考訳) コードミックスデータの普及により、限られたデータセットを持つBengaliのような低リソース言語に対する貴重な洞察を得ることができる。
感性分析は、コードミックスデータに対して、複数の言語にまたがる基本的なテキスト分類タスクである。
しかしながら、コードミキシングされたBengali上には、大規模で多様な感情分析データセットがまだ存在しない。
BnSentMixは、2万のサンプルとFacebook、YouTube、およびeコマースサイトからの4ドルの感情ラベルからなるコード混合ベンガルの感情分析データセットです。
データソースの多様性が、現実的なコードミキシングシナリオを再現することを保証する。
さらに,新たなトランスフォーマーエンコーダをコードミックスしたベンガル英語で事前学習し,総合精度が69.8\%,F1スコアが69.1\%となる14ドルのベースライン手法を提案する。
詳細な分析では、さまざまな感情ラベルやテキストタイプにまたがるパフォーマンスの変化を明らかにし、将来の改善の領域を強調している。
The widespread availability of code-mixed data can provide valuable insights into low-resource languages like Bengali, which have limited datasets. Sentiment analysis has been a fundamental text classification task across several languages for code-mixed data. However, there has yet to be a large-scale and diverse sentiment analysis dataset on code-mixed Bengali. We address this limitation by introducing BnSentMix, a sentiment analysis dataset on code-mixed Bengali consisting of 20,000 samples with $4$ sentiment labels from Facebook, YouTube, and e-commerce sites. We ensure diversity in data sources to replicate realistic code-mixed scenarios. Additionally, we propose $14$ baseline methods including novel transformer encoders further pre-trained on code-mixed Bengali-English, achieving an overall accuracy of $69.8\%$ and an F1 score of $69.1\%$ on sentiment classification tasks. Detailed analyses reveal variations in performance across different sentiment labels and text types, highlighting areas for future improvement. | 翻訳日:2024-08-20 23:16:31 公開日:2024-08-16 |
# Phishing Codebook: フィッシングメールの特徴付けのための構造化されたフレームワーク
Phishing Codebook: A Structured Framework for the Characterization of Phishing Emails ( http://arxiv.org/abs/2408.08967v1 ) ライセンス: Link先を確認 | Tarini Saka, Rachiyta Jain, Kami Vaniea, Nadin Kökciyan, | (参考訳) フィッシングは、世界中の組織や個人が直面している最も一般的で高価なサイバー犯罪の1つである。
これまでのほとんどの研究は、フィッシングメールを特徴付けるための様々な技術的特徴とテキストの伝統的な表現に焦点を当ててきた。
定性的な特徴が組み込まれているという重要な知識ギャップがあり、フィッシング軽減タスクに有用である。
本稿では、フィッシングメールの構造を識別し、不審な電子メールを評価する際に、人間の意思決定に影響を与える要因をよりよく理解し、新しい記述的特徴を識別する。
この目的のために、電子メールを記述した特徴を特定するために、反復的定性的な符号化手法を用いる。
我々は、フィッシングメールから鍵情報を体系的に抽出する構造化されたフレームワークである 'Phishing Codebook' を開発し、2015年から2021年の間に収集された503個のフィッシングメールのデータセットにこのコードブックを適用した。
本稿では、フィッシング攻撃に関する重要な観察と課題について、合法的なサービスを通じて間接的に配信されるフィッシング攻撃、頻繁かつ長期にわたる詐欺の難しさ、および、攻撃者がルールベースのフィルタをバイパスするために使用するキャンペーンにおける変動について述べる。
さらに、Phishing Codebookが類似のフィッシングメールを識別し、エンドユーザーに対して適切なレスポンスを作成するのにどのように役立つかを示す2つのユースケースを提供する。
Phishing Codebookと注釈付きベンチマークデータセットを共有して、研究者がフィッシングメールをよりよく理解できるようにする。
Phishing is one of the most prevalent and expensive types of cybercrime faced by organizations and individuals worldwide. Most prior research has focused on various technical features and traditional representations of text to characterize phishing emails. There is a significant knowledge gap about the qualitative traits embedded in them, which could be useful in a range of phishing mitigation tasks. In this paper, we dissect the structure of phishing emails to gain a better understanding of the factors that influence human decision-making when assessing suspicious emails and identify a novel set of descriptive features. For this, we employ an iterative qualitative coding approach to identify features that are descriptive of the emails. We developed the ``Phishing Codebook'', a structured framework to systematically extract key information from phishing emails, and we apply this codebook to a publicly available dataset of 503 phishing emails collected between 2015 and 2021. We present key observations and challenges related to phishing attacks delivered indirectly through legitimate services, the challenge of recurring and long-lasting scams, and the variations within campaigns used by attackers to bypass rule-based filters. Furthermore, we provide two use cases to show how the Phishing Codebook is useful in identifying similar phishing emails and in creating well-tailored responses to end-users. We share the Phishing Codebook and the annotated benchmark dataset to help researchers have a better understanding of phishing emails. | 翻訳日:2024-08-20 23:16:31 公開日:2024-08-16 |
# オンラインSLA分解 - 進化するシステムへのリアルタイム適応の実現
Online SLA Decomposition: Enabling Real-Time Adaptation to Evolving Systems ( http://arxiv.org/abs/2408.08968v1 ) ライセンス: Link先を確認 | Cyril Shih-Huan Hsu, Danny De Vleeschauwer, Chrysa Papagianni, | (参考訳) ネットワークスライスが複数のドメインにまたがる場合、各ドメインはエンド・ツー・エンド(E2E)サービス・レベル・アグリーメント(SLA)を守らなければならない。
これにより、エンド・ツー・エンド(E2E)サービス・レベル・アグリーメント(SLA)を各ドメインの部分的なSLAに分解する必要があります。
E2Eオーケストレータとローカルコントローラを備えた2段階ネットワークスライシング管理システムにおいて,近年のフィードバックを用いてリスクモデルを動的に更新するオンライン学習分解フレームワークを提案する。
このアプローチは、安定性と堅牢性を高めるために、オンライン勾配降下とFIFOメモリバッファを利用する。
実験により,提案手法は現状の静的手法より優れており,様々な条件下でのSLA分解やスパースデータをより正確かつ弾力的に実現していることがわかった。
When a network slice spans multiple domains, each domain must uphold the End-to-End (E2E) Service Level Agreement (SLA). This requires decomposing the End-to-End (E2E) Service Level Agreement (SLA) into partial SLAs for each domain. In a two-level network slicing management system with an E2E orchestrator and local controllers, we propose an online learning-decomposition framework that dynamically updates risk models using recent feedback. This approach utilizes online gradient descent and FIFO memory buffers to enhance stability and robustness. Our empirical study shows the proposed framework outperforms state-of-the-art static methods, offering more accurate and resilient SLA decomposition under varying conditions and sparse data. | 翻訳日:2024-08-20 23:16:31 公開日:2024-08-16 |
# 差別化可能なエッジベースOPC
Differentiable Edge-based OPC ( http://arxiv.org/abs/2408.08969v1 ) ライセンス: Link先を確認 | Guojin Chen, Haoyu Yang, Haoxing Ren, Bei Yu, David Z. Pan, | (参考訳) 光近接補正(OPC)は半導体製造の境界を押し進め、集積回路の継続的なスケーリングを可能にするために重要である。
画素ベースのOPCは逆リソグラフィ技術(ILT)と呼ばれ、その柔軟性と精度から研究の関心を集めている。
その複雑さと複雑な特徴は、マスクの書き込み、欠陥の増加、コストの上昇といった課題を招き、工業的普及を妨げている。
本稿では、エッジベースのOPCとILTの両方の利点を享受する差別化可能なOPCフレームワークであるDiffOPCを提案する。
DiffOPCはマスクルールを意識した勾配に基づく最適化手法を用いて、マスク最適化中のマスクエッジセグメントの動きを効率的に誘導し、コスト関数からマスクエッジへの真の勾配の伝播によるウェハ誤差を最小化する。
提案手法は,最先端のOPC技術と比較して製造コストを半減させ,画素ベースのOPCの高精度化と産業採用に必要な実用性とのギャップを埋めると共に,製造コストを半減させる。
Optical proximity correction (OPC) is crucial for pushing the boundaries of semiconductor manufacturing and enabling the continued scaling of integrated circuits. While pixel-based OPC, termed as inverse lithography technology (ILT), has gained research interest due to its flexibility and precision. Its complexity and intricate features can lead to challenges in mask writing, increased defects, and higher costs, hence hindering widespread industrial adoption. In this paper, we propose DiffOPC, a differentiable OPC framework that enjoys the virtue of both edge-based OPC and ILT. By employing a mask rule-aware gradient-based optimization approach, DiffOPC efficiently guides mask edge segment movement during mask optimization, minimizing wafer error by propagating true gradients from the cost function back to the mask edges. Our approach achieves lower edge placement error while reducing manufacturing cost by half compared to state-of-the-art OPC techniques, bridging the gap between the high accuracy of pixel-based OPC and the practicality required for industrial adoption, thus offering a promising solution for advanced semiconductor manufacturing. | 翻訳日:2024-08-20 23:16:31 公開日:2024-08-16 |
# インシシットな談話関係認識のためのマルチタスク・マルチラベル分類モデル
A Multi-Task and Multi-Label Classification Model for Implicit Discourse Relation Recognition ( http://arxiv.org/abs/2408.08971v1 ) ライセンス: Link先を確認 | Nelson Filipe Costa, Leila Kosseim, | (参考訳) 本研究では,インプリシット・ディストーク関係認識(IDRR)における固有曖昧性に対処し,マルチラベルとシングルラベルの両方の言論関係の表現を学習可能な新しいマルチタスク分類モデルを導入する。
DiscoGeMコーパスを活用することで、マルチラベルと従来のシングルラベルの分類タスクの両方でモデルをトレーニングし、評価する。
我々の知る限り、本研究はIDRRにおける最初の真のマルチラベル分類器を示し、マルチラベル分類のためのベンチマークを確立し、DiscoGeM上でのシングルラベル分類でSOTAを達成した。
さらに, PDTB 3.0コーパスを用いたシングルラベル分類において, 事前にデータに曝すことなく, モデルの評価を行った。
性能は現在のSOTAより低いが,本モデルでは両コーパス間の効果的な移動学習の可能性を示す有望な結果を示す。
In this work, we address the inherent ambiguity in Implicit Discourse Relation Recognition (IDRR) by introducing a novel multi-task classification model capable of learning both multi-label and single-label representations of discourse relations. Leveraging the DiscoGeM corpus, we train and evaluate our model on both multi-label and traditional single-label classification tasks. To the best of our knowledge, our work presents the first truly multi-label classifier in IDRR, establishing a benchmark for multi-label classification and achieving SOTA results in single-label classification on DiscoGeM. Additionally, we evaluate our model on the PDTB 3.0 corpus for single-label classification without any prior exposure to its data. While the performance is below the current SOTA, our model demonstrates promising results indicating potential for effective transfer learning across both corpora. | 翻訳日:2024-08-20 23:16:31 公開日:2024-08-16 |
# ASGM-KG: 知識グラフで金鉱を掘り起こす
ASGM-KG: Unveiling Alluvial Gold Mining Through Knowledge Graphs ( http://arxiv.org/abs/2408.08972v1 ) ライセンス: Link先を確認 | Debashis Gupta, Aditi Golder, Luis Fernendez, Miles Silman, Greg Lersen, Fan Yang, Bob Plemmons, Sarra Alqahtani, Paul Victor Pauca, | (参考訳) アーティサナール・アンド・スモールスケールの金鉱業(ASGM)は低コストで破壊的な鉱業であり、世界中の熱帯の流域で環境災害を引き起こしている。
ASGMのトピックは、自然と社会システムを含む複数の研究と情報の領域にまたがっており、知識はメディアや文書の多様性にまたがって微粒化されることが多い。
そこで我々は,ASGMの実践とその環境効果に関する重要な情報を統合し,提供する知識グラフ(ASGM-KG)を導入する。
ASGM-KGの現在のバージョンは、大きな言語モデル(LLM)を用いて抽出された1,899個のトリプルで構成されており、非政府組織と政府組織によって公表されている。
これらの文書は、ASGMの専門知識を持つ熱帯生態学者のグループによって慎重に選択された。
この知識グラフは2つの手法を用いて検証された。
まず、ASGMの専門家の小さなチームが、トリプルを事実または非事実としてレビューし、ラベル付けした。
第2に,三重項のラベル付けに検索エンジンとLLMを利用する自動実写還元フレームワークを考案し,適用した。
我々のフレームワークは、公開されている知識グラフ上で5つのベースラインを実行し、ドメインの専門家によって検証されたASGM-KG上で90以上の精度を達成する。
ASGM-KGは、ASGMのような複雑な学際的な環境危機に対する知識集約と表現の進歩を示す。
Artisanal and Small-Scale Gold Mining (ASGM) is a low-cost yet highly destructive mining practice, leading to environmental disasters across the world's tropical watersheds. The topic of ASGM spans multiple domains of research and information, including natural and social systems, and knowledge is often atomized across a diversity of media and documents. We therefore introduce a knowledge graph (ASGM-KG) that consolidates and provides crucial information about ASGM practices and their environmental effects. The current version of ASGM-KG consists of 1,899 triples extracted using a large language model (LLM) from documents and reports published by both non-governmental and governmental organizations. These documents were carefully selected by a group of tropical ecologists with expertise in ASGM. This knowledge graph was validated using two methods. First, a small team of ASGM experts reviewed and labeled triples as factual or non-factual. Second, we devised and applied an automated factual reduction framework that relies on a search engine and an LLM for labeling triples. Our framework performs as well as five baselines on a publicly available knowledge graph and achieves over 90 accuracy on our ASGM-KG validated by domain experts. ASGM-KG demonstrates an advancement in knowledge aggregation and representation for complex, interdisciplinary environmental crises such as ASGM. | 翻訳日:2024-08-20 23:16:31 公開日:2024-08-16 |
# 画像クラス翻訳距離:画像分類のための新しい解釈可能な特徴
Image Class Translation Distance: A Novel Interpretable Feature for Image Classification ( http://arxiv.org/abs/2408.08973v1 ) ライセンス: Link先を確認 | Mikyla K. Bowen, Jesse W. Wilson, | (参考訳) 本稿では,画像分類における画像翻訳ネットワークの新たな応用を提案し,従来のブラックボックス分類ネットワークの代替として,その可能性を実証する。
我々は、可能なクラス間で画像を翻訳するネットワークを訓練し、あるクラスまたは別のクラスに画像を適合させるために必要な変更の度合いなど、翻訳距離を定量化する。
これらの翻訳距離はクラスタやトレンドに対して調べられ、単純な分類器(例えば、サポートベクトルマシン、SVM)に直接供給され、従来のエンドツーエンドの畳み込みニューラルネットワーク分類器と同等の精度が得られる。
さらに、翻訳された画像の視覚的検査は、あるクラスでより頻繁に観察される視覚的アーティファクトなど、トレーニングセットにおけるクラス固有の特徴とバイアスを明らかにすることができる。
そこで本研究では, 色素性病変の画像からメラノーマを検出し, 骨髄生検で6種類の細胞タイプを分類する2つの医療画像に, リンゴとオレンジの2種類のシナリオを応用した。
この新しいイメージ・ツー・イメージ・ネットワークの応用は、異なるスタイルの変化を想像するだけでなく、画像分類と医用画像データセットに関する深い洞察を提供する技術の可能性を示している。
We propose a novel application of image translation networks for image classification and demonstrate its potential as a more interpretable alternative to conventional black box classification networks. We train a network to translate images between possible classes, and then quantify translation distance, i.e. the degree of alteration needed to conform an image to one class or another. These translation distances can then be examined for clusters and trends, and can be fed directly to a simple classifier (e.g. a support vector machine, SVM), providing comparable accuracy compared to a conventional end-to-end convolutional neural network classifier. In addition, visual inspection of translated images can reveal class-specific characteristics and biases in the training sets, such as visual artifacts that are more frequently observed in one class or another. We demonstrate the approach on a toy 2-class scenario, apples versus oranges, and then apply it to two medical imaging tasks: detecting melanoma from photographs of pigmented lesions and classifying 6 cell types in a bone marrow biopsy smear. This novel application of image-to-image networks shows the potential of the technology to go beyond imagining different stylistic changes and to provide greater insight into image classification and medical imaging datasets. | 翻訳日:2024-08-20 23:16:31 公開日:2024-08-16 |
# 生産環境におけるハイブリッドデータセットによる物体検出の強化--フェデレートラーニングと従来手法との比較
Enhancing Object Detection with Hybrid dataset in Manufacturing Environments: Comparing Federated Learning to Conventional Techniques ( http://arxiv.org/abs/2408.08974v1 ) ライセンス: Link先を確認 | Vinit Hegiste, Snehal Walunj, Jibinraj Antony, Tatjana Legler, Martin Ruskowski, | (参考訳) フェデレートラーニング(FL)は、堅牢なモデル開発とプライバシ保護機能のために製造に大きな注目を集めている。
本稿では,物体検出におけるFLモデルの堅牢性に着目した研究に寄与する。
本研究は,様々な対象視点,照明条件,散在する背景など,異なる環境下で記録されたテストデータに対して,集中学習モデルと異なる深層学習手法を比較検討し,FLの優れた性能を示すものである。
これらの結果は、目に見えない環境でも効率的に機能する堅牢なグローバルモデルを実現する上で、FLの可能性を浮き彫りにしている。
この研究は、製造環境で弾力性のある物体検出モデルを展開するための貴重な洞察を提供する。
Federated Learning (FL) has garnered significant attention in manufacturing for its robust model development and privacy-preserving capabilities. This paper contributes to research focused on the robustness of FL models in object detection, hereby presenting a comparative study with conventional techniques using a hybrid dataset for small object detection. Our findings demonstrate the superior performance of FL over centralized training models and different deep learning techniques when tested on test data recorded in a different environment with a variety of object viewpoints, lighting conditions, cluttered backgrounds, etc. These results highlight the potential of FL in achieving robust global models that perform efficiently even in unseen environments. The study provides valuable insights for deploying resilient object detection models in manufacturing environments. | 翻訳日:2024-08-20 23:16:31 公開日:2024-08-16 |
# 量子パビング:球のパッキングがガボルフレームと出会うとき
Quantum paving: When sphere packings meet Gabor frames ( http://arxiv.org/abs/2408.08975v1 ) ライセンス: Link先を確認 | Markus Faulhuber, Thomas Strohmer, | (参考訳) 量子パッキング、量子被覆、量子舗装の新たな問題を紹介する。
これらの問題は、ガボル解析と同様に量子物理学に深く根付いている非可換作用素の代数を考えると自然に生じる。
量子パッキングと量子被覆は、エネルギー最小化と偏極の二重問題に類似している。
量子舗装は、量子パッキングと量子被覆の両方を同時に最適化することを目的としている。
古典的な球体パッキングと被覆は、我々の新しい問題に対する最適な構成を示唆している。
特定の場合における解を示し、量子舗装に関するいくつかの予想を述べ、いくつかの応用について議論する。
We introduce the new problems of quantum packing, quantum covering, and quantum paving. These problems arise naturally when considering an algebra of non-commutative operators that is deeply rooted in quantum physics as well as in Gabor analysis. Quantum packing and quantum covering show similarities with energy minimization and the dual problem of polarization. Quantum paving, in turn, aims to simultaneously optimize both quantum packing and quantum covering. Classical sphere packing and covering hint the optimal configurations for our new problems. We present solutions in certain cases, state several conjectures related to quantum paving and discuss some applications. | 翻訳日:2024-08-20 23:16:31 公開日:2024-08-16 |
# LLMが答えられないものは何か - LLMの弱点を明らかにするための自己組織化フレームワーク
See What LLMs Cannot Answer: A Self-Challenge Framework for Uncovering LLM Weaknesses ( http://arxiv.org/abs/2408.08978v1 ) ライセンス: Link先を確認 | Yulong Chen, Yang Liu, Jianhao Yan, Xuefeng Bai, Ming Zhong, Yinghao Yang, Ziyi Yang, Chenguang Zhu, Yue Zhang, | (参考訳) LLM(Large Language Models)の印象的なパフォーマンスは多くの人間設計のベンチマークを一貫して上回り、LLMの欠点を評価する上での新たな課題を提示している。
タスクの設計とLLMの制限を見つけることがますます重要になっている。
本稿では,LLMが誤りから自身の限界を発見できるかどうかを考察する。
そこで本研究では,Human-in-the-loopを用いたセルフチェレンジ評価フレームワークを提案する。
GPT-4が答えられないシードインスタンスから始めて、GPT-4に新しいインスタンスを生成するのに使えるエラーパターンを要約させ、それらに人間のフィードバックを取り入れて、より困難なデータを生成するためにこれらのパターンを洗練させます。
テキスト操作や仮定による質問など8つのパターンが出来上がりました。
次に,GPT-4が生成する1,835個のインスタンスと,人手によるゴールド応答を併用したベンチマーク,SC-G4を構築した。
SC-G4は、LSMの能力の詳細な評価を可能にする、挑戦的なベンチマークとして機能する。
GPT-4で正解できるのは, SC-G4 の44.96 % のみである。
興味深いことに、パイロット実験ではこれらのエラーパターンがClaude-3やLlama-3といった他のLSMにも挑戦しており、微調整で完全には解決できないことが示されている。
我々の研究は、LLMが自身の固有の欠陥を自律的に識別し、将来の動的かつ自動評価のための洞察を提供することを実証する第一歩を踏み出した。
The impressive performance of Large Language Models (LLMs) has consistently surpassed numerous human-designed benchmarks, presenting new challenges in assessing the shortcomings of LLMs. Designing tasks and finding LLMs' limitations are becoming increasingly important. In this paper, we investigate the question of whether an LLM can discover its own limitations from the errors it makes. To this end, we propose a Self-Challenge evaluation framework with human-in-the-loop. Starting from seed instances that GPT-4 fails to answer, we prompt GPT-4 to summarize error patterns that can be used to generate new instances and incorporate human feedback on them to refine these patterns for generating more challenging data, iteratively. We end up with 8 diverse patterns, such as text manipulation and questions with assumptions. We then build a benchmark, SC-G4, consisting of 1,835 instances generated by GPT-4 using these patterns, with human-annotated gold responses. The SC-G4 serves as a challenging benchmark that allows for a detailed assessment of LLMs' abilities. Our results show that only 44.96\% of instances in SC-G4 can be answered correctly by GPT-4. Interestingly, our pilot study indicates that these error patterns also challenge other LLMs, such as Claude-3 and Llama-3, and cannot be fully resolved through fine-tuning. Our work takes the first step to demonstrate that LLMs can autonomously identify their inherent flaws and provide insights for future dynamic and automatic evaluation. | 翻訳日:2024-08-20 23:16:31 公開日:2024-08-16 |
# AUC最大化による脳波感情認識
Electroencephalogram Emotion Recognition via AUC Maximization ( http://arxiv.org/abs/2408.08979v1 ) ライセンス: Link先を確認 | Minheng Xiao, Shi Bo, | (参考訳) 不均衡データセットは、神経科学、認知科学、医学診断などの領域において重要な課題を生じさせ、モデルパフォーマンスの堅牢化には少数派クラスを正確に検出することが不可欠である。
本研究では,DEAPデータセットの 'Liking' ラベルを例に,クラス不均衡の問題に対処する。
このような不均衡はしばしば先行研究によって見落とされ、通常はよりバランスのとれた覚醒ラベルと価値ラベルに焦点が当てられ、主にモデルの性能を測定するために精度の指標を使用する。
この問題に対処するために,曲線下領域(AUC)の最大化を目的とした数値最適化手法を採用した。
我々の手法は線形分類器から始まり、ロジスティック回帰やサポートベクトルマシン(SVM)を含む従来の線形分類器と比較される。
その結果,F1スコアは0.506から0.632に改善され,リコール率は41.6\%から79.7\%に向上した。
これらの結果は、不均衡なデータセットを管理する際の数値最適化によるAUC最大化の有効性を強調し、サンプル外データセットにおける少数だが重要なクラスを検出するための予測精度を高める効果的なソリューションを提供する。
Imbalanced datasets pose significant challenges in areas including neuroscience, cognitive science, and medical diagnostics, where accurately detecting minority classes is essential for robust model performance. This study addresses the issue of class imbalance, using the `Liking' label in the DEAP dataset as an example. Such imbalances are often overlooked by prior research, which typically focuses on the more balanced arousal and valence labels and predominantly uses accuracy metrics to measure model performance. To tackle this issue, we adopt numerical optimization techniques aimed at maximizing the area under the curve (AUC), thus enhancing the detection of underrepresented classes. Our approach, which begins with a linear classifier, is compared against traditional linear classifiers, including logistic regression and support vector machines (SVM). Our method significantly outperforms these models, increasing recall from 41.6\% to 79.7\% and improving the F1-score from 0.506 to 0.632. These results highlight the efficacy of AUC maximization via numerical optimization in managing imbalanced datasets, providing an effective solution for enhancing predictive accuracy in detecting minority but crucial classes in out-of-sample datasets. | 翻訳日:2024-08-20 23:16:31 公開日:2024-08-16 |
# Lazy から Prolific へ:正の非ラベルシーケンス学習による開語彙エクストリーム分類における欠落ラベルのタックリング
From Lazy to Prolific: Tackling Missing Labels in Open Vocabulary Extreme Classification by Positive-Unlabeled Sequence Learning ( http://arxiv.org/abs/2408.08981v1 ) ライセンス: Link先を確認 | Haoran Ranran Zhang, Bensu Uçar, Soumik Dey, Hansi Wu, Binbin Li, Rui Zhang, | (参考訳) Open-vocabulary Extreme Multi-label Classification (OXMC)は、非常に大きく定義されたラベルセット(典型的には10^3$から10^{12}$ラベル)を超える予測を可能にし、現実世界のラベリングタスクの動的な性質に対処することで、従来のXMCを拡張している。
しかし、データアノテーションにおける自己選択バイアスは、トレーニングデータとテストデータの両方において、特にあまり人気のないインプットにおいて、大きな欠落を生んでいる。
これは2つの重要な課題を生み出します: 生成モデルはラベルを過大に生成することで"怠慢"になることを学び、テストセットのアノテーションが不十分なため、評価は信頼できないものになります。
本稿では,OXMCをキーフレーズ生成タスクとして再編成し,生成モデルの怠慢に対処するPUSL(Positive-Unlabeled Sequence Learning)を提案する。
さらに,F1@$\mathcal{O}$と新たに提案されたB@$k$という一連の評価指標を用いて,不完全な基底真理を持つOXMCモデルを確実に評価することを提案する。
かなり不均衡なラベルを持つEコマースデータセットでは、PUSLは30%以上のユニークなラベルを生成し、予測の72%は実際のユーザクエリと一致している。
より歪んだEURLex-4.3kデータセットでは、特にラベル数が15から30に増加するにつれて、PUSLは優れたF1スコアを示す。
提案手法はOXMCにおけるモデリングと評価の両課題に,ラベルの欠如を効果的に対処するものである。
Open-vocabulary Extreme Multi-label Classification (OXMC) extends traditional XMC by allowing prediction beyond an extremely large, predefined label set (typically $10^3$ to $10^{12}$ labels), addressing the dynamic nature of real-world labeling tasks. However, self-selection bias in data annotation leads to significant missing labels in both training and test data, particularly for less popular inputs. This creates two critical challenges: generation models learn to be "lazy'" by under-generating labels, and evaluation becomes unreliable due to insufficient annotation in the test set. In this work, we introduce Positive-Unlabeled Sequence Learning (PUSL), which reframes OXMC as an infinite keyphrase generation task, addressing the generation model's laziness. Additionally, we propose to adopt a suite of evaluation metrics, F1@$\mathcal{O}$ and newly proposed B@$k$, to reliably assess OXMC models with incomplete ground truths. In a highly imbalanced e-commerce dataset with substantial missing labels, PUSL generates 30% more unique labels, and 72% of its predictions align with actual user queries. On the less skewed EURLex-4.3k dataset, PUSL demonstrates superior F1 scores, especially as label counts increase from 15 to 30. Our approach effectively tackles both the modeling and evaluation challenges in OXMC with missing labels. | 翻訳日:2024-08-20 23:16:31 公開日:2024-08-16 |
# 血液細胞形態の深層的分類
Deep Generative Classification of Blood Cell Morphology ( http://arxiv.org/abs/2408.08982v1 ) ライセンス: Link先を確認 | Simon Deltadahl, Julian Gilbey, Christine Van Laer, Nancy Boeckx, Mathie Leers, Tanya Freeman, Laura Aiken, Timothy Farren, Matthew Smith, Mohamad Zeina, BloodCounts! consortium, Concetta Piazzese, Joseph Taylor, Nicholas Gleadall, Carola-Bibiane Schönlieb, Suthesh Sivapalaratnam, Michael Roberts, Parashkev Nachev, | (参考訳) 造血細胞の正確な分類は、血液疾患の診断に重要であるが、細胞形態の複雑さ、生物学的、病理学的、画像学的特徴の不均一性、および細胞型頻度の不均衡により、機械の自動化に重大な課題をもたらす。
血液細胞形態を効果的にモデル化する拡散型分類器であるCytoDiffusionを導入し,ロバストな異常検出,分布変化に対する耐性,解釈可能性,データ効率,超人的不確実性定量化を精度良く組み合わせた。
提案手法は、異常検出における最先端判別モデル(AUC 0.976 vs. 0.919)、ドメインシフトに対する抵抗(85.85% vs. 74.38%のバランス精度)、低データ体制における性能(95.88% vs. 94.95%のバランス精度)より優れている。
特に、我々のモデルは、専門家の血液学者が52.3%の精度(95% CI: [50.5%, 54.2%])を達成したチューリング試験で示されたように、実際の画像とほぼ区別できない合成血液細胞画像を生成する。
さらに,直接解釈可能な対物熱マップの生成により,モデル説明可能性を向上させる。
総合的な評価フレームワークは,これらの多面的な評価範囲を包含し,血行動態学における医療画像解析のための新しいベンチマークを確立し,最終的に臨床現場における診断精度の向上を可能にした。
私たちのコードはhttps://github.com/Deltadahl/CytoDiffusion.comで利用可能です。
Accurate classification of haematological cells is critical for diagnosing blood disorders, but presents significant challenges for machine automation owing to the complexity of cell morphology, heterogeneities of biological, pathological, and imaging characteristics, and the imbalance of cell type frequencies. We introduce CytoDiffusion, a diffusion-based classifier that effectively models blood cell morphology, combining accurate classification with robust anomaly detection, resistance to distributional shifts, interpretability, data efficiency, and superhuman uncertainty quantification. Our approach outperforms state-of-the-art discriminative models in anomaly detection (AUC 0.976 vs. 0.919), resistance to domain shifts (85.85% vs. 74.38% balanced accuracy), and performance in low-data regimes (95.88% vs. 94.95% balanced accuracy). Notably, our model generates synthetic blood cell images that are nearly indistinguishable from real images, as demonstrated by a Turing test in which expert haematologists achieved only 52.3% accuracy (95% CI: [50.5%, 54.2%]). Furthermore, we enhance model explainability through the generation of directly interpretable counterfactual heatmaps. Our comprehensive evaluation framework, encompassing these multiple performance dimensions, establishes a new benchmark for medical image analysis in haematology, ultimately enabling improved diagnostic accuracy in clinical settings. Our code is available at https://github.com/Deltadahl/CytoDiffusion. | 翻訳日:2024-08-20 23:16:31 公開日:2024-08-16 |
# ファイヤーダイナミックビジョン:マルチスケール火災とプルーム行動のための画像セグメンテーションと追跡
Fire Dynamic Vision: Image Segmentation and Tracking for Multi-Scale Fire and Plume Behavior ( http://arxiv.org/abs/2408.08984v1 ) ライセンス: Link先を確認 | Daryn Sagel, Bryan Quaife, | (参考訳) 山火事の頻度と深刻度の増加は、正確な火災と煙の拡散モデルの必要性を浮き彫りにしている。
本研究では,様々な空間的・時間的尺度や画像タイプを効果的に分離・追跡し,システムの物理的現象を特定し,モデルの開発と検証に有用な洞察を提供するアプローチを提案する。
本手法は, 画像分割とグラフ理論を組み合わせることで, 火災前線と配管境界を規定する。
本手法は, 火災や羽根を視覚的に類似した物体と効果的に区別できることを実証する。
その結果,光合成スケール(10^4$-$10^5$m)からサブマイクロスケール(10^0$-$10^1$m)まで,様々な画像源における火災・煙道動態の分離と追跡に成功した。
さらに、この手法は、統計的および機械学習モデルでの使用のために、画像のインペイントと時空間データセット生成を利用する。
The increasing frequency and severity of wildfires highlight the need for accurate fire and plume spread models. We introduce an approach that effectively isolates and tracks fire and plume behavior across various spatial and temporal scales and image types, identifying physical phenomena in the system and providing insights useful for developing and validating models. Our method combines image segmentation and graph theory to delineate fire fronts and plume boundaries. We demonstrate that the method effectively distinguishes fires and plumes from visually similar objects. Results demonstrate the successful isolation and tracking of fire and plume dynamics across various image sources, ranging from synoptic-scale ($10^4$-$10^5$ m) satellite images to sub-microscale ($10^0$-$10^1$ m) images captured close to the fire environment. Furthermore, the methodology leverages image inpainting and spatio-temporal dataset generation for use in statistical and machine learning models. | 翻訳日:2024-08-20 23:16:31 公開日:2024-08-16 |
# n-粒子状態に対する分離性基準
Separability criterion for n-particle states ( http://arxiv.org/abs/2408.08988v1 ) ライセンス: Link先を確認 | Reza Hamzehofi, | (参考訳) 本研究は、n-粒子状態(s<n$ )内の分離可能なs-粒子サブ状態の数を表す純度数の概念を紹介する。
最大純度数を達成するためには、n-粒子純状態の分離性に必要な条件と、n-粒子混合状態の分離性に必要な条件の両方が必要である。
その後、この研究はn-粒子純状態における絡み合い速度の概念に発展する。
すべての絡み合った部分状態が最大に絡み合うn-粒子純状態の絡み合い速度は、絡み合いの尺度とみなすことができる。
This research introduces the concept of the purity number, which represents the number of separable s-particle sub-states within an n-particle state ($s<n$ ). It establishes that, for any , achieving the maximum purity number is both a necessary and sufficient condition for the separability of n-particle pure states, and a necessary condition for the separability of n-particle mixed states. Subsequently, the study delves into the concept of entanglement rate in n-particle pure states. The entanglement rate of an n-particle pure state, in which all entangled sub-states are maximally entangled, can be considered as a measure of entanglement. | 翻訳日:2024-08-20 23:16:31 公開日:2024-08-16 |
# Ask, Attend, Attack: 画像とテキストのモデルに対する効果的な意思決定ベースのブラックボックスターゲットアタック
Ask, Attend, Attack: A Effective Decision-Based Black-Box Targeted Attack for Image-to-Text Models ( http://arxiv.org/abs/2408.08989v1 ) ライセンス: Link先を確認 | Qingyuan Zeng, Zhenzhong Wang, Yiu-ming Cheung, Min Jiang, | (参考訳) 画像からテキストへのモデルは、様々な視覚言語タスクにおいて顕著な進歩を示しているが、敵の攻撃を受けやすいままである。
既存の画像とテキストのモデルに対するホワイトボックス攻撃は、ターゲットモデルのアーキテクチャ、勾配、パラメータへのアクセスを必要とするため、実用性は低い。
最近提案されたグレーボックス攻撃は実用性を改善したが、トレーニングプロセス中に意味喪失に悩まされ、ターゲットとなる攻撃性能が制限された。
本稿では,画像からテキストへの敵対的攻撃を推し進めるために,最終出力テキストにのみアクセス可能な決定ベースのブラックボックスターゲット攻撃とターゲット攻撃の実施という,困難なシナリオに焦点をあてる。
具体的には,意思決定に基づくブラックボックス攻撃を大規模最適化問題として定式化する。
最適化問題を効果的に解くため,3段階のプロセスである「textit{Ask, Attend, Attack}」が提案され,解法と協調する。
\textit{Ask} は攻撃者に特定の意味を満足するターゲットテキストを作成するよう誘導する。
\textit{Attend} は、攻撃する画像の重要な領域を特定し、それに続く \textit{Attack} の検索スペースを減らす。
\textit{Attack} は進化的アルゴリズムを用いて重要な領域を攻撃し、攻撃は \textit{Ask} のターゲットテキストと意味的に関連している。
変換器とCNN+RNNを用いた画像からテキストへの変換実験の結果,提案手法の有効性が確認された。
While image-to-text models have demonstrated significant advancements in various vision-language tasks, they remain susceptible to adversarial attacks. Existing white-box attacks on image-to-text models require access to the architecture, gradients, and parameters of the target model, resulting in low practicality. Although the recently proposed gray-box attacks have improved practicality, they suffer from semantic loss during the training process, which limits their targeted attack performance. To advance adversarial attacks of image-to-text models, this paper focuses on a challenging scenario: decision-based black-box targeted attacks where the attackers only have access to the final output text and aim to perform targeted attacks. Specifically, we formulate the decision-based black-box targeted attack as a large-scale optimization problem. To efficiently solve the optimization problem, a three-stage process \textit{Ask, Attend, Attack}, called \textit{AAA}, is proposed to coordinate with the solver. \textit{Ask} guides attackers to create target texts that satisfy the specific semantics. \textit{Attend} identifies the crucial regions of the image for attacking, thus reducing the search space for the subsequent \textit{Attack}. \textit{Attack} uses an evolutionary algorithm to attack the crucial regions, where the attacks are semantically related to the target texts of \textit{Ask}, thus achieving targeted attacks without semantic loss. Experimental results on transformer-based and CNN+RNN-based image-to-text models confirmed the effectiveness of our proposed \textit{AAA}. | 翻訳日:2024-08-20 23:06:45 公開日:2024-08-16 |
# 生成AIのための適応的不確実性定量化
Adaptive Uncertainty Quantification for Generative AI ( http://arxiv.org/abs/2408.08990v1 ) ライセンス: Link先を確認 | Jungeum Kim, Sean O'Hagan, Veronika Rockova, | (参考訳) この研究は、ユーザーにはアクセスできないデータに基づいてブラックボックスモデルをトレーニングした現代的アプリケーション(生成AIを含む)における整合予測に関係している。
分割コンフォーマルな推論を反映して、整合性のスコアを校正するブラックボックスアルゴリズムのラッパーを設計する。
このキャリブレーションは局所的で、まず予測空間を群に適応的に分割し、次に部分群をグループごとにキャリブレーションすることで、2段階に進む。
アダプティブパーティショニング(自己グループ化)は、ロバスト回帰ツリーをキャリブレーションセット上の適合点に適合させることにより達成される。
この新しいツリー変種は、単一の新しい観測を追加することで、圧倒的に大きな確率でツリーが適合しないように設計されている。
この付加対一ロバスト性により、有限標本群条件カバレッジ保証、限界保証の洗練を結論付けることができる。
さらに、従来の分割等角推論とは異なり、適応分割とグループ内キャリブレーションは局所的に拡張・縮小できる適応帯域をもたらす。
非パラメトリック回帰を用いた実例とシミュレーションによる局所的な締め付けの利点を実例で示す。
最後に、GPT-4o予測に関する不確実性定量化を得るための2つの現代分類法について考察する。
我々は、自己申告症状に基づく皮膚疾患の診断と、そのイデオロギーの要約に基づく米国議会の予測状態を一致させる。
我々は、類似の限界範囲をカバーしながら、不確実性集合の相当な局所的な強化を示す。
This work is concerned with conformal prediction in contemporary applications (including generative AI) where a black-box model has been trained on data that are not accessible to the user. Mirroring split-conformal inference, we design a wrapper around a black-box algorithm which calibrates conformity scores. This calibration is local and proceeds in two stages by first adaptively partitioning the predictor space into groups and then calibrating sectionally group by group. Adaptive partitioning (self-grouping) is achieved by fitting a robust regression tree to the conformity scores on the calibration set. This new tree variant is designed in such a way that adding a single new observation does not change the tree fit with overwhelmingly large probability. This add-one-in robustness property allows us to conclude a finite sample group-conditional coverage guarantee, a refinement of the marginal guarantee. In addition, unlike traditional split-conformal inference, adaptive splitting and within-group calibration yields adaptive bands which can stretch and shrink locally. We demonstrate benefits of local tightening on several simulated as well as real examples using non-parametric regression. Finally, we consider two contemporary classification applications for obtaining uncertainty quantification around GPT-4o predictions. We conformalize skin disease diagnoses based on self-reported symptoms as well as predicted states of U.S. legislators based on summaries of their ideology. We demonstrate substantial local tightening of the uncertainty sets while attaining similar marginal coverage. | 翻訳日:2024-08-20 23:06:45 公開日:2024-08-16 |
# 水平・二次境界に対するミニマリストアプローチとしてのモデルベースRL
Model-based RL as a Minimalist Approach to Horizon-Free and Second-Order Bounds ( http://arxiv.org/abs/2408.08994v1 ) ライセンス: Link先を確認 | Zhiyong Wang, Dongruo Zhou, John C. S. Lui, Wen Sun, | (参考訳) MLE(Maximum Likelihood Estimation)を通じて移行モデルを学習し、学習モデル内で計画を行うことは、おそらく最も標準的で、最もシンプルなモデルベース強化学習(RL)フレームワークである。
本研究では,楽観的で悲観的な計画手順を備えたモデルベースRLスキームが,オンラインとオフラインのRL設定において,強い後悔とサンプルの複雑さの境界を達成できることを示す。
特に、軌道的報酬が0と1の間で正規化され、遷移が時間的均質である条件下では、地平線フリーおよび二階境界を達成することを実証する。
水平自由とは、我々の境界はマルコフ決定過程の地平線に多項式依存を持たないことを意味する。
2階境界(英: second-order bound)は、システムがほぼ決定論的であるときに小さくなり得るポリシーの戻り値の分散に関してスケールする、インスタンス依存境界の一種である。
我々のアルゴリズムは単純で、かなり標準的なものであり、実際にRLの文献で広く研究されている:彼らはMLEを通してモデルを学習し、MLEソリューションの周りにバージョン空間を構築し、オンラインモードかオフラインモードかによって楽観的または悲観的な計画を実行する。
これらのアルゴリズムは、分散学習や分散重み付け学習などの特別なアルゴリズム設計に頼らず、線形構造や表構造をはるかに超越したリッチ関数近似を利用することができる。
アルゴリズムの単純さは、地平線のない、2階の後悔分析が実際には標準であり、主に不確実性に直面した楽観主義/悲観主義の一般的な枠組みに従うことを示唆している。
Learning a transition model via Maximum Likelihood Estimation (MLE) followed by planning inside the learned model is perhaps the most standard and simplest Model-based Reinforcement Learning (RL) framework. In this work, we show that such a simple Model-based RL scheme, when equipped with optimistic and pessimistic planning procedures, achieves strong regret and sample complexity bounds in online and offline RL settings. Particularly, we demonstrate that under the conditions where the trajectory-wise reward is normalized between zero and one and the transition is time-homogenous, it achieves horizon-free and second-order bounds. Horizon-free means that our bounds have no polynomial dependence on the horizon of the Markov Decision Process. A second-order bound is a type of instance-dependent bound that scales with respect to the variances of the returns of the policies which can be small when the system is nearly deterministic and (or) the optimal policy has small values. We highlight that our algorithms are simple, fairly standard, and indeed have been extensively studied in the RL literature: they learn a model via MLE, build a version space around the MLE solution, and perform optimistic or pessimistic planning depending on whether operating in the online or offline mode. These algorithms do not rely on additional specialized algorithmic designs such as learning variances and performing variance-weighted learning and thus can leverage rich function approximations that are significantly beyond linear or tabular structures. The simplicity of the algorithms also implies that our horizon-free and second-order regret analysis is actually standard and mainly follows the general framework of optimism/pessimism in the face of uncertainty. | 翻訳日:2024-08-20 23:06:45 公開日:2024-08-16 |
# 人工知能アライメントの不確定性について--ハトする機械-
On the Undecidability of Artificial Intelligence Alignment: Machines that Halt ( http://arxiv.org/abs/2408.08995v1 ) ライセンス: Link先を確認 | Gabriel Adriano de Melo, Marcos Ricardo Omena De Albuquerque Maximo, Nei Yoshihiro Soma, Paulo Andre Lima de Castro, | (参考訳) 内部アライメント問題は、任意の人工知能(AI)モデルがその入力によって出力の非自明なアライメント関数を満たすかどうかを判断できない。
これはライスの定理によって厳密に証明され、チューリングのハルティング問題への還元と等価である。
それでも、証明された整列したAIの集合は、証明された整列した操作の有限集合から構築されている。
したがって、アライメントは任意のAIモデルにポストホックの特質を課すのではなく、AIアーキテクチャから保証されたプロパティであるべきだと論じる。
さらに, 外部アライメント問題は, 人間の価値観や嗜好を捉えた判定関数の定義であるが, このような関数は, 有限実行段階においてAIモデルが常に終端状態に達することを保証した停止制約を課す必要がある。
私たちの研究は、この制約と関連する複雑な課題を説明するサンプルとモデルを提示し、停止を保証するAIシステムアーキテクチャに本質的にハードアラインなアプローチを採用するための説得力のあるケースを前進させます。
The inner alignment problem, which asserts whether an arbitrary artificial intelligence (AI) model satisfices a non-trivial alignment function of its outputs given its inputs, is undecidable. This is rigorously proved by Rice's theorem, which is also equivalent to a reduction to Turing's Halting Problem, whose proof sketch is presented in this work. Nevertheless, there is an enumerable set of provenly aligned AIs that are constructed from a finite set of provenly aligned operations. Therefore, we argue that the alignment should be a guaranteed property from the AI architecture rather than a characteristic imposed post-hoc on an arbitrary AI model. Furthermore, while the outer alignment problem is the definition of a judge function that captures human values and preferences, we propose that such a function must also impose a halting constraint that guarantees that the AI model always reaches a terminal state in finite execution steps. Our work presents examples and models that illustrate this constraint and the intricate challenges involved, advancing a compelling case for adopting an intrinsically hard-aligned approach to AI systems architectures that ensures halting. | 翻訳日:2024-08-20 23:06:45 公開日:2024-08-16 |
# $\ell_2$期待校正誤差に対する信頼区間
A Confidence Interval for the $\ell_2$ Expected Calibration Error ( http://arxiv.org/abs/2408.08998v1 ) ライセンス: Link先を確認 | Yan Sun, Pratik Chaudhari, Ian J. Barnett, Edgar Dobriban, | (参考訳) 機械学習の最近の進歩により、様々な応用における予測精度が大幅に向上した。
しかし、確率的予測の校正を保証することは重要な課題である。
モデルキャリブレーションを強化する努力にもかかわらず、モデルキャリブレーションの厳密な統計的評価はいまだに調査されていない。
本研究では,$\ell_2$ expecteded Calibration Error (ECE) の信頼区間を開発する。
信頼性キャリブレーションの一般的な概念と完全キャリブレーションの両方を含む,トップ1からk$のキャリブレーションを考える。
ECEの縮退推定器では、漸近正規性を示すが、校正されたモデルと誤校正されたモデルに対して異なる収束率と漸近分散を示す。
本研究では,ECEに対する漸近的に有効な信頼区間を構築する手法を開発した。
提案手法は, 再サンプリング法と比較し, 有効信頼区間を短い長さで生成することを示した。
Recent advances in machine learning have significantly improved prediction accuracy in various applications. However, ensuring the calibration of probabilistic predictions remains a significant challenge. Despite efforts to enhance model calibration, the rigorous statistical evaluation of model calibration remains less explored. In this work, we develop confidence intervals the $\ell_2$ Expected Calibration Error (ECE). We consider top-1-to-$k$ calibration, which includes both the popular notion of confidence calibration as well as full calibration. For a debiased estimator of the ECE, we show asymptotic normality, but with different convergence rates and asymptotic variances for calibrated and miscalibrated models. We develop methods to construct asymptotically valid confidence intervals for the ECE, accounting for this behavior as well as non-negativity. Our theoretical findings are supported through extensive experiments, showing that our methods produce valid confidence intervals with shorter lengths compared to those obtained by resampling-based methods. | 翻訳日:2024-08-20 23:06:45 公開日:2024-08-16 |
# Classifier-Free GuidanceはPredictor-Correctorである
Classifier-Free Guidance is a Predictor-Corrector ( http://arxiv.org/abs/2408.09000v1 ) ライセンス: Link先を確認 | Arwen Bradley, Preetum Nakkiran, | (参考訳) 分類器フリーガイダンス(CFG)の理論的基礎について検討する。
CFGはテキスト・画像拡散モデルにおける条件付きサンプリングの主流の手法であるが、他の拡散の側面とは異なり、不安定な理論的な足場に留まっている。
本稿では,CFG が DDPM (Ho et al , 2020) と DDIM (Song et al , 2021) と異なる相互作用を示すこと,および CFG のサンプリング器が γ を用いた分布 $p(x|c)^\gamma p(x)^{1-\gamma}$ を生成できないこと,といった一般的な誤解を解消する。
そこで,我々はCFGの行動を明らかにするために,予測コレクター法(Song et al , 2020)の一種であり,デノイングとシャープニングを交互に行うことを示し,これを予測コレクターガイダンス(PCG)と呼ぶ。
SDE の極限において、CFG は実際に条件分布の DDIM 予測器とガンマ動力分布のランゲヴィン力学補正器(慎重に選択されたガンマ)とを結合するものであることを証明している。
そこで本研究は,CFGを原理的サンプリング手法のより広い設計空間に埋め込むことで,理論的にCFGを理解するためのレンズを提供する。
We investigate the theoretical foundations of classifier-free guidance (CFG). CFG is the dominant method of conditional sampling for text-to-image diffusion models, yet unlike other aspects of diffusion, it remains on shaky theoretical footing. In this paper, we disprove common misconceptions, by showing that CFG interacts differently with DDPM (Ho et al., 2020) and DDIM (Song et al., 2021), and neither sampler with CFG generates the gamma-powered distribution $p(x|c)^\gamma p(x)^{1-\gamma}$. Then, we clarify the behavior of CFG by showing that it is a kind of predictor-corrector method (Song et al., 2020) that alternates between denoising and sharpening, which we call predictor-corrector guidance (PCG). We prove that in the SDE limit, CFG is actually equivalent to combining a DDIM predictor for the conditional distribution together with a Langevin dynamics corrector for a gamma-powered distribution (with a carefully chosen gamma). Our work thus provides a lens to theoretically understand CFG by embedding it in a broader design space of principled sampling methods. | 翻訳日:2024-08-20 23:06:45 公開日:2024-08-16 |
# フーリエ線形演算子学習のための誤差境界
Error Bounds for Learning Fourier Linear Operators ( http://arxiv.org/abs/2408.09004v1 ) ライセンス: Link先を確認 | Unique Subedi, Ambuj Tewari, | (参考訳) 本稿では,Fourier Neural Operatorの線形層に着目し,関数空間間の学習演算子の問題を考察する。
まず, 有限標本サイズによる統計的誤差, 演算子の有限階近似からの切り出し誤差, 有限個の領域点上の関数データを扱うことによる離散化誤差の3つの主な誤差を同定する。
最後に、離散フーリエ変換(DFT)に基づく最小二乗推定器を解析し、上記の誤差に対して上下境界を確立する。
We investigate the problem of learning operators between function spaces, focusing on the linear layer of the Fourier Neural Operator. First, we identify three main errors that occur during the learning process: statistical error due to finite sample size, truncation error from finite rank approximation of the operator, and discretization error from handling functional data on a finite grid of domain points. Finally, we analyze a Discrete Fourier Transform (DFT) based least squares estimator, establishing both upper and lower bounds on the aforementioned errors. | 翻訳日:2024-08-20 23:06:45 公開日:2024-08-16 |
# 角膜疾患検出のためのトランスフォーマーを用いた事前訓練モデルの比較解析
Comparative Performance Analysis of Transformer-Based Pre-Trained Models for Detecting Keratoconus Disease ( http://arxiv.org/abs/2408.09005v1 ) ライセンス: Link先を確認 | Nayeem Ahmed, Md Maruf Rahman, Md Fatin Ishrak, Md Imran Kabir Joy, Md Sanowar Hossain Sabuj, Md. Sadekur Rahman, | (参考訳) 本研究は、変性眼疾患である角膜症(keratoconus)の診断のために、訓練済みの8つのCNNを比較した。
ケラトコヌス,正常,疑わしい症例を慎重に選択した。
テストされたモデルは、DenseNet121、EfficientNetB0、InceptionResNetV2、InceptionV3、MobileNetV2、ResNet50、VGG16、VGG19である。
モデルトレーニングを最大化するために、サンプル除去、リサイズ、再スケーリング、拡張が使用された。
モデルには、同様のパラメータ、アクティベーション関数、分類関数、オプティマイザをトレーニングし、性能を比較した。
クラス分離の有効性を判定するために,各モデルを精度,精度,リコール,F1スコアで評価した。
MobileNetV2は角膜と正常な症例を誤分類の少ない場合に最も正確なモデルであった。
InceptionV3とDenseNet121はどちらも角膜検出では良好に機能したが、疑わしいケースでは問題があった。
対照的に、EfficientNetB0、ResNet50、VGG19は、疑わしいケースを通常のケースと区別することが困難であり、モデル精製と開発の必要性を示している。
ケラトコヌスの自動識別のための最先端CNNアーキテクチャの詳細な比較により、各モデルの利点と弱点が明らかになった。
本研究は,高度な深層学習モデルにより角膜診断と治療計画が向上することを示す。
今後の研究は、ハイブリッドモデルと臨床パラメータを統合して、実世界の臨床応用における診断精度と堅牢性を改善し、より効果的なAI駆動眼科ツールの道を開くべきである。
This study compares eight pre-trained CNNs for diagnosing keratoconus, a degenerative eye disease. A carefully selected dataset of keratoconus, normal, and suspicious cases was used. The models tested include DenseNet121, EfficientNetB0, InceptionResNetV2, InceptionV3, MobileNetV2, ResNet50, VGG16, and VGG19. To maximize model training, bad sample removal, resizing, rescaling, and augmentation were used. The models were trained with similar parameters, activation function, classification function, and optimizer to compare performance. To determine class separation effectiveness, each model was evaluated on accuracy, precision, recall, and F1-score. MobileNetV2 was the best accurate model in identifying keratoconus and normal cases with few misclassifications. InceptionV3 and DenseNet121 both performed well in keratoconus detection, but they had trouble with questionable cases. In contrast, EfficientNetB0, ResNet50, and VGG19 had more difficulty distinguishing dubious cases from regular ones, indicating the need for model refining and development. A detailed comparison of state-of-the-art CNN architectures for automated keratoconus identification reveals each model's benefits and weaknesses. This study shows that advanced deep learning models can enhance keratoconus diagnosis and treatment planning. Future research should explore hybrid models and integrate clinical parameters to improve diagnostic accuracy and robustness in real-world clinical applications, paving the way for more effective AI-driven ophthalmology tools. | 翻訳日:2024-08-20 23:06:45 公開日:2024-08-16 |
# コンテキスト対応コード概要生成
Context-aware Code Summary Generation ( http://arxiv.org/abs/2408.09006v1 ) ライセンス: Link先を確認 | Chia-Yi Su, Aakash Bansal, Yu Huang, Toby Jia-Jun Li, Collin McMillan, | (参考訳) コード要約生成は、ソースコードのセクションの自然言語記述を記述するタスクである。
大規模言語モデル(LLM)や他のAIベースの技術の最近の進歩は、自動コード要約の実現に役立っている。
しかしながら、これらのアプローチが記述する要約は、狭い範囲のコードに集中する傾向があります。
結果は、関数が内部で何をするかを説明する要約であるが、プログラムのより広い文脈において、関数がなぜ存在するか、あるいはその目的を記述していない。
本稿では,この文脈を最近のLLMに基づくコード要約に含めるためのアプローチを提案する。
このアプローチへのインプットは、Javaメソッドと、そのメソッドが存在するプロジェクトです。
アウトプットは、なぜこのメソッドがプロジェクトに存在するのかを簡潔な英語で記述したものである。
このアプローチのコアとなるのは350mのパラメータ言語モデルです。
私たちはそのモデルを2つのステップで訓練する。
まず、大規模なモデルからコード要約に関する知識を抽出し、コード要約を書くよう依頼された人間のプログラマの研究データを用いてモデルを微調整する。
この課題において,本手法はGPT-4より優れていることが判明した。
Code summary generation is the task of writing natural language descriptions of a section of source code. Recent advances in Large Language Models (LLMs) and other AI-based technologies have helped make automatic code summarization a reality. However, the summaries these approaches write tend to focus on a narrow area of code. The results are summaries that explain what that function does internally, but lack a description of why the function exists or its purpose in the broader context of the program. In this paper, we present an approach for including this context in recent LLM-based code summarization. The input to our approach is a Java method and that project in which that method exists. The output is a succinct English description of why the method exists in the project. The core of our approach is a 350m parameter language model we train, which can be run locally to ensure privacy. We train the model in two steps. First we distill knowledge about code summarization from a large model, then we fine-tune the model using data from a study of human programmer who were asked to write code summaries. We find that our approach outperforms GPT-4 on this task. | 翻訳日:2024-08-20 23:06:45 公開日:2024-08-16 |
# 最適ペアワイズマージアルゴリズムは非負行列分解の品質と一貫性を改善する
An optimal pairwise merge algorithm improves the quality and consistency of nonnegative matrix factorization ( http://arxiv.org/abs/2408.09013v1 ) ライセンス: Link先を確認 | Youdong Guo, Timothy E. Holy, | (参考訳) 非負行列分解(NMF)は特徴抽出の鍵となる手法であり、ソース分離に広く用いられている。
しかし、既存のアルゴリズムは、劣悪な局所最小値や、類似の目的値を持ついくつかの最小値の1つに収束するが、特徴パラメトリゼーションが異なる。
さらに、NMFの性能はコンポーネントの数に大きく依存するが、最適な数を選ぶことは依然として困難である。
ここでは、これらの弱点のいくつかは、高次元の特徴空間でNMFを実行し、分析的に解決可能なペアワイズマージ戦略と繰り返し組み合わせることで緩和される可能性があることを示す。
実験により,NMF法により局所最適性が向上し,解の整合性が向上することが示された。
反復的なマージは、コンポーネントの数を選択するための効率的かつ情報的なフレームワークを提供する。
驚くべきことに、これらの余分なステップにもかかわらず、我々のアプローチは、サドル点付近の「収束停止」の発生を減らすことで、しばしば計算性能を向上させる。
これは、NMFのほとんどのアプリケーションで好まれるアプローチとして推奨できる。
Non-negative matrix factorization (NMF) is a key technique for feature extraction and widely used in source separation. However, existing algorithms may converge to poor local minima, or to one of several minima with similar objective value but differing feature parametrizations. Additionally, the performance of NMF greatly depends on the number of components, but choosing the optimal count remains a challenge. Here we show that some of these weaknesses may be mitigated by performing NMF in a higher-dimensional feature space and then iteratively combining components with an analytically-solvable pairwise merge strategy. Experimental results demonstrate our method helps NMF achieve better local optima and greater consistency of the solutions. Iterative merging also provides an efficient and informative framework for choosing the number of components. Surprisingly, despite these extra steps, our approach often improves computational performance by reducing the occurrence of ``convergence stalling'' near saddle points. This can be recommended as a preferred approach for most applications of NMF. | 翻訳日:2024-08-20 23:06:45 公開日:2024-08-16 |
# 量子ゲームジャム - 量子物理学者とゲームを作る
Quantum Game Jam -- Making Games with Quantum Physicists ( http://arxiv.org/abs/2408.09014v1 ) ライセンス: Link先を確認 | Annakaisa Kultima, Laura Piispanen, Miikka Junnila, | (参考訳) 本稿では,理科間コラボレーションの促進と,理科ゲームプロトタイプの作成を目的としたQuantum Game Jam(QGJ)について検討する。
QGJ(QGJ)は、2014-2019年に5回編成されたゲーム開発イベント、サイエンスゲームジャムである。
これらの出来事において、ゲームメーカーと量子物理学者は量子力学、量子研究のためのゲーム、および量子コンピュータを利用したゲームに関するゲームを作成した。
QGJは、マルチディシプリナとコラボレーティブな探索と学習のためのプラットフォームとして働いてきました。
これに加えて、少なくとも3機の試作機が更なる開発に投入された。
本稿では,QGJの形式がどのように行われたかを評価する。
本稿では,イベントの整理とゲームプロトタイプの有用性について論じる。
ジャムの観測に加えて,全イベントのゲーム提出状況(2014-2019)を評価し,第5回イベント(2019)の参加者による調査データを収集した。
In this paper, we explore Quantum Game Jam (QGJ) as a method for facilitating interdisciplinary collaboration and creating science game prototypes. QGJ was a series of game development events, science game jams, organized five times 2014-2019. In these events game makers and quantum physicists created games about quantum mechanics, games for quantum research and games utilizing quantum computers. QGJ has worked as a platform for multidisciplinary and collaborative exploration and learning: through creating 68 game prototypes throughout the years the participants have networked and learned from each other. In addition to this, at least three prototypes have been taken into further development. In this paper we evaluate how the format of QGJ performed. We discuss both the organizing of the events as well as the utility of the game prototypes. In addition to our observations on the jams, we have evaluated the game submissions of all events (2014-2019) and gathered survey data from the participants of the fifth event (2019). | 翻訳日:2024-08-20 23:06:45 公開日:2024-08-16 |
# AdaRank: 低ランク適応のための診断に基づくモジュールランク予測
AdaRank: Disagreement Based Module Rank Prediction for Low-rank Adaptation ( http://arxiv.org/abs/2408.09015v1 ) ライセンス: Link先を確認 | Yihe Dong, | (参考訳) 言語モデルやマルチモーダルモデルの増大に伴い、汎用基礎モデルの事前学習や下流タスクへの適応が一般的になっている。
この目的のために、モデルのサイズが大きいため、適応効率は重要なボトルネックとなりうるため、LoRAのような効率的な微調整法が普及している。
しかしながら、LoRAは通常すべてのモデル層で同じランクで適用されるが、転写学習の文献では、微調整の間、後続の層は事前訓練された重みからより多様になるという証拠が盛り込まれている。
特徴学習とモジュール臨界性に関する理論と観測から着想を得て, 与えられたモジュールのランクを他のモジュールと比較して予測する単純なモデル不一致に基づく手法を開発した。
経験的に、AdaRankは、同じ数のパラメータを持つ均一なランクを使用するよりも、目に見えないデータに対して顕著に優れている。
以前の作業と比較して、AdaRankは事前訓練と適応段階を完全に無傷で残すというユニークな利点がある。
私たちのコードはhttps://github.com/google-research/google-research/tree/master/adaptive_low_rankで公開されています。
With the rise of language and multimodal models of ever-increasing size, pretraining a general-purpose foundational model and adapting it to downstream tasks has become common practice. To this end, adaptation efficiency can be a critical bottleneck given the large model sizes, hence efficient finetuning methods such as LoRA have become prevalent. However, LoRA is typically applied with the same rank across all model layers, despite mounting evidence from transfer learning literature that during finetuning, later layers diverge more from pretrained weights. Inspired by the theory and observations around feature learning and module criticality, we develop a simple model disagreement based technique to predict the rank of a given module relative to the other modules. Empirically, AdaRank generalizes notably better on unseen data than using uniform ranks with the same number of parameters. Compared to prior work, AdaRank has the unique advantage of leaving the pretraining and adaptation stages completely intact: no need for any additional objectives or regularizers, which can hinder adaptation accuracy and performance. Our code is publicly available at https://github.com/google-research/google-research/tree/master/adaptive_low_rank. | 翻訳日:2024-08-20 23:06:45 公開日:2024-08-16 |
# オンライン量子ゲームジャム
Online Quantum Game Jam ( http://arxiv.org/abs/2408.09025v1 ) ライセンス: Link先を確認 | Laura Piispanen, Daria Anttila, Natasha Skult, | (参考訳) 本稿では,量子物理学関連ゲーム作成イベントであるQuantum Game Jamsのオンライン版について論じる。
オンラインのQuantum Game Jamsに関する2つの調査から成っている。
第1部では、2020年から2021年にかけて行われた3つのイベントについて調べる。
第2部では,2021年から2022年までのGlobal Quantum Game Jamの実施状況について,参加者のフィードバックと経験に基づいて評価している。
また、2021年と2022年の国際イベントの参加者の背景も調べている。
本報告では,ゲームジャムやサイエンスゲームジャムにも適用可能な,今後のオンラインゲームジャムの組織化のためのガイドラインを提案する。
This paper presents and discusses the online version of Quantum Game Jams, events where quantum physics related games are created. It consists of a two-part investigation into online Quantum Game Jams. The first part involves examining three events that took place between 2020 and 2021. The second part provides a detailed account of organising the Global Quantum Game Jam from 2021 to 2022, evaluating its outcomes based on participant feedback and experiences. Additionally, it examines the backgrounds of the participants in the global events of 2021 and 2022. Based on the findings, this paper proposes a set of guidelines for organising future online Quantum Game Jams, which can also be applicable to game jams and science game jams in general | 翻訳日:2024-08-20 23:06:45 公開日:2024-08-16 |
# 次世代予測による自己回帰音声の効率的なモデリング
Efficient Autoregressive Audio Modeling via Next-Scale Prediction ( http://arxiv.org/abs/2408.09027v1 ) ライセンス: Link先を確認 | Kai Qiu, Xiang Li, Hao Chen, Jie Sun, Jinglu Wang, Zhe Lin, Marios Savvides, Bhiksha Raj, | (参考訳) 音声生成は拡散モデル (DM) や自己回帰モデル (AR) といった高度な生成モデルの発展により、顕著な進歩を遂げた。
しかし、オーディオの自然な配列長のため、特に大規模言語モデル(LLM)に組み込まれたARモデルにおいて、オーディオ生成の効率性は、対処すべき重要な課題である。
本稿では,音声トークン化のトークン長を解析し,残留量子化を改善した新規な \textbf{S}cale-level \textbf{A}udio \textbf{T}okenizer (SAT) を提案する。
SAT をベースとしたスケールレベルの \textbf{A}coustic \textbf{A}uto\textbf{R}egressive (AAR) モデリングフレームワークも提案されている。
提案手法の有効性を検証するため,提案手法は設計選択を総合的に分析し,AARフレームワークがAudioSetベンチマークのベースラインに対して,高速な推論速度と+\textbf{1.33} Fr\echet Audio Distance(FAD)を実現することを実証する。
コード: \url{https://github.com/qiuk2/AAR}。
Audio generation has achieved remarkable progress with the advance of sophisticated generative models, such as diffusion models (DMs) and autoregressive (AR) models. However, due to the naturally significant sequence length of audio, the efficiency of audio generation remains an essential issue to be addressed, especially for AR models that are incorporated in large language models (LLMs). In this paper, we analyze the token length of audio tokenization and propose a novel \textbf{S}cale-level \textbf{A}udio \textbf{T}okenizer (SAT), with improved residual quantization. Based on SAT, a scale-level \textbf{A}coustic \textbf{A}uto\textbf{R}egressive (AAR) modeling framework is further proposed, which shifts the next-token AR prediction to next-scale AR prediction, significantly reducing the training cost and inference time. To validate the effectiveness of the proposed approach, we comprehensively analyze design choices and demonstrate the proposed AAR framework achieves a remarkable \textbf{35}$\times$ faster inference speed and +\textbf{1.33} Fr\'echet Audio Distance (FAD) against baselines on the AudioSet benchmark. Code: \url{https://github.com/qiuk2/AAR}. | 翻訳日:2024-08-20 23:06:45 公開日:2024-08-16 |
# コンフリクトに基づく探索の完全性について:時間的関係の重複処理
On the Completeness of Conflict-Based Search: Temporally-Relative Duplicate Pruning ( http://arxiv.org/abs/2408.09028v1 ) ライセンス: Link先を確認 | Thayne T Walker, Nathan R Sturtevant, | (参考訳) マルチエージェントパスフィンディング(MAPF)問題に対する競合ベースサーチ(CBS)アルゴリズムは、解を持たない問題に対して不完全である。
本研究では,古典的かつ連続的なMAPFドメインの重複検出・削除技術であるTRDP(Temporally-Relative Duplicate Pruning)を紹介する。
TRDPは、CBSの長期的理論上の不完全性の抜け穴を、重複状態の検出と回避によって閉じる単純な手順である。
TRDPは理論的にも経験的にも、ほとんどの問題インスタンスのランタイムに大きな影響を与えることなく、終了を確実にするために示されています。
ある場合、TRDPは性能を著しく向上させる。
Conflict-Based Search (CBS) algorithm for the multi-agent pathfinding (MAPF) problem is that it is incomplete for problems which have no solution; if no mitigating procedure is run in parallel, CBS will run forever when given an unsolvable problem instance. In this work, we introduce Temporally-Relative Duplicate Pruning (TRDP), a technique for duplicate detection and removal in both classic and continuous-time MAPF domains. TRDP is a simple procedure which closes the long-standing theoretic loophole of incompleteness for CBS by detecting and avoiding the expansion of duplicate states. TRDP is shown both theoretically and empirically to ensure termination without a significant impact on runtime in the majority of problem instances. In certain cases, TRDP is shown to increase performance significantly | 翻訳日:2024-08-20 23:06:45 公開日:2024-08-16 |
# 対話型テーマ発見システムにおけるコラボレーションの効果に関する研究
Studying the Effects of Collaboration in Interactive Theme Discovery Systems ( http://arxiv.org/abs/2408.09030v1 ) ライセンス: Link先を確認 | Alvin Po-Chun Chen, Dananjay Srinivas, Alexandra Barry, Maksim Seniw, Maria Leonor Pacheco, | (参考訳) NLP支援ソリューションは、定性的データ分析をサポートするためにかなりの牽引力を得ている。
しかし、定性的な研究者がそれらを活用できる多くの異なる設定を考慮できる統一的な評価フレームワークは存在しない。
本稿では、異なるツールが採用するコラボレーション戦略によって異なる結果をもたらす方法を研究するための評価枠組みを提案することにより、この方向への第一歩を踏み出す。
具体的には、2つの異なるNLP支援定性的調査ツールを用いた同期対非同期協調の効果について検討し、それらの出力の一貫性、凝集性、正当性において有意な差異を包括的に分析する。
NLP-assisted solutions have gained considerable traction to support qualitative data analysis. However, there does not exist a unified evaluation framework that can account for the many different settings in which qualitative researchers may employ them. In this paper, we take a first step in this direction by proposing an evaluation framework to study the way in which different tools may result in different outcomes depending on the collaboration strategy employed. Specifically, we study the impact of synchronous vs. asynchronous collaboration using two different NLP-assisted qualitative research tools and present a comprehensive analysis of significant differences in the consistency, cohesiveness, and correctness of their outputs. | 翻訳日:2024-08-20 22:56:40 公開日:2024-08-16 |
# モバイルアプリケーションセキュリティの実践と課題を探求する開発者中心的研究
A Developer-Centric Study Exploring Mobile Application Security Practices and Challenges ( http://arxiv.org/abs/2408.09032v1 ) ライセンス: Link先を確認 | Anthony Peruma, Timothy Huo, Ana Catarina Araújo, Jake Imanaka, Rick Kazman, | (参考訳) モバイルアプリケーション(アプリ)は、銀行、ヘルスケア、ショッピングなどのサービスに便利なアクセスを提供する、日常生活において不可欠な部分となっている。
これらのアプリが機密性の高い個人データや財務データを処理しているため、セキュリティの確保が最重要である。
以前の調査では、モバイルアプリの開発者プラクティスについて検討していたが、アプリのセキュリティにおいて開発者が直面する共通プラクティスや課題に関する知識は限られていた。
私たちの調査では、137人の経験豊富なモバイルアプリ開発者を対象にした世界的調査を通じて、このニーズに対処しています。
この結果から,開発者は認証やセキュアストレージなどの機能を頻繁に実装し,セキュリティに重きを置いていることがわかった。
脆弱性やパーミッション,プライバシの懸念といった問題に直面すると同時に,Stack Overflowなどのリソースに支援を頼っていることも少なくありません。
多くの開発者は、既存の学習教材が、セキュアなアプリの構築や、ベストプラクティスに従うこと、開発プロセスの開始時にセキュリティを統合することなどのレコメンデーションを提供するための十分な準備をしていないことに気付きます。
私たちは、セキュリティプラクティスの改善、より良い設計ツールとリソース、より効果的なトレーニングプログラムに繋がる私たちの発見を想像します。
Mobile applications (apps) have become an essential part of everyday life, offering convenient access to services such as banking, healthcare, and shopping. With these apps handling sensitive personal and financial data, ensuring their security is paramount. While previous research has explored mobile app developer practices, there is limited knowledge about the common practices and challenges that developers face in securing their apps. Our study addresses this need through a global survey of 137 experienced mobile app developers, providing a developer-centric view of mobile app security. Our findings show that developers place high importance on security, frequently implementing features such as authentication and secure storage. They face challenges with managing vulnerabilities, permissions, and privacy concerns, and often rely on resources like Stack Overflow for help. Many developers find that existing learning materials do not adequately prepare them to build secure apps and provide recommendations, such as following best practices and integrating security at the beginning of the development process. We envision our findings leading to improved security practices, better-designed tools and resources, and more effective training programs. | 翻訳日:2024-08-20 22:56:40 公開日:2024-08-16 |
# 境界付きサポートノイズ下でのガウス的プロセス回帰のためのエラー境界と安全性証明への応用
Error Bounds For Gaussian Process Regression Under Bounded Support Noise With Applications To Safety Certification ( http://arxiv.org/abs/2408.09033v1 ) ライセンス: Link先を確認 | Robert Reed, Luca Laurenti, Morteza Lahijanian, | (参考訳) ガウス過程回帰(英: Gaussian Process Regression、GPR)は、安全クリティカルドメインを含む幅広いアプリケーションでノイズの多いデータから複雑な関数を学ぶための強力でエレガントな方法である。
そのようなアプリケーションには2つの重要な特徴がある。
一 厳密な誤りの定量化が必要で、
(ii) 雑音は、例えば、物理的制約のため、しばしば有界で非ガウス的である。
非ガウスノイズの存在下でGPRを適用する際の誤差境界は存在するが、実際には過度に制限的かつ保守的である傾向にある。
本稿では,GPRの有界支持雑音下での新たな誤差境界について述べる。
具体的には、濃度不等式に依存し、GPカーネルに対応する再生カーネルヒルベルト空間(RKHS)において潜在関数の複雑さが低いことを仮定することにより、GPRの誤差に対する確率的および決定論的境界を導出する。
これらのエラーは、既存の最先端境界よりもかなり強く、特にニューラルネットワークカーネル、すなわちDeep Kernel Learning(DKL)のGPRに適していることを示す。
さらに、安全クリティカル領域の応用を動機として、これらの境界を確率的障壁関数と組み合わせて、未知の力学系の安全性確率を有限データから定量化する方法について述べる。
いくつかのベンチマークと既存の境界との比較により,提案手法の有効性を検証した。
その結果、我々の境界は一貫して小さく、DKLはサンプルノイズよりも厳密な誤差境界を生成でき、制御システムの安全性を著しく向上できることがわかった。
Gaussian Process Regression (GPR) is a powerful and elegant method for learning complex functions from noisy data with a wide range of applications, including in safety-critical domains. Such applications have two key features: (i) they require rigorous error quantification, and (ii) the noise is often bounded and non-Gaussian due to, e.g., physical constraints. While error bounds for applying GPR in the presence of non-Gaussian noise exist, they tend to be overly restrictive and conservative in practice. In this paper, we provide novel error bounds for GPR under bounded support noise. Specifically, by relying on concentration inequalities and assuming that the latent function has low complexity in the reproducing kernel Hilbert space (RKHS) corresponding to the GP kernel, we derive both probabilistic and deterministic bounds on the error of the GPR. We show that these errors are substantially tighter than existing state-of-the-art bounds and are particularly well-suited for GPR with neural network kernels, i.e., Deep Kernel Learning (DKL). Furthermore, motivated by applications in safety-critical domains, we illustrate how these bounds can be combined with stochastic barrier functions to successfully quantify the safety probability of an unknown dynamical system from finite data. We validate the efficacy of our approach through several benchmarks and comparisons against existing bounds. The results show that our bounds are consistently smaller, and that DKLs can produce error bounds tighter than sample noise, significantly improving the safety probability of control systems. | 翻訳日:2024-08-20 22:56:40 公開日:2024-08-16 |
# マルチモーダル表現認識のための教師の専門知識蒸留
Multi Teacher Privileged Knowledge Distillation for Multimodal Expression Recognition ( http://arxiv.org/abs/2408.09035v1 ) ライセンス: Link先を確認 | Muhammad Haseeb Aslam, Marco Pedersoli, Alessandro Lameiras Koerich, Eric Granger, | (参考訳) 人間の感情は、表情、声調、ボディランゲージ、生理的信号を通じて伝達され知覚される複雑な現象である。
多様なセンサから相補的および冗長な意味情報を学習できるため、マルチモーダル感情認識システムはよく機能する。
実世界のシナリオでは、トレーニングに使用されるモダリティのサブセットのみがテスト時に利用できます。
特権情報を学ぶことで、モデルはトレーニング中にのみ利用できる追加のモダリティからデータを利用することができる。
PKDのSOTA法は、教師モデルから生徒モデル(特権モダリティなし)への情報を(特権モダリティなし)蒸留するために提案されている。
しかし、これらのPKD法はポイント・ツー・ポイントマッチングを利用しており、関係情報を明示的に捉えていない。
近年, 構造情報を蒸留する方法が提案されている。
しかし、構造的類似性に基づくPKD法は、主に、その頑健さ、正確性、多様なマルチモーダルソースから学ぶ能力を制限する単一の共同教師表現からの学習に限られる。
本稿では, 学生に蒸留する前に, 自己蒸留による多教師PKD (MT-PKDOT) 法を導入し, 多様な教師表現の調整を行った。
MT-PKDOTは、蒸留のための規則化された最適輸送(OT)に基づく構造類似性KD機構を用いる。
MT-PKDOT法はAffwild2とBiovidのデータセットで検証された。
その結果,提案手法はSOTA PKD法より優れていることがわかった。
Biovidデータに対する視覚のみのベースラインを5.5%改善する。
Affwild2データセットでは,それぞれ価値と覚醒値に対して視覚のみの基準値よりも3%,5%向上する。
学生が複数の多様な情報源から学べるようにすることで、精度が向上し、学生モデルへの負の移動を暗黙的に避けることができる。
Human emotion is a complex phenomenon conveyed and perceived through facial expressions, vocal tones, body language, and physiological signals. Multimodal emotion recognition systems can perform well because they can learn complementary and redundant semantic information from diverse sensors. In real-world scenarios, only a subset of the modalities employed for training may be available at test time. Learning privileged information allows a model to exploit data from additional modalities that are only available during training. SOTA methods for PKD have been proposed to distill information from a teacher model (with privileged modalities) to a student model (without privileged modalities). However, such PKD methods utilize point-to-point matching and do not explicitly capture the relational information. Recently, methods have been proposed to distill the structural information. However, PKD methods based on structural similarity are primarily confined to learning from a single joint teacher representation, which limits their robustness, accuracy, and ability to learn from diverse multimodal sources. In this paper, a multi-teacher PKD (MT-PKDOT) method with self-distillation is introduced to align diverse teacher representations before distilling them to the student. MT-PKDOT employs a structural similarity KD mechanism based on a regularized optimal transport (OT) for distillation. The proposed MT-PKDOT method was validated on the Affwild2 and Biovid datasets. Results indicate that our proposed method can outperform SOTA PKD methods. It improves the visual-only baseline on Biovid data by 5.5%. On the Affwild2 dataset, the proposed method improves 3% and 5% over the visual-only baseline for valence and arousal respectively. Allowing the student to learn from multiple diverse sources is shown to increase the accuracy and implicitly avoids negative transfer to the student model. | 翻訳日:2024-08-20 22:56:40 公開日:2024-08-16 |
# ADen: スパースビューカメラポーズ推定のための適応密度表現
ADen: Adaptive Density Representations for Sparse-view Camera Pose Estimation ( http://arxiv.org/abs/2408.09042v1 ) ライセンス: Link先を確認 | Hao Tang, Weiyao Wang, Pierre Gleize, Matt Feiszli, | (参考訳) 画像からカメラのポーズを復元することは3Dコンピュータビジョンの基本課題であり、3Dシーン/オブジェクト再構成などの重要なアプリケーションを動かす。
古典的な手法はしばしばキーポイントのような特徴対応に依存し、入力画像は大きな重なり合いと小さな視点の変化を必要とする。
このような要件は、スパースビューのシナリオでかなりの課題をもたらします。
最近のデータ駆動型アプローチは、6DoFカメラのポーズを後退させたり、回転を確率分布として定式化したりすることで、カメラのポーズを直接出力することを目指している。
しかし、それぞれのアプローチには限界がある。
一方、カメラのポーズを直接退避させることは、単一のモードを前提としており、これは対称性の下では正しくなく、準最適解をもたらすためである。
一方、確率論的アプローチは対称性のあいまいさをモデル化することができるが、彼らはブルート力で回転空間全体を均一にサンプリングする。
これにより、モデル精度を改善する高密度のサンプルと、実行時を決定するサンプル効率との間に必然的なトレードオフが生じます。
本稿では,2つのフレームワークをジェネレータと識別器を用いて統合することを提案する。このジェネレータは,分布を表すために6DoFカメラの複数の仮説を出力し,複数のモードのあいまいさを扱うように訓練され,識別器はデータを最もよく説明する仮説を特定するために訓練される。
これにより、ADenは両方の世界の最高のものを組み合わせることができ、経験的評価において以前の方法よりもはるかに精度が高く、ランタイムも低くなる。
Recovering camera poses from a set of images is a foundational task in 3D computer vision, which powers key applications such as 3D scene/object reconstructions. Classic methods often depend on feature correspondence, such as keypoints, which require the input images to have large overlap and small viewpoint changes. Such requirements present considerable challenges in scenarios with sparse views. Recent data-driven approaches aim to directly output camera poses, either through regressing the 6DoF camera poses or formulating rotation as a probability distribution. However, each approach has its limitations. On one hand, directly regressing the camera poses can be ill-posed, since it assumes a single mode, which is not true under symmetry and leads to sub-optimal solutions. On the other hand, probabilistic approaches are capable of modeling the symmetry ambiguity, yet they sample the entire space of rotation uniformly by brute-force. This leads to an inevitable trade-off between high sample density, which improves model precision, and sample efficiency that determines the runtime. In this paper, we propose ADen to unify the two frameworks by employing a generator and a discriminator: the generator is trained to output multiple hypotheses of 6DoF camera pose to represent a distribution and handle multi-mode ambiguity, and the discriminator is trained to identify the hypothesis that best explains the data. This allows ADen to combine the best of both worlds, achieving substantially higher precision as well as lower runtime than previous methods in empirical evaluations. | 翻訳日:2024-08-20 22:56:40 公開日:2024-08-16 |
# 言語モデルによるVTE識別の改善:Mamba, Phi-3 Mini, BERTの比較検討
Improving VTE Identification through Language Models from Radiology Reports: A Comparative Study of Mamba, Phi-3 Mini, and BERT ( http://arxiv.org/abs/2408.09043v1 ) ライセンス: Link先を確認 | Jamie Deng, Yusen Wu, Yelena Yesha, Phuong Nguyen, | (参考訳) 静脈血栓塞栓症(VTE)は重症心血管疾患であり,深部静脈血栓症(DVT)と肺塞栓症(PE)を含む。
VTEの正確な時間的同定は効果的な医療に不可欠である。
本研究は,DVTの深層学習手法を用いたVTE検出と,PEの深層学習とルールベース分類を組み合わせたハイブリッドアプローチを併用した,従来の研究に基づいている。
初期のアプローチでは、効果的な一方で、2つの大きな制限がありました。
これらの課題を克服するために,我々はMambaアーキテクチャに基づく分類器を利用する。
このモデルでは,DVTデータセットの精度97\%,DVTデータセットのF1,PEデータセットの精度98\%,F1スコアなどの顕著な結果が得られる。
従来のPE識別のハイブリッド手法とは対照的に、Mamba分類器は手作業によるルールの必要性を排除し、同等の性能を維持しながらモデルの複雑さを著しく低減する。
さらに,VTEの検出において,軽量なLarge Language Model(LLM)であるPhi-3 Miniを評価した。
このモデルは、ベースラインBERTモデルよりも優れた競争結果をもたらすが、パラメータセットが大きいため、計算集約的であることが証明される。
評価の結果,マンバモデルにより,VTE識別の性能と効率が向上し,従来手法の限界に対する効果的な解法が得られた。
Venous thromboembolism (VTE) is a critical cardiovascular condition, encompassing deep vein thrombosis (DVT) and pulmonary embolism (PE). Accurate and timely identification of VTE is essential for effective medical care. This study builds upon our previous work, which addressed VTE detection using deep learning methods for DVT and a hybrid approach combining deep learning and rule-based classification for PE. Our earlier approaches, while effective, had two major limitations: they were complex and required expert involvement for feature engineering of the rule set. To overcome these challenges, we utilize the Mamba architecture-based classifier. This model achieves remarkable results, with a 97\% accuracy and F1 score on the DVT dataset and a 98\% accuracy and F1 score on the PE dataset. In contrast to the previous hybrid method on PE identification, the Mamba classifier eliminates the need for hand-engineered rules, significantly reducing model complexity while maintaining comparable performance. Additionally, we evaluated a lightweight Large Language Model (LLM), Phi-3 Mini, in detecting VTE. While this model delivers competitive results, outperforming the baseline BERT models, it proves to be computationally intensive due to its larger parameter set. Our evaluation shows that the Mamba-based model demonstrates superior performance and efficiency in VTE identification, offering an effective solution to the limitations of previous approaches. | 翻訳日:2024-08-20 22:56:40 公開日:2024-08-16 |
# 自動車用HMIのCalm and Relax
Keep Calm and Relax -- HMI for Autonomous Vehicles ( http://arxiv.org/abs/2408.09046v1 ) ライセンス: Link先を確認 | Tima M. Yekta, Julius Schöning, | (参考訳) 自動運転と呼ばれる自動運転車の普及により、乗客の信頼と快適性を高めるために、人間と機械のインターフェース~(HMI)とユーザーインタラクションー(UI)の必要性が高まっている。
フォールバックドライバーは、自動運転車の信頼度に大きく影響するが、フォールバックドライバーは、緊急時に車の安全性を改善できないような高価なソリューションである。
包括的な文献レビューに基づいて、この研究は、ドライバーレス車両における信頼と感情の規制を強化するためのHMIとUIの可能性を掘り下げている。
様々なHMIとUIが乗客の感情に与える影響を分析することにより、人間と車両の相互作用を改善するための革新的で費用対効果の高い概念が概念化される。
信頼性が高く、快適で安全な乗車を可能にするため、HMIとUIが緊急時に乗客を落ち着かせるのに適しているかどうかを議論することで、よりスマートな移動手段へと繋がる。
The growing popularity of self-driving, so-called autonomous vehicles has increased the need for human-machine interfaces~(HMI) and user interaction~(UI) to enhance passenger trust and comfort. While fallback drivers significantly influence the perceived trustfulness of self-driving vehicles, fallback drivers are an expensive solution that may not even improve vehicle safety in emergency situations. Based on a comprehensive literature review, this work delves into the potential of HMI and UI in enhancing trustfulness and emotion regulation in driverless vehicles. By analyzing the impact of various HMI and UI on passenger emotions, innovative and cost-effective concepts for improving human-vehicle interaction are conceptualized. To enable a trustful, highly comfortable, and safe ride, this work concludes by discussing whether HMI and UI are suitable for calming passengers down in emergencies, leading to smarter mobility for all. | 翻訳日:2024-08-20 22:56:40 公開日:2024-08-16 |
# mRNA2vec:mRNA設計のための5'UTR-CDSの言語モデルを用いたmRNA2vec
mRNA2vec: mRNA Embedding with Language Model in the 5'UTR-CDS for mRNA Design ( http://arxiv.org/abs/2408.09048v1 ) ライセンス: Link先を確認 | Honggen Zhang, Xiangrui Gao, June Zhang, Lipeng Lai, | (参考訳) Messenger RNA(mRNA)ベースのワクチンは新薬の発見を加速し、製薬業界に革命をもたらした。
しかし、幅広いmRNAライブラリーからワクチンや治療のための特定のmRNA配列を選択することはコストがかかる。
効果的なmRNA治療は、最適化された発現レベルと安定性を持つ注意深く設計された配列を必要とする。
本稿では,新しい文脈言語モデル(LM)に基づく埋め込み手法mRNA2vecを提案する。
既存のmRNA埋め込み手法とは対照的に,本手法はData2vecの自己教師型学習フレームワークをベースとしている。
入力シーケンスとして5'非翻訳領域(UTR)とCDS領域を併用する。
LMに基づくアプローチを特にmRNAに適応させる。
1) 確率的マスキングによるmRNA配列上の位置の重要性を考える。
2) 最小自由エネルギー(MFE)予測と二次構造(SS)分類を追加の前提課題として用いた。
mRNA2vecは、UTR-LMのようなSOTA法と比較して、翻訳効率(TE)および発現レベル(EL)予測タスクの大幅な改善を示す。
また、CodonBERTのようなCDSのmRNA安定性とタンパク質生産レベルのタスクにおいて、競合的な性能を与える。
Messenger RNA (mRNA)-based vaccines are accelerating the discovery of new drugs and revolutionizing the pharmaceutical industry. However, selecting particular mRNA sequences for vaccines and therapeutics from extensive mRNA libraries is costly. Effective mRNA therapeutics require carefully designed sequences with optimized expression levels and stability. This paper proposes a novel contextual language model (LM)-based embedding method: mRNA2vec. In contrast to existing mRNA embedding approaches, our method is based on the self-supervised teacher-student learning framework of data2vec. We jointly use the 5' untranslated region (UTR) and coding sequence (CDS) region as the input sequences. We adapt our LM-based approach specifically to mRNA by 1) considering the importance of location on the mRNA sequence with probabilistic masking, 2) using Minimum Free Energy (MFE) prediction and Secondary Structure (SS) classification as additional pretext tasks. mRNA2vec demonstrates significant improvements in translation efficiency (TE) and expression level (EL) prediction tasks in UTR compared to SOTA methods such as UTR-LM. It also gives a competitive performance in mRNA stability and protein production level tasks in CDS such as CodonBERT. | 翻訳日:2024-08-20 22:56:40 公開日:2024-08-16 |
# 言語モデルによるロールプレイ間の安定な値オリエンテーション
Language Models Show Stable Value Orientations Across Diverse Role-Plays ( http://arxiv.org/abs/2408.09049v1 ) ライセンス: Link先を確認 | Bruce W. Lee, Yeongheon Lee, Hyunsoo Cho, | (参考訳) 大規模言語モデル(LLM)は,多種多様なペルソナを取り入れつつ一貫した価値指向を示し,その応答の持続的慣性を明らかにする。
この現象をシステマティックに探求するために、ランダム化された多様なペルソナを持つLLMを誘導し、その応答のマクロ的傾向を分析するロールプレイ・アット・スケールの方法論を導入する。
我々のロールプレイ・アット・スケールの方法論は,(1) モデルに異なるランダムなペルソナで行動するよう促すこと,(2) ランダムなペルソナ毎に同じ質問を複数回行うことによる,体系的かつスケーラブルな方法で本質的な傾向を診断する。
このアプローチは、様々なロールプレイシナリオにまたがるLLM応答における一貫したパターンを明らかにし、固有の傾向を深くエンコードしていることを示す。
本研究は,基礎モデルにおける価値アライメントの議論に寄与し,LLMの符号化バイアスを明らかにするための診断ツールとしてのロールプレイ・アット・スケールの有効性を示す。
We demonstrate that large language models (LLMs) exhibit consistent value orientations despite adopting diverse personas, revealing a persistent inertia in their responses that remains stable across the variety of roles they are prompted to assume. To systematically explore this phenomenon, we introduce the role-play-at-scale methodology, which involves prompting LLMs with randomized, diverse personas and analyzing the macroscopic trend of their responses. Unlike previous works that simply feed these questions to LLMs as if testing human subjects, our role-play-at-scale methodology diagnoses inherent tendencies in a systematic and scalable manner by: (1) prompting the model to act in different random personas and (2) asking the same question multiple times for each random persona. This approach reveals consistent patterns in LLM responses across diverse role-play scenarios, indicating deeply encoded inherent tendencies. Our findings contribute to the discourse on value alignment in foundation models and demonstrate the efficacy of role-play-at-scale as a diagnostic tool for uncovering encoded biases in LLMs. | 翻訳日:2024-08-20 22:56:40 公開日:2024-08-16 |
# 言語モデルを用いた連続学習における動的適応合成のための経路学習
Learning to Route for Dynamic Adapter Composition in Continual Learning with Language Models ( http://arxiv.org/abs/2408.09053v1 ) ライセンス: Link先を確認 | Vladimir Araujo, Marie-Francine Moens, Tinne Tuytelaars, | (参考訳) パラメータ効率のよい微細チューニング(PEFT)手法は、継続学習(CL)のための事前学習言語モデル(PLM)でますます使われている。
これらの方法は、新しいタスクごとにPEFTモジュールをトレーニングし、類似性に基づいた選択を使用して、推論中にモジュールをルーティングする。
しかし、それらは2つの大きな制限に直面している。
1)既に学んだモジュールとの干渉
2)モジュールを構成する際の最適部分ルーティング。
本稿では,タスク専門化のためのPEFTモジュールのトレーニングを分離する手法を提案する。
そして、評価の前に、小さなメモリからのサンプルを利用するルータをトレーニングすることで、以前に学習したモジュールを構成することを学習する。
提案手法を複数のベンチマークを用いて2つのCLセットアップで評価する。
提案手法はPEFTモジュールのより優れた構成を提供し,従来の手法と比較して一般化と性能が向上することを示す。
Parameter-efficient fine-tuning (PEFT) methods are increasingly used with pre-trained language models (PLMs) for continual learning (CL). These methods involve training a PEFT module for each new task and using similarity-based selection to route modules during inference. However, they face two major limitations: 1) interference with already learned modules and 2) suboptimal routing when composing modules. In this paper, we introduce a method that isolates the training of PEFT modules for task specialization. Then, before evaluation, it learns to compose the previously learned modules by training a router that leverages samples from a small memory. We evaluate our method in two CL setups using several benchmarks. Our results show that our method provides a better composition of PEFT modules, leading to better generalization and performance compared to previous methods. | 翻訳日:2024-08-20 22:56:40 公開日:2024-08-16 |
# NewsPaLM MBR と QE データセットの導入: 従来の Web クローリングデータより優れた LLM 生成高品質並列データ
Introducing the NewsPaLM MBR and QE Dataset: LLM-Generated High-Quality Parallel Data Outperforms Traditional Web-Crawled Data ( http://arxiv.org/abs/2408.06537v3 ) ライセンス: Link先を確認 | Mara Finkelstein, David Vilar, Markus Freitag, | (参考訳) ニューラルマシン翻訳(NMT)の最近の研究により、高品質なマシン生成データに対するトレーニングは、人為的なデータに対するトレーニングよりも優れていることが示されている。
この研究は、LLM生成、MBRデコード、QE参照のデータセットを初めてリリースし、文レベルと多文の両方の例を示す。
我々は、NMTモデルの性能に対する下流の影響の観点から、データセットの品質を実証するための広範な実験を行った。
我々の(機械生成)データセットのスクラッチからのトレーニングは、(Webcrawled)WMT'23トレーニングデータセット(300倍大きい)でのトレーニングよりも優れており、WMT'23トレーニングデータセットの最高品質サブセットでのトレーニングよりも優れています。
また、このデータセットを生成するLCMを微調整して自己蒸留を行うことで、LSMの強力な数ショットベースラインよりも優れた性能が得られることも見出した。
これらの結果はデータセットの品質を裏付け、NMTモデルの性能向上における高品質なマシン生成データの価値を実証する。
Recent research in neural machine translation (NMT) has shown that training on high-quality machine-generated data can outperform training on human-generated data. This work accompanies the first-ever release of a LLM-generated, MBR-decoded and QE-reranked dataset with both sentence-level and multi-sentence examples. We perform extensive experiments to demonstrate the quality of our dataset in terms of its downstream impact on NMT model performance. We find that training from scratch on our (machine-generated) dataset outperforms training on the (web-crawled) WMT'23 training dataset (which is 300 times larger), and also outperforms training on the top-quality subset of the WMT'23 training dataset. We also find that performing self-distillation by finetuning the LLM which generated this dataset outperforms the LLM's strong few-shot baseline. These findings corroborate the quality of our dataset, and demonstrate the value of high-quality machine-generated data in improving performance of NMT models. | 翻訳日:2024-08-20 11:11:17 公開日:2024-08-16 |
# ジェネレーティブフォトモンタージュ
Generative Photomontage ( http://arxiv.org/abs/2408.07116v2 ) ライセンス: Link先を確認 | Sean J. Liu, Nupur Kumari, Ariel Shamir, Jun-Yan Zhu, | (参考訳) テキスト・ツー・イメージ・モデルは画像作成の強力なツールである。
しかし、生成プロセスはダイスロールに似ているため、ユーザが望むものをすべてキャプチャする単一のイメージを実現するのが難しくなる。
本稿では、生成した画像の様々な部分から合成して、基本的に生成フォトモンタージュを形成することにより、所望の画像を作成するためのフレームワークを提案する。
ControlNetが同じ入力条件と異なるシードを用いて生成した画像のスタックが与えられた場合、ユーザはブラシストロークインタフェースを使用して生成された結果から所望の部分を選択できる。
ユーザのブラシストロークを取り込み、拡散特徴空間におけるグラフベースの最適化を用いて生成した画像を分割し、新しい特徴空間ブレンディング法によりセグメント化された領域を合成する新しい手法を提案する。
提案手法は,ユーザの選択した地域を忠実に保存し,調和して構成する。
当社のフレキシブルなフレームワークは、新しい外観の組み合わせの生成、不正な形状やアーティファクトの修正、迅速なアライメントの改善など、多くのアプリケーションで使用することができることを実証しています。
提案手法は既存の画像ブレンディング手法や様々なベースラインよりも優れていることを示す。
Text-to-image models are powerful tools for image creation. However, the generation process is akin to a dice roll and makes it difficult to achieve a single image that captures everything a user wants. In this paper, we propose a framework for creating the desired image by compositing it from various parts of generated images, in essence forming a Generative Photomontage. Given a stack of images generated by ControlNet using the same input condition and different seeds, we let users select desired parts from the generated results using a brush stroke interface. We introduce a novel technique that takes in the user's brush strokes, segments the generated images using a graph-based optimization in diffusion feature space, and then composites the segmented regions via a new feature-space blending method. Our method faithfully preserves the user-selected regions while compositing them harmoniously. We demonstrate that our flexible framework can be used for many applications, including generating new appearance combinations, fixing incorrect shapes and artifacts, and improving prompt alignment. We show compelling results for each application and demonstrate that our method outperforms existing image blending methods and various baselines. | 翻訳日:2024-08-20 11:11:17 公開日:2024-08-16 |
# RandomNet: トレーニングされていないディープニューラルネットワークによる時系列クラスタリング
RandomNet: Clustering Time Series Using Untrained Deep Neural Networks ( http://arxiv.org/abs/2408.07956v2 ) ライセンス: Link先を確認 | Xiaosheng Li, Wenjie Xi, Jessica Lin, | (参考訳) ニューラルネットワークは機械学習やデータマイニングに広く利用されている。
通常、これらのネットワークはトレーニングされ、入力データに基づいてネットワーク内の重み(パラメータ)を調整する必要がある。
本研究では、トレーニングされていないディープニューラルネットワークをクラスタ時系列に利用する新しいアプローチRandomNetを提案する。
RandomNetは、異なるランダムな重みのセットを使用して時系列の多様な表現を抽出し、これらの異なる表現から派生したクラスタリング関係をアンサンブルして最終的なクラスタリング結果を構築する。
多様な表現を抽出することにより,異なる特徴を持つ時系列を効果的に処理することができる。
すべてのパラメータはランダムに生成されるので、プロセス中にトレーニングは必要ありません。
提案手法の有効性に関する理論的解析を行う。
その性能を検証するために、よく知られたUCR時系列アーカイブにおいて、128のデータセットすべてに対して広範な実験を行い、その結果を統計的に分析する。
これらのデータセットはサイズやシーケンスの長さが異なり、さまざまな分野から来ている。
実験の結果,提案手法は既存の最先端手法と競合することがわかった。
Neural networks are widely used in machine learning and data mining. Typically, these networks need to be trained, implying the adjustment of weights (parameters) within the network based on the input data. In this work, we propose a novel approach, RandomNet, that employs untrained deep neural networks to cluster time series. RandomNet uses different sets of random weights to extract diverse representations of time series and then ensembles the clustering relationships derived from these different representations to build the final clustering results. By extracting diverse representations, our model can effectively handle time series with different characteristics. Since all parameters are randomly generated, no training is required during the process. We provide a theoretical analysis of the effectiveness of the method. To validate its performance, we conduct extensive experiments on all of the 128 datasets in the well-known UCR time series archive and perform statistical analysis of the results. These datasets have different sizes, sequence lengths, and they are from diverse fields. The experimental results show that the proposed method is competitive compared with existing state-of-the-art methods. | 翻訳日:2024-08-20 11:11:17 公開日:2024-08-16 |
# 重量減少の見落としと緩和策--グラディエント・ノームの視点から
On the Overlooked Pitfalls of Weight Decay and How to Mitigate Them: A Gradient-Norm Perspective ( http://arxiv.org/abs/2011.11152v6 ) ライセンス: Link先を確認 | Zeke Xie, Zhiqiang Xu, Jingzhao Zhang, Issei Sato, Masashi Sugiyama, | (参考訳) 重崩壊は単純だが強力な正規化技術であり、ディープニューラルネットワーク(DNN)のトレーニングに広く用いられている。
ウェイト崩壊は注目されているが、以前の研究では、ウェイト崩壊によって引き起こされた大きな勾配のノルムに見落とされた落とし穴が発見できなかった。
本稿では, 重み劣化がトレーニングの最終段階(あるいは終了解)において大きな勾配ノルムにつながることを発見し, しばしば収束不良や一般化不良を示す。
勾配ノルム中心の落とし穴を緩和するために、我々は、勾配基準に従って重量減衰強度を動的に調整し、訓練中に大きな勾配基準を著しく罰できる、スケジュール付き重み決定法 (SWD) と呼ばれる、最初の減量スケジューラを提示する。
我々の実験はSWDが実際に大きな勾配ノルムを緩和し、アダプティブモーメント推定(英語版)(Adam)の従来の定量減衰戦略を著しく上回っていることも裏付けている。
Weight decay is a simple yet powerful regularization technique that has been very widely used in training of deep neural networks (DNNs). While weight decay has attracted much attention, previous studies fail to discover some overlooked pitfalls on large gradient norms resulted by weight decay. In this paper, we discover that, weight decay can unfortunately lead to large gradient norms at the final phase (or the terminated solution) of training, which often indicates bad convergence and poor generalization. To mitigate the gradient-norm-centered pitfalls, we present the first practical scheduler for weight decay, called the Scheduled Weight Decay (SWD) method that can dynamically adjust the weight decay strength according to the gradient norm and significantly penalize large gradient norms during training. Our experiments also support that SWD indeed mitigates large gradient norms and often significantly outperforms the conventional constant weight decay strategy for Adaptive Moment Estimation (Adam). | 翻訳日:2024-08-19 21:24:14 公開日:2024-08-16 |
# 大規模PMMDPにおけるアクティブ推論木探索
Active Inference Tree Search in Large POMDPs ( http://arxiv.org/abs/2103.13860v4 ) ライセンス: Link先を確認 | Domenico Maisto, Francesco Gregoretti, Karl Friston, Giovanni Pezzulo, | (参考訳) 効率的に計画する能力は、生物と人工システムの両方にとって鍵となる。
モデルに基づく計画と予測は、認知神経科学と人工知能(AI)において広く研究されているが、異なる視点から考えると、調整が難しい異なるデシダタ(生物学的リアリズムとスケーラビリティ)を念頭に置いている。この記事では、POMDPにおいて計画する新しい手法を紹介する。-Active Inference Tree Search(AcT)は、神経科学における主要な計画理論(Active Inference)の規範的特徴と生物学的リアリズムと、AIにおけるツリーサーチ手法のスケーラビリティを組み合わせたものである。
この統合は両方のアプローチを強化します。
一方、木探索により、大規模問題に適用できる生物学的基盤を持つ第一原理的推論法が実現される。
一方、能動推論は探索・探索ジレンマの原理的な解であり、しばしば木探索法でヒューリスティックに扱われる。
シミュレーションの結果、AcTはサンプリングベース手法に挑戦する二分木、適応探索を必要とする問題、そしてAcTが最先端のPOMDPソリューションを再現する大規模POMDP問題「RockSample」をうまくナビゲートしていることがわかった。
さらに、AcTが人間の神経生理学的反応(例えば海馬や前頭前皮質)をシミュレートし、大きな計画課題を解決する方法について述べる。
これらの数値解析により、アクティブツリー探索は、生物学的リアリズムと拡張性の両方を提供する神経科学およびAI計画理論の原則的実現であることが示された。
The ability to plan ahead efficiently is key for both living organisms and artificial systems. Model-based planning and prospection are widely studied in cognitive neuroscience and artificial intelligence (AI), but from different perspectives--and with different desiderata in mind (biological realism versus scalability) that are difficult to reconcile. Here, we introduce a novel method to plan in POMDPs--Active Inference Tree Search (AcT)--that combines the normative character and biological realism of a leading planning theory in neuroscience (Active Inference) and the scalability of tree search methods in AI. This unification enhances both approaches. On the one hand, tree searches enable the biologically grounded, first principle method of active inference to be applied to large-scale problems. On the other hand, active inference provides a principled solution to the exploration-exploitation dilemma, which is often addressed heuristically in tree search methods. Our simulations show that AcT successfully navigates binary trees that are challenging for sampling-based methods, problems that require adaptive exploration, and the large POMDP problem 'RockSample'--in which AcT reproduces state-of-the-art POMDP solutions. Furthermore, we illustrate how AcT can be used to simulate neurophysiological responses (e.g., in the hippocampus and prefrontal cortex) of humans and other animals that solve large planning problems. These numerical analyses show that Active Tree Search is a principled realisation of neuroscientific and AI planning theories, which offer both biological realism and scalability. | 翻訳日:2024-08-19 21:24:14 公開日:2024-08-16 |
# Uniswap v3における戦略的流動性規定
Strategic Liquidity Provision in Uniswap v3 ( http://arxiv.org/abs/2106.12033v5 ) ライセンス: Link先を確認 | Zhou Fan, Francisco Marmolejo-Cossío, Daniel J. Moroz, Michael Neuder, Rithvik Rao, David C. Parkes, | (参考訳) Uniswap v3は、デジタル通貨の最大の分散取引所である。
その設計の新規性は、流動性提供者(LP)が、可能な価格の全範囲ではなく、資産の価格の1つ以上の閉区間に流動性を割り当てることである。
LPは、この間隔で価格が移動すると、その流動性割当額に比例する報酬を得る。
より小さな間隔は、価格が一定間隔にある場合、流動性の集中度が高く、それに応じて大きな手数料がかかるが、価格が手数料の報酬なしでLPを去る間隔を抜ける可能性があるため、リスクが高くなる。
流動性を新しい間隔に再配置することは、この損失を軽減することができるが、LPはガス料金を課す必要があるため、コストがかかる。
我々は、動的流動性供給問題を形式化し、LP収益を最大化するためのニューラルネットワークベースの最適化フレームワークを提供する一般的な戦略に焦点をあてる。
我々は、分散取引所における仲裁および非仲裁取引から生じる価格変動の外来的シーケンスに直面する単一のLPをモデル化する。
本稿では,従来の配当戦略ベースラインよりもLP収益が大きく改善したことを示す,過去の価格データから得られた実験結果を示す。
さらに,異なる経済環境における最適LP動作の質的差異について考察した。
Uniswap v3 is the largest decentralized exchange for digital currencies. A novelty of its design is that it allows a liquidity provider (LP) to allocate liquidity to one or more closed intervals of the price of an asset instead of the full range of possible prices. An LP earns fee rewards proportional to the amount of its liquidity allocation when prices move in this interval. This induces the problem of {\em strategic liquidity provision}: smaller intervals result in higher concentration of liquidity and correspondingly larger fees when the price remains in the interval, but with higher risk as prices may exit the interval leaving the LP with no fee rewards. Although reallocating liquidity to new intervals can mitigate this loss, it comes at a cost, as LPs must expend gas fees to do so. We formalize the dynamic liquidity provision problem and focus on a general class of strategies for which we provide a neural network-based optimization framework for maximizing LP earnings. We model a single LP that faces an exogenous sequence of price changes that arise from arbitrage and non-arbitrage trades in the decentralized exchange. We present experimental results informed by historical price data that demonstrate large improvements in LP earnings over existing allocation strategy baselines. Moreover we provide insight into qualitative differences in optimal LP behaviour in different economic environments. | 翻訳日:2024-08-19 21:24:14 公開日:2024-08-16 |
# 条件付きフォン・ノイマンエントロピー上のデバイス独立な下界
Device-independent lower bounds on the conditional von Neumann entropy ( http://arxiv.org/abs/2106.13692v3 ) ライセンス: Link先を確認 | Peter Brown, Hamza Fawzi, Omar Fawzi, | (参考訳) 量子鍵分布(QKD)やランダムネス展開(RE)を含むいくつかのデバイス非依存(DI)プロトコルの速度は、特定の量子状態のクラスに対する条件付きフォン・ノイマンエントロピーの最適化によって計算できる。
本研究では,そのような値の低い値を求める数値計算法を提案する。
一般分離ヒルベルト空間上で定義される系の条件付きフォン・ノイマンエントロピーに収束する最適化問題を導出する。
Navascu\'es-Pironio-Ac\'in階層を用いて、これらの問題を半定値プログラムに緩和し、DIプロトコルのレートの低い境界を計算する計算可能な方法を与える。
提案手法を適用し,DI-REおよびDI-QKDプロトコルの速度を計算することで,従来の数値手法よりも大幅に改善され,DI-REとDI-QKDの両者の速度が大幅に向上したことを示す。
特にDI-QKDの場合、現在の能力の範囲内にある最小検出効率閾値を示す。
さらに, この手法は, 既知の厳密な解析的境界を最大数個の小位置まで回復することにより, 高速に収束できることを実証した。
最後に,本手法はエントロピー累積定理と互換性があり,有限ラウンドプロトコルの速度を計算し,その安全性を証明できることを示す。
The rates of several device-independent (DI) protocols, including quantum key-distribution (QKD) and randomness expansion (RE), can be computed via an optimization of the conditional von Neumann entropy over a particular class of quantum states. In this work we introduce a numerical method to compute lower bounds on such rates. We derive a sequence of optimization problems that converge to the conditional von Neumann entropy of systems defined on general separable Hilbert spaces. Using the Navascu\'es-Pironio-Ac\'in hierarchy we can then relax these problems to semidefinite programs, giving a computationally tractable method to compute lower bounds on the rates of DI protocols. Applying our method to compute the rates of DI-RE and DI-QKD protocols we find substantial improvements over all previous numerical techniques, demonstrating significantly higher rates for both DI-RE and DI-QKD. In particular, for DI-QKD we show a minimal detection efficiency threshold which is within the realm of current capabilities. Moreover, we demonstrate that our method is capable of converging rapidly by recovering all known tight analytical bounds up to several decimal places. Finally, we note that our method is compatible with the entropy accumulation theorem and can thus be used to compute rates of finite round protocols and subsequently prove their security. | 翻訳日:2024-08-19 21:24:14 公開日:2024-08-16 |
# 量子ヤンミル理論の公理 -- 1. ユークリッド公理(不完全)
Axioms for Quantum Yang-Mills Theories -- 1. Euclidean Axioms (incomplete) ( http://arxiv.org/abs/2112.08575v7 ) ライセンス: Link先を確認 | Min C. Lee, | (参考訳) 本稿では、シュウィンガー関数の概念を量子ヤン・ミルズ理論に拡張し、それらが満たすべき公理を提案する。
この公理スキームの2つの主な特徴は、ゲージ不変な共位置シュウィンガー函数の存在を仮定し、それらにのみ反射正の積を課すことである。
これはゲージ不変量のみが物理的意味を与えられるというゲージ理論の基本原理に従っている。
This paper extends the notion of Schwinger functions to quantum Yang-Mills theories and proposes the axioms they should satisfy. Two main features of this axiom scheme is that we assume existence of gauge-invariant co-located Schwinger functions and impose reflection positivity only on them. This is in accordance with the fundamental principle of gauge theories that only gauge-invariant quantities can be given physical meaning. | 翻訳日:2024-08-19 21:24:14 公開日:2024-08-16 |
# グラフ上の分散シフトの処理:不変性の観点から
Handling Distribution Shifts on Graphs: An Invariance Perspective ( http://arxiv.org/abs/2202.02466v5 ) ライセンス: Link先を確認 | Qitian Wu, Hengrui Zhang, Junchi Yan, David Wipf, | (参考訳) ニューラルネットワークの分布シフトに対する感受性を示す証拠が増加しており、アウト・オブ・ディストリビューション(OOD)の一般化の研究が注目を浴びている。
それでも、現在の取り組みは主にユークリッドのデータに焦点を当てており、グラフ構造化データの定式化は明確ではなく、未調査のままである。
1)同一環境下でも非IIDデータポイントの発生を誘導する1つのグラフ内のノード間の相互接続
2)入力グラフの構造情報は,予測にも有用である。
本稿では,グラフ上でのOOD問題を定式化し,新しい不変学習手法であるEurre-to-Extrapolate Risk Minimization(EERM)を開発した。
EERMは、複数の仮想環境からのリスクの分散を最大化するために、敵対的に訓練された複数のコンテキストエクスプローラー(この場合、グラフ構造編集器として特定される)に頼っている。
このような設計により、ノードレベルの予測の一般的なケースである単一の観測環境からモデルを外挿することができる。
提案手法の有効性は,有効なOODソリューションの保証を理論的に示すことによって証明し,さらに,人工的なスプリアス特徴やクロスドメイン転送,動的グラフの進化といった分布シフトを扱うために,様々な実世界のデータセットにその能力を示す。
There is increasing evidence suggesting neural networks' sensitivity to distribution shifts, so that research on out-of-distribution (OOD) generalization comes into the spotlight. Nonetheless, current endeavors mostly focus on Euclidean data, and its formulation for graph-structured data is not clear and remains under-explored, given two-fold fundamental challenges: 1) the inter-connection among nodes in one graph, which induces non-IID generation of data points even under the same environment, and 2) the structural information in the input graph, which is also informative for prediction. In this paper, we formulate the OOD problem on graphs and develop a new invariant learning approach, Explore-to-Extrapolate Risk Minimization (EERM), that facilitates graph neural networks to leverage invariance principles for prediction. EERM resorts to multiple context explorers (specified as graph structure editers in our case) that are adversarially trained to maximize the variance of risks from multiple virtual environments. Such a design enables the model to extrapolate from a single observed environment which is the common case for node-level prediction. We prove the validity of our method by theoretically showing its guarantee of a valid OOD solution and further demonstrate its power on various real-world datasets for handling distribution shifts from artificial spurious features, cross-domain transfers and dynamic graph evolution. | 翻訳日:2024-08-19 21:24:14 公開日:2024-08-16 |
# 弱スーパービジョンによるガウス過程のアクティブラーニング
Active Learning with Weak Supervision for Gaussian Processes ( http://arxiv.org/abs/2204.08335v3 ) ライセンス: Link先を確認 | Amanda Olmin, Jakob Lindqvist, Lennart Svensson, Fredrik Lindsten, | (参考訳) 教師付き学習のためのデータアノテーションはコストがかかる。
アノテーションの予算が限られている場合、アクティブな学習は、モデルのパフォーマンスにおいて最も利益を得られるであろう観察を選定し、注釈付けするために使用することができる。
そこで本研究では,アノテートする観測項目の選択に加えて,取得したアノテーションの精度を選択する能動的学習アルゴリズムを提案する。
精度の低いアノテーションが手に入ると仮定すると、同じアノテーション予算で入力空間の大部分を探索することができる。
提案したガウス過程のBALD目標に基づいて獲得関数を構築し、アクティブ学習ループにおけるアノテーションの精度を調整できることの利点を実証的に実証する。
Annotating data for supervised learning can be costly. When the annotation budget is limited, active learning can be used to select and annotate those observations that are likely to give the most gain in model performance. We propose an active learning algorithm that, in addition to selecting which observation to annotate, selects the precision of the annotation that is acquired. Assuming that annotations with low precision are cheaper to obtain, this allows the model to explore a larger part of the input space, with the same annotation budget. We build our acquisition function on the previously proposed BALD objective for Gaussian Processes, and empirically demonstrate the gains of being able to adjust the annotation precision in the active learning loop. | 翻訳日:2024-08-19 21:24:14 公開日:2024-08-16 |
# 視覚障害者のためのSLAM:調査
SLAM for Visually Impaired People: a Survey ( http://arxiv.org/abs/2212.04745v6 ) ライセンス: Link先を確認 | Marziyeh Bamdad, Davide Scaramuzza, Alireza Darvishy, | (参考訳) 近年、視覚障害者(BVI)が独立して安全に移動できる能力を向上させるために、いくつかの補助技術が開発されている。
同時に、同時ローカライゼーションとマッピング(SLAM)技術は、これらの補助技術の開発において十分に堅牢で効率的なものになっている。
視力障害および視覚障害のある人々に対するSLAMに基づくソリューションに関する最近の54の体系的文献レビューを,2017年以降の文献に焦点をあてて紹介する。
本稿では、この文脈で用いられる様々なローカライゼーションとマッピング技術について概説する。
様々なSLAM手法を体系的に同定し分類し,そのローカライゼーションとマッピング手法,センサタイプ,コンピュータリソース,機械学習手法を解析した。
視覚障害者のナビゲーションにおけるこれらの手法の利点と限界について論じる。
さらに,ユーザビリティや採用に影響を及ぼす実践的課題や考察を含む,研究全体にわたる主要な課題について検討する。
また、現実シナリオにおけるSLAMベースのソリューションの有効性とユーザ満足度を評価し、BVIモビリティに対する実践的影響について考察した。
このレビューから得られた知見は、特に動的で複雑な環境がもたらす課題に対処する上で、将来の研究活動における重要なギャップと機会を明らかにしている。
SLAM技術は、視覚障害者が効果的にナビゲートできる能力を改善する可能性を秘めている。
最後に、この領域における今後の機会と課題を提示します。
In recent decades, several assistive technologies have been developed to improve the ability of blind and visually impaired (BVI) individuals to navigate independently and safely. At the same time, simultaneous localization and mapping (SLAM) techniques have become sufficiently robust and efficient to be adopted in developing these assistive technologies. We present the first systematic literature review of 54 recent studies on SLAM-based solutions for blind and visually impaired people, focusing on literature published from 2017 onward. This review explores various localization and mapping techniques employed in this context. We systematically identified and categorized diverse SLAM approaches and analyzed their localization and mapping techniques, sensor types, computing resources, and machine-learning methods. We discuss the advantages and limitations of these techniques for blind and visually impaired navigation. Moreover, we examine the major challenges described across studies, including practical challenges and considerations that affect usability and adoption. Our analysis also evaluates the effectiveness of these SLAM-based solutions in real-world scenarios and user satisfaction, providing insights into their practical impact on BVI mobility. The insights derived from this review identify critical gaps and opportunities for future research activities, particularly in addressing the challenges presented by dynamic and complex environments. We explain how SLAM technology offers the potential to improve the ability of visually impaired individuals to navigate effectively. Finally, we present future opportunities and challenges in this domain. | 翻訳日:2024-08-19 21:16:11 公開日:2024-08-16 |
# 不完全線形割当て問題に対する相対-相互解と二次割当て問題への応用
Relative-Interior Solution for the (Incomplete) Linear Assignment Problem with Applications to the Quadratic Assignment Problem ( http://arxiv.org/abs/2301.11201v3 ) ライセンス: Link先を確認 | Tomáš Dlask, Bogdan Savchynskyy, | (参考訳) 本稿では,線形代入問題 (LAP) の線形計画法を最適化した最適解の集合について検討し,その集合の相対的内部から解を計算する方法を提案する。
任意の双対最適解と最適代入(多くの効率的なアルゴリズムがすでに存在する)が可能であると仮定すると、線形時間で相対的中間解を計算する。
LAPは2次代入問題(QAP)の線形プログラミング(LP)緩和のサブプロブレムとして発生するため、この手法はQAPの最適値のバウンダリを提供する2進アルゴリズムの族における新しい成分として用いられる。
また,本研究の結果を,実用上興味のある不完全QAPに適用するために,不完全LAPから完全LAPへの線形時間短縮と,相対的な内部における最適性とメンバシップを維持するマッピングも提供する。
提案手法は, LP緩和の最適条件付近で頻繁に適用でき, 商用LPソルバに比べてランタイムがはるかに低いことを示す。
We study the set of optimal solutions of the dual linear programming formulation of the linear assignment problem (LAP) to propose a method for computing a solution from the relative interior of this set. Assuming that an arbitrary dual-optimal solution and an optimal assignment are available (for which many efficient algorithms already exist), our method computes a relative-interior solution in linear time. Since the LAP occurs as a subproblem in the linear programming (LP) relaxation of the quadratic assignment problem (QAP), we employ our method as a new component in the family of dual-ascent algorithms that provide bounds on the optimal value of the QAP. To make our results applicable to the incomplete QAP, which is of interest in practical use-cases, we also provide a linear-time reduction from the incomplete LAP to the complete LAP along with a mapping that preserves optimality and membership in the relative interior. Our experiments on publicly available benchmarks indicate that our approach with relative-interior solution can frequently provide bounds near the optimum of the LP relaxation and its runtime is much lower when compared to a commercial LP solver. | 翻訳日:2024-08-19 21:16:11 公開日:2024-08-16 |
# 印刷プロトコル:分解ノズル用物理ZKP
Printing Protocol: Physical ZKPs for Decomposition Puzzles ( http://arxiv.org/abs/2302.01235v6 ) ライセンス: Link先を確認 | Suthee Ruangwises, Mitsugu Iwamoto, | (参考訳) 分解パズルは、特定の規則を満たすために矩形格子を複数の領域に分割する鉛筆と紙の論理パズルである。
本稿では,デコンポジトンパズルの解法を物理的に検証するために,印刷プロトコルと呼ばれる汎用的なカードベースのプロトコルを構築する。
本稿では,カードベースのゼロ知識証明プロトコルを開発するために,印刷プロトコルを適用した。
これらのプロトコルにより、証明者がパズルの解法を知っていることを物理的に示すことができる。
Decomposition puzzles are pencil-and-paper logic puzzles that involve partitioning a rectangular grid into several regions to satisfy certain rules. In this paper, we construct a generic card-based protocol called printing protocol, which can be used to physically verify solutions of decompositon puzzles. We apply the printing protocol to develop card-based zero-knowledge proof protocols for two such puzzles: Five Cells and Meadows. These protocols allow a prover to physically show that he/she knows solutions of the puzzles without revealing them. | 翻訳日:2024-08-19 21:16:11 公開日:2024-08-16 |
# 再構成駆動運動推定を用いた運動補償MR CINE再構成
Motion-compensated MR CINE reconstruction with reconstruction-driven motion estimation ( http://arxiv.org/abs/2302.02504v2 ) ライセンス: Link先を確認 | Jiazhen Pan, Wenqi Huang, Daniel Rueckert, Thomas Küstner, Kerstin Hammernik, | (参考訳) CINEでは、運動補償MR再構成(MCMR)は、フレーム間の運動情報を組み込むことによって、高度にアンサンプされた取得に対処するための効果的なアプローチである。
本研究では,MCMR問題に対する新たな視点と,MCMR分野に対するより統合的で効率的な解法を提案する。
従来の問題を2つのサブ最適化問題、すなわち運動推定と再構成に分解する最先端(SOTA)のMCMR法とは対照的に、この問題を1つの単一の最適化を持つ単一エンティティとして定式化する。
我々のアプローチは、運動推定が究極のゴール、再構成によって直接駆動されるが、正準運動ワープ損失(運動ワープ画像とターゲット画像の類似性測定)によって直接駆動されるという点でユニークである。
動作推定と再構成の目的を一致させ, 人工物が与える動作推定の欠点を解消し, エラープロパゲーションの再構築を行う。
さらに,非自明な重み付け係数チューニングを回避し,正規化/平滑化損失項を適用することなく,高品質な再構成と現実的な動作を実現することができる。
提案手法を2つのデータセットで評価する。
1) ふりかえり研究のための社内取得2D CINEデータセット
2) 公立OCMR心筋データセットについて検討した。
提案したMCMRフレームワークは, 画像加速度を最大20倍まで向上させることができ, SOTA非MCMR法, MCMR法を, 定性的, 定量的に評価できることがわかった。
コードはhttps://github.com/JZPeterPan/MCMR-Recon-Driven-Motionで公開されている。
In cardiac CINE, motion-compensated MR reconstruction (MCMR) is an effective approach to address highly undersampled acquisitions by incorporating motion information between frames. In this work, we propose a novel perspective for addressing the MCMR problem and a more integrated and efficient solution to the MCMR field. Contrary to state-of-the-art (SOTA) MCMR methods which break the original problem into two sub-optimization problems, i.e. motion estimation and reconstruction, we formulate this problem as a single entity with one single optimization. Our approach is unique in that the motion estimation is directly driven by the ultimate goal, reconstruction, but not by the canonical motion-warping loss (similarity measurement between motion-warped images and target images). We align the objectives of motion estimation and reconstruction, eliminating the drawbacks of artifacts-affected motion estimation and therefore error-propagated reconstruction. Further, we can deliver high-quality reconstruction and realistic motion without applying any regularization/smoothness loss terms, circumventing the non-trivial weighting factor tuning. We evaluate our method on two datasets: 1) an in-house acquired 2D CINE dataset for the retrospective study and 2) the public OCMR cardiac dataset for the prospective study. The conducted experiments indicate that the proposed MCMR framework can deliver artifact-free motion estimation and high-quality MR images even for imaging accelerations up to 20x, outperforming SOTA non-MCMR and MCMR methods in both qualitative and quantitative evaluation across all experiments. The code is available at https://github.com/JZPeterPan/MCMR-Recon-Driven-Motion. | 翻訳日:2024-08-19 21:16:11 公開日:2024-08-16 |
# コードのための大規模言語モデル: セキュリティの強化と対向テスト
Large Language Models for Code: Security Hardening and Adversarial Testing ( http://arxiv.org/abs/2302.05319v5 ) ライセンス: Link先を確認 | Jingxuan He, Martin Vechev, | (参考訳) 大規模な言語モデル(大規模なLM)は、大規模なコードベースでトレーニングされ、コードを生成するのに使われています。
しかし、LMはセキュリティを意識せず、しばしば安全でないコードを生成する。
本研究は,2つの重要な軸に沿ったLMの安全性について研究する。
(i)セキュアコード生成におけるLMの信頼性向上を目的としたセキュリティ強化
二 敵の立場でLMの安全性を評価しようとする敵の試験。
制御コード生成と呼ばれる新しいセキュリティタスクを定式化することで、これら2つに対処する。
タスクはパラメトリックであり、LMが機能的に正しいコードを生成する能力を保持しながら、LMを誘導して安全または安全でないコードを生成するためにバイナリプロパティを入力する。
本稿では,この課題を解決するために,SVENと呼ばれる新しい学習手法を提案する。
SVENはプロパティ固有の連続ベクトルを利用して、LMの重みを変更することなくプログラム生成を与えられたプロパティへ誘導する。
トレーニング手順は、コードの各領域に特別な損失項を強制することにより、これらの連続ベクトルを最適化する。
SVENは強力なセキュリティ制御を実現する上で極めて有効であることを示す。
例えば、2.7Bパラメータを持つ最先端のCodeGen LMは59.1%の時間でセキュアなコードを生成する。
このLM上でセキュリティ強化(または敵検定)を行うためにSVENを使用する場合、比率は92.3%(または36.8%に低下)に大幅に向上する。
重要なことに、SVENは機能的正確性において元のLMと密接に一致している。
Large language models (large LMs) are increasingly trained on massive codebases and used to generate code. However, LMs lack awareness of security and are found to frequently produce unsafe code. This work studies the security of LMs along two important axes: (i) security hardening, which aims to enhance LMs' reliability in generating secure code, and (ii) adversarial testing, which seeks to evaluate LMs' security at an adversarial standpoint. We address both of these by formulating a new security task called controlled code generation. The task is parametric and takes as input a binary property to guide the LM to generate secure or unsafe code, while preserving the LM's capability of generating functionally correct code. We propose a novel learning-based approach called SVEN to solve this task. SVEN leverages property-specific continuous vectors to guide program generation towards the given property, without modifying the LM's weights. Our training procedure optimizes these continuous vectors by enforcing specialized loss terms on different regions of code, using a high-quality dataset carefully curated by us. Our extensive evaluation shows that SVEN is highly effective in achieving strong security control. For instance, a state-of-the-art CodeGen LM with 2.7B parameters generates secure code for 59.1% of the time. When we employ SVEN to perform security hardening (or adversarial testing) on this LM, the ratio is significantly boosted to 92.3% (or degraded to 36.8%). Importantly, SVEN closely matches the original LMs in functional correctness. | 翻訳日:2024-08-19 21:16:11 公開日:2024-08-16 |
# 自己監督型マルチモーダルラーニング:サーベイ
Self-Supervised Multimodal Learning: A Survey ( http://arxiv.org/abs/2304.01008v3 ) ライセンス: Link先を確認 | Yongshuo Zong, Oisin Mac Aodha, Timothy Hospedales, | (参考訳) マルチモーダル学習は、複数のモーダルからの情報を理解し分析することを目的としており、近年、監督体制において大きな進歩を遂げている。
しかし、高価な人間のアノテーションと組み合わせたデータへの強い依存は、モデルのスケールアップを妨げる。
一方、大規模無意味なデータが野生で利用可能であることを考えると、自己教師型学習は、アノテーションボトルネックを軽減するための魅力的な戦略となっている。
これら2つの方向に基づいて、自己教師付きマルチモーダル学習(SSML)は、生のマルチモーダルデータから学習する方法を提供する。
本研究では,SSMLにおける最先端技術について,ラベルのないマルチモーダルデータから表現を学習すること,異なるモダリティの融合,不整合データで学習すること,という3つの課題を解明する。
そして、これらの課題に対する既存の解決策を詳述する。
具体的には、(1)自己超越によるマルチモーダルな未ラベルデータから学習するための目的、(2)異なるマルチモーダル融合戦略の観点からのモデルアーキテクチャ、(3)粗粒できめ細かなアライメントのためのペアフリーな学習戦略を考える。
また、医療、リモートセンシング、機械翻訳といった様々な分野におけるSSMLアルゴリズムの実際の応用についてもレビューする。
最後に,SSMLの課題と今後の方向性について論じる。
関連するリソースのコレクションは、https://github.com/ys-zong/awesome-self-supervised-multimodal-learningを参照してください。
Multimodal learning, which aims to understand and analyze information from multiple modalities, has achieved substantial progress in the supervised regime in recent years. However, the heavy dependence on data paired with expensive human annotations impedes scaling up models. Meanwhile, given the availability of large-scale unannotated data in the wild, self-supervised learning has become an attractive strategy to alleviate the annotation bottleneck. Building on these two directions, self-supervised multimodal learning (SSML) provides ways to learn from raw multimodal data. In this survey, we provide a comprehensive review of the state-of-the-art in SSML, in which we elucidate three major challenges intrinsic to self-supervised learning with multimodal data: (1) learning representations from multimodal data without labels, (2) fusion of different modalities, and (3) learning with unaligned data. We then detail existing solutions to these challenges. Specifically, we consider (1) objectives for learning from multimodal unlabeled data via self-supervision, (2) model architectures from the perspective of different multimodal fusion strategies, and (3) pair-free learning strategies for coarse-grained and fine-grained alignment. We also review real-world applications of SSML algorithms in diverse fields such as healthcare, remote sensing, and machine translation. Finally, we discuss challenges and future directions for SSML. A collection of related resources can be found at: https://github.com/ys-zong/awesome-self-supervised-multimodal-learning. | 翻訳日:2024-08-19 21:16:11 公開日:2024-08-16 |
# 非ゼロ用語の検証:ABC End View, Goishi Hiroi, Toichikaの物理ZKP
Verifying the First Nonzero Term: Physical ZKPs for ABC End View, Goishi Hiroi, and Toichika ( http://arxiv.org/abs/2304.12388v4 ) ライセンス: Link先を確認 | Suthee Ruangwises, | (参考訳) 本稿では,カードのデッキを用いてシーケンスの最初のゼロ項を検証するための物理プロトコルを提案する。
このプロトコルは、証明者が与えられたシーケンスの第1のゼロ項の値を検証者に提示する。
我々のプロトコルは$\Theta(1)$シャッフルを使用するが、これは福沢と真鍋の既存のプロトコルよりも漸近的に低く、$\Theta(n)$シャッフルを使用する。
また,ABC End View, Goishi Hiroi, Toichikaの3つの有名な論理パズルに対するゼロ知識証明プロトコルを構築するために,本プロトコルを適用した。
これらのプロトコルにより、証明者がパズルの解法を知っていることを物理的に示すことができる。
In this paper, we propose a physical protocol to verify the first nonzero term of a sequence using a deck of cards. The protocol lets a prover show the value of the first nonzero term of a given sequence to a verifier without revealing which term it is. Our protocol uses $\Theta(1)$ shuffles, which is asymptotically lower than that of an existing protocol of Fukusawa and Manabe which uses $\Theta(n)$ shuffles, where $n$ is the length of the sequence. We also apply our protocol to construct zero-knowledge proof protocols for three well-known logic puzzles: ABC End View, Goishi Hiroi, and Toichika. These protocols enables a prover to physically show that he/she know solutions of the puzzles without revealing them. | 翻訳日:2024-08-19 21:16:11 公開日:2024-08-16 |
# キャビティ-マグノン臨界性と強いチューニング可能なスピンスピンカップリング
Strong tunable spin-spin coupling with cavity-magnon criticality ( http://arxiv.org/abs/2304.13553v3 ) ライセンス: Link先を確認 | Ma-Lei Peng, Miao Tian, Xue-Chun Chen, Guo-Qiang Zhang, Hai-Chao Li, Wei Xiong, | (参考訳) 強い長距離スピンスピンカップリングは、固体量子情報処理に必死に要求されているが、依然として課題である。
本稿では,コプラナー導波路共振器(CPW)共振器をダイヤモンド中の1つの窒素空隙スピンに弱結合するハイブリッド量子系と,カーマグノンを有するイットリウム-鉄-ガーネット(YIG)ナノスフィアを用いて,強い長距離スピン結合を実現する。
カー効果はマグノンの強い駆動場を持つため、CPW共振器と圧縮されたマグノンの結合は指数関数的に強化され、2つのキャビティ-マグノン偏光子、すなわち高周波偏光子(HP)と低周波偏光子(LP)を生成する。
強化キャビティ-マグノンカップリングが臨界値に近づくと、スピンはHPから完全に切り離され、スピンとLPのカップリングは大幅に改善される。
分散状態においては、強いスピンスピン結合がアクセス可能なパラメータで達成される。
カップリング距離は、キャビティサイズによって制限される、最大センチメートルのスケールでもよい。
本提案では, キャビティマグノン偏光子を用いた固体スピンの操作方法を提案する。
Strong long-distance spin-spin coupling is desperately demanded for solid-state quantum information processing, but it is still challenged. Here, we propose a hybrid quantum system, consisting of a coplanar waveguide (CPW) resonator weakly coupled to a single nitrogen-vacancy spin in diamond and a yttrium-iron-garnet (YIG) nanosphere holding Kerr magnons, to realize strong long-distance spin-spin coupling. With a strong driving field on magnons, the Kerr effect can squeeze magnons, and thus the coupling between the CPW resonator and the squeezed magnons is {\it exponentially enhanced}, which produces two cavity-magnon polaritons, i.e., the high-frequency polariton (HP) and low-frequency polariton (LP). When the enhanced cavity-magnon coupling approaches the critical value, the spin is fully decoupled from the HP, while the coupling between the spin and the LP is significantly improved. In the dispersive regime, a strong spin-spin coupling is achieved with accessible parameters. The coupling distance can be up to centimeter scale, limited by the cavity size. Our proposal provides a pave way to manipulate solid spins with cavity-magnon polaritons. | 翻訳日:2024-08-19 21:16:11 公開日:2024-08-16 |
# 自己学習型対称多視点確率クラスタリング
Self-Learning Symmetric Multi-view Probabilistic Clustering ( http://arxiv.org/abs/2305.07307v3 ) ライセンス: Link先を確認 | Junjie Liu, Junlong Liu, Rongxin Jiang, Yaowu Chen, Chen Shen, Jieping Ye, | (参考訳) マルチビュークラスタリング(MVC)は、複数の視点から知識を学ぶための多くの取り組みによって、大きな進歩を遂げている。
しかし、既存のほとんどのメソッドは適用できないか、または不完全なMVCに追加の手順を必要とする。
このような制限は、品質の悪いクラスタリング性能と、貧弱なビュー適応をもたらす。
さらに、ノイズやアウトレイラはクラスタリング全体のパフォーマンスを著しく低下させる可能性があるが、既存のほとんどのメソッドではうまく処理できない。
本稿では,SLS-MPC(Self-learning symmetric multi-view probabilistic clustering)という,不完全かつ完全なMVCのための新しい統合フレームワークを提案する。
SLS-MPCは、新しい対称な多視点確率推定を提案し、同値に、多視点のペアワイドな後続マッチング確率を、各ビューの個々の分布の構成に変換する。
そこで,SLS-MPCは,各ビューの個々の分布を学習するために,事前知識やハイパーパラメータを含まない新しい自己学習確率関数を提案する。
次に、経路伝搬と隣り合う伝播を併用したグラフコンテキスト対応改良法を用いて、雑音や外周の影響を緩和するペアワイズ確率を改良する。
最後に、SLS-MPCは、カテゴリ情報なしで反復的に結合確率を最大化し、クラスタリングの割り当てを調整する確率的クラスタリングアルゴリズムを提案する。
複数のベンチマークにおいて、SLS-MPCは従来の最先端手法よりも優れていた。
Multi-view Clustering (MVC) has achieved significant progress, with many efforts dedicated to learn knowledge from multiple views. However, most existing methods are either not applicable or require additional steps for incomplete MVC. Such a limitation results in poor-quality clustering performance and poor missing view adaptation. Besides, noise or outliers might significantly degrade the overall clustering performance, which are not handled well by most existing methods. In this paper, we propose a novel unified framework for incomplete and complete MVC named self-learning symmetric multi-view probabilistic clustering (SLS-MPC). SLS-MPC proposes a novel symmetric multi-view probability estimation and equivalently transforms multi-view pairwise posterior matching probability into composition of each view's individual distribution, which tolerates data missing and might extend to any number of views. Then, SLS-MPC proposes a novel self-learning probability function without any prior knowledge and hyper-parameters to learn each view's individual distribution. Next, graph-context-aware refinement with path propagation and co-neighbor propagation is used to refine pairwise probability, which alleviates the impact of noise and outliers. Finally, SLS-MPC proposes a probabilistic clustering algorithm to adjust clustering assignments by maximizing the joint probability iteratively without category information. Extensive experiments on multiple benchmarks show that SLS-MPC outperforms previous state-of-the-art methods. | 翻訳日:2024-08-19 21:16:11 公開日:2024-08-16 |
# Dzyaloshinskii-Moriya相互作用を用いたRydberg原子を用いた量子スピンモデルのシミュレーションと漸近量子多体散乱状態の構築
Proposal for simulating quantum spin models with Dzyaloshinskii-Moriya interaction using Rydberg atoms, and construction of asymptotic quantum many-body scar states ( http://arxiv.org/abs/2306.05591v4 ) ライセンス: Link先を確認 | Masaya Kunimi, Takafumi Tomita, Hosho Katsura, Yusuke Kato, | (参考訳) 我々は、Rydberg原子量子シミュレータを用いて、Dzyaloshinskii-Moriya相互作用(DMI)を用いて量子スピンモデルをシミュレートする手法を開発した。
我々のアプローチは、2光子ラマン転移とスピン回転フレームへの変換であり、どちらも現在の実験技術で実現可能である。
我々の設定ではシミュレートできるが固体系ではできないモデルとして、DMIとゼーマンエネルギーからなるハミルトニアンを持つ$S=1/2$スピン鎖を考える。
このモデルの基底状態における磁化曲線とクエンチダイナミクスについて検討する。
さらに、量子多体散乱状態と漸近量子多体散乱状態の存在を示す。
このモデルで観測された非エルゴード性は、提案した量子シミュレータによって実現可能な高度に調整可能なDMIの重要性を示している。
We have developed a method to simulate quantum spin models with Dzyaloshinskii-Moriya interaction (DMI) using Rydberg atom quantum simulators. Our approach involves a two-photon Raman transition and a transformation to the spin-rotating frame, both of which are feasible with current experimental techniques. As a model that can be simulated in our setup but not in solid-state systems, we consider an $S=1/2$ spin chain with a Hamiltonian consisting of the DMI and Zeeman energy. We study the magnetization curve in the ground state of this model and quench dynamics. Further, we show the existence of quantum many-body scar states and asymptotic quantum many-body scar states. The observed nonergodicity in this model demonstrates the importance of the highly tunable DMI that can be realized by the proposed quantum simulator. | 翻訳日:2024-08-19 21:16:11 公開日:2024-08-16 |
# SGFormer: 大きなグラフ表現のための変換器の簡素化と強化
SGFormer: Simplifying and Empowering Transformers for Large-Graph Representations ( http://arxiv.org/abs/2306.10759v5 ) ライセンス: Link先を確認 | Qitian Wu, Wentao Zhao, Chenxiao Yang, Hengrui Zhang, Fan Nie, Haitian Jiang, Yatao Bian, Junchi Yan, | (参考訳) 大規模グラフ上での学習表現は、大規模なデータポイントに関わる依存性間の性質のため、長年にわたる課題である。
グラフ構造化データのための基盤エンコーダの新たなクラスであるトランスフォーマーは、隣接するノードを越えて全ペアの影響を捉えることができるグローバルな注目のために、小さなグラフ上で有望なパフォーマンスを示している。
それでも、既存のアプローチは、言語や視覚タスクにおけるトランスフォーマーの精神を継承し、深いマルチヘッドの注意を積み重ねることで複雑なモデルを受け入れる傾向があります。
本稿では,一層注意を用いた場合であっても,ノード数が数千レベルから10億レベルに及ぶノード特性予測ベンチマークにおいて,驚くほどの競合性能が得られることを批判的に示す。
これにより、大きなグラフ上でTransformerの設計哲学を再考し、グローバルな注目はスケーラビリティを妨げる計算オーバーヘッドである。
提案手法をSGFormer (Simplified Graph Transformer) として,任意のノード間の情報を一層に効率よく伝播するシンプルなアテンションモデルで実現した。
SGFormerは、位置エンコーディング、フィーチャ/グラフ前処理、拡張損失を必要としない。
実証的には、SGFormerはWebスケールグラフogbn-papers100Mにスケールし、中規模のグラフ上でSOTA変換器上で最大141倍の推論加速度を得る。
提案手法は,現在の結果以外にも,大規模なグラフ上にトランスフォーマーを構築する上で,独立性のある新たな技術パスを啓蒙するものだと考えている。
Learning representations on large-sized graphs is a long-standing challenge due to the inter-dependence nature involved in massive data points. Transformers, as an emerging class of foundation encoders for graph-structured data, have shown promising performance on small graphs due to its global attention capable of capturing all-pair influence beyond neighboring nodes. Even so, existing approaches tend to inherit the spirit of Transformers in language and vision tasks, and embrace complicated models by stacking deep multi-head attentions. In this paper, we critically demonstrate that even using a one-layer attention can bring up surprisingly competitive performance across node property prediction benchmarks where node numbers range from thousand-level to billion-level. This encourages us to rethink the design philosophy for Transformers on large graphs, where the global attention is a computation overhead hindering the scalability. We frame the proposed scheme as Simplified Graph Transformers (SGFormer), which is empowered by a simple attention model that can efficiently propagate information among arbitrary nodes in one layer. SGFormer requires none of positional encodings, feature/graph pre-processing or augmented loss. Empirically, SGFormer successfully scales to the web-scale graph ogbn-papers100M and yields up to 141x inference acceleration over SOTA Transformers on medium-sized graphs. Beyond current results, we believe the proposed methodology alone enlightens a new technical path of independent interest for building Transformers on large graphs. | 翻訳日:2024-08-19 21:05:52 公開日:2024-08-16 |
# 実用的なフェルミオンシミュレーションのための最適粒子保存線形符号化
Optimal Particle-Conserved Linear Encoding for Practical Fermionic Simulation ( http://arxiv.org/abs/2309.09370v2 ) ライセンス: Link先を確認 | M. H. Cheng, Yu-Cheng Chen, Qian Wang, V. Bartsch, M. S. Kim, Alice Hu, Min-Hsiu Hsieh, | (参考訳) しかし、$M$モードと$N$パーティクル、$\mathcal{O}(N\log M)$ qubits、$\mathcal{O}(Poly(M))$測定ベースのためのスケーラブルでリソース最小のプロトコルは、まだ不明である。
我々は、ランダム化線形エンコーダによって生成された古典パリティチェックコードを用いた最適符号化を示し、$\mathcal{O}(M^4)$basesでスケーラブルな確率復号のためのフェルミオン期待復号器を提案する。
このプロトコルは、STO-3G および 6-31G 基底の LiH 上の変分量子固有解法と 6-311G* 基底の $\text{H}_2$ ポテンシャルエネルギー曲線で試験される。
Particle-conserved subspace encoding reduces resources for quantum simulations, but a scalable and resource-minimal protocol for $M$ modes and $N$ particles, $\mathcal{O}(N\log M)$ qubits and $\mathcal{O}(Poly(M))$ measurements bases, has remained unknown. We demonstrate optimal encoding with classical parity check code generated by the Randomized Linear Encoder and propose the Fermionic Expectation Decoder for scalable probability decoding in $\mathcal{O}(M^4)$ bases. The protocol is tested with variational quantum eigensolver on LiH in the STO-3G and 6-31G basis, and $\text{H}_2$ potential energy curve in the 6-311G* basis. | 翻訳日:2024-08-19 21:05:52 公開日:2024-08-16 |
# S-BDT: 分散型にプライベートなブースト決定木
S-BDT: Distributed Differentially Private Boosted Decision Trees ( http://arxiv.org/abs/2309.12041v3 ) ライセンス: Link先を確認 | Thorsten Peinemann, Moritz Kirschte, Joshua Stock, Carlos Cotrini, Esfandiar Mohammadi, | (参考訳) S-BDTを新たに導入する: a novel $(\varepsilon,\delta)$-differentially private distributed gradient boosted decision tree (GBDT) learner that improves the protection of single training data points (privacy) while achieved significant learning goals, as accuracy or regression error (utility)。
S-BDTは、非球面多変量ガウス雑音に頼り、プライバシー増幅のための密なサブサンプリング境界を示し、それを個々のプライバシー会計のためのR\enyiフィルタに組み込むことにより、ノイズの低減を図る。
Epsilon for $\varepsilon \le 0.5$ on the Abalone regression data (dataset size $\approx 4K$), save $ 30\%$ for the adult classification data (dataset size $\approx 50K$), save $ 30\%$ for the Epsilon for $\varepsilon\leq0.03$ for the Spambase classification data (dataset size $\approx 5K$)。
さらに、GBDTが異なるサブポピュレーション(非IID)に由来するデータのストリームを学習している状況において、S-BDTはエプシロンの保存をさらに改善することを示す。
We introduce S-BDT: a novel $(\varepsilon,\delta)$-differentially private distributed gradient boosted decision tree (GBDT) learner that improves the protection of single training data points (privacy) while achieving meaningful learning goals, such as accuracy or regression error (utility). S-BDT uses less noise by relying on non-spherical multivariate Gaussian noise, for which we show tight subsampling bounds for privacy amplification and incorporate that into a R\'enyi filter for individual privacy accounting. We experimentally reach the same utility while saving $50\%$ in terms of epsilon for $\varepsilon \le 0.5$ on the Abalone regression dataset (dataset size $\approx 4K$), saving $30\%$ in terms of epsilon for $\varepsilon \le 0.08$ for the Adult classification dataset (dataset size $\approx 50K$), and saving $30\%$ in terms of epsilon for $\varepsilon\leq0.03$ for the Spambase classification dataset (dataset size $\approx 5K$). Moreover, we show that for situations where a GBDT is learning a stream of data that originates from different subpopulations (non-IID), S-BDT improves the saving of epsilon even further. | 翻訳日:2024-08-19 21:05:52 公開日:2024-08-16 |
# ソフトウェアシステムの有効寿命推定におけるプロセッサ速度とクロック速度の影響の解析
Analyzing the Influence of Processor Speed and Clock Speed on Remaining Useful Life Estimation of Software Systems ( http://arxiv.org/abs/2309.12617v3 ) ライセンス: Link先を確認 | M. Rubyet Islam, Peter Sandborn, | (参考訳) PHM(Prognostics and Health Management)は、システムやコンポーネントが意図した通りに動作停止する地点を予測することに焦点を当てた分野であり、通常、Remaining Useful Life (RUL) として測定される。
RULは緊急計画のための重要な意思決定ツールとして機能し、システムメンテナンスのタイミングと性質を導く。
歴史的に、PHMはハードウェアシステムに主に適用されており、ソフトウェアにしか適用されていない。
最近の研究では、ソフトウェアの変更がソフトウェアのRULに与える影響を実証する方法論を紹介しました。
しかし、実用的なソフトウェア開発においては、リアルタイム性能は、オペレーティングシステム、クロック速度、プロセッサ性能、RAM、マシンコア数など、様々な環境特性にも影響される。
本研究は,オペレーティングシステムやクロック速度などの環境特性の変化がソフトウェアにおけるRUL推定に与える影響を評価するために,解析を拡張した。
検出は、制御されたテストベッドの実際のパフォーマンスデータを用いて厳格に検証され、予測モデル生成データと比較される。
回帰分析を含む統計的検証は、結果の信頼性を支持する。
コントロールされたテストベッド環境は、実際のアプリケーションからの障害を複製し、検証し、標準化されたアセスメントプラットフォームを保証する。
この調査は、ソフトウェアメンテナンスと最適化戦略に関する実用的な知識をもたらし、ソフトウェアヘルス管理の分野における大きなギャップに対処する。
Prognostics and Health Management (PHM) is a discipline focused on predicting the point at which systems or components will cease to perform as intended, typically measured as Remaining Useful Life (RUL). RUL serves as a vital decision-making tool for contingency planning, guiding the timing and nature of system maintenance. Historically, PHM has primarily been applied to hardware systems, with its application to software only recently explored. In a recent study we introduced a methodology and demonstrated how changes in software can impact the RUL of software. However, in practical software development, real-time performance is also influenced by various environmental attributes, including operating systems, clock speed, processor performance, RAM, machine core count and others. This research extends the analysis to assess how changes in environmental attributes, such as operating system and clock speed, affect RUL estimation in software. Findings are rigorously validated using real performance data from controlled test beds and compared with predictive model-generated data. Statistical validation, including regression analysis, supports the credibility of the results. The controlled test bed environment replicates and validates faults from real applications, ensuring a standardized assessment platform. This exploration yields actionable knowledge for software maintenance and optimization strategies, addressing a significant gap in the field of software health management. | 翻訳日:2024-08-19 21:05:52 公開日:2024-08-16 |
# パーコレーションによるPT対称性の破れ
Percolation-induced PT symmetry breaking ( http://arxiv.org/abs/2309.15008v3 ) ライセンス: Link先を確認 | Mengjie Yang, Ching Hua Lee, | (参考訳) 我々は、臨界相転移と深く関連付けられているパーコレーションが、PT対称性を破って非エルミート系の漸近力学を決定できる新しい経路を提案する。
中心となるのは、新たに設計されたトポロジカル誘導利得のメカニズムであり、トポロジカルシステムにおけるカイラルエッジウェーブパケットは、トポロジカルステアリングの仕方に基づいて、非エルミート利得または損失を経験する。
十分に広いトポロジカルな島々にとって、これは層間トンネルからの正のフィードバックによって不可逆的な成長をもたらす。
このように、小さなトポロジカルな島を大きな島にマージするパーコレーション遷移は、実から複雑な遷移を通してエッジスペクトルを駆動する。
我々の発見は、キラルトポロジの3重相互作用による動的結果、指向的な利得と層間トンネル、およびフィードバックシステムの制御に活用される新たなトポロジの経路を示唆している。
We propose a new avenue in which percolation, which has been much associated with critical phase transitions, can also dictate the asymptotic dynamics of non-Hermitian systems by breaking PT symmetry. Central to it is our newly-designed mechanism of topologically guided gain, where chiral edge wavepackets in a topological system experience non-Hermitian gain or loss based on how they are topologically steered. For sufficiently wide topological islands, this leads to irreversible growth due to positive feedback from interlayer tunneling. As such, a percolation transition that merges small topological islands into larger ones also drives the edge spectrum across a real to complex transition. Our discovery showcases intriguing dynamical consequences from the triple interplay of chiral topology, directed gain and interlayer tunneling, and suggests new routes for the topology to be harnessed in the control of feedback systems. | 翻訳日:2024-08-19 21:05:52 公開日:2024-08-16 |
# PlotMap:ゲームワールド構築のためのレイアウト自動設計
PlotMap: Automated Layout Design for Building Game Worlds ( http://arxiv.org/abs/2309.15242v4 ) ライセンス: Link先を確認 | Yi Wang, Jieliang Luo, Adam Gaier, Evan Atherton, Hilmar Koch, | (参考訳) ゲームにおける物語と物理的世界の両方を開発する過程であるワールドビルディングは、ゲーム体験において重要な役割を担っている。
批判的に評価された独立系ゲームとAAAのビデオゲームは、強い世界構築を称賛され、物語に巧みに介入し、高揚させ、プレイヤーを魅了し、持続的な印象を残すゲームマップが提供される。
しかし、様々な考察から複雑な制約を満たす必要があるため、所望の物語をサポートするゲームマップの設計は困難である。
既存の地図生成手法の多くは、ゲームプレイの仕組みや地図地形に関する考察に重点を置いているが、ストーリーをサポートする必要性は通常無視されている。
結果として、特定のストーリーを促進するゲーム世界を設計するためには、手作業による広範囲な調整が依然として必要である。
本研究では,世界構築パイプラインにおけるマップ生成手法に依存しないプロット配置設計の余分なレイヤを導入することで,この問題に対処する。
具体的には,ゲームマップ上の具体的位置を,あるストーリー(プロット施設)に言及された抽象的な場所に割り当てる作業として,ストーリーから生じる空間的制約に従って,(プロット)施設配置タスクを定義する。
本稿では,CMA-ES(Covariance Matrix Adaptation Evolution Strategy)による進化的計算に基づく手法と,強化学習(Reinforcement Learning, RL)に基づく手法を提案する。
施設配置タスクのデータセットを生成し,異なる手法を実験・評価するためのジムのような環境を構築し,さらに総合的な実験により2つの手法を解析し,施設配置タスクを解くための洞察を提供することを目的としている。
コードと10万のタスクを含むデータセットをさまざまなスケールでリリースします。
World-building, the process of developing both the narrative and physical world of a game, plays a vital role in the game's experience. Critically-acclaimed independent and AAA video games are praised for strong world-building, with game maps that masterfully intertwine with and elevate the narrative, captivating players and leaving a lasting impression. However, designing game maps that support a desired narrative is challenging, as it requires satisfying complex constraints from various considerations. Most existing map generation methods focus on considerations about gameplay mechanics or map topography, while the need to support the story is typically neglected. As a result, extensive manual adjustment is still required to design a game world that facilitates particular stories. In this work, we approach this problem by introducing an extra layer of plot facility layout design that is independent of the underlying map generation method in a world-building pipeline. Concretely, we define (plot) facility layout tasks as the tasks of assigning concrete locations on a game map to abstract locations mentioned in a given story (plot facilities), following spatial constraints derived from the story. We present two methods for solving these tasks automatically: an evolutionary computation based approach through Covariance Matrix Adaptation Evolution Strategy (CMA-ES), and a Reinforcement Learning (RL) based approach. We develop a method of generating datasets of facility layout tasks, create a gym-like environment for experimenting with and evaluating different methods, and further analyze the two methods with comprehensive experiments, aiming to provide insights for solving facility layout tasks. We will release the code and a dataset containing 10, 000 tasks of different scales. | 翻訳日:2024-08-19 21:05:52 公開日:2024-08-16 |
# MKRAG:医療質問応答のための知識検索生成
MKRAG: Medical Knowledge Retrieval Augmented Generation for Medical Question Answering ( http://arxiv.org/abs/2309.16035v3 ) ライセンス: Link先を確認 | Yucheng Shi, Shaochen Xu, Tianze Yang, Zhengliang Liu, Tianming Liu, Quanzheng Li, Xiang Li, Ninghao Liu, | (参考訳) 大きな言語モデル(LLM)は、一般的なドメインでは強力だが、医療質問応答(QA)のようなドメイン固有のタスクではよく機能しない。
加えて、LCMは「ブラックボックス」として機能する傾向があり、その振る舞いを変更することは困難である。
この問題に対処するために、我々は、微調整や再訓練を必要とせず、LLM応答を改善することを目的として、透明なRAG(Recovery augmented generation)プロセスを採用している。
具体的には、外部知識ベースから医療事実を抽出し、LLMのクエリプロンプトに注入するための総合的な検索戦略を提案する。
医学的QAに着目し,MedQA-SMILEデータセットを用いて,異なる検索モデルと事実数の違いがLLM性能に与える影響を評価する。
特に、検索強化されたVicuna-7Bモデルでは、44.46%から48.54%に精度が向上した。
この研究は、RAGがLCMの性能を向上させる可能性を強調し、ブラックボックスLSMの課題を軽減するための実践的なアプローチを提供する。
Large Language Models (LLMs), although powerful in general domains, often perform poorly on domain-specific tasks such as medical question answering (QA). In addition, LLMs tend to function as "black-boxes", making it challenging to modify their behavior. To address the problem, our work employs a transparent process of retrieval augmented generation (RAG), aiming to improve LLM responses without the need for fine-tuning or retraining. Specifically, we propose a comprehensive retrieval strategy to extract medical facts from an external knowledge base, and then inject them into the LLM's query prompt. Focusing on medical QA, we evaluate the impact of different retrieval models and the number of facts on LLM performance using the MedQA-SMILE dataset. Notably, our retrieval-augmented Vicuna-7B model exhibited an accuracy improvement from 44.46% to 48.54%. This work underscores the potential of RAG to enhance LLM performance, offering a practical approach to mitigate the challenges posed by black-box LLMs. | 翻訳日:2024-08-19 21:05:52 公開日:2024-08-16 |
# AdaDiff: ステップワイズ適応計算による拡散モデルの高速化
AdaDiff: Accelerating Diffusion Models through Step-Wise Adaptive Computation ( http://arxiv.org/abs/2309.17074v3 ) ライセンス: Link先を確認 | Shengkun Tang, Yaqing Wang, Caiwen Ding, Yi Liang, Yao Li, Dongkuan Xu, | (参考訳) 拡散モデルは多彩で高忠実な画像を生成する上で大きな成功を収めるが、特にリアルタイムシナリオにおいて広く応用されることは、その本質的に遅い生成速度によって妨げられる。
遅い生成は、マルチステップネットワーク推論の必要性から生じる。
いくつかの特定の予測は、各サンプリングイテレーションにおけるモデルの完全な計算の恩恵を受けるが、全てのイテレーションが同じ量の計算を必要とするわけではないため、潜在的に非効率な計算につながる。
単段階生成問題に対処する典型的な適応型計算問題とは異なり、多段階生成を伴う拡散プロセスは、各ステップの重要度を最終的な画像出力に対して継続的に評価することに基づいて、その計算資源割り当てを動的に調整する必要がある。
本研究では,各サンプリングステップで動的に計算資源を割り当て,拡散モデルの生成効率を向上させる適応フレームワークであるAdaDiffを提案する。
画像品質に対する計算作業の変化の影響を評価するため,時間認識不確実性推定モジュール(UEM)を提案する。
各中間層で統合され、UEMは予測の不確実性を評価する。
この不確実性測定は、推論プロセスの終了を決定する指標となる。
さらに、フルモデルと適応モデル間の性能ギャップを埋めることを目的とした不確実性認識層ワイドロスを導入する。
Diffusion models achieve great success in generating diverse and high-fidelity images, yet their widespread application, especially in real-time scenarios, is hampered by their inherently slow generation speed. The slow generation stems from the necessity of multi-step network inference. While some certain predictions benefit from the full computation of the model in each sampling iteration, not every iteration requires the same amount of computation, potentially leading to inefficient computation. Unlike typical adaptive computation challenges that deal with single-step generation problems, diffusion processes with a multi-step generation need to dynamically adjust their computational resource allocation based on the ongoing assessment of each step's importance to the final image output, presenting a unique set of challenges. In this work, we propose AdaDiff, an adaptive framework that dynamically allocates computation resources in each sampling step to improve the generation efficiency of diffusion models. To assess the effects of changes in computational effort on image quality, we present a timestep-aware uncertainty estimation module (UEM). Integrated at each intermediate layer, the UEM evaluates the predictive uncertainty. This uncertainty measurement serves as an indicator for determining whether to terminate the inference process. Additionally, we introduce an uncertainty-aware layer-wise loss aimed at bridging the performance gap between full models and their adaptive counterparts. | 翻訳日:2024-08-19 21:05:52 公開日:2024-08-16 |
# 自己学習最適化(STOP):再帰的自己改善コード生成
Self-Taught Optimizer (STOP): Recursively Self-Improving Code Generation ( http://arxiv.org/abs/2310.02304v3 ) ライセンス: Link先を確認 | Eric Zelikman, Eliana Lorch, Lester Mackey, Adam Tauman Kalai, | (参考訳) AIシステムの最近のいくつかの進歩は、より良い出力を生成するために複数の言語モデル(LM)への呼び出しを構造化する"スキャフォールディング"プログラムを提供することで、問題を解決している。
足場プログラムはPythonのようなプログラミング言語で記述されている。
本研究では,言語モデルを用いた足場構築プログラムを用いて自己改善を行う。
まず、LMを複数回クエリして最適な解を返すことで、与えられたユーティリティ関数に従って入力プログラムを改善するシード「インプロデューサ」から始める。
そして、このシード改善器を実行して、自分自身を改善するのです。
ダウンストリームタスクの小さなセット全体で、改善された改善プログラムは、シード改善プログラムよりもはるかに優れたパフォーマンスを持つプログラムを生成する。
ビームサーチや遺伝的アルゴリズム,シミュレートされたアニーリングなど,さまざまな自己改善戦略が言語モデルによって提案されている。
言語モデル自体が変更されていないため、これは完全な再帰的な自己改善ではない。
それにもかかわらず、我々の実験では、近代的な言語モデルであるGPT-4が、自分自身を改善のために呼び出すことができるコードを書くことができることを実証しています。
我々は、自己改善技術の開発に関する懸念を考察し、生成したコードがサンドボックスをバイパスする頻度を評価する。
Several recent advances in AI systems solve problems by providing a "scaffolding" program that structures multiple calls to language models (LMs) to generate better outputs. A scaffolding program is written in a programming language such as Python. In this work, we use a language-model-infused scaffolding program to improve itself. We start with a seed "improver" that improves an input program according to a given utility function by querying an LM several times and returning the best solution. We then run this seed improver to improve itself. Across a small set of downstream tasks, the resulting improved improver generates programs with significantly better performance than its seed improver. A variety of self-improvement strategies are proposed by the language model, including beam search, genetic algorithms, and simulated annealing. Since the language models themselves are not altered, this is not full recursive self-improvement. Nonetheless, it demonstrates that a modern language model, GPT-4 in our experiments, is capable of writing code that can call itself to improve itself. We consider concerns around the development of self-improving technologies and evaluate the frequency with which the generated code bypasses a sandbox. | 翻訳日:2024-08-19 21:05:52 公開日:2024-08-16 |
# 予測不確実性に対するモデル非依存変数の重要性--エントロピーに基づくアプローチ
Model-agnostic variable importance for predictive uncertainty: an entropy-based approach ( http://arxiv.org/abs/2310.12842v3 ) ライセンス: Link先を確認 | Danny Wood, Theodore Papamarkou, Matt Benatan, Richard Allmendinger, | (参考訳) 機械学習アルゴリズムの予測を信頼するには,これらの予測に寄与する要因を理解する必要がある。
確率論的かつ不確実性を考慮したモデルの場合、予測自体の理由だけでなく、モデルが予測に自信を持つ理由も理解する必要がある。
本稿では、既存の説明可能性の手法を不確実性認識モデルに拡張し、そのような拡張を用いてモデルの予測分布における不確実性の原因を理解する方法について述べる。
特に、置換特徴量の重要性、部分依存プロット、個別条件予測プロットを適応させることにより、モデル行動に対する新たな洞察が得られ、これらの手法が、その分布の下での予測分布のエントロピーと基底真理ラベルの対数類似度の両方に対する特徴の影響を測定することができることを示す。
合成データと実世界のデータの両方を用いて実験を行い、不確実性の原因とモデル性能への影響の両方を理解するためにこれらの手法の有用性を実証する。
In order to trust the predictions of a machine learning algorithm, it is necessary to understand the factors that contribute to those predictions. In the case of probabilistic and uncertainty-aware models, it is necessary to understand not only the reasons for the predictions themselves, but also the reasons for the model's level of confidence in those predictions. In this paper, we show how existing methods in explainability can be extended to uncertainty-aware models and how such extensions can be used to understand the sources of uncertainty in a model's predictive distribution. In particular, by adapting permutation feature importance, partial dependence plots, and individual conditional expectation plots, we demonstrate that novel insights into model behaviour may be obtained and that these methods can be used to measure the impact of features on both the entropy of the predictive distribution and the log-likelihood of the ground truth labels under that distribution. With experiments using both synthetic and real-world data, we demonstrate the utility of these approaches to understand both the sources of uncertainty and their impact on model performance. | 翻訳日:2024-08-19 21:05:52 公開日:2024-08-16 |
# 3次元リコンストラクションによる新しい音響合成
Novel-View Acoustic Synthesis from 3D Reconstructed Rooms ( http://arxiv.org/abs/2310.15130v2 ) ライセンス: Link先を確認 | Byeongjoo Ahn, Karren Yang, Brian Hamilton, Jonathan Sheaffer, Anurag Ranjan, Miguel Sarabia, Oncel Tuzel, Jen-Hao Rick Chang, | (参考訳) そこで本研究では,視覚障害者のための視覚障害者向け音声録音と3Dシーン情報を組み合わせることの利点について検討する。
2-4マイクロホンからの音声記録と、複数の未知音源を含むシーンの3次元形状と素材を考慮し、シーン内どこでも音を推定する。
音源の定位, 分離, 残響として, 新規な音像合成の課題を明らかにした。
エンド・ツー・エンドのネットワークをネーティブにトレーニングしても質の高い結果が得られないが、3次元再構成された部屋から引き起こされた部屋インパルス応答(RIR)を組み込むことで、同じネットワークがこれらのタスクに共同で取り組むことができることを示す。
提案手法は,各タスク用に設計された既存の手法より優れており,その有効性は3次元視覚情報の利用により証明されている。
Matterport3D-NVASデータセットのシミュレーションにより,PSNRが26.44dB,SDRが14.23dB,PSNRが25.55dB,SDRが14.20dBであった。
コードとモデルはプロジェクトのWebサイトでhttps://github.com/apple/ml-nvas3d.comで公開しています。
結果を聞くときはヘッドフォンを装着してください。
We investigate the benefit of combining blind audio recordings with 3D scene information for novel-view acoustic synthesis. Given audio recordings from 2-4 microphones and the 3D geometry and material of a scene containing multiple unknown sound sources, we estimate the sound anywhere in the scene. We identify the main challenges of novel-view acoustic synthesis as sound source localization, separation, and dereverberation. While naively training an end-to-end network fails to produce high-quality results, we show that incorporating room impulse responses (RIRs) derived from 3D reconstructed rooms enables the same network to jointly tackle these tasks. Our method outperforms existing methods designed for the individual tasks, demonstrating its effectiveness at utilizing 3D visual information. In a simulated study on the Matterport3D-NVAS dataset, our model achieves near-perfect accuracy on source localization, a PSNR of 26.44dB and a SDR of 14.23dB for source separation and dereverberation, resulting in a PSNR of 25.55 dB and a SDR of 14.20 dB on novel-view acoustic synthesis. We release our code and model on our project website at https://github.com/apple/ml-nvas3d. Please wear headphones when listening to the results. | 翻訳日:2024-08-19 21:05:52 公開日:2024-08-16 |
# 拡散モデルによるプライバシ保存合成EHR時系列の信頼性生成
Reliable Generation of Privacy-preserving Synthetic EHR Time Series via Diffusion Models ( http://arxiv.org/abs/2310.15290v3 ) ライセンス: Link先を確認 | Muhang Tian, Bernie Chen, Allan Guo, Shiyi Jiang, Anru R. Zhang, | (参考訳) 電子健康記録(Electronic Health Records, EHRs)は、患者レベルの豊富なデータソースであり、医療データ分析に有用なリソースを提供する。
しかしながら、プライバシー上の懸念はしばしばEHRへのアクセスを制限し、下流の分析を妨げる。
現在のEHRの特定方法には欠陥があり、潜在的なプライバシー漏洩につながる可能性がある。
さらに、既存の公開EHRデータベースは制限されており、EHRを用いた医学研究の進歩を妨げている。
本研究の目的は、現実的でプライバシーに配慮した電子健康記録(EHR)を効率的に生成し、これらの課題を克服することである。
本稿では,Denoising Diffusion Probabilistic Models (DDPM) を用いて,多種多様なリアルなEHR時系列データを生成する手法を提案する。
我々は,集中治療のための医療情報マート(MIMIC-III/IV),eICU協調研究データベース(eICU),ストック・アンド・エナジーに関する非EHRデータセットの6つのデータベースについて実験を行った。
提案手法を8つの既存手法と比較した。
以上の結果から,本手法はトレーニングの労力を減らしながら,データ忠実度の観点から既存の手法を著しく上回っていることが示された。
さらに,本手法により生成されたデータは,他のベースライン法に比べて識別精度が低く,プライバシーリスクの低いデータを生成することができることを示す。
提案した拡散モデルに基づく手法は、下流の医療データ分析を容易にする合成EHR時系列を確実かつ効率的に生成することができる。
提案手法が既存手法よりも優れていることを示す数値計算結果を得た。
Electronic Health Records (EHRs) are rich sources of patient-level data, offering valuable resources for medical data analysis. However, privacy concerns often restrict access to EHRs, hindering downstream analysis. Current EHR de-identification methods are flawed and can lead to potential privacy leakage. Additionally, existing publicly available EHR databases are limited, preventing the advancement of medical research using EHR. This study aims to overcome these challenges by generating realistic and privacy-preserving synthetic electronic health records (EHRs) time series efficiently. We introduce a new method for generating diverse and realistic synthetic EHR time series data using Denoising Diffusion Probabilistic Models (DDPM). We conducted experiments on six databases: Medical Information Mart for Intensive Care III and IV (MIMIC-III/IV), the eICU Collaborative Research Database (eICU), and non-EHR datasets on Stocks and Energy. We compared our proposed method with eight existing methods. Our results demonstrate that our approach significantly outperforms all existing methods in terms of data fidelity while requiring less training effort. Additionally, data generated by our method yields a lower discriminative accuracy compared to other baseline methods, indicating the proposed method can generate data with less privacy risk. The proposed diffusion-model-based method can reliably and efficiently generate synthetic EHR time series, which facilitates the downstream medical data analysis. Our numerical results show the superiority of the proposed method over all other existing methods. | 翻訳日:2024-08-19 21:05:52 公開日:2024-08-16 |
# 実測実験における補正ベルと非テクスチュアリティの不等式
Corrected Bell and Noncontextuality Inequalities for Realistic Experiments ( http://arxiv.org/abs/2310.19383v2 ) ライセンス: Link先を確認 | Kim Vallée, Pierre-Emmanuel Emeriau, Boris Bourdoncle, Adel Sohbi, Shane Mansfield, Damian Markham, | (参考訳) 文脈性は量子相関の特徴である。
非古典的な現象としての基本的な観点からも重要であり、量子的優位性のためのリソースとしての応用の観点からも重要である。
一般に隠れ変数の観点で定義され、パラメータ独立性や決定論の仮定と矛盾する。
前者は非シグナリングまたは非ジグナブルの経験的性質、後者は測定シャープネスの経験的性質によって正当化することができる。
しかし、現実的な実験では、経験的性質は正確には持たないため、非古典性の形式としての文脈性への反対や、想定される量子的優位性に対する潜在的な脆弱性につながる可能性がある。
両特性を定量化するための尺度を導入し、対応する仮定の定量化緩和を導入する。
我々は、その雑音に対する堅牢性を保証する文脈的分数という、既知の文脈的尺度の連続性を証明した。
すると、これらの緩和が文脈的分数(あるいは任意の非文脈的不等式)への補正項を通して文脈的不完全性を説明することができる範囲を、真の文脈的不完全性の概念で決定する。
そして、我々の結果が、様々な確立された結果や実験的な設定を適用または関連付けるのに十分な一般性を示す。
Contextuality is a feature of quantum correlations. It is crucial from a foundational perspective as a nonclassical phenomenon, and from an applied perspective as a resource for quantum advantage. It is commonly defined in terms of hidden variables, for which it forces a contradiction with the assumptions of parameter-independence and determinism. The former can be justified by the empirical property of non-signalling or non-disturbance, and the latter by the empirical property of measurement sharpness. However, in realistic experiments neither empirical property holds exactly, which leads to possible objections to contextuality as a form of nonclassicality, and potential vulnerabilities for supposed quantum advantages. We introduce measures to quantify both properties, and introduce quantified relaxations of the corresponding assumptions. We prove the continuity of a known measure of contextuality, the contextual fraction, which ensures its robustness to noise. We then bound the extent to which these relaxations can account for contextuality, via corrections terms to the contextual fraction (or to any noncontextuality inequality), culminating in a notion of genuine contextuality, which is robust to experimental imperfections. We then show that our result is general enough to apply or relate to a variety of established results and experimental setups. | 翻訳日:2024-08-19 20:55:33 公開日:2024-08-16 |
# マルチタスク強化学習のための連携型自然政策グラディエントとアクタ批判手法
Federated Natural Policy Gradient and Actor Critic Methods for Multi-task Reinforcement Learning ( http://arxiv.org/abs/2311.00201v2 ) ライセンス: Link先を確認 | Tong Yang, Shicong Cen, Yuting Wei, Yuxin Chen, Yuejie Chi, | (参考訳) フェデレート強化学習(RL)は、ローカルデータトラジェクトリを共有することなく、複数の分散エージェントの協調的な意思決定を可能にする。
本研究では,環境の同じ遷移カーネルを共有しながら,各エージェントが異なるタスクに対応する個別の報酬関数を持つマルチタスク設定について考察する。
無限水平マルコフ決定過程に着目して、各エージェントが所定のグラフトポロジー上で隣人とのみ通信する分散的な方法で、すべてのエージェントの割引された全報酬の総和を最大化する、グローバルに最適なポリシーを学ぶことが目的である。
ソフトマックスパラメタライゼーションの下で,表層環境下でのフェデレーションバニラ法とエントロピー規則化自然方針勾配法(NPG)を開発し,不完全な情報共有の影響を軽減するために,大域的なQ-関数を推定するために勾配追跡を適用した。
非漸近的グローバルコンバージェンス保証を、厳密な政策評価の下で確立し、そこでは、状態-アクション空間のサイズからほぼ独立して、ネットワークサイズと接続性の影響を照らし出す。
我々の知る限りでは、政策最適化を用いたフェデレーションマルチタスクRLに対して、近次元自由大域収束が確立されたのはこれが初めてである。
さらに,関数近似を用いたマルチタスクRLのためのナチュラルアクタ評論家法(NAC)を提案し,関数近似の誤差を考慮した有限時間サンプル複雑性を確立した。
Federated reinforcement learning (RL) enables collaborative decision making of multiple distributed agents without sharing local data trajectories. In this work, we consider a multi-task setting, in which each agent has its own private reward function corresponding to different tasks, while sharing the same transition kernel of the environment. Focusing on infinite-horizon Markov decision processes, the goal is to learn a globally optimal policy that maximizes the sum of the discounted total rewards of all the agents in a decentralized manner, where each agent only communicates with its neighbors over some prescribed graph topology. We develop federated vanilla and entropy-regularized natural policy gradient (NPG) methods in the tabular setting under softmax parameterization, where gradient tracking is applied to estimate the global Q-function to mitigate the impact of imperfect information sharing. We establish non-asymptotic global convergence guarantees under exact policy evaluation, where the rates are nearly independent of the size of the state-action space and illuminate the impacts of network size and connectivity. To the best of our knowledge, this is the first time that near dimension-free global convergence is established for federated multi-task RL using policy optimization. We further go beyond the tabular setting by proposing a federated natural actor critic (NAC) method for multi-task RL with function approximation, and establish its finite-time sample complexity taking the errors of function approximation into account. | 翻訳日:2024-08-19 20:55:33 公開日:2024-08-16 |
# ビットフリップによるグラフニューラルネットワークの攻撃: Weisfeiler と Lehman は無関心に
Attacking Graph Neural Networks with Bit Flips: Weisfeiler and Lehman Go Indifferent ( http://arxiv.org/abs/2311.01205v2 ) ライセンス: Link先を確認 | Lorenz Kummer, Samir Moustafa, Nils N. Kriege, Wilfried N. Gansterer, | (参考訳) グラフニューラルネットワークに対する以前の攻撃は、主にグラフ中毒と回避に焦点を当てており、ネットワークの重みとバイアスを無視している。
畳み込みニューラルネットワークで使用されるビットフリップ攻撃のような従来の重みに基づく障害注入攻撃は、グラフニューラルネットワークのユニークな特性を考慮していない。
本稿では,グラフニューラルネットワークに特化して設計された最初のビットフリップ攻撃であるインジェクティビティビットフリップ攻撃を提案する。
我々の攻撃は、量子化されたメッセージパッシングニューラルネットワークにおける学習可能な近傍アグリゲーション関数を目標とし、グラフ構造を識別する能力を低下させ、Weisfeiler-Lehmanテストの表現力を失う。
この結果から,特定のグラフニューラルネットワークアーキテクチャに特有の数学的特性を利用すると,その脆弱性がビットフリップ攻撃によって著しく増大する可能性が示唆された。
インジェクティビティ ビットフリップ攻撃は、様々なグラフ特性予測データセットでトレーニングされた最大表現型グラフ同型ネットワークを、ネットワークのビットのごく一部を反転させることでランダムな出力に分解し、畳み込みニューラルネットワークから転送されたビットフリップ攻撃よりも高い破壊力を示す。
我々の攻撃は、広範な経験的結果によって確認される理論的な洞察によって透明で動機づけられている。
Prior attacks on graph neural networks have mostly focused on graph poisoning and evasion, neglecting the network's weights and biases. Traditional weight-based fault injection attacks, such as bit flip attacks used for convolutional neural networks, do not consider the unique properties of graph neural networks. We propose the Injectivity Bit Flip Attack, the first bit flip attack designed specifically for graph neural networks. Our attack targets the learnable neighborhood aggregation functions in quantized message passing neural networks, degrading their ability to distinguish graph structures and losing the expressivity of the Weisfeiler-Lehman test. Our findings suggest that exploiting mathematical properties specific to certain graph neural network architectures can significantly increase their vulnerability to bit flip attacks. Injectivity Bit Flip Attacks can degrade the maximal expressive Graph Isomorphism Networks trained on various graph property prediction datasets to random output by flipping only a small fraction of the network's bits, demonstrating its higher destructive power compared to a bit flip attack transferred from convolutional neural networks. Our attack is transparent and motivated by theoretical insights which are confirmed by extensive empirical results. | 翻訳日:2024-08-19 20:55:33 公開日:2024-08-16 |
# CeCNN: Copula-enhanced convolutional neural network in joint prediction offracion error and axial length based on Ultra-widefield fundus image
CeCNN: Copula-enhanced convolutional neural networks in joint prediction of refraction error and axial length based on ultra-widefield fundus images ( http://arxiv.org/abs/2311.03967v4 ) ライセンス: Link先を確認 | Chong Zhong, Yang Li, Danjuan Yang, Meiyan Li, Xingyao Zhou, Bo Fu, Catherine C. Liu, A. H. Welsh, | (参考訳) ウルトラワイドフィールド(UWF)の画像は、よりリッチなミオピア関連情報を提供するため、AI支援のミオピアスクリーニングにおいて魅力的な3Dバイオマーカーである。
軸長 (AL) は, 近視スクリーニング, 球面等価度 (SE) 測定, 高近視診断の2つの重要な目標と高い関連性があることが確認されているが, UWFファウンダス画像に基づく予測はまれである。
SEとALを計測するコストと時間コストを節約するため、我々は、SE、AL、ミオピアの状態を共同で予測するワンストップUWFベースの眼科用AIフレームワークであるCopula-enhanced Convolutional Neural Network (CeCNN)を提案する。
CeCNNは、複数の依存する離散連続応答と画像共変を関連づける多重応答回帰を定式化し、その関連の非線形性は、バックボーンCNNによってモデル化される。
応答間の依存構造を網羅的に記述するために,CNNにおける応答間の条件依存を新しいコプラ様の損失によってモデル化し,組み込んだ。
応答間の条件依存の統計的解釈を行い、そのような依存は画像共変量によって説明される依存を超えていることを明らかにする。
我々は、提案した損失がCNN重みの推定効率を高めることを、ヒューリスティックに正当化する。
我々は、私たちが収集したUWFデータセットにCeCNNを適用し、CeCNNが様々なバックボーンCNNの予測能力を大幅に向上することを示した。
本研究は,SE以外の眼科領域においても,ALは近視症にとって重要な指標であることを示す。
The ultra-widefield (UWF) fundus image is an attractive 3D biomarker in AI-aided myopia screening because it provides much richer myopia-related information. Though axial length (AL) has been acknowledged to be highly related to the two key targets of myopia screening, Spherical Equivalence (SE) measurement and high myopia diagnosis, its prediction based on the UWF fundus image is rarely considered. To save the high expense and time costs of measuring SE and AL, we propose the Copula-enhanced Convolutional Neural Network (CeCNN), a one-stop UWF-based ophthalmic AI framework to jointly predict SE, AL, and myopia status. The CeCNN formulates a multiresponse regression that relates multiple dependent discrete-continuous responses and the image covariate, where the nonlinearity of the association is modeled by a backbone CNN. To thoroughly describe the dependence structure among the responses, we model and incorporate the conditional dependence among responses in a CNN through a new copula-likelihood loss. We provide statistical interpretations of the conditional dependence among responses, and reveal that such dependence is beyond the dependence explained by the image covariate. We heuristically justify that the proposed loss can enhance the estimation efficiency of the CNN weights. We apply the CeCNN to the UWF dataset collected by us and demonstrate that the CeCNN sharply enhances the predictive capability of various backbone CNNs. Our study evidences the ophthalmology view that besides SE, AL is also an important measure to myopia. | 翻訳日:2024-08-19 20:55:33 公開日:2024-08-16 |
# 非対称Bethe Ansatz
Asymmetric Bethe Ansatz ( http://arxiv.org/abs/2311.15155v3 ) ライセンス: Link先を確認 | Steven G. Jackson, Hélène Perrin, Gregory E. Astrakharchik, Maxim Olshanii, | (参考訳) 最近提案された正確な量子解は、2つの$\delta$-function-interacting particles with a mass-ratio $3\!
: !
ハードウォールボックス (Y. Liu, F. Qi, Y. Zhang, S. Chen, iScience 22 181 (2019)) の 1 ドルは、ベテ・アンザッツ積分性に対する従来の必要条件に反する。
本稿では、この条件を緩和する方法を見出した: 既知の自己不変鏡重ね合わせの半透明鏡の一部が、完全に反射する鏡に置き換えられ、自己不変性を損なう。
提案された手法の名は \emph{Asymmetric Bethe Ansatz} (非対称BA) である。
実例として、ボソニック二量体を$\delta$-wellで構成した、名目上は非可積分系の有界状態について詳細に研究する。
最後に、Lou-Qi-Zhang-Chen問題の正確な解は非対称BAの特別な例であることを示す。
The recently proposed exact quantum solution for two $\delta$-function-interacting particles with a mass-ratio $3\!:\!1$ in a hard-wall box [Y. Liu, F. Qi, Y. Zhang and S. Chen, iScience 22, 181 (2019)] violates the conventional necessary condition for a Bethe Ansatz integrability, the condition being that the system must be reducible to a superposition of semi-transparent mirrors that is invariant under all the reflections it generates. In this article, we found a way to relax this condition: some of the semi-transparent mirrors of a known self-invariant mirror superposition can be replaced by the perfectly reflecting ones, thus breaking the self-invariance. The proposed name for the method is \emph{Asymmetric Bethe Ansatz} (Asymmetric BA). As a worked example, we study in detail the bound states of the nominally non-integrable system comprised of a bosonic dimer in a $\delta$-well. Finally, we show that the exact solution of the Liu-Qi-Zhang-Chen problem is a particular instance of the the Asymmetric BA. | 翻訳日:2024-08-19 20:55:33 公開日:2024-08-16 |
# グリオ芽腫浸潤のパーソナライズド予測:数学的モデル、物理インフォームドニューラルネットワーク、マルチモーダルスコープ
Personalized Predictions of Glioblastoma Infiltration: Mathematical Models, Physics-Informed Neural Networks and Multimodal Scans ( http://arxiv.org/abs/2311.16536v3 ) ライセンス: Link先を確認 | Ray Zirui Zhang, Ivan Ezhov, Michal Balcerak, Andy Zhu, Benedikt Wiestler, Bjoern Menze, John S. Lowengrub, | (参考訳) 医学的MRI検査からGlioblastoma(GBM)の浸潤を予測することは、腫瘍の増殖動態を理解し、個別の放射線治療計画を立てるのに不可欠であり、GBM成長の数学的モデルは腫瘍細胞の空間分布の予測においてデータを補うことができる。
しかし、これは、時間的データや画像診断と診断の間の制限による逆問題である臨床データから、モデルの患者固有のパラメータを推定する必要がある。
本研究では,単一3次元構造MRIスナップショットからGBM成長の反応拡散PDEモデルの患者特異的パラメータを推定するために,物理情報ニューラルネットワーク(PINN)を用いた手法を提案する。
PINNはデータとPDEの両方を損失関数に埋め込み、理論とデータを統合する。
鍵となる革新は、特徴的な非次元パラメータの同定と推定、非次元パラメータを利用する事前学習ステップ、患者固有のパラメータを決定するための微調整ステップである。
さらに、拡散領域法は、PINNフレームワーク内の複雑な脳の形状を扱うために用いられる。
本手法は, 合成データセットと患者データセットの両方で検証し, パーソナライズされたGBM治療のための臨床環境におけるリアルタイムパラメトリック推論の可能性を示唆している。
Predicting the infiltration of Glioblastoma (GBM) from medical MRI scans is crucial for understanding tumor growth dynamics and designing personalized radiotherapy treatment plans.Mathematical models of GBM growth can complement the data in the prediction of spatial distributions of tumor cells. However, this requires estimating patient-specific parameters of the model from clinical data, which is a challenging inverse problem due to limited temporal data and the limited time between imaging and diagnosis. This work proposes a method that uses Physics-Informed Neural Networks (PINNs) to estimate patient-specific parameters of a reaction-diffusion PDE model of GBM growth from a single 3D structural MRI snapshot. PINNs embed both the data and the PDE into a loss function, thus integrating theory and data. Key innovations include the identification and estimation of characteristic non-dimensional parameters, a pre-training step that utilizes the non-dimensional parameters and a fine-tuning step to determine the patient specific parameters. Additionally, the diffuse domain method is employed to handle the complex brain geometry within the PINN framework. Our method is validated both on synthetic and patient datasets, and shows promise for real-time parametric inference in the clinical setting for personalized GBM treatment. | 翻訳日:2024-08-19 20:55:33 公開日:2024-08-16 |
# HandRefiner:拡散型コンディショナルインペインティングによる画像中の奇形ハンドの精製
HandRefiner: Refining Malformed Hands in Generated Images by Diffusion-based Conditional Inpainting ( http://arxiv.org/abs/2311.17957v2 ) ライセンス: Link先を確認 | Wenquan Lu, Yufei Xu, Jing Zhang, Chaoyue Wang, Dacheng Tao, | (参考訳) 拡散モデルは現実的な画像の生成において顕著な成功を収めてきたが、不正確な指数や不規則な形状などの正確な人間の手の生成に悩まされている。
この困難は、広範囲な変形と閉塞を伴う訓練画像から手の構造とポーズを学ぶという複雑な作業から生じる。
ハンドジェネレーションを正しくするために,本稿では,$\textbf{HandRefiner}$という軽量な後処理ソリューションを紹介した。
HandRefinerは、画像の他の部分を無傷で残しながら、不整形手を修正するための条件付き塗装アプローチを採用している。
画像に所望のポーズを合わせながら、指の数と手形を常に忠実に一致させるハンドメッシュ再構築モデルを活用する。
不正な手による画像生成が失敗した場合、制御ネットモジュールを使用して、そのような正しい手情報を再注入する。
さらに,制御強度が変化するにつれて,制御ネット内の位相遷移現象が明らかになった。
これにより、現実的な手と合成手のドメインギャップに悩まされることなく、より簡単に利用できる合成データを活用することができる。
実験により、HandRefinerは生成品質を定量的に質的に著しく改善できることが示された。
コードはhttps://github.com/wenquanlu/HandRefinerで入手できる。
Diffusion models have achieved remarkable success in generating realistic images but suffer from generating accurate human hands, such as incorrect finger counts or irregular shapes. This difficulty arises from the complex task of learning the physical structure and pose of hands from training images, which involves extensive deformations and occlusions. For correct hand generation, our paper introduces a lightweight post-processing solution called $\textbf{HandRefiner}$. HandRefiner employs a conditional inpainting approach to rectify malformed hands while leaving other parts of the image untouched. We leverage the hand mesh reconstruction model that consistently adheres to the correct number of fingers and hand shape, while also being capable of fitting the desired hand pose in the generated image. Given a generated failed image due to malformed hands, we utilize ControlNet modules to re-inject such correct hand information. Additionally, we uncover a phase transition phenomenon within ControlNet as we vary the control strength. It enables us to take advantage of more readily available synthetic data without suffering from the domain gap between realistic and synthetic hands. Experiments demonstrate that HandRefiner can significantly improve the generation quality quantitatively and qualitatively. The code is available at https://github.com/wenquanlu/HandRefiner . | 翻訳日:2024-08-19 20:55:33 公開日:2024-08-16 |
# ロバストなDINO特徴によるマルチタスク画像復元
Multi-task Image Restoration Guided By Robust DINO Features ( http://arxiv.org/abs/2312.01677v3 ) ライセンス: Link先を確認 | Xin Lin, Jingtong Yue, Kelvin C. K. Chan, Lu Qi, Chao Ren, Jinshan Pan, Ming-Hsuan Yang, | (参考訳) マルチタスク画像復元は、シングルタスクに比べて、その固有の汎用性と効率性から、大きな関心を集めている。
しかし、タスク数の増加に伴い、パフォーマンスの低下が観察され、これは主に、異なるタスクを異なる性質で同時に扱うという、復元モデルの課題に起因する。
このようにして、異なる劣化タスク間の劣化に敏感なセマンティック共通性を探究する視点が浮上した。
本稿では,DINOv2の特徴が意味情報を効果的にモデル化し,劣化要因に依存しないことを示す。
そこで本研究では,DINOv2 から抽出したロバストな特徴を利用したマルチタスク画像復元手法である \mbox{\textbf{DINO-IR}} を提案する。
まず、DINOV2の浅部特徴に画素レベルの情報と劣化に依存しない意味情報を含む深部特徴を動的に融合するPSF(Pixel-semantic fusion)モジュールを提案する。
修復モデルをDINOv2の特徴で導くため,PSFから融合した特徴のチャネルを調整し,復元モデルからの特徴と統合するDINO-Restore適応・融合モジュールを開発した。
これらのモジュールを統一された深層モデルに定式化することにより、モデルトレーニングを制約するために、DINO知覚の対照的な損失を提案する。
我々のDINO-IRは、様々なタスクにおいて、既存のマルチタスク画像復元アプローチに対して、大きなマージンで好適に機能することを示した。
ソースコードとトレーニングされたモデルが利用可能になる。
Multi-task image restoration has gained significant interest due to its inherent versatility and efficiency compared to its single-task counterpart. However, performance decline is observed with an increase in the number of tasks, primarily attributed to the restoration model's challenge in handling different tasks with distinct natures at the same time. Thus, a perspective emerged aiming to explore the degradation-insensitive semantic commonalities among different degradation tasks. In this paper, we observe that the features of DINOv2 can effectively model semantic information and are independent of degradation factors. Motivated by this observation, we propose \mbox{\textbf{DINO-IR}}, a multi-task image restoration approach leveraging robust features extracted from DINOv2 to solve multi-task image restoration simultaneously. We first propose a pixel-semantic fusion (PSF) module to dynamically fuse DINOV2's shallow features containing pixel-level information and deep features containing degradation-independent semantic information. To guide the restoration model with the features of DINOv2, we develop a DINO-Restore adaption and fusion module to adjust the channel of fused features from PSF and then integrate them with the features from the restoration model. By formulating these modules into a unified deep model, we propose a DINO perception contrastive loss to constrain the model training. Extensive experimental results demonstrate that our DINO-IR performs favorably against existing multi-task image restoration approaches in various tasks by a large margin. The source codes and trained models will be made available. | 翻訳日:2024-08-19 20:55:33 公開日:2024-08-16 |
# ハイパーオン・ヌクレオンの散乱における絡み合い抑制のヒント
Hints of Entanglement Suppression in Hyperon-Nucleon Scattering ( http://arxiv.org/abs/2312.02289v2 ) ライセンス: Link先を確認 | Qiaofeng Liu, Ian Low, | (参考訳) ハイパーロン(Y=\Sigma,\Lambda$)-核子(N=n,p$)相互作用は、2つの太陽質量よりも重い中性子星の存在を理解するために重要である。
量子情報の観点からのYN$散乱について検討し,np$散乱で観測されるs波チャネルにおけるスピン絡みの抑制に焦点をあてた。
実験データから位相シフトのグローバルフィッティングを用いて,np$の場合と同様,奇妙度$S=-1$セクターの8つのフレーバーチャネル間の絡み合い抑制のヒントを求める。
例外の1つは$\Sigma^+p$チャネルであり、グローバルな適合性の矛盾は決定的な結果をもたらす。
次に、異なる大域的な適合を解くのに役立つために、$\Sigma^+p$散乱の「量子」オブザーバブルを提案する。
Hyperon ($Y=\Sigma,\Lambda$)-nucleon ($N=n,p$) interactions are crucial for understanding the existence of neutron stars heavier than two solar masses. Amid renewed experimental efforts, we study $YN$ scatterings from the perspective of quantum information, focusing on whether spin entanglement is suppressed in the s-wave channel, which is observed in $np$ scattering and leads to enhanced global symmetries. Using global fits of phase shifts from experimental data, we find hints of entanglement suppression among the eight flavor channels in the strangeness $S=-1$ sector, similar to the $np$ case. One exception is the $\Sigma^+p$ channel, where conflicting global fits lead to inconclusive outcome. We then propose ''quantum'' observables in $\Sigma^+p$ scattering to help resolve the differing global fits. | 翻訳日:2024-08-19 20:55:33 公開日:2024-08-16 |
# MIMIR:相互情報に基づく対向ロバスト性のためのマスク画像モデリング
MIMIR: Masked Image Modeling for Mutual Information-based Adversarial Robustness ( http://arxiv.org/abs/2312.04960v3 ) ライセンス: Link先を確認 | Xiaoyun Xu, Shujian Yu, Zhuoran Liu, Stjepan Picek, | (参考訳) 視覚変換器(ViT)は様々なタスクにおいて優れた性能を発揮するが、敵攻撃にも脆弱である。
堅牢なViTの構築は、専用のAdversarial Training (AT)戦略に大きく依存している。
しかし、現在のViTsの対人トレーニングでは、畳み込みニューラルネットワーク(CNN)トレーニングから確立されたトレーニングアプローチのみを採用しており、事前トレーニングは、調整されたデータ拡張の助けを借りて、ATファインチューニングの基礎を提供する。
本稿では、自動エンコーダに基づく自己教師型事前学習において、新しい理論的相互情報(MI)解析を提供することにより、ViTの対角的ロバスト性についてより詳しく検討する。
具体的には、逆例とViTベースのオートエンコーダにおける潜在表現の間のMIは、MI境界を利用することで制約すべきであることを示す。
そこで本研究では,MIペナルティを応用したマスク付きオートエンコーダによる事前学習手法MIMIRを提案する。
大規模な実験により、MIMIRは、より自然でロバストな精度でベンチマークデータセット上で、最先端に訓練されたViTよりも優れていることが示され、ViTsがMIを悪用することで大きなメリットを享受できることが示されている。
さらに, 敵がMIMIR設計を認識していると仮定して, 2つのアダプティブアタックを考慮し, 与えられたロバスト性をさらに検証する。
Vision Transformers (ViTs) achieve excellent performance in various tasks, but they are also vulnerable to adversarial attacks. Building robust ViTs is highly dependent on dedicated Adversarial Training (AT) strategies. However, current ViTs' adversarial training only employs well-established training approaches from convolutional neural network (CNN) training, where pre-training provides the basis for AT fine-tuning with the additional help of tailored data augmentations. In this paper, we take a closer look at the adversarial robustness of ViTs by providing a novel theoretical Mutual Information (MI) analysis in its autoencoder-based self-supervised pre-training. Specifically, we show that MI between the adversarial example and its latent representation in ViT-based autoencoders should be constrained by utilizing the MI bounds. Based on this finding, we propose a masked autoencoder-based pre-training method, MIMIR, that employs an MI penalty to facilitate the adversarial training of ViTs. Extensive experiments show that MIMIR outperforms state-of-the-art adversarially trained ViTs on benchmark datasets with higher natural and robust accuracy, indicating that ViTs can substantially benefit from exploiting MI. In addition, we consider two adaptive attacks by assuming that the adversary is aware of the MIMIR design, which further verifies the provided robustness. | 翻訳日:2024-08-19 20:55:32 公開日:2024-08-16 |
# データアノテータのタスク命令の改善: AI経済におけるデータアノテーションにおける明確なルールとより高い報酬向上
Improving Task Instructions for Data Annotators: How Clear Rules and Higher Pay Increase Performance in Data Annotation in the AI Economy ( http://arxiv.org/abs/2312.14565v2 ) ライセンス: Link先を確認 | Johann Laux, Fabian Stephany, Alice Liefgreen, | (参考訳) AIアプリケーションの世界的急増は、業界を変革させ、既存の雇用の移動と補完を招き、同時に新たな雇用機会ももたらしている。
人間の作業員による画像のラベル付けやテキストの注釈付けを含むデータアノテーションは、データセットの品質に直接影響を与える。
本稿では,データアノテーションの経済性に着目し,タスク・インストラクション・デザイン(すなわち,法と経済学において理論化されたルールと標準の選択)と,データ品質とコストに対する金銭的インセンティブの影響に着目した。
307データアノテータを含む実験では、様々なタスク指示(ノーム)と金銭的インセンティブを持つ6つのグループを調べている。
その結果、明確な規則のアノテータは高い精度を示し、曖昧な基準のアノテータを14%上回る結果となった。
同様に、追加の金銭インセンティブを受けるアノテータは、明確な規則とインセンティブの両方で作業するグループで記録された最高精度(87.5%の精度)により、大幅に向上する。
また,アノテータは標準よりもアノテータの方が有効であり,アノテータによる画像のアノテータの難易度が低下することが示唆された。
これらの経験的発見は、データ品質と労働者の幸福の両方に関するルールベースの指示の二重の利点を裏付けている。
我々の研究デザインは、我々の研究において、ルールが金銭的なインセンティブよりも正確性を高めるためにコスト効率が高いことを明らかにします。
この論文は、AI技術の経済的、倫理的、法的考察に関する議論に実験的知見を貢献する。
政策立案者や実践者に対して、効率的で倫理的なAI開発と利用のためにデータアノテーションプロセスを最適化するためのバランスのとれたアプローチの必要性を強調します。
The global surge in AI applications is transforming industries, leading to displacement and complementation of existing jobs, while also giving rise to new employment opportunities. Data annotation, encompassing the labelling of images or annotating of texts by human workers, crucially influences the quality of a dataset directly influences the quality of AI models trained on it. This paper delves into the economics of data annotation, with a specific focus on the impact of task instruction design (that is, the choice between rules and standards as theorised in law and economics) and monetary incentives on data quality and costs. An experimental study involving 307 data annotators examines six groups with varying task instructions (norms) and monetary incentives. Results reveal that annotators provided with clear rules exhibit higher accuracy rates, outperforming those with vague standards by 14%. Similarly, annotators receiving an additional monetary incentive perform significantly better, with the highest accuracy rate recorded in the group working with both clear rules and incentives (87.5% accuracy). In addition, our results show that rules are perceived as being more helpful by annotators than standards and reduce annotators' difficulty in annotating images. These empirical findings underscore the double benefit of rule-based instructions on both data quality and worker wellbeing. Our research design allows us to reveal that, in our study, rules are more cost-efficient in increasing accuracy than monetary incentives. The paper contributes experimental insights to discussions on the economical, ethical, and legal considerations of AI technologies. Addressing policymakers and practitioners, we emphasise the need for a balanced approach in optimising data annotation processes for efficient and ethical AI development and usage. | 翻訳日:2024-08-19 20:55:32 公開日:2024-08-16 |
# スイッチング機構による拡散モデルの公正サンプリング
Fair Sampling in Diffusion Models through Switching Mechanism ( http://arxiv.org/abs/2401.03140v4 ) ライセンス: Link先を確認 | Yujin Choi, Jinseong Park, Hoki Kim, Jaewook Lee, Saeroom Park, | (参考訳) 拡散モデルは、基礎となる確率分布を適切に近似することにより、生成タスクにおけるそれらの効果を示す。
しかし、拡散モデルは、公正性の観点からトレーニングデータから増幅された固有のバイアスに悩まされていることが知られている。
拡散モデルのサンプリング過程は条件付きガイダンスで制御できるが、従来の研究は定量的公正性を達成するための経験的ガイダンスを見つけようと試みてきた。
この制限に対処するため、拡散モデルのための「textit{attribute switch}」機構と呼ばれる公正なサンプリング手法を提案する。
追加のトレーニングなしでは、提案したサンプリングは、分類器に頼ることなく、生成されたデータ中のセンシティブな属性を難読化することができる。
提案手法の有効性を数学的に証明し,実験的に実証する。
一 公正なデータの生成及び
二 生成されたデータの効用の保存
Diffusion models have shown their effectiveness in generation tasks by well-approximating the underlying probability distribution. However, diffusion models are known to suffer from an amplified inherent bias from the training data in terms of fairness. While the sampling process of diffusion models can be controlled by conditional guidance, previous works have attempted to find empirical guidance to achieve quantitative fairness. To address this limitation, we propose a fairness-aware sampling method called \textit{attribute switching} mechanism for diffusion models. Without additional training, the proposed sampling can obfuscate sensitive attributes in generated data without relying on classifiers. We mathematically prove and experimentally demonstrate the effectiveness of the proposed method on two key aspects: (i) the generation of fair data and (ii) the preservation of the utility of the generated data. | 翻訳日:2024-08-19 20:55:32 公開日:2024-08-16 |
# アモルファス酸化物トンネル接合部の交換バイアスによる焼鈍
Alternating Bias Assisted Annealing of Amorphous Oxide Tunnel Junctions ( http://arxiv.org/abs/2401.07415v4 ) ライセンス: Link先を確認 | David P. Pappas, Mark Field, Cameron Kopas, Joel A. Howard, Xiqiao Wang, Ella Lachman, Lin Zhou, Jinsu Oh, Kameshwar Yadavalli, Eyob A. Sete, Andrew Bestwick, Matthew J. Kramer, Joshua Y. Mutus, | (参考訳) 熱酸化したアモルファスアルミニウム-酸化物トンネル接合の電気的特性を制御的に調整する変換手法を実証する。
従来の試験装置を用いて、加熱されたトンネル障壁に交互にバイアスを加えることで、室温抵抗の70%を超える巨大化を実現することができる。
抵抗変化の速度は強い温度依存性を示し、サブミクロン系では接合サイズに依存しない。
そのトンネル特性をmK温度で測定するために,この交互バイアス補助焼鈍法(ABAA)で処理したトランスモンクビット接合を特徴付ける。
測定された周波数は、シフト抵抗と臨界電流の間のアンベガオカー・バラトフ関係に従う。
さらに, これらの研究は, 未処理試料と比較して, 共振器および非共振器系欠陥の顕著な低減とともに, $\approx 2 \times10^{-6}$の次数による接合分散損失の低減を示す。
高分解能TEMによるイメージングでは、バリアは依然として非晶質であり、未処理の接合に対するアルミニウムの配向がより均一に分布していることが示されている。
この新しいアプローチは、アモルファスな酸化アルミニウムや、現代の電子機器で使われている多くの金属絶縁体-金属構造に依存する幅広いデバイスに広く適用されることが期待されている。
We demonstrate a transformational technique for controllably tuning the electrical properties of fabricated thermally oxidized amorphous aluminum-oxide tunnel junctions. Using conventional test equipment to apply an alternating bias to a heated tunnel barrier, giant increases in the room temperature resistance, greater than 70%, can be achieved. The rate of resistance change is shown to be strongly temperature-dependent, and is independent of junction size in the sub-micron regime. In order to measure their tunneling properties at mK temperatures, we characterized transmon qubit junctions treated with this alternating-bias assisted annealing (ABAA) technique. The measured frequencies follow the Ambegaokar-Baratoff relation between the shifted resistance and critical current. Further, these studies show a reduction of junction-contributed loss on the order of $\approx 2 \times10^{-6}$, along with a significant reduction in resonant- and off-resonant-two level system defects when compared to untreated samples. Imaging with high-resolution TEM shows that the barrier is still predominantly amorphous with a more uniform distribution of aluminum coordination across the barrier relative to untreated junctions. This new approach is expected to be widely applicable to a broad range of devices that rely on amorphous aluminum oxide, as well as the many other metal-insulator-metal structures used in modern electronics. | 翻訳日:2024-08-19 20:55:32 公開日:2024-08-16 |
# AI-as-exploration: インテリジェンス空間をナビゲートする
AI-as-exploration: Navigating intelligence space ( http://arxiv.org/abs/2401.07964v3 ) ライセンス: Link先を確認 | Dimitri Coelho Mollo, | (参考訳) 人工知能は、多くの人生を生きる分野であり、この用語は科学と商業の取り組みのモットーを包含している。
本稿では,AIが果たさなければならない,無視されるが中心的な科学的な役割の輪郭について述べる。
AI-as-explorationの基本的な推進力は、私たちがよく知っている人間や動物の知性とは異なる可能性のある知性のブロックを構築できるシステムを作成し、研究することである。
言い換えれば、AIは、インテリジェンス空間、すなわち可能なインテリジェントシステムの空間を探索する上で、私たちが持っている最高のツールの1つであることを提案します。
特定のケーススタディ、すなわち、人間と大規模言語モデルにおける新しい概念と発明された概念を組み合わせる能力に関する最近の研究に焦点を当てて、AI-as-explorationの価値を説明します。
後者は、そのようなタスクにおいて人間のレベルでの正確さを示しているにもかかわらず、おそらくは人間にとっての仮説とは根本的に異なる方法で解決するが、インテリジェンス研究とは無関係である。
Artificial Intelligence is a field that lives many lives, and the term has come to encompass a motley collection of scientific and commercial endeavours. In this paper, I articulate the contours of a rather neglected but central scientific role that AI has to play, which I dub `AI-as-exploration'.The basic thrust of AI-as-exploration is that of creating and studying systems that can reveal candidate building blocks of intelligence that may differ from the forms of human and animal intelligence we are familiar with. In other words, I suggest that AI is one of the best tools we have for exploring intelligence space, namely the space of possible intelligent systems. I illustrate the value of AI-as-exploration by focusing on a specific case study, i.e., recent work on the capacity to combine novel and invented concepts in humans and Large Language Models. I show that the latter, despite showing human-level accuracy in such a task, probably solve it in ways radically different, but no less relevant to intelligence research, to those hypothesised for humans. | 翻訳日:2024-08-19 20:45:34 公開日:2024-08-16 |
# 隠れたトリガーを検出する:非マルコフ逆関数をマルコフにマッピングする
Detecting Hidden Triggers: Mapping Non-Markov Reward Functions to Markov ( http://arxiv.org/abs/2401.11325v3 ) ライセンス: Link先を確認 | Gregory Hyde, Eugene Santos Jr, | (参考訳) 多くの強化学習アルゴリズムは最適性を保証するためにマルコフ報酬関数を仮定する。
しかし、すべての報酬関数がマルコフであるわけではない。
本稿では,非マルコフ報酬関数を等価なマルコフ報酬関数にマッピングするフレームワークを提案する。
Reward Machinesを学習する一般的な実践とは異なり、学習する高レベルな命題記号のセットは必要ありません。
むしろ、データから直接隠れたトリガーを学び、それらを構築します。
我々は、報酬依存をモデル化する能力から、決定論的有限状態オートマタよりも、リワードマシンを学習することの重要性を実証する。
私たちはこの区別を学習目的として定式化する。
我々のマッピングプロセスは整数線形計画問題として構築されている。
我々は、写像が報酬期待を最大化するための適切なプロキシとなることを証明した。
私たちは、Officeworldドメインでブラックボックス、非マルコフ報酬関数を学習することで、我々のアプローチを実証的に検証する。
さらに、新しいドメインであるBreakfastworldにおける報酬依存性の学習の有効性を示す。
Many Reinforcement Learning algorithms assume a Markov reward function to guarantee optimality. However, not all reward functions are Markov. This paper proposes a framework for mapping non-Markov reward functions into equivalent Markov ones by learning specialized reward automata, Reward Machines. Unlike the general practice of learning Reward Machines, we do not require a set of high-level propositional symbols from which to learn. Rather, we learn hidden triggers, directly from data, that construct them. We demonstrate the importance of learning Reward Machines over their Deterministic Finite-State Automata counterparts given their ability to model reward dependencies. We formalize this distinction in our learning objective. Our mapping process is constructed as an Integer Linear Programming problem. We prove that our mappings form a suitable proxy for maximizing reward expectations. We empirically validate our approach by learning black-box, non-Markov reward functions in the Officeworld domain. Additionally, we demonstrate the effectiveness of learning reward dependencies in a new domain, Breakfastworld. | 翻訳日:2024-08-19 20:45:34 公開日:2024-08-16 |
# 複素ネットワークにおける量子空間探索の普遍的スケーリング仮説
Universal scaling hypothesis of quantum spatial search in complex networks ( http://arxiv.org/abs/2401.11922v2 ) ライセンス: Link先を確認 | Rei Sato, Tetsuro Nikuni, Kayoko Nohara, Giorgio Salani, Shohei Watabe, | (参考訳) 複素ネットワーク上の量子空間探索は強いネットワーク依存を持つため、この複素ネットワークに対する量子アルゴリズムに普遍的な視点が存在するかどうかが問題となる。
ここでは、小世界や無スケールネットワークのような複雑なネットワーク上での量子空間探索の普遍的なスケーリング法則を明らかにする。
ネットワーク科学の重要量である平均経路長は、この普遍的特徴を明らかにするのに有用であり、最適時間、最大発見確率、最適ホッピングパラメータで崩壊プロットを生成することができる。
また、経路積分法に基づいて、連続時間量子ウォークにおける確率振幅が経路長分布によって決定可能であることも明らかにした。
この結果は、量子物理学と複素ネットワークの新たな関係を示すものである。
Since quantum spatial searches on complex networks have a strong network dependence, the question arises whether the universal perspective exists in this quantum algorithm for complex networks. Here, we uncover the universal scaling laws of the quantum spatial search on complex networks such as small-world and scale-free networks. The average path length, a key quantity in the complex network science, is useful to expose this universal feature, where the collapse plot can be generated for the optimal time, the maximal finding probability and the optimal hopping parameter. Based on the path integral method, we also clarify that the probability amplitude in the continuous-time quantum walk can be determined by the path length distribution. Our results demonstrate a new link between the quantum physics and the complex networks. | 翻訳日:2024-08-19 20:45:34 公開日:2024-08-16 |
# 離散分布のためのスペクトルクラスタリング
Spectral Clustering for Discrete Distributions ( http://arxiv.org/abs/2401.13913v2 ) ライセンス: Link先を確認 | Zixiao Wang, Dong Qiao, Jicong Fan, | (参考訳) 離散分布はしばしば、画像、シーケンス、ドキュメントなどの機械学習の複雑なインスタンスを記述するために使われる。
伝統的に、離散分布(D2C)のクラスタリングは、Wasserstein Barycenter法を用いてアプローチされてきた。
これらの手法は、クラスタがバリセンタによって十分に表現できるという仮定の下で動作し、多くの実世界のアプリケーションではそうではない。
さらに、これらの手法は、Wasserstein Barycentersを計算する計算コストが高いため、大規模なデータセットには拡張性がない。
本研究では,スペクトルクラスタリングと分布親和性尺度(例えば,最大平均差とワッサーシュタイン距離)を併用した離散分布のクラスタリングの実現可能性について検討する。
これらの手法は, バリセンタ法よりも正確かつ効率的であることが実証された。
スケーラビリティをさらに向上するため,大規模データセットに対する親和性行列を効率的に構築するための線形最適輸送法を提案する。
クラスタリング分布における手法の成功を理論的に保証する。
合成データと実データの両方の実験により,本手法が既存のベースラインより優れていることが示された。
The discrete distribution is often used to describe complex instances in machine learning, such as images, sequences, and documents. Traditionally, clustering of discrete distributions (D2C) has been approached using Wasserstein barycenter methods. These methods operate under the assumption that clusters can be well-represented by barycenters, which is seldom true in many real-world applications. Additionally, these methods are not scalable for large datasets due to the high computational cost of calculating Wasserstein barycenters. In this work, we explore the feasibility of using spectral clustering combined with distribution affinity measures (e.g., maximum mean discrepancy and Wasserstein distance) to cluster discrete distributions. We demonstrate that these methods can be more accurate and efficient than barycenter methods. To further enhance scalability, we propose using linear optimal transport to construct affinity matrices efficiently for large datasets. We provide theoretical guarantees for the success of our methods in clustering distributions. Experiments on both synthetic and real data show that our methods outperform existing baselines. | 翻訳日:2024-08-19 20:45:34 公開日:2024-08-16 |
# 変圧器と皮質波:時間とともにコンテキストをプルするエンコーダ
Transformers and Cortical Waves: Encoders for Pulling In Context Across Time ( http://arxiv.org/abs/2401.14267v3 ) ライセンス: Link先を確認 | Lyle Muller, Patricia S. Churchland, Terrence J. Sejnowski, | (参考訳) ChatGPTやLLM(Large Language Models)のようなトランスフォーマーネットワークの能力は、世界中の注目を集めている。
それらの性能の根底にある重要な計算メカニズムは、完全な入力シーケンス(例えば文中の全ての単語)を長い「符号化ベクトル」に変換することに依存しており、変換器は自然数列で長距離の時間的依存関係を学習することができる。
具体的には、この符号化ベクトルに適用された「自己注意」は、入力シーケンス中の単語のペア間の関連性を計算することにより、トランスフォーマにおける時間的文脈を強化する。
単一大脳皮質領域や複数の領域を横断する神経活動の波は、同様の符号化原理を実装できる可能性が示唆された。
最近の入力履歴を各瞬間に単一の空間パターンにカプセル化することにより、皮質波は、変換器で使用されるのと同じ計算原理である感覚入力のシーケンスから時間的コンテキストを抽出することができる。
The capabilities of transformer networks such as ChatGPT and other Large Language Models (LLMs) have captured the world's attention. The crucial computational mechanism underlying their performance relies on transforming a complete input sequence - for example, all the words in a sentence - into a long "encoding vector" that allows transformers to learn long-range temporal dependencies in naturalistic sequences. Specifically, "self-attention" applied to this encoding vector enhances temporal context in transformers by computing associations between pairs of words in the input sequence. We suggest that waves of neural activity traveling across single cortical areas or multiple regions at the whole-brain scale could implement a similar encoding principle. By encapsulating recent input history into a single spatial pattern at each moment in time, cortical waves may enable temporal context to be extracted from sequences of sensory inputs, the same computational principle used in transformers. | 翻訳日:2024-08-19 20:45:34 公開日:2024-08-16 |
# 基礎モデルの高精度事前学習のための医療データ効果学習ベンチマーク
A Medical Data-Effective Learning Benchmark for Highly Efficient Pre-training of Foundation Models ( http://arxiv.org/abs/2401.17542v3 ) ライセンス: Link先を確認 | Wenxuan Yang, Weimin Tan, Yuqi Sun, Bo Yan, | (参考訳) 大規模なデータセットで事前訓練されたファンデーションモデルは、前例のない一般化性を達成した。
しかし、そのような膨大なデータを事前学習し、膨大な計算資源を消費することは本当に必要か?
本稿では,基礎モデルの事前学習において,最も影響の大きい方法でデータを活用することを目的とした,データ効率のよい学習手法を提案する。
これには量ではなくデータ品質に重点を置く戦略が含まれており、トレーニングに使用するデータに高い情報的価値が保証される。
データ有効学習は基礎モデルトレーニングの加速、計算コストの削減、データストレージの保存において重要な役割を担っている。
しかし、基準や総合的なベンチマークが欠如しているため、医学データ有効学習の研究は不十分である。
このギャップに対処するため,医療分野でのデータ有効学習を評価するための総合的なベンチマークを提案する。
このベンチマークには、31の医療センター(DataDEL)からの数百万のデータサンプル、比較のためのベースライン手法(MedDEL)、データ有効学習性能を客観的に測定する新たな評価指標(NormDEL)を含む。
我々の大規模な実験結果から、MedDELのベースラインは、データの5%しか持たないオリジナルの大規模データセットに匹敵する性能を達成できることが示された。
このようなオープンなデータ効率の学習ベンチマークを確立することは、医療ファンデーションモデル研究コミュニティにとって不可欠である。
Foundation models, pre-trained on massive datasets, have achieved unprecedented generalizability. However, is it truly necessary to involve such vast amounts of data in pre-training, consuming extensive computational resources? This paper introduces data-effective learning, aiming to use data in the most impactful way to pre-train foundation models. This involves strategies that focus on data quality rather than quantity, ensuring the data used for training has high informational value. Data-effective learning plays a profound role in accelerating foundation model training, reducing computational costs, and saving data storage, which is very important as the volume of medical data in recent years has grown beyond many people's expectations. However, due to the lack of standards and comprehensive benchmarks, research on medical data-effective learning is poorly studied. To address this gap, our paper introduces a comprehensive benchmark specifically for evaluating data-effective learning in the medical field. This benchmark includes a dataset with millions of data samples from 31 medical centers (DataDEL), a baseline method for comparison (MedDEL), and a new evaluation metric (NormDEL) to objectively measure data-effective learning performance. Our extensive experimental results show the baseline MedDEL can achieve performance comparable to the original large dataset with only 5% of the data. Establishing such an open data-effective learning benchmark is crucial for the medical foundation model research community because it facilitates efficient data use, promotes collaborative breakthroughs, and fosters the development of cost-effective, scalable, and impactful healthcare solutions. | 翻訳日:2024-08-19 20:45:34 公開日:2024-08-16 |
# ExtremeCast:グローバル気象予報における極値予測の強化
ExtremeCast: Boosting Extreme Value Prediction for Global Weather Forecast ( http://arxiv.org/abs/2402.01295v4 ) ライセンス: Link先を確認 | Wanghan Xu, Kang Chen, Tao Han, Hao Chen, Wanli Ouyang, Lei Bai, | (参考訳) 機械学習(ML)に基づくデータ駆動天気予報は、従来の物理に基づく力学モデルと比較して、急速に発展し、世界中距離予測において優れた性能を示した。
しかし、これらのMLモデルのほとんどは、トレーニング損失と気象システムの不確実性に関連する極端な気象の正確な予測に苦慮している。
数学的解析により、平均二乗誤差 (MSE) のような対称損失を用いることで、偏りのある予測や極端な値の過小評価につながることが証明される。
この問題に対処するために,非対称な最適化を行う新しい損失関数Exlossを導入する。
トレーニング損失の進展に加えて,複数のランダムサンプルを用いて予測結果の不確かさを捉え,低確率の極端事象のヒット率を増大させる,ExBoosterというトレーニングフリーの極端値拡張モジュールを導入する。
先進的なグローバル気象予報モデルと組み合わせることで、我々のソリューションは極端気象予報において最先端の性能を達成でき、同時に、上位中距離予報モデルに匹敵する全体的な予測精度を維持できることを示す。
Data-driven weather forecast based on machine learning (ML) has experienced rapid development and demonstrated superior performance in the global medium-range forecast compared to traditional physics-based dynamical models. However, most of these ML models struggle with accurately predicting extreme weather, which is related to training loss and the uncertainty of weather systems. Through mathematical analysis, we prove that the use of symmetric losses, such as the Mean Squared Error (MSE), leads to biased predictions and underestimation of extreme values. To address this issue, we introduce Exloss, a novel loss function that performs asymmetric optimization and highlights extreme values to obtain accurate extreme weather forecast. Beyond the evolution in training loss, we introduce a training-free extreme value enhancement module named ExBooster, which captures the uncertainty in prediction outcomes by employing multiple random samples, thereby increasing the hit rate of low-probability extreme events. Combined with an advanced global weather forecast model, extensive experiments show that our solution can achieve state-of-the-art performance in extreme weather prediction, while maintaining the overall forecast accuracy comparable to the top medium-range forecast models. | 翻訳日:2024-08-19 20:45:34 公開日:2024-08-16 |
# インコンテキスト学習のメカニズムに対するデータ生成の視点
A Data Generation Perspective to the Mechanism of In-Context Learning ( http://arxiv.org/abs/2402.02212v2 ) ライセンス: Link先を確認 | Haitao Mao, Guangliang Liu, Yao Ma, Rongrong Wang, Kristen Johnson, Jiliang Tang, | (参考訳) In-Context Learning (ICL)は、大規模言語モデル(LLM)に、文脈で学習する能力を与える。
実証的な成功を奨励しているにもかかわらず、ICLの根底にあるメカニズムはいまだ不明であり、既存の研究は様々な理解の視点を提供している。
これらの研究は,不明瞭な道路地図を具現化した直観駆動型・アドホックなICLの解釈手法を提案する。
本稿では、データ生成の観点から最近の取り組みを再解釈し、体系的な角度に近づき、一般的な技術ソリューションの幅広い利用の可能性を示す。
概念的定義として、私たちは、スキル学習とスキル認識という用語を厳格に採用しています。
両者の違いは、スキル学習がコンテキスト内データから新しいデータ生成関数を学習できることだ。
また、さまざまなソリューションのメリットと弱点を総合的に研究し、データ生成の観点からそれらの均一性を強調し、異なる研究ラインの強みを組み込むための将来の研究のための技術基盤を確立する。
In-Context Learning (ICL) empowers Large Language Models (LLMs) with the capacity to learn in context, achieving downstream generalization without gradient updates but with a few in-context examples. Despite the encouraging empirical success, the underlying mechanism of ICL remains unclear, and existing research offers various viewpoints of understanding. These studies propose intuition-driven and ad-hoc technical solutions for interpreting ICL, illustrating an ambiguous road map. In this paper, we leverage a data generation perspective to reinterpret recent efforts and demonstrate the potential broader usage of popular technical solutions, approaching a systematic angle. For a conceptual definition, we rigorously adopt the terms of skill learning and skill recognition. The difference between them is skill learning can learn new data generation functions from in-context data. We also provide a comprehensive study on the merits and weaknesses of different solutions, and highlight the uniformity among them given the perspective of data generation, establishing a technical foundation for future research to incorporate the strengths of different lines of research. | 翻訳日:2024-08-19 20:45:34 公開日:2024-08-16 |
# 200mK以上の20GHz帯の超電導量子ビット
Superconducting Qubits Above 20 GHz Operating over 200 mK ( http://arxiv.org/abs/2402.03031v2 ) ライセンス: Link先を確認 | Alexander Anferov, Shannon P. Harvey, Fanghui Wan, Jonathan Simon, David I. Schuster, | (参考訳) 最先端の超伝導マイクロ波量子ビットは、デコヒーレンスの発生源を避けるために極低温に冷却される。
これは、量子コンピューティングアーキテクチャにおけるキュービットの数をスケールアップし、熱散逸の増大を必要とする実験でキュービットを統合するのが望ましい。
高温で超伝導量子ビットを動作させるためには、準粒子のデコヒーレンス(160mK以上のアルミニウム接合では重要になる)と熱マイクロ波光子(50mK以上の問題)の両方に対処する必要がある。
ニオブの超伝導転移温度が高いため, 準粒子に対する感度が低下する低損失なニオブ三層接合を用いて, 従来研究したよりも高周波数のトランスモンを24GHzまで製造する。
約1 us のデコヒーレンスとデフォーカス時間を測定し,約10^5$ の平均クビット品質因子に比して約10^5$ のデコヒーレンスは準粒子の影響を受けないことがわかった。
これらの量子ビットの熱レジリエンスは、量子プロセッサをスケールアップするための新しい選択肢を生み出し、高い熱散逸予算を持つハイブリッド量子実験を可能にし、さらに高周波量子ビットのための材料プラットフォームを導入する。
Current state-of-the-art superconducting microwave qubits are cooled to extremely low temperatures to avoid sources of decoherence. Higher qubit operating temperatures would significantly increase the cooling power available, which is desirable for scaling up the number of qubits in quantum computing architectures and integrating qubits in experiments requiring increased heat dissipation. To operate superconducting qubits at higher temperatures, it is necessary to address both quasiparticle decoherence (which becomes significant for aluminum junctions above 160 mK) and dephasing from thermal microwave photons (which are problematic above 50 mK). Using low-loss niobium trilayer junctions, which have reduced sensitivity to quasiparticles due to niobium's higher superconducting transition temperature, we fabricate transmons with higher frequencies than previously studied, up to 24 GHz. We measure decoherence and dephasing times of about 1 us, corresponding to average qubit quality factors of approximately $10^5$, and find that decoherence is unaffected by quasiparticles up to 1 K. Without relaxation from quasiparticles, we are able to explore dephasing from purely thermal sources, finding that our qubits can operate up to approximately 250 mK while maintaining similar performance. The thermal resilience of these qubits creates new options for scaling up quantum processors, enables hybrid quantum experiments with high heat dissipation budgets, and introduces a material platform for even higher-frequency qubits. | 翻訳日:2024-08-19 20:45:34 公開日:2024-08-16 |
# 拡張Bose-Hubbardモデルのための測定可能な絡み合い基準
Measurable entanglement criterion for extended Bose-Hubbard model ( http://arxiv.org/abs/2402.05477v2 ) ライセンス: Link先を確認 | Mehmet Emre Tasgin, Hyunchul Nha, | (参考訳) 光格子中の低温原子は、制御可能な方法で多体物理学の研究を可能にするため、基本的な重要性を持つ量子系を表す。
したがって、このようなシステムにおける量子相関を探索し、多体相互作用の理解を深めるための理論的および実験的ツールを開発することが不可欠である。
以前の研究では、egエンタングルメントエントロピーによる量子エンタングルメントの深い側面が特定されているが、広義のコンテキストにおいて多体量子エンタングルメントを研究するための実験的にアクセス可能なツールを持つことが、非常に要求されている。
本稿では,格子間の集合的絡み合いを特徴付ける絡み合い基準を提案する。
我々の基準は、モット絶縁体やモット絶縁体のような相転移を計測可能な方法で観測し、ラマン散乱や飛行時間拡張法を用いて実験的に検証することができる。
Cold atoms in optical lattice represent a quantum system of fundamental importance as they enable the study of many-body physics in a controllable way. It is thus essential to develop theoretical and experimental tools to explore quantum correlation in such systems to advance our understanding of many-body interactions. While previous works have identified some profound aspects of quantum entanglement via e.g. entanglement entropy, there exists a critical demand to have an experimentally accessible tool to investigate many-body quantum entanglement in a broad context. We present an entanglement criterion characterizing collective entanglement among lattice sites and enabling experimental observation readily. Our criterion witnesses phase transitions such as Mott insulator--superfluid and Mott insulator--charge density wave transitions in a measurable way and can be experimentally tested via Raman scattering or time-of-flight expansion approach thus within the reach of current technology. | 翻訳日:2024-08-19 20:45:34 公開日:2024-08-16 |
# 仮想チャネルの浄化
Virtual Channel Purification ( http://arxiv.org/abs/2402.07866v2 ) ライセンス: Link先を確認 | Zhenhuan Liu, Xingjian Zhang, Yue-Yang Fei, Zhenyu Cai, | (参考訳) 量子エラー軽減は、最先端ノイズマシンと早期耐故障装置のターゲット状態特性を抽出する鍵となるアプローチである。
フラグフォールトトレランスと仮想状態浄化のアイデアを用いて,類似のキュービットやゲートリソースを仮想状態浄化として利用する仮想チャネル浄化(VCP)プロトコルを開発した。
さらに、VCPは仮想状態浄化に必要なほとんどの仮定を除去する。
本質的に、VCPはノイズモデル、ターゲット量子状態、ターゲット問題に関する具体的な知識を必要としない最初の量子エラー軽減プロトコルであり、実用的なノイズレシエーションに対して厳密な性能保証を提供する。
さらに、VCPと量子誤り訂正の間で接続を行い、量子エラー補正(QEC)と結合を超えた量子エラー軽減を組み合わせた最初のプロトコルである仮想エラー訂正(VEC)プロトコルを生成する。
VECは、低次浄化と同じサンプリングコストのみを支払って、チャンネル内のすべての修正可能なノイズを実質的に除去することができる。
ノイズチャネルを介して送信する際、未符号化レジスタ上でQECレベルの保護を達成でき、関連する符号化キュービットオーバーヘッドを除去できる。
VECの別の変種は、ビットフリップと位相フリップのみを入力することで、表面符号の誤差抑制力を模倣することができる。
我々のプロトコルは、チャネルキャパシティアクティベーションや絡み合い分布といった量子ネットワークのキータスクにも適用できる。
Quantum error mitigation is a key approach for extracting target state properties on state-of-the-art noisy machines and early fault-tolerant devices. Using the ideas from flag fault tolerance and virtual state purification, we develop the virtual channel purification (VCP) protocol, which consumes similar qubit and gate resources as virtual state purification but offers stronger error suppression with increased system size and more noisy operation copies. Furthermore, VCP removes most of the assumptions required in virtual state purification. Essentially, VCP is the first quantum error mitigation protocol that does not require specific knowledge about the noise models, the target quantum state, and the target problem while still offering rigorous performance guarantees for practical noise regimes. Further connections are made between VCP and quantum error correction to produce the virtual error correction (VEC) protocol, one of the first protocols that combine quantum error correction (QEC) and quantum error mitigation beyond concatenation. VEC can virtually remove all correctable noise in the channel while paying only the same sampling cost as low-order purification. It can achieve QEC-level protection on an unencoded register when transmitting it through a noisy channel, removing the associated encoding qubit overhead. Another variant of VEC can mimic the error suppression power of the surface code by inputting only a bit-flip and a phase-flip code. Our protocol can also be adapted to key tasks in quantum networks like channel capacity activation and entanglement distribution. | 翻訳日:2024-08-19 20:45:34 公開日:2024-08-16 |
# Open-Domain Text-to-SQLのためのマルチホップテーブル検索
Multi-Hop Table Retrieval for Open-Domain Text-to-SQL ( http://arxiv.org/abs/2402.10666v3 ) ライセンス: Link先を確認 | Xuanliang Zhang, Dingzirui Wang, Longxu Dou, Qingfu Zhu, Wanxiang Che, | (参考訳) オープンドメインのテキスト・トゥ・SQLは、巨大なデータベースから質問関連テーブルを検索し、SQLを生成する重要なタスクである。
しかし、単一のホップで検索する既存の検索方法は、テーブルエンティティと問題内のエンティティを整列させるスキーマリンクのテキストからSQLへの挑戦には注意を払わない。
そこで本研究では,リライトとビームサーチによるマルチホップテーブル検索(Murre)を提案する。
類似の非関連エンティティの効果を低減するため,本手法ではホップ毎の未検索エンティティに着目し,ビームサーチによる低ランクテーブルの検討を行う。
ドメインミスマッチエンティティの制限を軽減するため、Murre氏は複数のホップで取得したテーブルに基づいて質問を書き直し、関連するテーブルとのドメインギャップを減らした。
我々はSpiderUnionとBirdUnion+の実験を行い、6.38%の平均的な改善で新しい最先端の結果を得た。
Open-domain text-to-SQL is an important task that retrieves question-relevant tables from massive databases and then generates SQL. However, existing retrieval methods that retrieve in a single hop do not pay attention to the text-to-SQL challenge of schema linking, which is aligning the entities in the question with table entities, reflected in two aspects: similar irrelevant entity and domain mismatch entity. Therefore, we propose our method, the multi-hop table retrieval with rewrite and beam search (Murre). To reduce the effect of the similar irrelevant entity, our method focuses on unretrieved entities at each hop and considers the low-ranked tables by beam search. To alleviate the limitation of domain mismatch entity, Murre rewrites the question based on retrieved tables in multiple hops, decreasing the domain gap with relevant tables. We conduct experiments on SpiderUnion and BirdUnion+, reaching new state-of-the-art results with an average improvement of 6.38%. | 翻訳日:2024-08-19 20:45:34 公開日:2024-08-16 |
# ToolSword:3段階にわたるツール学習における大規模言語モデルの安全性問題
ToolSword: Unveiling Safety Issues of Large Language Models in Tool Learning Across Three Stages ( http://arxiv.org/abs/2402.10753v2 ) ライセンス: Link先を確認 | Junjie Ye, Sixian Li, Guanyu Li, Caishuang Huang, Songyang Gao, Yilong Wu, Qi Zhang, Tao Gui, Xuanjing Huang, | (参考訳) ツール学習は,現実のシナリオにおいて,基本的なアプローチあるいは大規模言語モデル(LLM)のデプロイとして広く認識されている。
現在の研究は、主にLDMの強化にツールを活用することを強調するが、アプリケーションに結びついている新たな安全性の考慮は無視されることが多い。
このギャップを埋めるために、ツール学習におけるLLMに関連する安全性問題を慎重に調査する包括的フレームワーク*ToolSword*を紹介します。
具体的には、ツール学習におけるLLMの安全性シナリオとして、入力ステージにおける**malicious query*と**jailbreak attack*と、実行ステージにおける**noisy misdirection*と**risky cues*と、出力ステージにおける**harmful feedback*と**error conflicts*の6つを挙げている。
11のオープンソースおよびクローズドソース LLM で実施された実験では、有害なクエリの処理、リスクの高いツールの使用、GPT-4 さえも影響を受けやすい有害なフィードバックの提供など、ツール学習における永続的な安全性上の課題が明らかにされている。
さらに,ツール学習の安全性に関する研究を促進することを目的として,さらなる研究を行っている。
データはhttps://github.com/Junjie-Ye/ToolSwordで公開されている。
Tool learning is widely acknowledged as a foundational approach or deploying large language models (LLMs) in real-world scenarios. While current research primarily emphasizes leveraging tools to augment LLMs, it frequently neglects emerging safety considerations tied to their application. To fill this gap, we present *ToolSword*, a comprehensive framework dedicated to meticulously investigating safety issues linked to LLMs in tool learning. Specifically, ToolSword delineates six safety scenarios for LLMs in tool learning, encompassing **malicious queries** and **jailbreak attacks** in the input stage, **noisy misdirection** and **risky cues** in the execution stage, and **harmful feedback** and **error conflicts** in the output stage. Experiments conducted on 11 open-source and closed-source LLMs reveal enduring safety challenges in tool learning, such as handling harmful queries, employing risky tools, and delivering detrimental feedback, which even GPT-4 is susceptible to. Moreover, we conduct further studies with the aim of fostering research on tool learning safety. The data is released in https://github.com/Junjie-Ye/ToolSword. | 翻訳日:2024-08-19 20:45:34 公開日:2024-08-16 |
# 多体物理学のためのニューラルネットワーク量子状態
Neural-network quantum states for many-body physics ( http://arxiv.org/abs/2402.11014v2 ) ライセンス: Link先を確認 | Matija Medvidović, Javier Robledo Moreno, | (参考訳) 変分量子計算は近年、機械学習コミュニティから多くのツールやアルゴリズムを借りている。
優れた表現力と効率的な勾配に基づく最適化を利用して、深層学習問題に触発された試行状態は、スピン、フェルミオン、量子ビット系の多体相関現象を正確にモデル化できることを示した。
本稿では, 基底状態探索, 時間発展, 重複最適化など, 異なるフレーバーの変動型モンテカルロ(VMC)アプローチの中心方程式を導出し, 量子状態トモグラフィーのようなデータ駆動型タスクについて議論する。
変動多様体の幾何学と実践的な実装におけるボトルネックに重点を置いている。
第一原理基底状態と実時間計算の最近の結果の概要について述べる。
Variational quantum calculations have borrowed many tools and algorithms from the machine learning community in the recent years. Leveraging great expressive power and efficient gradient-based optimization, researchers have shown that trial states inspired by deep learning problems can accurately model many-body correlated phenomena in spin, fermionic and qubit systems. In this review, we derive the central equations of different flavors variational Monte Carlo (VMC) approaches, including ground state search, time evolution and overlap optimization, and discuss data-driven tasks like quantum state tomography. An emphasis is put on the geometry of the variational manifold as well as bottlenecks in practical implementations. An overview of recent results of first-principles ground-state and real-time calculations is provided. | 翻訳日:2024-08-19 20:34:59 公開日:2024-08-16 |
# Al-InAs超伝導体-半導体ジョセフソン接合によるカー非線形性とパラメトリック増幅
Kerr nonlinearity and parametric amplification with an Al-InAs superconductor-semiconductor Josephson junction ( http://arxiv.org/abs/2402.11085v3 ) ライセンス: Link先を確認 | Z. Hao, T. Shaw, M. Hatefipour, W. M. Strickland, B. H. Elfeky, D. Langone, J. Shabani, S. Shankar, | (参考訳) 量子制限ジョセフソンパラメトリック増幅器(JPAs)は超伝導量子回路において必須の成分である。
しかし、ジョセフソンコサインポテンシャルの高次非線形性はゲイン圧縮を引き起こすことが知られており、したがってスケーラビリティが制限される。
4次、またはカー非線形性を減らすために、Al-InAs超伝導体-半導体ハイブリッドジョセフソン接合(JJ)を用いたパラメトリック増幅器を実現する。
2つの異なるデバイスからAl-InAs JJのKerr非線形性を抽出し、同じジョセフソンインダクタンスを持つAl-$\text{AlO}_\text{X}$接合よりも3桁低いことを示す。
次に、20dB以上のゲインと119dBm以上の圧縮パワーを実現するAl-InAs接合を用いた4波混合パラメトリック増幅器(4WM)を実演する。
Nearly quantum limited Josephson parametric amplifiers (JPAs) are essential components in superconducting quantum circuits. However, higher order nonlinearities of the Josephson cosine potential are known to cause gain compression, therefore limiting scalability. In an effort to reduce the fourth order, or Kerr nonlinearity, we realize a parametric amplifier with an Al-InAs superconductor-semiconductor hybrid Josephson junction (JJ). We extract the Kerr nonlinearity of the Al-InAs JJ from two different devices and show that it is three orders of magnitude lower compared to an Al-$\text{AlO}_\text{X}$ junction with identical Josephson inductance. We then demonstrate a four-wave-mixing (4WM) parametric amplifier made with an Al-InAs junction that achieves more than 20 dB of gain and -119 dBm of compression power, that outperforms single resonant JPAs based on Al junctions. | 翻訳日:2024-08-19 20:34:59 公開日:2024-08-16 |
# 因果干渉によるグラフアウトオブディストリビューション一般化
Graph Out-of-Distribution Generalization via Causal Intervention ( http://arxiv.org/abs/2402.11494v2 ) ライセンス: Link先を確認 | Qitian Wu, Fan Nie, Chenxiao Yang, Tianyi Bao, Junchi Yan, | (参考訳) グラフニューラルネットワーク(GNN)は、分散シフトに伴うパフォーマンス劣化を示すことが多いため、アウト・オブ・ディストリビューション(OOD)の一般化は、グラフの学習に注目が集まっている。
課題は、グラフ上の分散シフトがノード間の複雑な相互接続を伴い、環境ラベルがデータに欠落することである。
本稿では、ボトムアップデータ生成の視点を採用し、因果解析による重要な観察を明らかにする。
後者は、エゴグラフの特徴とターゲットノードのラベルの間の環境に敏感な相関を利用して、新しい未知のノードに好ましくない一般化をもたらすようにモデルを誤解している。
この分析に基づいて,環境ラベルの事前知識を必要とせず,ノードレベルの分散シフトの下で堅牢なGNNをトレーニングするための,概念的に単純だが原則化されたアプローチを導入する。
本手法は,環境推定器と熟練GNN予測器を協調する因果推論に基づく新たな学習目標を提案する。
この新しいアプローチは、トレーニングデータにおける矛盾するバイアスに対処し、一般化可能な予測関係の学習を容易にする。
総合的な実験により,我々のモデルは分散シフトの多種多様さによる一般化を効果的に向上し,グラフOOD一般化ベンチマーク上での最先端技術よりも最大27.4\%の精度向上が得られることが示された。
ソースコードはhttps://github.com/fannie1208/CaNet.comで入手できる。
Out-of-distribution (OOD) generalization has gained increasing attentions for learning on graphs, as graph neural networks (GNNs) often exhibit performance degradation with distribution shifts. The challenge is that distribution shifts on graphs involve intricate interconnections between nodes, and the environment labels are often absent in data. In this paper, we adopt a bottom-up data-generative perspective and reveal a key observation through causal analysis: the crux of GNNs' failure in OOD generalization lies in the latent confounding bias from the environment. The latter misguides the model to leverage environment-sensitive correlations between ego-graph features and target nodes' labels, resulting in undesirable generalization on new unseen nodes. Built upon this analysis, we introduce a conceptually simple yet principled approach for training robust GNNs under node-level distribution shifts, without prior knowledge of environment labels. Our method resorts to a new learning objective derived from causal inference that coordinates an environment estimator and a mixture-of-expert GNN predictor. The new approach can counteract the confounding bias in training data and facilitate learning generalizable predictive relations. Extensive experiment demonstrates that our model can effectively enhance generalization with various types of distribution shifts and yield up to 27.4\% accuracy improvement over state-of-the-arts on graph OOD generalization benchmarks. Source codes are available at https://github.com/fannie1208/CaNet. | 翻訳日:2024-08-19 20:34:59 公開日:2024-08-16 |
# カードによる品質関数のオーバーライトプロトコルとその応用
Card-Based Overwriting Protocol for Equality Function and Applications ( http://arxiv.org/abs/2402.16290v2 ) ライセンス: Link先を確認 | Suthee Ruangwises, Tomoki Ono, Yoshiki Abe, Kyosuke Hatsugai, Mitsugu Iwamoto, | (参考訳) 1989年、デン・ボーアは5枚のカードを使って論理と関数を計算するプロトコルを提案した。
それ以来、この地域は多くの研究者から関心を集め、様々な機能を計算するためのカードベースのプロトコルが開発されている。
本稿では,$k$-candidate $n$-variable equality function $f: \{0,1,\ldots ,k-1\}^n \rightarrow \{0,1\}$を安全に計算できるオーバーライトプロトコルを提案する。
また、このプロトコルで使用される手法を他の類似関数の計算に適用する。
Research in the area of secure multi-party computation with an unconventional method of using a physical deck of playing cards began in 1989 when den Boer proposed a protocol to compute the logical AND function using five cards. Since then, the area has gained interest from many researchers and several card-based protocols to compute various functions have been developed. In this paper, we propose a card-based protocol called the overwriting protocol that can securely compute the $k$-candidate $n$-variable equality function $f: \{0,1,\ldots ,k-1\}^n \rightarrow \{0,1\}$. We also apply the technique used in this protocol to compute other similar functions. | 翻訳日:2024-08-19 20:34:59 公開日:2024-08-16 |
# 言語モデルとは何か? : 言語モデルにおける聴覚表現の探索
What Do Language Models Hear? Probing for Auditory Representations in Language Models ( http://arxiv.org/abs/2402.16998v2 ) ライセンス: Link先を確認 | Jerry Ngo, Yoon Kim, | (参考訳) この研究は、言語モデルがオブジェクトの音の有意義な基底表現を符号化するかどうかを考察する。
我々は、そのオブジェクトに関連する音声のスニペットが与えられたオブジェクトの正しいテキスト表現を検索する線形プローブを学習する。
このプローブは、互いに近接するオブジェクトの言語表現と音声表現をプッシュする、対照的な損失によって訓練される。
訓練後、探査機は訓練中に見られなかった物体に一般化する能力で試験される。
異なる言語モデルと音声モデルの間で、プローブの一般化は多くの場合、原文のみに基づいて訓練されているにもかかわらず、言語モデルはいくつかのオブジェクトに対する音の基底知識を符号化していることを示す。
This work explores whether language models encode meaningfully grounded representations of sounds of objects. We learn a linear probe that retrieves the correct text representation of an object given a snippet of audio related to that object, where the sound representation is given by a pretrained audio model. This probe is trained via a contrastive loss that pushes the language representations and sound representations of an object to be close to one another. After training, the probe is tested on its ability to generalize to objects that were not seen during training. Across different language models and audio models, we find that the probe generalization is above chance in many cases, indicating that despite being trained only on raw text, language models encode grounded knowledge of sounds for some objects. | 翻訳日:2024-08-19 20:34:59 公開日:2024-08-16 |
# マルチスタティックレーダーRCSによる空中車両の信号認識:ベイズ核融合によるアプローチ
Multistatic-Radar RCS-Signature Recognition of Aerial Vehicles: A Bayesian Fusion Approach ( http://arxiv.org/abs/2402.17987v3 ) ライセンス: Link先を確認 | Michael Potter, Murat Akcakaya, Marius Necsoiu, Gunar Schirner, Deniz Erdogmus, Tales Imbiriba, | (参考訳) 無人航空機(UAV)用のレーダー自動目標認識(RATR)は、電磁波(EMW)を送信し、受信したレーダーエコーで目標型認識を行う。
これまでの研究では、RATRにおけるモノスタティックレーダよりも、マルチスタティックレーダの構成の利点を強調していた。
しかし、マルチスタティックレーダの構成における融合法は、個々のレーダの分類ベクトルを確率的に組み合わせることがしばしばある。
そこで我々は,複数のレーダからの分類確率ベクトルを集約するために,OBF(Optimal Bayesian Fusion)を用いた完全ベイズRATRフレームワークを提案する。
OBFは、予想される0-1の損失に基づいて、複数の時間ステップにわたる歴史的観測に基づいて、ターゲットUAVタイプの再帰ベイズ分類(RBC)後部分布を更新する。
提案手法は,7機のドローンに対するランダム歩行軌跡を模擬して評価し,目標アスペクト角とアニーコニック室内のレーダークロスセクション(RCS)測定との関係について検討した。
単一レーダ自動目標認識(ATR)システムと準最適フュージョン法との比較により,RBCと統合されたOBF法は,他のフュージョン法や単一レーダ構成と比較して,分類精度を著しく向上することを示した。
Radar Automated Target Recognition (RATR) for Unmanned Aerial Vehicles (UAVs) involves transmitting Electromagnetic Waves (EMWs) and performing target type recognition on the received radar echo, crucial for defense and aerospace applications. Previous studies highlighted the advantages of multistatic radar configurations over monostatic ones in RATR. However, fusion methods in multistatic radar configurations often suboptimally combine classification vectors from individual radars probabilistically. To address this, we propose a fully Bayesian RATR framework employing Optimal Bayesian Fusion (OBF) to aggregate classification probability vectors from multiple radars. OBF, based on expected 0-1 loss, updates a Recursive Bayesian Classification (RBC) posterior distribution for target UAV type, conditioned on historical observations across multiple time steps. We evaluate the approach using simulated random walk trajectories for seven drones, correlating target aspect angles to Radar Cross Section (RCS) measurements in an anechoic chamber. Comparing against single radar Automated Target Recognition (ATR) systems and suboptimal fusion methods, our empirical results demonstrate that the OBF method integrated with RBC significantly enhances classification accuracy compared to other fusion methods and single radar configurations. | 翻訳日:2024-08-19 20:34:59 公開日:2024-08-16 |
# CollaFuse: コラボレーション生成AIで限られたリソースとプライバシをナビゲートする
CollaFuse: Navigating Limited Resources and Privacy in Collaborative Generative AI ( http://arxiv.org/abs/2402.19105v2 ) ライセンス: Link先を確認 | Domenique Zipperling, Simeon Allmendinger, Lukas Struppek, Niklas Kühl, | (参考訳) 生成人工知能の分野では、拡散ベースのモデルは、データ要求とプライバシにおける社会技術システムの課題を示す。
連合学習のような従来のアプローチは、学習プロセスを分散するが、個々のクライアント、特に制約のあるリソース(エッジデバイスなど)を歪ませる。
これらの課題に対応するために、スプリットラーニングにインスパイアされた新しいフレームワークであるCollaFuseを紹介します。
CollaFuseは、分散確率モデルの分極化のための効率的かつ協調的な利用を目的としており、共有サーバトレーニングと推論を可能にし、クライアントの計算負担を軽減する。
これは、計算コストのかかるプロセスを共有サーバにアウトソーシングしながら、各クライアントでローカルにデータと計算コストの低いGPUプロセスを保持することで実現される。
CollaFuseは、医療のコンテキストで実証された、機密情報共有の必要性を著しく低減することで、プライバシを高める。
これらの能力は、エッジコンピューティングソリューションの設計、ヘルスケア研究、自動運転など、さまざまなアプリケーション領域に影響を与える可能性を秘めている。
基本的に、我々の研究は分散機械学習を推進し、協調的なGenAIネットワークの未来を形作っている。
In the landscape of generative artificial intelligence, diffusion-based models present challenges for socio-technical systems in data requirements and privacy. Traditional approaches like federated learning distribute the learning process but strain individual clients, especially with constrained resources (e.g., edge devices). In response to these challenges, we introduce CollaFuse, a novel framework inspired by split learning. Tailored for efficient and collaborative use of denoising diffusion probabilistic models, CollaFuse enables shared server training and inference, alleviating client computational burdens. This is achieved by retaining data and computationally inexpensive GPU processes locally at each client while outsourcing the computationally expensive processes to the shared server. Demonstrated in a healthcare context, CollaFuse enhances privacy by highly reducing the need for sensitive information sharing. These capabilities hold the potential to impact various application areas, such as the design of edge computing solutions, healthcare research, or autonomous driving. In essence, our work advances distributed machine learning, shaping the future of collaborative GenAI networks. | 翻訳日:2024-08-19 20:34:59 公開日:2024-08-16 |
# 間接パラメータ化コンクリートオートエンコーダ
Indirectly Parameterized Concrete Autoencoders ( http://arxiv.org/abs/2403.00563v2 ) ライセンス: Link先を確認 | Alfred Nilsson, Klas Wijk, Sai bharath chandra Gutha, Erik Englesson, Alexandra Hotti, Carlo Saccardi, Oskar Kviman, Jens Lagergren, Ricardo Vinuesa, Hossein Azizpour, | (参考訳) データの高次元化や機能の完全な取得にコストがかかる設定において、機能選択は重要なタスクである。
ニューラルネットワークベースの組み込み機能選択の最近の進歩は、幅広いアプリケーションで有望な結果を示している。
コンクリートオートエンコーダ(CAE)は組込み機能選択の最先端と見なされ、安定した関節最適化を達成するのに苦労し、訓練時間と一般化を損なう可能性がある。
本研究では,この不安定性がCAE学習重複選択と相関していることを明らかにする。
そこで我々は, 間接パラメータ化CAE (IP-CAEs) という, 単純かつ効果的な改良を提案する。
IP-CAEは埋め込みとそこからGumbel-Softmax分布のパラメータへのマッピングを学ぶ。
実装は簡単だが、IP-CAEは、再構築と分類のためのいくつかのデータセットにわたる一般化とトレーニング時間の両方において、CAEよりも大幅に、一貫した改善がなされている。
CAEとは異なり、IP-CAEは非線形関係を効果的に利用し、共同最適化されたデコーダの再訓練を必要としない。
さらに、我々のアプローチは原則として、特徴選択を超えたガンベル・ソフトマックス分布に一般化可能である。
Feature selection is a crucial task in settings where data is high-dimensional or acquiring the full set of features is costly. Recent developments in neural network-based embedded feature selection show promising results across a wide range of applications. Concrete Autoencoders (CAEs), considered state-of-the-art in embedded feature selection, may struggle to achieve stable joint optimization, hurting their training time and generalization. In this work, we identify that this instability is correlated with the CAE learning duplicate selections. To remedy this, we propose a simple and effective improvement: Indirectly Parameterized CAEs (IP-CAEs). IP-CAEs learn an embedding and a mapping from it to the Gumbel-Softmax distributions' parameters. Despite being simple to implement, IP-CAE exhibits significant and consistent improvements over CAE in both generalization and training time across several datasets for reconstruction and classification. Unlike CAE, IP-CAE effectively leverages non-linear relationships and does not require retraining the jointly optimized decoder. Furthermore, our approach is, in principle, generalizable to Gumbel-Softmax distributions beyond feature selection. | 翻訳日:2024-08-19 20:34:59 公開日:2024-08-16 |
# 信号の特徴付け:因果推論と時空間幾何の関連
Characterizing Signalling: Connections between Causal Inference and Space-time Geometry ( http://arxiv.org/abs/2403.00916v2 ) ライセンス: Link先を確認 | Maarten Grothus, V. Vilasini, | (参考訳) 因果関係は、情報理論と相対論的、前者は情報の流れに結びつき、後者は時空の構造に結びついている。
PRA 106, 032204 (2022) で導入されたフレームワークを利用して、これらの2つの概念を一般の物理理論で正式に結合し、それらの相互作用を研究する。
ここでは、情報理論の因果関係は因果モデリングアプローチによって定義される。
まず、いわゆる影響関係によって定義された情報理論信号のキャラクタリゼーションを改善する。
具体的には、そのような関係の異なる部分における冗長性を特定する条件を提供し、不誠実な因果モデル(観測可能なデータが因果依存性を「忠実に」反映しない)における因果推論の手法を導入する。
特に、特定のノード間の信号の欠如による因果推論の可能性を示す。
第二に、円錐性(conicality)と呼ばれる秩序理論的性質を定義し、ミンコフスキー空間時間における光円錐に対して$d>1$の空間次元で満たされるが、$d=1$で破られることを示す。
最後に,スーパールミナルシグナリング(NSS)を含まないような相対論的原理に違反することなく,時空における情報理論因果モデルの埋め込みについて検討する。
一般に、時空におけるNASによる制約と、純粋に情報理論的因果推論による制約は異なる振る舞いをする。
次に、円錐空間時間と忠実因果モデルの間の対応を証明し、どちらの場合も、これらの2種類の制約の間に平行な関係が現れる。
これは因果関係の情報的概念と幾何学的概念の関連性を示し、NASの原理と異なる時空測地における因果ループや情報処理の理論の関係を研究するための新たな洞察を提供する。
Causality is pivotal to our understanding of the world, presenting itself in different forms: information-theoretic and relativistic, the former linked to the flow of information, the latter to the structure of space-time. Leveraging a framework introduced in PRA, 106, 032204 (2022), which formally connects these two notions in general physical theories, we study their interplay. Here, information-theoretic causality is defined through a causal modelling approach. First, we improve the characterization of information-theoretic signalling as defined through so-called affects relations. Specifically, we provide conditions for identifying redundancies in different parts of such a relation, introducing techniques for causal inference in unfaithful causal models (where the observable data does not "faithfully" reflect the causal dependences). In particular, this demonstrates the possibility of causal inference using the absence of signalling between certain nodes. Second, we define an order-theoretic property called conicality, showing that it is satisfied for light cones in Minkowski space-times with $d>1$ spatial dimensions but violated for $d=1$. Finally, we study the embedding of information-theoretic causal models in space-time without violating relativistic principles such as no superluminal signalling (NSS). In general, we observe that constraints imposed by NSS in a space-time and those imposed by purely information-theoretic causal inference behave differently. We then prove a correspondence between conical space-times and faithful causal models: in both cases, there emerges a parallel between these two types of constraints. This indicates a connection between informational and geometric notions of causality, and offers new insights for studying the relations between the principles of NSS and no causal loops in different space-time geometries and theories of information processing. | 翻訳日:2024-08-19 20:34:59 公開日:2024-08-16 |
# 高次元格子上のアンダーソン局在の正規化群
Renormalization group for Anderson localization on high-dimensional lattices ( http://arxiv.org/abs/2403.01974v2 ) ライセンス: Link先を確認 | Boris L. Altshuler, Vladimir E. Kravtsov, Antonello Scardicchio, Piotr Sierant, Carlo Vanoni, | (参考訳) Ref で最近導入された $\beta$-function および renormalization group の言語における次元 $d$ に対するアンダーソンモデルの臨界性質の依存性について論じる。
[arXiv:2306.14965] アンダーソンのランダム正規グラフへの遷移の文脈における。
遷移点を含む非局在領域において、フラクタル次元の$D_{1}$ の $\beta$-関数の 1-パラメータスケーリング部分は、$d=2$ 形式から $\beta_2\leq 0$ の $\beta_\infty\geq 0$ 形式へと滑らかに進化し、これは正規ランダムグラフ(RRG)の結果で表される。
RRG 結果に関する $\epsilon=d-2$ の展開と $1/d$ の展開がどのように和解できるか、また、非関連指数 $y$ が支配する再正規化群軌道の初期部分がどのように次元に依存するかを示す。
また、非線形シグマモデルの高次展開項から無関係指数が出現し、フラクタル次元に対する下界についての予想を提示する。
ここで導入された枠組みは、乱れた多体系やより一般的な非平衡量子系の研究の基礎となる。
We discuss the dependence of the critical properties of the Anderson model on the dimension $d$ in the language of $\beta$-function and renormalization group recently introduced in Ref.[arXiv:2306.14965] in the context of Anderson transition on random regular graphs. We show how in the delocalized region, including the transition point, the one-parameter scaling part of the $\beta$-function for the fractal dimension $D_{1}$ evolves smoothly from its $d=2$ form, in which $\beta_2\leq 0$, to its $\beta_\infty\geq 0$ form, which is represented by the regular random graph (RRG) result. We show how the $\epsilon=d-2$ expansion and the $1/d$ expansion around the RRG result can be reconciled and how the initial part of a renormalization group trajectory governed by the irrelevant exponent $y$ depends on dimensionality. We also show how the irrelevant exponent emerges out of the high-gradient terms of expansion in the nonlinear sigma-model and put forward a conjecture about a lower bound for the fractal dimension. The framework introduced here may serve as a basis for investigations of disordered many-body systems and of more general non-equilibrium quantum systems. | 翻訳日:2024-08-19 20:34:59 公開日:2024-08-16 |
# Apollo: 医療AIを60億人に民主化するための軽量多言語医療LLM
Apollo: A Lightweight Multilingual Medical LLM towards Democratizing Medical AI to 6B People ( http://arxiv.org/abs/2403.03640v4 ) ライセンス: Link先を確認 | Xidong Wang, Nuo Chen, Junyin Chen, Yidong Wang, Guorui Zhen, Yan Hu, Xiangbo Wu, Anningzhe Gao, Xiang Wan, Haizhou Li, Benyou Wang, | (参考訳) 世界的医療知識の膨大な保管場所は英語であるにもかかわらず、現地の言語は、特に限られた医療資源を持つ地域で、適切な医療サービスを提供するために不可欠である。
医療AIの進歩の範囲を広い人口に広げるため、私たちは6つの最も広く話されている言語にわたる医療用LLMの開発を目標としています。
この取り組みは、ApolloCorpora多言語医療データセットとXMedBenchベンチマークの作成で頂点に達した。
マルチリンガル・メディカル・ベンチマークでは、リリースされたApolloモデルは様々な比較的小さなサイズ(0.5B, 1.8B, 2B, 6B, 7B)で、同等の大きさのモデルの中で最高の性能を達成する。
特にアポロ7Bは、最先端の多言語医療用LLMである。
さらに、これらのライトモデルは、プロキシチューニング方式で微調整することなく、より大きなモデルの多言語医療能力を改善するために使用できる。
トレーニングコーパス、コード、モデルの重み付け、評価ベンチマークをオープンソースにします。
Despite the vast repository of global medical knowledge predominantly being in English, local languages are crucial for delivering tailored healthcare services, particularly in areas with limited medical resources. To extend the reach of medical AI advancements to a broader population, we aim to develop medical LLMs across the six most widely spoken languages, encompassing a global population of 6.1 billion. This effort culminates in the creation of the ApolloCorpora multilingual medical dataset and the XMedBench benchmark. In the multilingual medical benchmark, the released Apollo models, at various relatively-small sizes (i.e., 0.5B, 1.8B, 2B, 6B, and 7B), achieve the best performance among models of equivalent size. Especially, Apollo-7B is the state-of-the-art multilingual medical LLMs up to 70B. Additionally, these lite models could be used to improve the multi-lingual medical capabilities of larger models without fine-tuning in a proxy-tuning fashion. We will open-source training corpora, code, model weights and evaluation benchmark. | 翻訳日:2024-08-19 20:34:59 公開日:2024-08-16 |
# 二次元自由フェルミオン系におけるエンタングルメント非対称性と量子ムペンバ効果
Entanglement asymmetry and quantum Mpemba effect in two-dimensional free-fermion systems ( http://arxiv.org/abs/2403.04486v2 ) ライセンス: Link先を確認 | Shion Yamashika, Filiberto Ares, Pasquale Calabrese, | (参考訳) 量子ムペンバ効果 (quantum Mpemba effect) は反直観的非平衡現象であり、初期状態がより高い対称性の破れを示すと、崩壊した対称性の動的復元がより速く起こる。
この効果は近年、大域量子クエンチの枠組みで理論的に発見され、実験的に観察されているが、今のところは1次元のシステムでのみ研究されている。
ここでは、交絡非対称性を対称性の破れの尺度として用いた2次元自由フェルミオン格子に焦点を当てる。
我々の研究は、近傍のホッピングと超伝導ペアリングを特徴とするシステムの基底状態解析から始まり、後者は明示的に$U(1)$粒子数対称性を破る。
1次元と2次元の滑らかな交叉を達成し、横サイズの範囲を調整できるアプローチである次元還元法を用いて周期ストリップの絡み合い非対称性を解析的に計算する。
さらに, クエンチ後の絡み合い非対称性の時間的変化について検討し, 定常状態に復元された粒子数対称性を保存した。
量子Mpemba効果は、初期状態に応じて現象を増強または損なう可能性があり、横次元の系の大きさに強く影響されている。
初期構成の特性に基づいて,その発生条件を確立し,一次元の場合の基準を拡張した。
The quantum Mpemba effect is the counter-intuitive non-equilibrium phenomenon wherein the dynamic restoration of a broken symmetry occurs more rapidly when the initial state exhibits a higher degree of symmetry breaking. The effect has been recently discovered theoretically and observed experimentally in the framework of global quantum quenches, but so far it has only been investigated in one-dimensional systems. Here we focus on a two-dimensional free-fermion lattice employing the entanglement asymmetry as a measure of symmetry breaking. Our investigation begins with the ground state analysis of a system featuring nearest-neighbor hoppings and superconducting pairings, the latter breaking explicitly the $U(1)$ particle number symmetry. We compute analytically the entanglement asymmetry of a periodic strip using dimensional reduction, an approach that allows us to adjust the extent of the transverse size, achieving a smooth crossover between one and two dimensions. Further applying the same method, we study the time evolution of the entanglement asymmetry after a quench to a Hamiltonian with only nearest-neighbor hoppings, preserving the particle number symmetry which is restored in the stationary state. We find that the quantum Mpemba effect is strongly affected by the size of the system in the transverse dimension, with the potential to either enhance or spoil the phenomenon depending on the initial states. We establish the conditions for its occurrence based on the properties of the initial configurations, extending the criteria found in the one-dimensional case. | 翻訳日:2024-08-19 20:34:59 公開日:2024-08-16 |
# ハイパーパラメータ最適化におけるエンコーダに基づくウォームスタート法の再検討
Rethinking of Encoder-based Warm-start Methods in Hyperparameter Optimization ( http://arxiv.org/abs/2403.04720v4 ) ライセンス: Link先を確認 | Dawid Płudowski, Antoni Zajko, Anna Kozak, Katarzyna Woźnica, | (参考訳) メタ学習目的のための異質な表層データセットを効果的に表現することは、未解決の問題である。
以前のアプローチは、例えば統計測度やランドマークのような、事前に定義されたメタ機能に依存していた。
データセットエンコーダの出現は、手作りデザインを含まないため、メタ機能抽出の新しい可能性を開く。
さらに、所望の空間特性を持つデータセット表現を生成することが証明されている。
本研究では,最も確立されたメタタスクの1つであるベイジアンハイパーパラメータ最適化のウォームスタートに対するエンコーダに基づくアプローチを評価する。
本稿では, 岩田友治, 熊谷篤俊による表層データ表現学習の新たなアプローチを提案する。
UCIの100以上のデータセットと独立したMetaMIMICデータセットの検証は、表現学習における厄介な課題を浮き彫りにしている。
一般表現は,要求が抽出中に明示的に考慮されないメタタスクでは十分でないことを示す。
Effectively representing heterogeneous tabular datasets for meta-learning purposes remains an open problem. Previous approaches rely on predefined meta-features, for example, statistical measures or landmarkers. The emergence of dataset encoders opens new possibilities for the extraction of meta-features because they do not involve any handmade design. Moreover, they are proven to generate dataset representations with desired spatial properties. In this research, we evaluate an encoder-based approach to one of the most established meta-tasks - warm-starting of the Bayesian Hyperparameter Optimization. To broaden our analysis we introduce a new approach for representation learning on tabular data based on [Tomoharu Iwata and Atsutoshi Kumagai. Meta-learning from Tasks with Heterogeneous Attribute Spaces. In Advances in Neural Information Processing Systems, 2020]. The validation on over 100 datasets from UCI and an independent metaMIMIC set of datasets highlights the nuanced challenges in representation learning. We show that general representations may not suffice for some meta-tasks where requirements are not explicitly considered during extraction. | 翻訳日:2024-08-19 20:34:59 公開日:2024-08-16 |
# 低オーバーヘッド・クトリット・マジックステート蒸留
Low Overhead Qutrit Magic State Distillation ( http://arxiv.org/abs/2403.06228v2 ) ライセンス: Link先を確認 | Shiroman Prakash, Tanay Saha, | (参考訳) 量子ビットではなく量子ビットを用いることで、マジックステート蒸留として知られるフォールトトレラント量子コンピューティングへのアプローチに伴うオーバーヘッドコストが大幅に削減されることを示す。
9m-k, k, 2]]_3$ triorthogonal qutrit error-correcting codes for any positive integers $m$ and $k$ with $k \leq 3m-2$。
マジック状態蒸留では、ターゲットエラー率$\epsilon$のマジック状態を生成するために必要なアンシラの数は$O(\log^\gamma \epsilon^{-1})$である。
k=3m-2$の場合、我々の符号は$\gamma = \log_2 (2+\frac{6}{3 m-2})$であり、$m \to \infty$として$$$$である。
さらに、$m=3$が既に1.51$の収率パラメータを持つとき、[[20,7,2]_3$のクォート符号は、数百キュービット未満の既知のクビット直交符号を全て上回る。
We show that using qutrits rather than qubits leads to a substantial reduction in the overhead cost associated with an approach to fault-tolerant quantum computing known as magic state distillation. We construct a family of $[[9m-k, k, 2]]_3$ triorthogonal qutrit error-correcting codes for any positive integers $m$ and $k$ with $k \leq 3m-2$ that are suitable for magic state distillation. In magic state distillation, the number of ancillae required to produce a magic state with target error rate $\epsilon$ is $O(\log^\gamma \epsilon^{-1})$, where the yield parameter $\gamma$ characterizes the overhead cost. For $k=3m-2$, our codes have $\gamma = \log_2 (2+\frac{6}{3 m-2})$, which tends to $1$ as $m \to \infty$. Moreover, the $[[20,7,2]]_3$ qutrit code that arises from our construction when $m=3$ already has a yield parameter of $1.51$ which outperforms all known qubit triorthogonal codes of size less than a few hundred qubits. | 翻訳日:2024-08-19 20:34:59 公開日:2024-08-16 |
# No Language is an Island: Unification Chinese and English in Financial Large Language Models, Instruction Data, and Benchmarks
No Language is an Island: Unifying Chinese and English in Financial Large Language Models, Instruction Data, and Benchmarks ( http://arxiv.org/abs/2403.06249v3 ) ライセンス: Link先を確認 | Gang Hu, Ke Qin, Chenhan Yuan, Min Peng, Alejandro Lopez-Lira, Benyou Wang, Sophia Ananiadou, Jimin Huang, Qianqian Xie, | (参考訳) LLM(Large Language Models)の進歩は、金融分析を顕著に推進してきたが、その応用は大半が単一言語領域に限られており、中国語と英語のバイリンガルな能力の可能性を解き放ったままである。
このシャームを橋渡しするために,ICE-INTENTモデルとICE-FLAREベンチマークをシームレスに融合したICE-PIXIUを導入する。
ICE-PIXIUは、翻訳および原文の英語データセットとともに、中国語タスクのスペクトルを統合し、バイリンガル・ファイナンシャル・モデリングの幅と深さを豊かにする。
多様なモデルバリアントへの無制限アクセス、多言語およびマルチモーダルの命令データの実質的なコンパイル、および10のNLPタスク、20のバイリンガル固有のタスク、合計95kデータセットを含む専門家アノテーションによる評価ベンチマークを提供する。
我々の徹底的な評価は、これらのバイリンガルデータセットを特に翻訳タスクに導入し、元の英語データを活用するという利点を強調し、金融状況における言語的柔軟性と分析力の両面での強化を図っている。
特にICE-INTENT は,従来の LLM と既存の LLM の両言語ミリースにおける大幅な拡張を図り,ロバストなバイリンガルデータによる財務NLP の正確性と有効性に対する大きな影響を浮き彫りにした。
While the progression of Large Language Models (LLMs) has notably propelled financial analysis, their application has largely been confined to singular language realms, leaving untapped the potential of bilingual Chinese-English capacity. To bridge this chasm, we introduce ICE-PIXIU, seamlessly amalgamating the ICE-INTENT model and ICE-FLARE benchmark for bilingual financial analysis. ICE-PIXIU uniquely integrates a spectrum of Chinese tasks, alongside translated and original English datasets, enriching the breadth and depth of bilingual financial modeling. It provides unrestricted access to diverse model variants, a substantial compilation of diverse cross-lingual and multi-modal instruction data, and an evaluation benchmark with expert annotations, comprising 10 NLP tasks, 20 bilingual specific tasks, totaling 95k datasets. Our thorough evaluation emphasizes the advantages of incorporating these bilingual datasets, especially in translation tasks and utilizing original English data, enhancing both linguistic flexibility and analytical acuity in financial contexts. Notably, ICE-INTENT distinguishes itself by showcasing significant enhancements over conventional LLMs and existing financial LLMs in bilingual milieus, underscoring the profound impact of robust bilingual data on the accuracy and efficacy of financial NLP. | 翻訳日:2024-08-19 20:24:02 公開日:2024-08-16 |
# DivCon: プログレッシブテキスト・画像生成のためのディバイドとコンバータ
DivCon: Divide and Conquer for Progressive Text-to-Image Generation ( http://arxiv.org/abs/2403.06400v2 ) ライセンス: Link先を確認 | Yuhao Jia, Wenhan Tan, | (参考訳) 拡散駆動型テキスト・ツー・イメージ(T2I)生成は顕著な進歩を遂げた。
数値的および空間的推論におけるT2Iモデルの能力をさらに向上するため、レイアウトは大きな言語モデルとレイアウトに基づく拡散モデルを橋渡しするための中間体として使用される。
しかし、これらの手法は、複数のオブジェクトと複雑な空間関係を持つテキストプロンプトから画像を生成するのに依然として苦労している。
この課題に対処するために、我々はT2I生成タスクを単純なサブタスクに分離する分割・コンカレントアプローチを導入する。
提案手法は,レイアウト予測段階を数値的・空間的推論と境界ボックス予測に分割する。
そして、レイアウト・ツー・イメージ生成段階を反復的に行い、簡単なものから難しいものへとオブジェクトを再構築する。
我々はHRSとNSR-1Kベンチマークで実験を行い、従来の最先端モデルよりも顕著なマージンで性能を向上する。
さらに,視覚的な結果から,複雑なテクスチャプロンプトから複数のオブジェクトを生成する際の制御性と一貫性が著しく向上することが示された。
Diffusion-driven text-to-image (T2I) generation has achieved remarkable advancements. To further improve T2I models' capability in numerical and spatial reasoning, the layout is employed as an intermedium to bridge large language models and layout-based diffusion models. However, these methods still struggle with generating images from textural prompts with multiple objects and complicated spatial relationships. To tackle this challenge, we introduce a divide-and-conquer approach which decouples the T2I generation task into simple subtasks. Our approach divides the layout prediction stage into numerical & spatial reasoning and bounding box prediction. Then, the layout-to-image generation stage is conducted in an iterative manner to reconstruct objects from easy ones to difficult ones. We conduct experiments on the HRS and NSR-1K benchmarks and our approach outperforms previous state-of-the-art models with notable margins. In addition, visual results demonstrate that our approach significantly improves the controllability and consistency in generating multiple objects from complex textural prompts. | 翻訳日:2024-08-19 20:24:02 公開日:2024-08-16 |
# Lindbladian SYKにおけるオペレータサイズの成長
Operator size growth in Lindbladian SYK ( http://arxiv.org/abs/2403.07115v3 ) ライセンス: Link先を確認 | Jiasheng Liu, Rene Meyer, Zhuo-Yu Xian, | (参考訳) 我々は,Lindbladian Sachdev-Ye-Kitaevモデルにおいて,$q$-body相互作用項とリニアジャンプ項を有限散逸強度で有する演算子サイズの増大について検討した。
演算子のサイズと分布を有限の$q$で計算し、解析的に大きめの$q$で計算する。
散逸的な(生産的な)ジャンプ項では、サイズはマヨラナフェルミオンの数の半分よりも小さい(大きい)値に収束する。
弱い散逸では、作用素の大きさの進化は二次的-指数的-プラトーな振る舞いを示す。
プラトー値は、大きな$q$制限における相互作用のカップリングと線形ジャンプ項の比によって決定される。
演算子のサイズ分布は、単体の場合と対照的に、遅くとも有限サイズ領域で局所化されている。
さらに,有限散逸時の演算子サイズ濃度を示す演算子展開の時間非依存直交基底も導出した。
最後に、演算子サイズ成長の不確実性関係が大きめの$q$で飽和していることが観察され、散逸を伴う演算子サイズ成長の古典力学が導かれる。
We investigate the growth of operator size in the Lindbladian Sachdev-Ye-Kitaev model with $q$-body interaction terms and linear jump terms at finite dissipation strength. We compute the operator size as well as its distribution numerically at finite $q$ and analytically at large $q$. With dissipative (productive) jump terms, the size converges to a value smaller (larger) than half the number of Majorana fermions. At weak dissipation, the evolution of operator size displays a quadratic-exponential-plateau behavior. The plateau value is determined by the ratios between the coupling of the interaction and the linear jump term in the large $q$ limit. The operator size distribution remains localized in the finite size region even at late times, contrasting with the unitary case. Moreover, we also derived the time-independent orthogonal basis for operator expansion which exhibits the operator size concentration at finite dissipation. Finally, we observe that the uncertainty relation for operator size growth is saturated at large $q$, leading to classical dynamics of the operator size growth with dissipation. | 翻訳日:2024-08-19 20:24:02 公開日:2024-08-16 |
# 対称ランダム回路における対称性回復と量子ムペンバ効果
Symmetry restoration and quantum Mpemba effect in symmetric random circuits ( http://arxiv.org/abs/2403.08459v2 ) ライセンス: Link先を確認 | Shuo Liu, Hao-Kai Zhang, Shuai Yin, Shi-Xin Zhang, | (参考訳) 対称性破壊の診断ツールや熱化のプロキシとして機能するエンタングルメント非対称性が最近提案され、クエンチを経る量子多体系の対称性回復の文脈で研究されている。
本稿では、様々な対称ランダム量子回路における対称性の復元について、特にU(1)対称性の場合に着目して検討する。
小さいサブシステムのU(1)対称性が常に遅く復元できる非対称ランダム回路とは対照的に、有限サイズ系におけるある種の弱対称性破壊初期状態に対するU(1)対称性の回復は失敗する。
初期の力学では、初期状態がより非対称性であるときに対称性がより早く復元されることを示す興味深い量子Mpemba効果が観察される。
さらに、SU(2) と $Z_{2}$ 対称回路の絡み合い非対称性のダイナミクスを調べ、対応する対称性に対する量子 Mpemba 効果の存在と欠如をそれぞれ同定する。
これらの結果の統一的な理解は、保存電荷を持つ量子熱化のレンズを通して提供される。
Entanglement asymmetry, which serves as a diagnostic tool for symmetry breaking and a proxy for thermalization, has recently been proposed and studied in the context of symmetry restoration for quantum many-body systems undergoing a quench. In this Letter, we investigate symmetry restoration in various symmetric random quantum circuits, particularly focusing on the U(1) symmetry case. In contrast to non-symmetric random circuits where the U(1) symmetry of a small subsystem can always be restored at late times, we reveal that symmetry restoration can fail in U(1)-symmetric circuits for certain weak symmetry-broken initial states in finite-size systems. In the early-time dynamics, we observe an intriguing quantum Mpemba effect implying that symmetry is restored faster when the initial state is more asymmetric. Furthermore, we also investigate the entanglement asymmetry dynamics for SU(2) and $Z_{2}$ symmetric circuits and identify the presence and absence of the quantum Mpemba effect for the corresponding symmetries, respectively. A unified understanding of these results is provided through the lens of quantum thermalization with conserved charges. | 翻訳日:2024-08-19 20:24:02 公開日:2024-08-16 |
# CLIP-EBC: CLIPはブロックワイズ分類の強化によって正確にカウントできる
CLIP-EBC: CLIP Can Count Accurately through Enhanced Blockwise Classification ( http://arxiv.org/abs/2403.09281v2 ) ライセンス: Link先を確認 | Yiming Ma, Victor Sanchez, Tanaya Guha, | (参考訳) CLIP-EBC(CLIP-EBC)を提案する。
CLIPモデルは、ゼロショット画像分類などの認識タスクに対処する上で、顕著な成功を収めてきたが、カウントなどの回帰問題を認識タスクに変換するという固有の課題のために、そのカウントの可能性はほとんど解明されていない。
本研究は,画像から群衆の大きさを推定する作業を中心に,CLIPのカウント能力について検討・強化するものである。
既存の分類に基づくクラウドカウントフレームワークには、カウント値を境界となる実値のビンに量子化することや、分類エラーにのみフォーカスすることなど、大きな制限がある。
これらのプラクティスは、共有境界付近のラベルの曖昧さとカウント値の不正確な予測をもたらす。
したがって、これらのフレームワークにCLIPを直接適用すれば、準最適性能が得られる可能性がある。
これらの課題に対処するために、まず、拡張ブロックワイズ分類(EBC)フレームワークを提案する。
従来の方法とは異なり、EBCは整数値のビンを使い、ビンの境界付近の曖昧さを効果的に低減している。
さらに、密度マップに基づく回帰損失を取り入れ、カウント値の予測を改善する。
バックボーンに依存しないEBCフレームワークの中で、このタスクにCLIPの認識能力をフル活用するためにCLIP-EBCを導入します。
大規模な実験は、EBCの有効性とCLIP-EBCの競争性能を示す。
具体的には、我々のEBCフレームワークは、UCF-QNRFデータセットで44.5%の既存の分類ベースの手法を改善でき、CLIP-EBCはNWPU-Crowdテストセットで最先端のパフォーマンスを実現し、MAEは58.2、RMSEは268.5で、以前のベストメソッドであるSTEERよりも8.6%と13.3%改善した。
コードとウェイトはhttps://github.com/Yiming-M/CLIP-EBCで公開されている。
We propose CLIP-EBC, the first fully CLIP-based model for accurate crowd density estimation. While the CLIP model has demonstrated remarkable success in addressing recognition tasks such as zero-shot image classification, its potential for counting has been largely unexplored due to the inherent challenges in transforming a regression problem, such as counting, into a recognition task. In this work, we investigate and enhance CLIP's ability to count, focusing specifically on the task of estimating crowd sizes from images. Existing classification-based crowd-counting frameworks have significant limitations, including the quantization of count values into bordering real-valued bins and the sole focus on classification errors. These practices result in label ambiguity near the shared borders and inaccurate prediction of count values. Hence, directly applying CLIP within these frameworks may yield suboptimal performance. To address these challenges, we first propose the Enhanced Blockwise Classification (EBC) framework. Unlike previous methods, EBC utilizes integer-valued bins, effectively reducing ambiguity near bin boundaries. Additionally, it incorporates a regression loss based on density maps to improve the prediction of count values. Within our backbone-agnostic EBC framework, we then introduce CLIP-EBC to fully leverage CLIP's recognition capabilities for this task. Extensive experiments demonstrate the effectiveness of EBC and the competitive performance of CLIP-EBC. Specifically, our EBC framework can improve existing classification-based methods by up to 44.5% on the UCF-QNRF dataset, and CLIP-EBC achieves state-of-the-art performance on the NWPU-Crowd test set, with an MAE of 58.2 and an RMSE of 268.5, representing improvements of 8.6% and 13.3% over the previous best method, STEERER. The code and weights are available at https://github.com/Yiming-M/CLIP-EBC. | 翻訳日:2024-08-19 20:24:02 公開日:2024-08-16 |
# 時空間時系列インプットのための因果性を考慮した時空間グラフニューラルネットワーク
Causality-Aware Spatiotemporal Graph Neural Networks for Spatiotemporal Time Series Imputation ( http://arxiv.org/abs/2403.11960v2 ) ライセンス: Link先を確認 | Baoyu Jing, Dawei Zhou, Kan Ren, Carl Yang, | (参考訳) 時空間時系列は通常、異なる場所に配置されたセンサーを通して収集される。
時系列を分析するには、欠落した値に対処することが重要です。
特定のデータポイントを回復する際、ほとんどの既存手法は、原因と効果の関係にかかわらず、そのポイントに関連するすべての情報を考慮します。
データ収集の過程では、例えば時系列のバックグラウンドノイズや、構築されたセンサネットワーク内の非因果的ショートカットエッジなど、未知の共同創設者が含まれていることは避けられない。
これらの共同設立者は、バックドアパスを開き、インプットとアウトプットの非因果関係を確立することができる。
これらの非因果関係の過剰な発見は過度な適合を引き起こす可能性がある。
本稿では、まず、因果的視点から時空間時系列計算を再考し、正面調整による共同設立者をブロックする方法を示す。
本稿では,前庭調整の結果をもとに,新しいPrompt Based Decoder (PBD) とSpatiotemporal Causal Attention (SCA) を含む,Causality-Aware Spatiotemporal Graph Neural Network (Casper) を紹介する。
PBDは共同設立者の影響を減らし、SCAは埋め込み間の微妙な因果関係を発見する可能性がある。
理論的解析によると、SCAは勾配の値に基づいて因果関係を発見する。
我々は,実世界の3つのデータセット上でCasperを評価し,実験結果から,Casperがベースラインを上回り,因果関係を効果的に発見できることが示唆された。
Spatiotemporal time series are usually collected via monitoring sensors placed at different locations, which usually contain missing values due to various mechanical failures. Imputing the missing values is crucial for analyzing time series. When recovering a specific data point, most existing methods consider all the information relevant to that point regardless of the cause-and-effect relationship. During data collection, it is inevitable that some unknown confounders are included, e.g., background noise in time series and non-causal shortcut edges in the constructed sensor network. These confounders could open backdoor paths and establish non-causal correlations between the input and output. Over-exploiting these non-causal correlations could cause overfitting. In this paper, we first revisit spatiotemporal time series imputation from a causal perspective and show how to block the confounders via the frontdoor adjustment. Based on the results of frontdoor adjustment, we introduce a novel Causality-Aware Spatiotemporal Graph Neural Network (Casper), which contains a novel Prompt Based Decoder (PBD) and a Spatiotemporal Causal Attention (SCA). PBD could reduce the impact of confounders and SCA could discover the sparse causal relationships among embeddings. Theoretical analysis reveals that SCA discovers causal relationships based on the values of gradients. We evaluate Casper on three real-world datasets, and the experimental results show that Casper could outperform the baselines and could effectively discover causal relationships. | 翻訳日:2024-08-19 20:24:02 公開日:2024-08-16 |
# 時系列の自動コントラスト学習戦略探索
Automated Contrastive Learning Strategy Search for Time Series ( http://arxiv.org/abs/2403.12641v2 ) ライセンス: Link先を確認 | Baoyu Jing, Yansen Wang, Guoxin Sui, Jing Hong, Jingrui He, Yuqing Yang, Dongsheng Li, Kan Ren, | (参考訳) 近年,コントラスト学習(CL)が時系列の表現学習のパラダイムとして主流となっている。
既存のほとんどのメソッドは、特定のデータセットやタスクに対して人間のヒューリスティックによって特定のCLストラテジー(CLS)を手動で構築する。
しかし、手動でCLSを開発するには、データに関する過剰な事前知識と、詳細なCL構成を決定するための大規模な実験が必要である。
本稿では、時系列データセットやタスクのCLSを自動的に学習するAutomated Contrastive Learning(AutoCL)について、Microsoftで実施するAutomated Machine Learning(AutoML)の実践を紹介する。
まず,データ拡張,埋め込み変換,コントラスト的ペア構築,コントラスト的損失を網羅した,3\times10^{12}$以上の探索空間を構築した。
さらに,検証タスクの性能からCRSを最適化し,空間内で有効なCRSを得る効率的な強化学習アルゴリズムを提案する。
さまざまな実世界のデータセットに関する実験結果は、AutoCLが与えられたデータセットとタスクに適したCLSを自動的に見つけることができることを示している。
AutoCLがいくつかのパブリックデータセット/タスクで見つけた候補CLSから、転送可能な汎用戦略(GGS)を構成し、他のデータセットに対して強力なパフォーマンスを実現しています。
CLSの将来設計のガイドとして実証分析も提供する。
In recent years, Contrastive Learning (CL) has become a predominant representation learning paradigm for time series. Most existing methods manually build specific CL Strategies (CLS) by human heuristics for certain datasets and tasks. However, manually developing CLS usually requires excessive prior knowledge about the data, and massive experiments to determine the detailed CL configurations. In this paper, we present an Automated Machine Learning (AutoML) practice at Microsoft, which automatically learns CLS for time series datasets and tasks, namely Automated Contrastive Learning (AutoCL). We first construct a principled search space of size over $3\times10^{12}$, covering data augmentation, embedding transformation, contrastive pair construction, and contrastive losses. Further, we introduce an efficient reinforcement learning algorithm, which optimizes CLS from the performance on the validation tasks, to obtain effective CLS within the space. Experimental results on various real-world datasets demonstrate that AutoCL could automatically find the suitable CLS for the given dataset and task. From the candidate CLS found by AutoCL on several public datasets/tasks, we compose a transferable Generally Good Strategy (GGS), which has a strong performance for other datasets. We also provide empirical analysis as a guide for the future design of CLS. | 翻訳日:2024-08-19 20:24:02 公開日:2024-08-16 |
# オンラインフェデレーション学習におけるレジリエンス:部分的共有によるモデルポリシング攻撃の軽減
Resilience in Online Federated Learning: Mitigating Model-Poisoning Attacks via Partial Sharing ( http://arxiv.org/abs/2403.13108v2 ) ライセンス: Link先を確認 | Ehsan Lari, Reza Arablouei, Vinay Chakravarthi Gogineni, Stefan Werner, | (参考訳) フェデレートラーニング(FL)は、プライバシを損なうことなく、分散データ上で機械学習モデルをトレーニングすることを可能にする。
しかし、FLは、悪意のあるクライアントがローカルモデルを改ざんしてグローバルモデルを操作するような、モデル中毒攻撃に弱い。
本研究では,この攻撃に対する部分共有オンラインFL(PSO-Fed)アルゴリズムのレジリエンスについて検討する。
PSO-Fedは、クライアントがモデル更新のごく一部をサーバと共有できるようにすることで、通信オーバーヘッドを低減する。
我々は,この部分的共有機構が,PSO-Fedのロバスト性をモデルポゾン攻撃に拡張する利点があることを実証した。
理論的解析により、悪意のあるクライアントがアップデートにノイズを注入するビザンチン攻撃においても、PSO-Fedは収束を維持していることを示す。
さらに、ステップ化、攻撃確率、悪意のあるクライアント数といった要因を考慮して、PSO-Fedの平均平方誤差の式を導出する。
興味深いことに、これらの攻撃に対するPSO-Fedの抵抗を最大化する非自明な最適ステップが見つかる。
大規模数値実験により,PSO-Fed は従来の FL アルゴリズムと比較し,PSO-Fed の攻撃に対する優れた性能を示した。
Federated learning (FL) allows training machine learning models on distributed data without compromising privacy. However, FL is vulnerable to model-poisoning attacks where malicious clients tamper with their local models to manipulate the global model. In this work, we investigate the resilience of the partial-sharing online FL (PSO-Fed) algorithm against such attacks. PSO-Fed reduces communication overhead by allowing clients to share only a fraction of their model updates with the server. We demonstrate that this partial sharing mechanism has the added advantage of enhancing PSO-Fed's robustness to model-poisoning attacks. Through theoretical analysis, we show that PSO-Fed maintains convergence even under Byzantine attacks, where malicious clients inject noise into their updates. Furthermore, we derive a formula for PSO-Fed's mean square error, considering factors like stepsize, attack probability, and the number of malicious clients. Interestingly, we find a non-trivial optimal stepsize that maximizes PSO-Fed's resistance to these attacks. Extensive numerical experiments confirm our theoretical findings and showcase PSO-Fed's superior performance against model-poisoning attacks compared to other leading FL algorithms. | 翻訳日:2024-08-19 20:24:02 公開日:2024-08-16 |
# テキストストリーム中の微調整文のサンプリング法の改善
Improving Sampling Methods for Fine-tuning SentenceBERT in Text Streams ( http://arxiv.org/abs/2403.15455v2 ) ライセンス: Link先を確認 | Cristiano Mesquita Garcia, Alessandro Lameiras Koerich, Alceu de Souza Britto Jr, Jean Paul Barddal, | (参考訳) インターネット上でのテキストデータの拡散は、組織や企業がサービスや製品に関する世論を監視できるユニークな機会である。
このようなデータの高速な生成を考えると、シーケンシャルに到着し、潜在的に無限のテキストストリームを処理するテキストストリームマイニング設定は、従来のバッチ学習よりも適していることが多い。
事前トレーニングされた言語モデルは、ストリーミング環境で高品質なテキストベクトル化機能に一般的に使用されるが、コンセプトドリフト(データ分散が時間とともに変化し、モデルのパフォーマンスに悪影響を及ぼす現象)に適応するための課題に直面している。
本研究は,概念ドリフトの問題に対処するため,選択的な微調整言語モデルの設計した7つのテキストサンプリング手法の有効性について検討し,性能劣化を軽減した。
これらの手法がSBERTモデルの微調整に与える影響を, 4つの異なる損失関数を用いて正確に評価する。
マクロF1スコアと経過時間に着目した評価では、2つのテキストストリームデータセットとインクリメンタルSVM分類器を用いて性能をベンチマークする。
以上の結果から,ソフトマックスの損失とバッチ・オール・トリプレットの損失はテキストストリームの分類に特に有効であることが示唆された。
特に,提案したWordPieceToken比サンプリング法は,識別された損失関数により性能を著しく向上させ,ベースライン結果を上回った。
The proliferation of textual data on the Internet presents a unique opportunity for institutions and companies to monitor public opinion about their services and products. Given the rapid generation of such data, the text stream mining setting, which handles sequentially arriving, potentially infinite text streams, is often more suitable than traditional batch learning. While pre-trained language models are commonly employed for their high-quality text vectorization capabilities in streaming contexts, they face challenges adapting to concept drift - the phenomenon where the data distribution changes over time, adversely affecting model performance. Addressing the issue of concept drift, this study explores the efficacy of seven text sampling methods designed to selectively fine-tune language models, thereby mitigating performance degradation. We precisely assess the impact of these methods on fine-tuning the SBERT model using four different loss functions. Our evaluation, focused on Macro F1-score and elapsed time, employs two text stream datasets and an incremental SVM classifier to benchmark performance. Our findings indicate that Softmax loss and Batch All Triplets loss are particularly effective for text stream classification, demonstrating that larger sample sizes generally correlate with improved macro F1-scores. Notably, our proposed WordPieceToken ratio sampling method significantly enhances performance with the identified loss functions, surpassing baseline results. | 翻訳日:2024-08-19 20:24:02 公開日:2024-08-16 |
# 結晶材料生成のための空間群インフォーム変換器
Space Group Informed Transformer for Crystalline Materials Generation ( http://arxiv.org/abs/2403.15734v2 ) ライセンス: Link先を確認 | Zhendong Cao, Xiaoshan Luo, Jian Lv, Lei Wang, | (参考訳) 本稿では, 変圧器を用いた自己回帰モデルであるCrystalFormerを紹介した。
空間群対称性の組み入れは結晶空間を著しく単純化し、結晶材料のデータおよび効率的な生成モデリングの計算に不可欠である。
ワイコフ位置の顕著な離散的およびシーケンシャルな性質を利用して、CrystalFormerは単位セル内の対称性に等価な原子の種類と位置を直接予測することで結晶を生成することを学ぶ。
本稿では,対称構造の初期化や要素置換といった標準的なタスクにおけるCrystalFormerの利点を,一般的な結晶構造予測ソフトウェアで実装された従来の手法と比較して示す。
さらに,プロパティ誘導材料設計におけるCrystalFormerの適用について,プラグ・アンド・プレイ方式で紹介する。
解析の結果,CrystalFormerは材料データセットを圧縮することにより,高感度な固体化学知識とヒューリスティックスを取り込み,結晶材料の体系的な探索を可能にした。
クリスタルホルダーの単純さ、汎用性、柔軟性は、物質モデリングと発見の新たな時代を告げる、結晶材料全体の基盤モデルとして期待できるアーキテクチャとして位置づけている。
We introduce CrystalFormer, a transformer-based autoregressive model specifically designed for space group-controlled generation of crystalline materials. The incorporation of space group symmetry significantly simplifies the crystal space, which is crucial for data and compute efficient generative modeling of crystalline materials. Leveraging the prominent discrete and sequential nature of the Wyckoff positions, CrystalFormer learns to generate crystals by directly predicting the species and locations of symmetry-inequivalent atoms in the unit cell. We demonstrate the advantages of CrystalFormer in standard tasks such as symmetric structure initialization and element substitution compared to conventional methods implemented in popular crystal structure prediction software. Moreover, we showcase the application of CrystalFormer of property-guided materials design in a plug-and-play manner. Our analysis shows that CrystalFormer ingests sensible solid-state chemistry knowledge and heuristics by compressing the material dataset, thus enabling systematic exploration of crystalline materials. The simplicity, generality, and flexibility of CrystalFormer position it as a promising architecture to be the foundational model of the entire crystalline materials space, heralding a new era in materials modeling and discovery. | 翻訳日:2024-08-19 20:24:02 公開日:2024-08-16 |
# AirPilot:ロバストな自律飛行のためのPPOベースのDRL自動調整型非線形PIDドローンコントローラ
AirPilot: A PPO-based DRL Auto-Tuned Nonlinear PID Drone Controller for Robust Autonomous Flights ( http://arxiv.org/abs/2404.00204v2 ) ライセンス: Link先を確認 | Junyang Zhang, Cristian Emanuel Ocampo Rivera, Kyle Tyni, Steven Nguyen, Ulices Santa Cruz Leal, Yasser Shoukry, | (参考訳) 航法精度、速度、安定性は、安全なUAV飛行操作および動的環境における効果的な飛行ミッション実行に不可欠である。
異なる飛行ミッションには、エネルギー消費の最小化、正確な位置決めの達成、速度の最大化など、様々な目的がある。
異なる目的に適応できるコントローラーは、非常に貴重である。
Proportional Integral Derivative Controlsは、ドローン制御システムにおいて最も一般的で広く使われている制御アルゴリズムの1つであるが、その線形制御アルゴリズムは、ダイナミックな風条件や複雑なドローンシステムの非線形特性を捉えていない。
手動で様々なミッションのためにPIDのゲインを調整するのは時間がかかるし、かなりの専門知識を必要とする。
本稿では,非線型深度強化学習(DRL)によるPID型ドローン制御システムであるAirPilotを提案することで,ドローンの飛行制御に革命をもたらすことを目的とする。
AirPilotコントローラは、従来のPID制御のシンプルさと有効性と、DRLの適応性、学習能力、最適化能力を組み合わせる。
これにより、環境が動的であり、ミッション固有のパフォーマンス要求が高い現代のドローンアプリケーションに適している。
私たちは、Gazeboシミュレータ内でDRLエージェントをトレーニングするためにCOEX Clover自律ドローンを使用し、その後、実際の実験室でそれを実装しました。
Airpilotは、ナビゲーションエラーを82%以上削減し、オーバーシュート、スピード、設定時間を大幅に改善する。
Navigation precision, speed and stability are crucial for safe UAV flight maneuvers and effective flight mission executions in dynamic environments. Different flight missions may have varying objectives, such as minimizing energy consumption, achieving precise positioning, or maximizing speed. A controller that can adapt to different objectives on the fly is highly valuable. Proportional Integral Derivative controllers are one of the most popular and widely used control algorithms for drones control systems, but their linear control algorithm fails to capture the nonlinear nature of the dynamic wind conditions and complex drone system. Manually tuning the PID gains for various missions can be time-consuming and requires significant expertise. This paper aims to revolutionize drone flight control by presenting the AirPilot, a nonlinear Deep Reinforcement Learning (DRL) - enhanced PID drone controller using Proximal Policy Optimization. AirPilot controller combines the simplicity and effectiveness of traditional PID control with the adaptability, learning capability, and optimization potential of DRL. This makes it better suited for modern drone applications where the environment is dynamic, and mission-specific performance demands are high. We employed a COEX Clover autonomous drone for training the DRL agent within the Gazebo simulator and subsequently implemented it in a real-world lab setting, which marks a significant milestone as one of the first attempts to apply a DRL-based flight controller on an actual drone. Airpilot is capable of reducing the navigation error by more than 82% and improving overshoot, speed and settling time significantly. | 翻訳日:2024-08-19 20:24:02 公開日:2024-08-16 |
# 構造化情報強調:抽象的意味表現をLLMに統合したオープンドメイン対話評価の強化
Emphasising Structured Information: Integrating Abstract Meaning Representation into LLMs for Enhanced Open-Domain Dialogue Evaluation ( http://arxiv.org/abs/2404.01129v3 ) ライセンス: Link先を確認 | Bohao Yang, Kun Zhao, Chen Tang, Dong Liu, Liang Zhan, Chenghua Lin, | (参考訳) 自動オープンドメイン対話評価が注目されている。
トレーニング可能な評価指標は、通常、真の正の反応とランダムに選択された負の反応で訓練され、与えられたコンテキストとより大きなコンテンツ類似性を共有する応答により高いスコアを割り当てる傾向がある。
しかし、文脈と高い内容の類似性があるにもかかわらず、敵対的負の反応は意味的に異なる。
その結果、既存の評価指標は、そのような応答を評価するのに十分な堅牢性を持っておらず、その結果、人間の判断との相関が低くなる。
近年,オープンドメイン対話評価におけるLarge Language Models (LLMs) の有効性が実証されているが,敵対的ネガティブな例を効果的に扱う上では,依然として課題に直面している。
本稿では、ドメイン固有言語モデル(SLM)と抽象的意味表現(AMR)の知識を組み合わせたオープンドメイン対話評価のための効果的なフレームワークを提案する。
SLMは、対話意味表現学習の強化のためのゲーティング機構を通じて、対話のAMRグラフ情報を明示的に組み込むことができる。
SLMによる評価結果とAMRグラフ情報の両方をLLMのプロンプトに組み込んで評価性能を向上させる。
オープンドメイン対話評価タスクにおける実験結果から,提案手法が最先端のベースラインよりも優れていること,特に敵対的負の応答を識別する上での優位性が確認された。
私たちのコードとデータはhttps://github.com/Bernard-Yang/SIMAMR.comで公開されています。
Automatic open-domain dialogue evaluation has attracted increasing attention. Trainable evaluation metrics, typically trained with true positive and randomly selected negative responses, tend to assign higher scores to responses that share greater content similarity with a given context. However, adversarial negative responses, despite possessing high content similarity with the contexts, are semantically different. Consequently, existing evaluation metrics are not robust enough to evaluate such responses, resulting in low correlations with human judgments. While recent studies have demonstrated the effectiveness of Large Language Models (LLMs) for open-domain dialogue evaluation, they still face challenges in effectively handling adversarial negative examples. In this paper, we propose an effective framework for open-domain dialogue evaluation, which combines domain-specific language models (SLMs) enhanced with Abstract Meaning Representation (AMR) knowledge with LLMs. The SLMs can explicitly incorporate AMR graph information of the dialogue through a gating mechanism for enhanced dialogue semantic representation learning. Both the evaluation result from the SLMs and the AMR graph information are incorporated into the LLM's prompt for enhanced evaluation performance. Experimental results on open-domain dialogue evaluation tasks demonstrate the superiority of our method compared to a wide range of state-of-the-art baselines, especially in discriminating adversarial negative responses. Our code and data are publicly available at https://github.com/Bernard-Yang/SIMAMR. | 翻訳日:2024-08-19 20:24:02 公開日:2024-08-16 |
# フィボナッチの編み物
Braiding Fibonacci anyons ( http://arxiv.org/abs/2404.01778v4 ) ライセンス: Link先を確認 | Ludmil Hadjiivanov, Lachezar S. Georgiev, | (参考訳) フィボナッチ・アロン (Fibonacci anyons) は非アベリア核融合規則の最も単純なモデルを与える: [1] x [1] = [0] + [1]。
我々は、Z_3パラフェルミオン分数量子ホール状態における準粒子励起として実現されたフィボナッチアロンに基づく位相量子レジスタの共形場理論の構築を提案する。
この目的のために、n = 4 のフィボナッチ場の相関関数に対するアルドンとシューテンスの結果は、任意の n (および3 r 電子) の場合に拡張される。
得られた相関器の制動特性には特に注意が払われる。
フィボナッチの n-点共形ブロックに作用するアルティンブレイド群の単体表現の構成を詳細に説明する。
低 n に対して(n = 8 まで)、ブレイド群生成子の行列は明示的に表される。
単純な再帰公式は、任意の n への構成を努力することなく拡張することができる。
最後に、2N + 2 フィボナッチアロンの共形ブロックの観点から N 量子ビット計算空間を構築する。
Fibonacci anyons provide the simplest possible model of non-Abelian fusion rules: [1] x [1] = [0] + [1]. We propose a conformal field theory construction of topological quantum registers based on Fibonacci anyons realized as quasiparticle excitations in the Z_3 parafermion fractional quantum Hall state. To this end, the results of Ardonne and Schoutens for the correlation function of n = 4 Fibonacci fields are extended to the case of arbitrary n (and 3 r electrons). Special attention is paid to the braiding properties of the obtained correlators. We explain in details the construction of a monodromy representation of the Artin braid group acting on n-point conformal blocks of Fibonacci anyons. For low n (up to n = 8), the matrices of braid group generators are displayed explicitly. A simple recursion formula makes it possible to extend without efforts the construction to any n. Finally, we construct N qubit computational spaces in terms of conformal blocks of 2N + 2 Fibonacci anyons. | 翻訳日:2024-08-19 20:12:39 公開日:2024-08-16 |
# ガウスパンケーキ : 実視的内視鏡的再建のための幾何学的3次元ガウススプレイティング
Gaussian Pancakes: Geometrically-Regularized 3D Gaussian Splatting for Realistic Endoscopic Reconstruction ( http://arxiv.org/abs/2404.06128v2 ) ライセンス: Link先を確認 | Sierra Bonilla, Shuai Zhang, Dimitrios Psychogyios, Danail Stoyanov, Francisco Vasconcelos, Sophia Bano, | (参考訳) 大腸癌の診断では、従来の大腸内視鏡検査では、視野の制限や深度情報の欠如など、重要な限界に直面しており、虫垂病変の検出を阻害する可能性がある。
現在の方法では、大腸表面の包括的かつ正確な3次元再構築が困難であり、欠落した領域を最小化し、先管ポリープの再検査に役立てることができる。
そこで我々は,3次元ガウス分割(3D GS)とリカレントニューラルネットワークを用いた同時局在マッピング(RNNSLAM)システムを組み合わせた「ガウスパンケーキ」を提案する。
3D GSフレームワークに幾何学的, 深さ的規則化を導入することで, ガウスと結腸表面とのより正確なアライメントが確保され, よりスムーズな3D再構成が可能となった。
3つの多様なデータセットで評価したところ、ガウスパンケーキは、PSNRが18%、SSIMが16%向上し、新しいビュー合成品質が向上した。
また、100倍以上の高速レンダリングと10倍以上のトレーニング時間を提供し、リアルタイムアプリケーションに実用的なツールを提供する。
したがって、このことは大腸癌の検出と診断を改善するための臨床翻訳の達成を約束する。
Within colorectal cancer diagnostics, conventional colonoscopy techniques face critical limitations, including a limited field of view and a lack of depth information, which can impede the detection of precancerous lesions. Current methods struggle to provide comprehensive and accurate 3D reconstructions of the colonic surface which can help minimize the missing regions and reinspection for pre-cancerous polyps. Addressing this, we introduce 'Gaussian Pancakes', a method that leverages 3D Gaussian Splatting (3D GS) combined with a Recurrent Neural Network-based Simultaneous Localization and Mapping (RNNSLAM) system. By introducing geometric and depth regularization into the 3D GS framework, our approach ensures more accurate alignment of Gaussians with the colon surface, resulting in smoother 3D reconstructions with novel viewing of detailed textures and structures. Evaluations across three diverse datasets show that Gaussian Pancakes enhances novel view synthesis quality, surpassing current leading methods with a 18% boost in PSNR and a 16% improvement in SSIM. It also delivers over 100X faster rendering and more than 10X shorter training times, making it a practical tool for real-time applications. Hence, this holds promise for achieving clinical translation for better detection and diagnosis of colorectal cancer. | 翻訳日:2024-08-19 20:12:39 公開日:2024-08-16 |
# LLMにおけるバイアス軽減のフィードバックとしての多変数議論からの強化学習
Reinforcement Learning from Multi-role Debates as Feedback for Bias Mitigation in LLMs ( http://arxiv.org/abs/2404.10160v6 ) ライセンス: Link先を確認 | Ruoxi Cheng, Haoxuan Ma, Shuirong Cao, Jiaqi Li, Aihua Pei, Zhiqiang Wang, Pengliang Ji, Haoyu Wang, Jiaqi Huo, | (参考訳) LLMのバイアスは、ユーザエクスペリエンスや社会的成果を損なう可能性がある。
しかし、現在のバイアス緩和法は、しばしば人間の強いフィードバック、他のトピックへの伝達可能性の欠如、過信とランダムなアウトプットを必要とする。
LLMをロールプレイングシナリオに組み込むことで、バイアスを認識し緩和する能力が向上することがわかった。
そこで本研究では,従来のRLHFのフィードバックに取って代わるバイアス緩和手法であるReinforcement Learning from Multi-role Debates as Feedback (RLDF)を提案する。
強化学習における報酬モデルのトレーニングに,高バイアスと低バイアスの両方のインスタンスを含むデータセットを作成するために,LLMをマルチロール討論に活用する。
提案手法は,(1) 自己回帰,(2) 教師学生,(2) GPT-3.5-turbo のような先進的な LLM が LLM を指導し,この課題を遂行する。
BBQ とデータセットの異なる LLM に対する実験結果から,バイアス緩和におけるアプローチの有効性が示された。
ソースコードとデータセットは \texttt{https://anonymous.4open.science/r/RLDF-E344} で公開されています。
Bias in LLMs can harm user experience and societal outcomes. However, current bias mitigation methods often require intensive human feedback, lack transferability to other topics or yield overconfident and random outputs. We find that involving LLMs in role-playing scenario boosts their ability to recognize and mitigate biases. Based on this, we propose Reinforcement Learning from Multi-role Debates as Feedback (RLDF), a novel approach for bias mitigation replacing human feedback in traditional RLHF. We utilize LLMs in multi-role debates to create a dataset that includes both high-bias and low-bias instances for training the reward model in reinforcement learning. Our approach comprises two modes: (1) self-reflection, where the same LLM participates in multi-role debates, and (2) teacher-student, where a more advanced LLM like GPT-3.5-turbo guides the LLM to perform this task. Experimental results across different LLMs on BBQ and our datasets demonstrate the effectiveness of our approach in bias mitigation. Our source code and datasets are available at \texttt{https://anonymous.4open.science/r/RLDF-E344}. | 翻訳日:2024-08-19 20:12:39 公開日:2024-08-16 |
# ダイヤモンドマイクロシスト内におけるNVアンサンブルを用いたオンチップ磁界バイアスを用いたマイクロスケールファイバ集積ベクトル磁力計
Microscale Fiber-Integrated Vector Magnetometer with On-Tip Field Biasing using NV Ensembles in Diamond Microcystals ( http://arxiv.org/abs/2404.14089v2 ) ライセンス: Link先を確認 | Jonas Homrighausen, Frederik Hoffmann, Jens Pogorzelski, Peter Glösekötter, Markus Gregor, | (参考訳) 磁場の量子センシングにおいて、ダイヤモンド中の窒素空孔中心のアンサンブルは、厳しい環境で動作しながら高い感度、高い帯域幅、空間分解能を提供する。
さらに、4つの結晶軸に沿った欠陥中心の配向は固有の座標系を形成し、単一のダイヤモンド結晶内のベクトル磁気学を可能にする。
多くのベクトル磁気センサは3次元の磁場情報の完全な回復のために既知のバイアス磁場に依存しているが、外部の3次元ヘルムホルツコイルや永久磁石を用いることで、装置の小型化を妨げている。
ここでは、ファイバー積分マイクロスケールコイルを繊維先端に利用し、局所化された一軸磁場を生成する新しいアプローチを提案する。
同じファイバチップコイルは、バイアスティー内の直流信号とマイクロ波信号を組み合わせることでスピン制御に並列に使用される。
一軸バイアス場を用いたベクトル磁気メトリーを実装するために、ダイヤモンド結晶の配向を事前に選択し、3つの回転平面で静的磁場を回転させることにより、それを完全に特徴づける。
フルソリッド角度におけるベクトル磁界の測定を、19.4\:\textrm{nT/Hz}^{1/2}$とマイクロスケール空間分解能で行うとともに、ファイバーセンサヘッドの断面を1\:\textrm{mm}^2.$以下にする。
In quantum sensing of magnetic fields, ensembles of nitrogen-vacancy centers in diamond offer high sensitivity, high bandwidth and outstanding spatial resolution while operating in harsh environments. Moreover, the orientation of defect centers along four crystal axes forms an intrinsic coordinate system, enabling vector magnetometry within a single diamond crystal. While most vector magnetometers rely on a known bias magnetic field for full recovery of three-dimensional field information, employing external 3D Helmholtz coils or permanent magnets results in bulky, laboratory-bound setups, impeding miniaturization of the device. Here, a novel approach is presented that utilizes a fiber-integrated microscale coil at the fiber tip to generate a localized uniaxial magnetic field. The same fiber-tip coil is used in parallel for spin control by combining DC and microwave signals in a bias tee. To implement vector magnetometry using a uniaxial bias field, we preselect the orientation of the diamond crystal and then fully characterize it by rotating a static magnetic field in three planes of rotation. We demonstrate the measurement of vector magnetic fields in the full solid angle with a shot-noise limited sensitivity of $19.4\:\textrm{nT/Hz}^{1/2}$ and microscale spatial resolution while achieving a cross section of the fiber sensor head below $1\:\textrm{mm}^2.$ | 翻訳日:2024-08-19 20:12:39 公開日:2024-08-16 |
# Metric3D v2: ゼロショットメートル深度と表面正規化のための垂直な単色幾何学的基礎モデル
Metric3D v2: A Versatile Monocular Geometric Foundation Model for Zero-shot Metric Depth and Surface Normal Estimation ( http://arxiv.org/abs/2404.15506v2 ) ライセンス: Link先を確認 | Mu Hu, Wei Yin, Chi Zhang, Zhipeng Cai, Xiaoxiao Long, Hao Chen, Kaixuan Wang, Gang Yu, Chunhua Shen, Shaojie Shen, | (参考訳) ゼロショット距離深度と1枚の画像からの表面正規推定のための幾何学的基礎モデルであるMetric3D v2を導入する。
深さと正規度は幾何学的に関連し、高度に補完的であるが、それらは異なる課題を提示する。
SoTA単分子深度法は、実世界のメトリクスを回復できないアフィン不変深度を学習することでゼロショットの一般化を実現する。
一方、SoTA正規推定法は、大規模ラベル付きデータの欠如により、ゼロショット性能が制限されている。
これらの問題に対処するために,計量深度推定と表面正規度推定の両方の解を提案する。
距離深度推定において、ゼロショット単一ビューモデルの鍵となるのは、様々なカメラモデルからの距離のあいまいさを解消し、大規模データトレーニングを行うことである。
本稿では,あいまいさ問題に明示的に対処し,既存の単分子モデルにシームレスに接続可能な標準カメラ空間変換モジュールを提案する。
表面の正規度推定には, 様々なデータ知識を計量深度から抽出し, 正規度推定器が通常のラベルを超えて学習できるようにする, 共同深度正規度最適化モジュールを提案する。
これらのモジュールを組み込んだ私たちのディープノーマルモデルは、異なるタイプのアノテーションを持つ何千ものカメラモデルから1600万枚以上の画像を安定的にトレーニングすることができる。
提案手法は, ランダムに収集したインターネット画像上での計測3次元構造の正確な復元を可能にする。
私たちのプロジェクトページはhttps://JUGGHM.github.io/Metric3Dv2.comです。
We introduce Metric3D v2, a geometric foundation model for zero-shot metric depth and surface normal estimation from a single image, which is crucial for metric 3D recovery. While depth and normal are geometrically related and highly complimentary, they present distinct challenges. SoTA monocular depth methods achieve zero-shot generalization by learning affine-invariant depths, which cannot recover real-world metrics. Meanwhile, SoTA normal estimation methods have limited zero-shot performance due to the lack of large-scale labeled data. To tackle these issues, we propose solutions for both metric depth estimation and surface normal estimation. For metric depth estimation, we show that the key to a zero-shot single-view model lies in resolving the metric ambiguity from various camera models and large-scale data training. We propose a canonical camera space transformation module, which explicitly addresses the ambiguity problem and can be effortlessly plugged into existing monocular models. For surface normal estimation, we propose a joint depth-normal optimization module to distill diverse data knowledge from metric depth, enabling normal estimators to learn beyond normal labels. Equipped with these modules, our depth-normal models can be stably trained with over 16 million of images from thousands of camera models with different-type annotations, resulting in zero-shot generalization to in-the-wild images with unseen camera settings. Our method enables the accurate recovery of metric 3D structures on randomly collected internet images, paving the way for plausible single-image metrology. Our project page is at https://JUGGHM.github.io/Metric3Dv2. | 翻訳日:2024-08-19 20:12:39 公開日:2024-08-16 |
# ミドルアーキテクチャの基準
Middle Architecture Criteria ( http://arxiv.org/abs/2404.17757v2 ) ライセンス: Link先を確認 | John Beverley, Giacomo De Colle, Mark Jensen, Carter Benson, Barry Smith, | (参考訳) 中レベルのオントロジーは、異なるドメインにまたがる用語とデータを統合するために使用される。
しかしながら、あるオントロジーが中間レベルとして数えられるかどうかを決定するための明確な基準は存在しない。
このような特徴を与える試みは失敗に終わり、中級オントロジーとして進歩してきたこれらの単一オントロジーの特徴の特定に焦点を絞ったものであると我々は信じている。
残念なことに、この種の単一オントロジーは一般にトップレベルとミドルレベルの混合であり、時にはドメインレベルの用語の混合である。
明確にするために、我々は1つ以上のオントロジーの集合体が中級アーキテクチャと呼ばれるものに生息するのに必要かつ十分な条件を特定することを目指している。
Mid-level ontologies are used to integrate terminologies and data across disparate domains. There are, however, no clear, defensible criteria for determining whether a given ontology should count as mid-level, because we lack a rigorous characterization of what the middle level of generality is supposed to contain. Attempts to provide such a characterization have failed, we believe, because they have focused on the goal of specifying what is characteristic of those single ontologies that have been advanced as mid-level ontologies. Unfortunately, single ontologies of this sort are generally a mixture of top- and mid-level, and sometimes even of domain-level terms. To gain clarity, we aim to specify the necessary and sufficient conditions for a collection of one or more ontologies to inhabit what we call a mid-level architecture. | 翻訳日:2024-08-19 20:12:39 公開日:2024-08-16 |
# 共通コアオントロジー
The Common Core Ontologies ( http://arxiv.org/abs/2404.17758v2 ) ライセンス: Link先を確認 | Mark Jensen, Giacomo De Colle, Sean Kindya, Cameron More, Alexander P. Cox, John Beverley, | (参考訳) Common Core Ontology (CCO)は、Basic Formal Ontologyを拡張する中レベルのオントロジースイートとして設計されている。
CCOはその後、幅広いユーザやアプリケーションによって採用され、最初の標準中規模オントロジーとして提案されている。
これらの成功にもかかわらず、CCOの内容と設計パターンに関するドキュメントは、比較的最小限である。
本論文は,Common Core Ontologyスイートを構成する11のオントロジーの内容に関する議論を通じて,中間層オントロジースイートに拡張されたドキュメンテーションを提供するためのステップである。
The Common Core Ontologies (CCO) are designed as a mid-level ontology suite that extends the Basic Formal Ontology. CCO has since been increasingly adopted by a broad group of users and applications and is proposed as the first standard mid-level ontology. Despite these successes, documentation of the contents and design patterns of the CCO has been comparatively minimal. This paper is a step toward providing enhanced documentation for the mid-level ontology suite through a discussion of the contents of the eleven ontologies that collectively comprise the Common Core Ontology suite. | 翻訳日:2024-08-19 20:12:39 公開日:2024-08-16 |
# BiLO: PDE逆問題に対するバイレベルローカル演算子学習
BiLO: Bilevel Local Operator Learning for PDE inverse problems ( http://arxiv.org/abs/2404.17789v3 ) ライセンス: Link先を確認 | Ray Zirui Zhang, Xiaohui Xie, John S. Lowengrub, | (参考訳) 本稿では、PDE逆問題を二段階最適化問題として定式化することにより、偏微分方程式(PDE)の逆問題の解法を提案する。
上層部ではPDEパラメータに関してデータ損失を最小限に抑える。
下層部では、与えられたPDEパラメータの近傍でPDE解演算子を局所的に近似するようにニューラルネットワークを訓練し、上層部最適化問題に対する降下方向の正確な近似を可能にする。
下位レベル損失関数は、PDEパラメータに対する残差と微分の両方のL2ノルムを含む。
上層と下層の両方の最適化問題に勾配勾配を同時に適用し,有効かつ高速なアルゴリズムを実現する。
この手法はBiLO(Bilevel Local Operator Learning)と呼ばれ、補助変数の導入によってPDE内の未知の関数を効率的に推論することができる。
複数のPDEシステムに対する広範な実験により,本手法は強いPDE制約を強制し,スパースかつノイズの多いデータに対して堅牢であり,既存手法のソフトPDE制約に固有の残差とデータ損失のバランスを取る必要がなくなることを示した。
We propose a new neural network based method for solving inverse problems for partial differential equations (PDEs) by formulating the PDE inverse problem as a bilevel optimization problem. At the upper level, we minimize the data loss with respect to the PDE parameters. At the lower level, we train a neural network to locally approximate the PDE solution operator in the neighborhood of a given set of PDE parameters, which enables an accurate approximation of the descent direction for the upper level optimization problem. The lower level loss function includes the L2 norms of both the residual and its derivative with respect to the PDE parameters. We apply gradient descent simultaneously on both the upper and lower level optimization problems, leading to an effective and fast algorithm. The method, which we refer to as BiLO (Bilevel Local Operator learning), is also able to efficiently infer unknown functions in the PDEs through the introduction of an auxiliary variable. Through extensive experiments over multiple PDE systems, we demonstrate that our method enforces strong PDE constraints, is robust to sparse and noisy data, and eliminates the need to balance the residual and the data loss, which is inherent to the soft PDE constraints in many existing methods. | 翻訳日:2024-08-19 20:12:39 公開日:2024-08-16 |
# 量子力学的に放射されるブラックホールの熱力学の普遍性
Universality of the thermodynamics of a quantum-mechanically radiating black hole departing from thermality ( http://arxiv.org/abs/2404.18128v3 ) ライセンス: Link先を確認 | Christian Corda, Carlo Cafaro, | (参考訳) マチュールとメフタは2023年の重力研究財団エッセイコンペティションでブラックホール熱力学の普遍性を証明した3等賞を受賞した。
具体的には、ECO(Extremely Compact Object)は、ECOが事象の地平線を持つかどうかに関わらず、同じBH熱力学特性を持つ必要があることを示した。
結果は目覚ましいが、BH放射スペクトルが正確に熱特性を持つ近似の下で得られた。
実際、エネルギー保存とBHバック反応に基づく強い議論は、ホーキング放射のスペクトルが正確には熱ではないことを示唆している。
この研究では、マチュールとメフタの結果は、BH力学状態の概念を用いて放射スペクトルが正確に熱的でない場合に拡張される。
Mathur and Mehta won the third prize in the 2023 Gravity Research Foundation Essay Competition for proving the universality of black hole (BH) thermodynamics. Specifically, they demonstrated that any Extremely Compact Object (ECO) must have the same BH thermodynamic properties regardless of whether or not the ECO possesses an event horizon. The result is remarkable, but it was obtained under the approximation according to which the BH emission spectrum has an exactly thermal character. In fact, strong arguments based on energy conservation and BH back reaction imply that the spectrum of the Hawking radiation cannot be exactly thermal. In this work the result of Mathur and Mehta will be extended to the case where the radiation spectrum is not exactly thermal using the concept of BH dynamical state. | 翻訳日:2024-08-19 20:12:39 公開日:2024-08-16 |
# 能力:オントロジー
Capabilities: An Ontology ( http://arxiv.org/abs/2405.00183v2 ) ライセンス: Link先を確認 | John Beverley, David Limbaugh, Eric Merrell, Peter M. Koch, Barry Smith, | (参考訳) 私たちの日常生活では、科学や他のすべての領域と同様に、くしゃみ、汗をかいて、ダンダフを流すといったプロセスで実現される膨大な数の配置(傾向、ポテンシャル、力)に遭遇します。
氷の上で運転するときに、車がうまく反応すること、オオカミに追われて、ウサギの肺がうまく反応すること、などの認識を持つ、単なる配置のサブセットだと考えられます。
例えば,現在サイロ化方式で収集されている領域において,オントロジーに基づく研究に有用な拡張を提供することによって,さまざまな目的を達成するのに十分な汎用性を持つ能力について,ロバストなオントロジー的説明を提供しようとしている。
In our daily lives, as in science and in all other domains, we encounter huge numbers of dispositions (tendencies, potentials, powers) which are realized in processes such as sneezing, sweating, shedding dandruff, and on and on. Among this plethora of what we can think of as mere dispositions is a subset of dispositions in whose realizations we have an interest a car responding well when driven on ice, a rabbits lungs responding well when it is chased by a wolf, and so on. We call the latter capabilities and we attempt to provide a robust ontological account of what capabilities are that is of sufficient generality to serve a variety of purposes, for example by providing a useful extension to ontology-based research in areas where capabilities data are currently being collected in siloed fashion. | 翻訳日:2024-08-19 20:12:39 公開日:2024-08-16 |
# デジタルツインの基礎
Foundations for Digital Twins ( http://arxiv.org/abs/2405.00960v2 ) ライセンス: Link先を確認 | Finn Wilson, Regina Hurley, Dan Maxwell, Jon McLellan, John Beverley, | (参考訳) さまざまな産業やドメインにおけるデジタルツインへの依存の高まりは、セマンティック相互運用性の課題をもたらしている。
オントロジーはこのような課題に対処するためのよく知られた戦略であるが、現象の複雑さを考えると、オントロジー表現のレベルでの相互運用性の問題を再導入するリスクがある。
このような落とし穴を避けるため、我々は、広く使われている基本形式オントロジーの拡張であるCommon Core Ontologyの文脈において、デジタル双生児の特性を導入し、擁護する。
デジタル双生児のドメインに関する定義とデザインパターンのセットを提供し、デジタル双生児とその物理的な双生児の実証的なユースケースで強調する。
そこで我々は,デジタル双生児に関連する,より洗練されたオントロジコンテンツを構築するための基盤を提供する。
The growing reliance on digital twins across various industries and domains brings with it semantic interoperability challenges. Ontologies are a well-known strategy for addressing such challenges, though given the complexity of the phenomenon, there are risks of reintroducing the interoperability challenges at the level of ontology representations. In the interest of avoiding such pitfalls, we introduce and defend characterizations of digital twins within the context of the Common Core Ontologies, an extension of the widely-used Basic Formal Ontology. We provide a set of definitions and design patterns relevant to the domain of digital twins, highlighted by illustrative use cases of digital twins and their physical counterparts. In doing so, we provide a foundation on which to build more sophisticated ontological content related and connected to digital twins. | 翻訳日:2024-08-19 20:12:39 公開日:2024-08-16 |
# 量子パラメトリック発振器における共鳴力誘起対称性の破れ
Resonant-force induced symmetry breaking in a quantum parametric oscillator ( http://arxiv.org/abs/2405.02706v2 ) ライセンス: Link先を確認 | D. K. J. Boneß, W. Belzig, M. I. Dykman, | (参考訳) パラメトリック変調発振器は、変調周波数の半分で2つの反対位相振動状態を有する。
振動周波数における余分な力は状態の対称性を破る。
この効果は、発振器と熱浴とのカップリングによって生じる力と量子ゆらぎの相互作用によって非常に強い。
力は振動子の量子状態上の揺らぎによって引き起こされるウォークの速度を変化させる。
状態の数が大きければ、その効果は振動状態の切り替え率において指数関数的に大きな要素に蓄積される。
この因子は, 分岐点に近すぎるが, 分岐点に近づかない, 分岐点に近づかない, 予知系を含む限定的なケースで発見し, 解析する。
A parametrically modulated oscillator has two opposite-phase vibrational states at half the modulation frequency. An extra force at the vibration frequency breaks the symmetry of the states. The effect can be extremely strong due to the interplay between the force and the quantum fluctuations resulting from the coupling of the oscillator to a thermal bath. The force changes the rates of the fluctuation-induced walk over the quantum states of the oscillator. If the number of the states is large, the effect accumulates to an exponentially large factor in the rate of switching between the vibrational states. We find the factor and analyze it in the limiting cases including the prebifurcation regime where the system is close but not too close to the bifurcation point. | 翻訳日:2024-08-19 20:02:46 公開日:2024-08-16 |
# スケーリング法則による教師付き微調整データのラベル付け
Labeling supervised fine-tuning data with the scaling law ( http://arxiv.org/abs/2405.02817v2 ) ライセンス: Link先を確認 | Huanjun Kong, | (参考訳) 本稿では,GPU不足,GPTアクセスの制限,資金調達制限などの制約のある環境に対して,高品質なSupervised Fine-Tuningデータ取得方法を提供する。
我々は58kのチャットデータを前処理し、2.3kの質問を手動で注釈付けした。
その後、0.5Bから32Bのパラメータを含むQwenモデルの微調整を行った。
最適なバージョンでは29.07点のF1スコアが向上した。
これは、下流自然言語処理(NLP)タスクのための微調整大型言語モデル(LLM)の実現可能性を確認する。
私たちの貢献は次のとおりです。
1) ローランド適応(LoRA)重みのセットとともに、アルパカ形式でのSFTトレーニングデータの作成
2)スケーリング法則を利用した高品質なデータ取得手法の開発。
スクリプト、alpacaフォーマット、実験トラックを備えた生データはGithub(https://github.com/InternLM/HuixiangDou/tree/main/web/tools)、HugingFace(https://huggingface.co/tpoisonooo)、WandB(https://wandb.ai/tpoisonooo/huixiangdou-cr/table?nw=nwusertpoisonooo)でオープンソース公開されている。
関連するデータのプライバシーは、ユーザによって承認されている。
SFTデータとライセンスはncnnコントリビュータグループから取得されている。
This paper introduces a multi-stage manual annotation calibrated by the scaling law, offering a high-quality Supervised Fine-Tuning data acquisition method for environments with constrained resources like GPU poor, limited GPT access, and funding restrictions. We have preprocessed 58k authentic chat data and manually annotated 2.3k questions. After this, we conducted fine-tuning on Qwen models, ranging from 0.5B to 32B parameters. The optimal version improved 29.07 in F1 score. This confirms the viability of fine-tuning Large Language Model (LLM) for downstream Natural Language Processing (NLP) tasks. Our contributions are: 1) Created Supervised Fine-Tuning (SFT) training data in alpaca format, along with a set of Low-Rank Adaptation (LoRA) weights, and 2) Developed a method for acquiring high-quality data leveraging scaling law principle. The script, raw data with alpaca format and experiments track are open-sourced on Github (https://github.com/InternLM/HuixiangDou/tree/main/web/tools), HuggingFace (https://huggingface.co/tpoisonooo) and WandB (https://wandb.ai/tpoisonooo/huixiangdou-cr/table?nw=nwusertpoisonooo). The privacy of the data involved has been authorized by users. SFT data and license comes from ncnn contributors group. | 翻訳日:2024-08-19 20:02:45 公開日:2024-08-16 |
# スプリット学習に対する特徴指向的再構成攻撃
A Stealthy Wrongdoer: Feature-Oriented Reconstruction Attack against Split Learning ( http://arxiv.org/abs/2405.04115v2 ) ライセンス: Link先を確認 | Xiaoyang Xu, Mengda Yang, Wenzhe Yi, Ziang Li, Juan Wang, Hongxin Hu, Yong Zhuang, Yaxin Liu, | (参考訳) Split Learning(SL)は、プライバシ保護機能と最小限の計算要件で有名な分散学習フレームワークである。
以前の研究は、トレーニングデータを再構築するサーバ敵によるSLシステムの潜在的なプライバシー侵害について、一貫して強調している。
しかし、これらの研究は攻撃性能を高めるために強い仮定や妥協システムに頼っていることが多い。
本稿では,機能指向再構築攻撃 (FORA) と呼ばれる,SL上での半正直なデータ再構成攻撃について紹介する。
以前の作業とは対照的に、ForceAは限られた事前知識に依存しており、特にクライアントの個人情報を知らずに、サーバは公衆からの補助的なサンプルを利用する。
これにより、FOAは密かに攻撃を実行し、堅牢なパフォーマンスを達成することができる。
FORAが悪用した重要な脆弱性は、被害者のクライアントが出力するスマッシュデータにおいて、モデル表現の優先順位が明らかにされることである。
FORAは、特徴レベルの転送学習を通じて代替クライアントを構築し、被害者のクライアントの表現嗜好を忠実に模倣することを目的としている。
この代替クライアントを活用して、サーバは攻撃モデルをトレーニングして、プライベートデータを効果的に再構築する。
大規模な実験では、最先端の手法と比較してFORAの優れた性能を示している。
さらに,提案手法の適用可能性について,多種多様な設定と先進的な防衛戦略を体系的に評価した。
Split Learning (SL) is a distributed learning framework renowned for its privacy-preserving features and minimal computational requirements. Previous research consistently highlights the potential privacy breaches in SL systems by server adversaries reconstructing training data. However, these studies often rely on strong assumptions or compromise system utility to enhance attack performance. This paper introduces a new semi-honest Data Reconstruction Attack on SL, named Feature-Oriented Reconstruction Attack (FORA). In contrast to prior works, FORA relies on limited prior knowledge, specifically that the server utilizes auxiliary samples from the public without knowing any client's private information. This allows FORA to conduct the attack stealthily and achieve robust performance. The key vulnerability exploited by FORA is the revelation of the model representation preference in the smashed data output by victim client. FORA constructs a substitute client through feature-level transfer learning, aiming to closely mimic the victim client's representation preference. Leveraging this substitute client, the server trains the attack model to effectively reconstruct private data. Extensive experiments showcase FORA's superior performance compared to state-of-the-art methods. Furthermore, the paper systematically evaluates the proposed method's applicability across diverse settings and advanced defense strategies. | 翻訳日:2024-08-19 20:02:45 公開日:2024-08-16 |
# EthereumスマートコントラクトにおけるPietrzakの検証遅延関数のコスト効果検証の実装検討
Implementation Study of Cost-Effective Verification for Pietrzak's Verifiable Delay Function in Ethereum Smart Contracts ( http://arxiv.org/abs/2405.06498v4 ) ライセンス: Link先を確認 | Suhyeon Lee, Euisin Gee, Junghee Lee, | (参考訳) Verifiable Delay Function (VDF) は、並列処理に耐性のある逐次処理による出力の最小遅延を保証する暗号概念である。
学術的にレビューされた重要なVDFプロトコルの1つは、Pietrzakによって提案されたVDFプロトコルである。
しかしながら、ブロックチェーン環境では、Pietrzak VDFには、長いポーフサイズと再帰的なプロトコル計算を含む欠点がある。
本稿では,Ethereum仮想マシン(EVM)上でのPietrzak VDF検証の実装研究について述べる。
その結果,Pietrzak の論文では,計算コストを特定のガス量として事前に定義した EVM の最適化に有効であることが判明した。
その結果、VDF検証のコストは4Mから2Mに削減でき、2048ビットのRSA鍵長を持つ8KB以下で証明長を生成できることがわかった。
Verifiable Delay Function (VDF) is a cryptographic concept that ensures a minimum delay before output through sequential processing, which is resistant to parallel computing. One of the significant VDF protocols academically reviewed is the VDF protocol proposed by Pietrzak. However, for the blockchain environment, the Pietrzak VDF has drawbacks including long poof size and recursive protocol computation. In this paper, we present an implementation study of Pietrzak VDF verification on Ethereum Virtual Machine (EVM). We found that the discussion in the Pietrzak's original paper can help a clear optimization in EVM where the costs of computation are predefined as the specific amounts of gas. In our results, the cost of VDF verification can be reduced from 4M to 2M gas, and the proof length can be generated under 8 KB with the 2048-bit RSA key length, which is much smaller than the previous expectation. | 翻訳日:2024-08-19 20:02:45 公開日:2024-08-16 |
# DualFocus: テキストに基づく人物再識別における可塑性記述の統合
DualFocus: Integrating Plausible Descriptions in Text-based Person Re-identification ( http://arxiv.org/abs/2405.07459v2 ) ライセンス: Link先を確認 | Yuchuan Deng, Zhanpeng Hu, Jiakun Han, Chuang Deng, Qijun Zhao, | (参考訳) テキストベースのPerson Re-identification (TPR)は、テキスト記述に基づいてデータセットから特定の個々の画像を取得することを目的としている。
既存のTPR手法は主に明示的で肯定的な特徴を認識することに焦点を当てており、しばしば否定的な記述の役割を見落としている。
この監視は、肯定的な基準を満たすが否定的な記述に基づいて除外されるべき偽の肯定的なイメージにつながる可能性がある。
これらの制約に対処するため、我々は、TPRタスクにおける視覚言語モデルの解釈精度を高めるために、もっともらしい記述を統合する統合フレームワークであるDualFocusを紹介した。
DualFocusは、Dual (Positive/Negative) Attribute Prompt Learning (DAPL)を活用し、Dual Image-Attribute Contrastive (DIAC) LearningとSensitive Image-Attributes Matching (SIAM) Learningを組み込んだ。
視覚的およびテキスト的埋め込みの粗いアライメントときめ細かなアライメントのバランスをとるために,マッチング記述と非マッチング記述の両方の表現を洗練し,詳細かつ適応可能な類似性評価によってマッチングプロセスを改善する動的トークンワイド類似性(DTS)損失を提案する。
The comprehensive experiment on CUHK-PEDES, ICFG-PEDES, and RSTPReid, DualFocus demonstrates superior performance than State-of-the-art method, significantly enhance both precision and robustness in TPR。
Text-based Person Re-identification (TPR) aims to retrieve specific individual images from datasets based on textual descriptions. Existing TPR methods primarily focus on recognizing explicit and positive characteristics, often overlooking the role of negative descriptions. This oversight can lead to false positives-images that meet positive criteria but should be excluded based on negative descriptions. To address these limitations, we introduce DualFocus, a unified framework that integrates plausible descriptions to enhance the interpretative accuracy of vision-language models in TPR tasks. DualFocus leverages Dual (Positive/Negative) Attribute Prompt Learning (DAPL), which incorporates Dual Image-Attribute Contrastive (DIAC) Learning and Sensitive Image-Attributes Matching (SIAM) Learning, enabling the detection of non-existent attributes and reducing false positives. To achieve a balance between coarse and fine-grained alignment of visual and textual embeddings, we propose the Dynamic Tokenwise Similarity (DTS) loss, which refines the representation of both matching and non-matching descriptions, thereby improving the matching process through detailed and adaptable similarity assessments. The comprehensive experiments on CUHK-PEDES, ICFG-PEDES, and RSTPReid, DualFocus demonstrates superior performance over state-of-the-art methods, significantly enhancing both precision and robustness in TPR. | 翻訳日:2024-08-19 20:02:45 公開日:2024-08-16 |
# IC:手書き数式認識の高度化のための暗黙的文字支援学習
ICAL: Implicit Character-Aided Learning for Enhanced Handwritten Mathematical Expression Recognition ( http://arxiv.org/abs/2405.09032v2 ) ライセンス: Link先を確認 | Jianhua Zhu, Liangcai Gao, Wenqi Zhao, | (参考訳) 従来のエンコーダ・デコーダ法では,大域的な情報をLaTeX$でモデル化することは困難である。
そこで本研究では,グローバルな表現情報をマイニングし,手書きの数学的表現認識を強化するための新しい手法であるImplicit Character-Aided Learning(ICAL)を提案する。
具体的には,暗黙的な文字列の予測を行うImplicit Character Construction Module (ICCM)を提案し,ICCMとデコーダの出力を融合するためにFusion Moduleを用いて修正した予測を生成する。
暗黙的な文字情報のモデリングと利用により、icalは手書きの数学的表現をより正確かつ文脈に配慮した解釈を実現する。
実験結果から, CROHME 2014/2016/2019データセットの表現認識率(ExpRate)を2.25\%/1.81\%/1.39\%向上し, 挑戦的なHME100kテストセットにおいて, 69.06\%を達成した。
私たちはGitHubでコードを公開しています。
Significant progress has been made in the field of handwritten mathematical expression recognition, while existing encoder-decoder methods are usually difficult to model global information in $LaTeX$. Therefore, this paper introduces a novel approach, Implicit Character-Aided Learning (ICAL), to mine the global expression information and enhance handwritten mathematical expression recognition. Specifically, we propose the Implicit Character Construction Module (ICCM) to predict implicit character sequences and use a Fusion Module to merge the outputs of the ICCM and the decoder, thereby producing corrected predictions. By modeling and utilizing implicit character information, ICAL achieves a more accurate and context-aware interpretation of handwritten mathematical expressions. Experimental results demonstrate that ICAL notably surpasses the state-of-the-art(SOTA) models, improving the expression recognition rate (ExpRate) by 2.25\%/1.81\%/1.39\% on the CROHME 2014/2016/2019 datasets respectively, and achieves a remarkable 69.06\% on the challenging HME100k test set. We make our code available on the GitHub: https://github.com/qingzhenduyu/ICAL | 翻訳日:2024-08-19 20:02:45 公開日:2024-08-16 |
# 暗空洞内気相における化学反応の促進条件
Conditions for enhancement of chemical reactions in gas phase inside a dark cavity ( http://arxiv.org/abs/2405.11387v3 ) ライセンス: Link先を確認 | Nimrod Moiseyev, | (参考訳) A+B \to [\textit{activated complex}]^\# \to C+D$のような化学反応を、暗い空洞における量子電気力学(QED)モードとのカップリングを通じてガス相で促進する。
主な結果は、暗い空洞による反応速度の増大は非対称反応(反応物とは異なる生成物)のためである。
量子力学(NHQM)の非エルミート形式を利用した理論的導出は、ダークキャビティによって強化される適切なタイプの反応を選択するための条件とガイドラインを提供する。
それでも、そのような実験の時間依存シミュレーションは標準(エルミート)散乱理論を用いて行うことができる(ただし、NHQMによって導かれる条件を含む)。
この研究は、新しいタイプの研究の門を開き、この魅力的な比較的新しい研究分野における理論と実験の間のギャップを埋めるのに役立つと信じています。
例えば、$O+D_2\to [ODD]^{\#} \to OD+D$ および $H+ArCl \to [ArHCl]^{\#} \to H+Ar+Cl$ の非対称反応速度は、暗空空洞によって向上できることを示した。
対照的に、メタン中の水素交換の対称反応に対する暗い空洞効果は無視できない。
Enhancing chemical reactions, such as $A+B \to [\textit{activated complex}]^\# \to C+D$, in gas phase through its coupling to quantum-electrodynamics (QED) modes in a dark cavity is investigated. The main result is that the enhancement of the reaction rate by a dark cavity is for asymmetric reactions (products different from reactants.) Notice that in addition to the cavity been dark, the reactants are in their ground electronic and vibrational states, i.e., it is indeed dark. Theoretical derivation, utilizing the non-Hermitian formalism of quantum mechanics (NHQM), provides conditions and guidelines for selecting the proper type of reactions that can be enhanced by a dark cavity. Nevertheless, the time-dependent simulations of such experiments can be carried out using the standard (Hermitian) scattering theory (but including the conditions derived via NHQM). We believe that this work opens a gate to new types of studies and hopefully helps to close the gap between theory and experiments in this fascinating, relatively new field of research. As an example, we demonstrate that the asymmetric reaction rates of $O+D_2\to [ODD]^{\#} \to OD+D$ and $H+ArCl \to [ArHCl]^{\#} \to H+Ar+Cl$ can be enhanced by a dark cavity. Contrary, the dark cavity effect on the symmetric reaction of hydrogen exchange in methane will be negligible. | 翻訳日:2024-08-19 20:02:45 公開日:2024-08-16 |
# 実世界データ統合によるアドレス指定可能宿泊選択
Address-Specific Sustainable Accommodation Choice Through Real-World Data Integration ( http://arxiv.org/abs/2405.12934v2 ) ライセンス: Link先を確認 | Peter J. Bentley, Rajat Mathur, Soo Ling Lim, Sid Narang, | (参考訳) 消費者は、旅の持続的な宿泊を選択したいと願っており、企業の場合は、その義務を負うこともある。
しかし、宿泊市場は、持続可能な選択のための有意義な能力を提供していない。通常、CO2の見積もりは、全国の同じタイプの宿泊施設と同一である。
本稿では,持続可能な宿泊施設の真の選択を可能にする意思決定支援システムを提案する。
EcoGradeと呼ばれるデータ駆動のアドレス固有メトリックを開発し、政府の承認したデータセットを統合し、データが疎結合な補間を使用する。
10の都市で1万の英国住所でこの指標を検証し、我々の解釈と現実との一致が統計的に有意であることを示す。
我々は,この指標がグローバルな宿泊市場における意思決定支援システムに組み込まれ,数ヶ月にわたって実際のユーザによってテストされ,ユーザからの肯定的なフィードバックが得られたことを示す。
EUでは、最終エネルギー消費量の40%が建物からのものである。
すべての建築所有者に、宿泊をより効率的にするよう促す必要があります。
賃貸セクターは、賃貸住宅が頻繁に改修されるため、変化が急速に起こり得る1つの分野である。
EcoGrade を用いた意思決定支援システムが,この肯定的な変化を促すことを期待する。
Consumers wish to choose sustainable accommodation for their travels, and in the case of corporations, may be required to do so. Yet accommodation marketplaces provide no meaningful capability for sustainable choice: typically CO2 estimates are provided that are identical for all accommodation of the same type across an entire country. We propose a decision support system that enables real choice of sustainable accommodation. We develop a data-driven address-specific metric called EcoGrade, which integrates government approved datasets and uses interpolation where data is sparse. We validate the metric on 10,000 UK addresses in 10 cities, showing the match of our interpolations to reality is statistically significant. We show how the metric has been embedded into a decision support system for a global accommodation marketplace and tested by real users over several months with positive user feedback. In the EU, forty percent of final energy consumption is from buildings. We need to encourage all building owners to make their accommodation more efficient. The rental sector is one area where change can occur rapidly, as rented accommodation is renovated frequently. We anticipate our decision support system using EcoGrade will encourage this positive change. | 翻訳日:2024-08-19 20:02:45 公開日:2024-08-16 |
# クロスモーダル蒸留による不完全多モード産業異常検出
Incomplete Multimodal Industrial Anomaly Detection via Cross-Modal Distillation ( http://arxiv.org/abs/2405.13571v2 ) ライセンス: Link先を確認 | Wenbo Sui, Daniel Lichau, Josselin Lefèvre, Harold Phelippeau, | (参考訳) 近年の3次元点雲とRGB画像に基づく多次元産業異常検出(IAD)の研究は、正確な分類と分割のためのモダリティ間の冗長性と相補性を活用することの重要性を強調している。
しかし、実用製品ラインでのマルチモーダルIADの実現は、現在も進行中である。
現在のプロセスとの互換性を確保しつつ、新しいモダリティの導入に伴うコストと利益のトレードオフを検討することが不可欠である。
既存の品質管理プロセスは、光学的および赤外線イメージングのような高速なインライン検査と、工業用CTや電子顕微鏡など、高解像度だが時間を要するニアラインのキャラクタリゼーション技術を組み合わせて、Liイオン電池や複合材料の製造における欠陥を手動または半自動で発見し分析する。
コストと時間的制約を考慮すれば、サンプルのサブセットのみがインラインおよびニアラインメソッドで検査でき、残りのサンプルはインラインインラインインスペクションの1つか2つの形式でのみ評価される。
ディープラーニング駆動の自動欠陥検出のためのデータを完全に活用するには、モデルはマルチモーダルトレーニングを活用し、推論中に不完全なモダリティを処理する能力を持つ必要がある。
本稿では,多モードトレーニング・Few-modal Inference(MTFI)パイプラインの実現可能性を示すため,IAD用クロスモーダル蒸留フレームワークであるCMDIADを提案する。
その結果,MTFIパイプラインはトレーニングや推論に単一モードのみを適用するよりも,不完全なマルチモーダル情報を効果的に活用できることがわかった。
さらに, 点雲やRGB画像を用いた非対称な性能改善の背景として, 推論の主なモダリティについて検討する。
これは、製造シナリオから追加のモダリティを備えた、将来のマルチモーダルデータセット構築の基盤を提供します。
Recent studies of multimodal industrial anomaly detection (IAD) based on 3D point clouds and RGB images have highlighted the importance of exploiting the redundancy and complementarity among modalities for accurate classification and segmentation. However, achieving multimodal IAD in practical production lines remains a work in progress. It is essential to consider the trade-offs between the costs and benefits associated with the introduction of new modalities while ensuring compatibility with current processes. Existing quality control processes combine rapid in-line inspections, such as optical and infrared imaging with high-resolution but time-consuming near-line characterization techniques, including industrial CT and electron microscopy to manually or semi-automatically locate and analyze defects in the production of Li-ion batteries and composite materials. Given the cost and time limitations, only a subset of the samples can be inspected by all in-line and near-line methods, and the remaining samples are only evaluated through one or two forms of in-line inspection. To fully exploit data for deep learning-driven automatic defect detection, the models must have the ability to leverage multimodal training and handle incomplete modalities during inference. In this paper, we propose CMDIAD, a Cross-Modal Distillation framework for IAD to demonstrate the feasibility of a Multi-modal Training, Few-modal Inference (MTFI) pipeline. Our findings show that the MTFI pipeline can more effectively utilize incomplete multimodal information compared to applying only a single modality for training and inference. Moreover, we investigate the reasons behind the asymmetric performance improvement using point clouds or RGB images as the main modality of inference. This provides a foundation for our future multimodal dataset construction with additional modalities from manufacturing scenarios. | 翻訳日:2024-08-19 20:02:45 公開日:2024-08-16 |
# 期待最大化による観測からの拡散先行学習
Learning Diffusion Priors from Observations by Expectation Maximization ( http://arxiv.org/abs/2405.13712v3 ) ライセンス: Link先を確認 | François Rozet, Gérôme Andry, François Lanusse, Gilles Louppe, | (参考訳) 最近、拡散モデルはベイズ逆問題に顕著な先行性があることが証明された。
しかしながら、これらのモデルのトレーニングは通常、大量のクリーンデータへのアクセスを必要とする。
本研究では,不完全および雑音のみから拡散モデルを学習するための予測最大化アルゴリズムに基づく新しい手法を提案する。
従来の手法とは異なり,本手法は下流タスクに不可欠である適切な拡散モデルに導かれる。
提案手法は,非条件拡散モデルに対する改良された後続サンプリング方式の提案と動機付けである。
本手法の有効性を示す実証的証拠を提示する。
Diffusion models recently proved to be remarkable priors for Bayesian inverse problems. However, training these models typically requires access to large amounts of clean data, which could prove difficult in some settings. In this work, we present a novel method based on the expectation-maximization algorithm for training diffusion models from incomplete and noisy observations only. Unlike previous works, our method leads to proper diffusion models, which is crucial for downstream tasks. As part of our method, we propose and motivate an improved posterior sampling scheme for unconditional diffusion models. We present empirical evidence supporting the effectiveness of our method. | 翻訳日:2024-08-19 20:02:45 公開日:2024-08-16 |
# エージェントスキル発見
Agentic Skill Discovery ( http://arxiv.org/abs/2405.15019v2 ) ライセンス: Link先を確認 | Xufeng Zhao, Cornelius Weber, Stefan Wermter, | (参考訳) 言語条件付きロボット技術により、Large Language Models (LLMs) の高レベル推論を低レベルロボット制御に適用することができる。
残る課題は、さまざまな基本的なスキルを取得することです。
既存のアプローチでは、複雑なタスクをトップダウン方式でアトミックなロボットアクションに手動で分解するか、ボトムアップ方式で可能な限り多くの組み合わせをブートストラップすることで、幅広いタスクの可能性をカバーする。
しかし、これらの分解や組み合わせは、初期スキルライブラリを必要とする。
例えば、`grasping'の機能は、'`pushing'のスキルのみを含むスキルライブラリから生まれない。
強化学習による既存の技術発見技術は、徹底的な探索によってスキルを獲得するが、しばしば無意味な振る舞いをもたらす。
本研究では,LLMによって完全に駆動される新しいスキル発見フレームワークを提案する。
このフレームワークは、提供されるシーン記述とロボットの構成に基づいて、LLM生成タスク提案から始まり、タスク完了時に新たなスキルを漸進的に獲得することを目的としている。
提案課題のそれぞれに対して,LLMがサンプリングした報酬と成功判定機能を利用して,一連の強化学習プロセスを開始し,対応する政策を開発する。
学習行動の信頼性と信頼性は、独立した視覚言語モデルによってさらに保証される。
ゼロスキルから、スキルライブラリが出現し、より有意義で信頼性の高いスキルへと拡張し、ロボットがより効率的に高度なタスクを提案、完成させることができることを示す。
プロジェクトページ: \url{https://agentic-skill-discovery.github.io}。
Language-conditioned robotic skills make it possible to apply the high-level reasoning of Large Language Models (LLMs) to low-level robotic control. A remaining challenge is to acquire a diverse set of fundamental skills. Existing approaches either manually decompose a complex task into atomic robotic actions in a top-down fashion, or bootstrap as many combinations as possible in a bottom-up fashion to cover a wider range of task possibilities. These decompositions or combinations, however, require an initial skill library. For example, a ``grasping'' capability can never emerge from a skill library containing only diverse ``pushing'' skills. Existing skill discovery techniques with reinforcement learning acquire skills by an exhaustive exploration but often yield non-meaningful behaviors. In this study, we introduce a novel framework for skill discovery that is entirely driven by LLMs. The framework begins with an LLM generating task proposals based on the provided scene description and the robot's configurations, aiming to incrementally acquire new skills upon task completion. For each proposed task, a series of reinforcement learning processes are initiated, utilizing reward and success determination functions sampled by the LLM to develop the corresponding policy. The reliability and trustworthiness of learned behaviors are further ensured by an independent vision-language model. We show that starting with zero skill, the skill library emerges and expands to more and more meaningful and reliable skills, enabling the robot to efficiently further propose and complete advanced tasks. Project page: \url{https://agentic-skill-discovery.github.io}. | 翻訳日:2024-08-19 20:02:45 公開日:2024-08-16 |
# 積分球のみを用いた量子系における緩和散乱
Mitigating scattering in a quantum system using only an integrating sphere ( http://arxiv.org/abs/2405.15947v3 ) ライセンス: Link先を確認 | Zhenfei Jiang, Tian Li, Matthew L. Boone, Zhenhuan Yi, Alexei V. Sokolov, Girish S. Agarwal, Marlan O. Scully, | (参考訳) 強い量子関連ソースは、量子情報科学とエンジニアリングプロトコルにとって必須だが繊細なリソースである。
デコヒーレンスと損失は、量子相関における非古典的挙動の喪失につながる2つの主要な破壊過程である。
量子系では、散乱はデコヒーレンスと損失の両方に寄与する。
本研究では,量子系における散乱の悪影響を著しく軽減できる実験手法を提案する。
我々の量子系は、熱ルビジウム蒸気中の4波混合過程で発生する2モードの励起光から構成されており、この2つのモードのうちの1つに散乱器が導入された。
その後、散乱器の後に集積球が配置され、散乱した光子を再構成する。
量子相関の尺度として2つのモード間の相互情報を使用し、85%以上の光子損失にもかかわらず、散乱による47.5%の相互情報回復を示す。
我々の手法は、破壊的なランダムプロセスから量子相関を回復するための先駆的なステップであり、量子プロトコルの実証と実際の実世界の展開のギャップを埋める可能性を持っている。
Strong quantum-correlated sources are essential but delicate resources for quantum information science and engineering protocols. Decoherence and loss are the two main disruptive processes that lead to the loss of nonclassical behavior in quantum correlations. In quantum systems, scattering can contribute to both decoherence and loss. In this work, we present an experimental scheme capable of significantly mitigating the adverse impact of scattering in quantum systems. Our quantum system is composed of a two-mode squeezed light generated with the four-wave mixing process in hot rubidium vapor, and a scatterer is introduced to one of the two modes. An integrating sphere is then placed after the scatterer to recollect the scattered photons. We use mutual information between the two modes as the measure of quantum correlations, and demonstrate a 47.5% mutual information recovery from scattering, despite an enormous photon loss of greater than 85%. Our scheme is a pioneering step towards recovering quantum correlations from disruptive random processes, thus has the potential to bridge the gap between proof-of-principle demonstrations and practical real-world deployments of quantum protocols. | 翻訳日:2024-08-19 20:02:45 公開日:2024-08-16 |
# 知識伝達による生成モデルの精度向上
Enhancing Accuracy in Generative Models via Knowledge Transfer ( http://arxiv.org/abs/2405.16837v2 ) ライセンス: Link先を確認 | Xinyu Tian, Xiaotong Shen, | (参考訳) 本稿では,生成モデルの精度と知識伝達が生成精度に与える影響について検討する。
具体的には、対象タスクの生成モデルについて検討し、ソースタスクから事前学習したモデルを用いて微調整を行う。
ソースとターゲットタスクをブリッジする"Shared Embedding"の概念をベースとして,Kullback-Leibler分散のような分散メトリクス下での伝達学習のための新しいフレームワークを導入する。
このフレームワークは、データ分布が異なるにもかかわらず、多様なタスク間の固有の類似性を活用することの重要性を強調している。
提案理論は,共有構造が対象タスクの生成精度を向上し,共有構造を識別するソースモデルの能力と,ソースからターゲット学習への効果的な知識伝達に依存することを示唆している。
本フレームワークの実用性を実証するために,拡散流と正規化流という2つの特定の生成モデルの理論的意味を考察する。
その結果, トランスファー以外のモデルに比べて, 拡散モデルの進展が見られ, トランスファーおよび非トランスファー設定におけるフローの正規化に関する新たな知見が得られた。
これらの結果は,これらのモデルの生成能力向上における知識伝達の顕著な寄与を浮き彫りにしている。
This paper investigates the accuracy of generative models and the impact of knowledge transfer on their generation precision. Specifically, we examine a generative model for a target task, fine-tuned using a pre-trained model from a source task. Building on the "Shared Embedding" concept, which bridges the source and target tasks, we introduce a novel framework for transfer learning under distribution metrics such as the Kullback-Leibler divergence. This framework underscores the importance of leveraging inherent similarities between diverse tasks despite their distinct data distributions. Our theory suggests that the shared structures can augment the generation accuracy for a target task, reliant on the capability of a source model to identify shared structures and effective knowledge transfer from source to target learning. To demonstrate the practical utility of this framework, we explore the theoretical implications for two specific generative models: diffusion and normalizing flows. The results show enhanced performance in both models over their non-transfer counterparts, indicating advancements for diffusion models and providing fresh insights into normalizing flows in transfer and non-transfer settings. These results highlight the significant contribution of knowledge transfer in boosting the generation capabilities of these models. | 翻訳日:2024-08-19 19:52:42 公開日:2024-08-16 |
# 教師なし強化学習のためのサプライズ適応型固有モチベーション
Surprise-Adaptive Intrinsic Motivation for Unsupervised Reinforcement Learning ( http://arxiv.org/abs/2405.17243v2 ) ライセンス: Link先を確認 | Adriana Hugessen, Roger Creus Castanyer, Faisal Mohamed, Glen Berseth, | (参考訳) 教師なし強化学習(RL)のエントロピー最小化とエントロピー最大化(好奇心)は、環境の自然エントロピーのレベルによって異なる環境において有効であることが示されている。
しかし、どちらの手法も環境全体にわたって知的な振る舞いを一貫して学習するエージェントをもたらすものではない。
任意の環境における創発的行動を促す単一のエントロピーに基づく方法を見つけるために,マルチアームバンディット問題としての選択をフレーミングすることで,エントロピー条件に応じて,その目的をオンラインで適応できるエージェントを提案する。
我々は,その環境におけるエントロピーを制御できるエージェントの能力を捉えた,バンディット固有のフィードバックシグナルを考案した。
本研究では,ハイエントロピーと低エントロピーの双方において,エージェントがエントロピーを制御し,創発的行動を示すことを実証し,ベンチマークタスクで熟練した振る舞いを学習できることを実証する。
トレーニングされたエージェントのビデオと要約された発見は、プロジェクトのページ https://sites.google.com/view/surprise-adaptive-agentsで見ることができる。
Both entropy-minimizing and entropy-maximizing (curiosity) objectives for unsupervised reinforcement learning (RL) have been shown to be effective in different environments, depending on the environment's level of natural entropy. However, neither method alone results in an agent that will consistently learn intelligent behavior across environments. In an effort to find a single entropy-based method that will encourage emergent behaviors in any environment, we propose an agent that can adapt its objective online, depending on the entropy conditions by framing the choice as a multi-armed bandit problem. We devise a novel intrinsic feedback signal for the bandit, which captures the agent's ability to control the entropy in its environment. We demonstrate that such agents can learn to control entropy and exhibit emergent behaviors in both high- and low-entropy regimes and can learn skillful behaviors in benchmark tasks. Videos of the trained agents and summarized findings can be found on our project page https://sites.google.com/view/surprise-adaptive-agents | 翻訳日:2024-08-19 19:52:42 公開日:2024-08-16 |
# データセット学習の双対性と創発的臨界性
Dataset-learning duality and emergent criticality ( http://arxiv.org/abs/2405.17391v2 ) ライセンス: Link先を確認 | Ekaterina Kukleva, Vitaly Vanchurin, | (参考訳) ニューラルネットワークでは、非学習変数の活性化ダイナミクスは、学習変数の学習力学と強く結びついている。
活性化パスの間、境界ニューロン(eg、入力ニューロン)はバルクニューロン(eg、隠されたニューロン)にマッピングされ、学習パスの間、バルクニューロンと境界ニューロンの両方がトレーニング可能な変数(eg、重み、バイアス)の変化にマッピングされる。
例えば、フィードフォワードニューラルネットワークでは、前方伝播はアクティベーションパス、後方伝播は学習パスである。
この2つの写像の構成は、非トレーニング可能な境界変数(例えば、データセット)の部分空間と、訓練可能な変数(すなわち、学習)の接部分空間との間の双対写像を確立することを示す。
一般に、データセット学習双対性は高次元空間間の複素非線形写像であるが、学習平衡においては、問題は線形化され、多くの弱い結合した一次元問題に還元することができる。
双対性を用いて臨界性の出現、あるいはトレーニング可能な変数のゆらぎのパワー-法則分布を研究する。
特に,非臨界状態のデータセットからでも,学習システムに臨界が出現し,アクティベーション関数や損失関数を変化させることで,ゆるい分布を修正可能であることを示す。
In artificial neural networks, the activation dynamics of non-trainable variables is strongly coupled to the learning dynamics of trainable variables. During the activation pass, the boundary neurons (e.g., input neurons) are mapped to the bulk neurons (e.g., hidden neurons), and during the learning pass, both bulk and boundary neurons are mapped to changes in trainable variables (e.g., weights and biases). For example, in feed-forward neural networks, forward propagation is the activation pass and backward propagation is the learning pass. We show that a composition of the two maps establishes a duality map between a subspace of non-trainable boundary variables (e.g., dataset) and a tangent subspace of trainable variables (i.e., learning). In general, the dataset-learning duality is a complex non-linear map between high-dimensional spaces, but in a learning equilibrium, the problem can be linearized and reduced to many weakly coupled one-dimensional problems. We use the duality to study the emergence of criticality, or the power-law distributions of fluctuations of the trainable variables. In particular, we show that criticality can emerge in the learning system even from the dataset in a non-critical state, and that the power-law distribution can be modified by changing either the activation function or the loss function. | 翻訳日:2024-08-19 19:52:42 公開日:2024-08-16 |
# RC-Mixup: 回帰タスクのためのノイズデータに対するデータ拡張戦略
RC-Mixup: A Data Augmentation Strategy against Noisy Data for Regression Tasks ( http://arxiv.org/abs/2405.17938v2 ) ライセンス: Link先を確認 | Seong-Hyeon Hwang, Minsu Kim, Steven Euijong Whang, | (参考訳) 本研究では,ノイズの多いデータの存在下での回帰作業におけるロバストなデータ拡張の問題について検討する。
データ拡張はディープラーニングモデルの一般化に不可欠だが、Mixupのような一般的な技術のほとんどは、主に画像データの分類タスクのために設計されている。
最近は、C-Mixupのような回帰タスクに特化したMixupテクニックもある。
サンプルのペアを線形に補間するMixupと比較して、C-Mixupはより選択的であり、より優れた回帰性能を得るためにラベル距離に基づいてサンプルを混合する。
しかし、C-Mixupはノイズとクリーンなサンプルを区別しないため、混合時に問題があり、最適以下のモデル性能につながる可能性がある。
同時に、堅牢なトレーニングは、複数のモデルのトレーニングを通じて、ノイズの多いデータに対して正確なモデルをトレーニングすることを目的として、非常に研究されている。
そこで本研究では,C-Mixupとマルチラウンドロバストなトレーニング手法を密接に統合したデータ拡張戦略RC-Mixupを提案する。
特に、C-Mixupはクリーンなデータを特定するための堅牢なトレーニングを改善し、ロバストなトレーニングはC-Mixupにより良いパフォーマンスを提供する。
RC-Mixupの重要な利点は、堅牢なモデルトレーニングアルゴリズム自体を変更する必要はなく、単にデータミキシングの恩恵を受けることができる、データ中心であることだ。
我々の実験では、RC-Mixupはノイズの多いデータベンチマークでC-Mixupと堅牢なトレーニングベースラインを著しく上回り、様々な堅牢なトレーニング手法と統合できることを示した。
We study the problem of robust data augmentation for regression tasks in the presence of noisy data. Data augmentation is essential for generalizing deep learning models, but most of the techniques like the popular Mixup are primarily designed for classification tasks on image data. Recently, there are also Mixup techniques that are specialized to regression tasks like C-Mixup. In comparison to Mixup, which takes linear interpolations of pairs of samples, C-Mixup is more selective in which samples to mix based on their label distances for better regression performance. However, C-Mixup does not distinguish noisy versus clean samples, which can be problematic when mixing and lead to suboptimal model performance. At the same time, robust training has been heavily studied where the goal is to train accurate models against noisy data through multiple rounds of model training. We thus propose our data augmentation strategy RC-Mixup, which tightly integrates C-Mixup with multi-round robust training methods for a synergistic effect. In particular, C-Mixup improves robust training in identifying clean data, while robust training provides cleaner data to C-Mixup for it to perform better. A key advantage of RC-Mixup is that it is data-centric where the robust model training algorithm itself does not need to be modified, but can simply benefit from data mixing. We show in our experiments that RC-Mixup significantly outperforms C-Mixup and robust training baselines on noisy data benchmarks and can be integrated with various robust training methods. | 翻訳日:2024-08-19 19:52:42 公開日:2024-08-16 |
# 再現性危機の解決--サイバーセキュリティAIの課題を事例として
Confronting the Reproducibility Crisis: A Case Study of Challenges in Cybersecurity AI ( http://arxiv.org/abs/2405.18753v2 ) ライセンス: Link先を確認 | Richard H. Moulton, Gary A. McCully, John D. Hastings, | (参考訳) サイバーセキュリティの急速に発展する分野では、AIによる研究の再現性を保証することが、セキュリティシステムの信頼性と整合性を維持する上で重要である。
本稿は、悪意のある摂動からディープニューラルネットワークを守ることに焦点を当てた、AIベースのサイバーセキュリティの重要な領域である、敵対的堅牢性の領域における再現性危機に対処する。
詳細なケーススタディを通じて、VeriGaugeツールキットを使用して、認定された堅牢性に関する先行研究の結果を検証しようと試み、ソフトウェアとハードウェアの不互換性、バージョンコンフリクト、陳腐化による重大な課題を明らかにした。
私たちの発見は、重要なサイバーセキュリティアプリケーションにデプロイされたAIモデルの再現性を保証するため、標準化された方法論、コンテナ化、包括的なドキュメントに対する緊急の要求を強調します。
これらの再現性の課題に取り組むことで、先進的な永続的脅威に対するAIシステムのセキュリティ、ネットワークとIoTセキュリティの強化、重要なインフラストラクチャ保護に関する幅広い議論への貢献を目標としています。
この研究は、再現性を優先する研究コミュニティ内での協力的な取り組みを提唱し、将来のサイバーセキュリティの進歩が構築される基盤を強化する。
In the rapidly evolving field of cybersecurity, ensuring the reproducibility of AI-driven research is critical to maintaining the reliability and integrity of security systems. This paper addresses the reproducibility crisis within the domain of adversarial robustness -- a key area in AI-based cybersecurity that focuses on defending deep neural networks against malicious perturbations. Through a detailed case study, we attempt to validate results from prior work on certified robustness using the VeriGauge toolkit, revealing significant challenges due to software and hardware incompatibilities, version conflicts, and obsolescence. Our findings underscore the urgent need for standardized methodologies, containerization, and comprehensive documentation to ensure the reproducibility of AI models deployed in critical cybersecurity applications. By tackling these reproducibility challenges, we aim to contribute to the broader discourse on securing AI systems against advanced persistent threats, enhancing network and IoT security, and protecting critical infrastructure. This work advocates for a concerted effort within the research community to prioritize reproducibility, thereby strengthening the foundation upon which future cybersecurity advancements are built. | 翻訳日:2024-08-19 19:52:42 公開日:2024-08-16 |
# 古典的確率法による粒子生成
Particle creation using the classical stochastic method ( http://arxiv.org/abs/2406.04125v2 ) ライセンス: Link先を確認 | Takayuki Hirayama, | (参考訳) 古典的確率法による高調波発振器の粒子生成を計算した。
この手法は量子論における全ての真空期待値を再現する。
はじめに真空状態を作成し、ランゲヴィンの運動方程式を用いて時間とともに進化させる。
アンサンブルを平均化することにより、状態のエネルギーを最終時に計算し、生成した粒子の量を決定する。
粒子生成が量子理論の予測と一致することを検証し、この方法が実際に量子力学を計算できることを示す。
We compute the particle creation of a harmonic oscillator using the classical stochastic method. This recently constructed method reproduces all the vacuum expectation values in quantum theory. We prepare the vacuum state at the initial time and evolve it over time using Langevin equations of motion. By averaging over the ensemble, we compute the energy of the state at the final time and determine the amount of particles created. We verify that the particle creation agrees with predictions from quantum theory and thus give an evidence that this method can really compute the quantum dynamics. | 翻訳日:2024-08-19 19:52:42 公開日:2024-08-16 |
# 家庭電気知識に基づくデジタル双生児との自然言語インタラクション
Natural Language Interaction with a Household Electricity Knowledge-based Digital Twin ( http://arxiv.org/abs/2406.06566v4 ) ライセンス: Link先を確認 | Carolina Fortuna, Vid Hanžel, Blaž Bertalanič, | (参考訳) ドメイン固有のデジタルツインは、スマートグリッドの様々なセグメントのデジタルレプリカを表すもので、各セグメントをモデル化、シミュレート、制御することができる。
同時に、知識に基づくデジタルツインとAIが組み合わさって、計画と政策立案の観点から自然言語の相互作用を通じてシステムの側面を理解する力を与えるかもしれない。
本稿では,知識に基づくエネルギーデジタル双生児を活用した家庭用電気エネルギー測定におけるRAG (Retrieval Augmented Generation) 質問応答の可能性を初めて評価し,報告した。
知識に基づくデジタル双生児を実際に表現した,最近公開された電力消費知識グラフに基づいて,ChatGPT,Gemini,Llamaの電気関連質問に対する応答能力について検討した。
さらに,既存の電気知識に基づくディジタルツインを活用したRAG技術を用いて生成されたものとの比較を行った。
以上の結果から,RAG手法はLLMが生成する誤情報の発生を減少させるだけでなく,検証可能なデータに応答することで,出力の質を著しく向上させることがわかった。
本稿では、我々の方法論を詳述し、RAGを用いた応答と非応答の比較分析を行い、エネルギーデータ分析のような専門分野におけるAIの今後の応用について考察する。
Domain specific digital twins, representing a digital replica of various segments of the smart grid, are foreseen as able to model, simulate, and control the respective segments. At the same time, knowledge-based digital twins, coupled with AI, may also empower humans to understand aspects of the system through natural language interaction in view of planning and policy making. This paper is the first to assess and report on the potential of Retrieval Augmented Generation (RAG) question answers related to household electrical energy measurement aspects leveraging a knowledge-based energy digital twin. Relying on the recently published electricity consumption knowledge graph that actually represents a knowledge-based digital twin, we study the capabilities of ChatGPT, Gemini and Llama in answering electricity related questions. Furthermore, we compare the answers with the ones generated through a RAG techniques that leverages an existing electricity knowledge-based digital twin. Our findings illustrate that the RAG approach not only reduces the incidence of incorrect information typically generated by LLMs but also significantly improves the quality of the output by grounding responses in verifiable data. This paper details our methodology, presents a comparative analysis of responses with and without RAG, and discusses the implications of our findings for future applications of AI in specialized sectors like energy data analysis. | 翻訳日:2024-08-19 19:52:42 公開日:2024-08-16 |
# テキスト中心型マルチモーダル感性分析を伴う大規模言語モデル:調査
Large Language Models Meet Text-Centric Multimodal Sentiment Analysis: A Survey ( http://arxiv.org/abs/2406.08068v2 ) ライセンス: Link先を確認 | Hao Yang, Yanyan Zhao, Yang Wu, Shilong Wang, Tian Zheng, Hongbo Zhang, Zongyang Ma, Wanxiang Che, Bing Qin, | (参考訳) テキストのみを考慮した従来の感情分析と比較して、マルチモーダル感情分析は、マルチモーダルソースからの感情信号を同時に考慮する必要がある。
自然言語、画像、ビデオ、オーディオ、生理的信号など、さまざまなソースからの感情情報を処理する。
しかし、他のモダリティは多様な感情的な手がかりも含んでいるが、自然言語は通常より豊かな文脈情報を含んでいるため、マルチモーダル感情分析において常に重要な位置を占める。
ChatGPTの出現は、テキスト中心のマルチモーダルタスクに大規模言語モデル(LLM)を適用する大きな可能性を開く。
しかし、既存のLLMがテキスト中心のマルチモーダル感情分析タスクにどのように適応できるかは、まだ不明である。
本研究の目的は,(1)テキスト中心のマルチモーダル感情分析タスクにおける最近の研究の総合的なレビュー,(2)テキスト中心のマルチモーダル感情分析におけるLCMの可能性,(3)LLMに基づくマルチモーダル感情分析技術の応用シナリオの概要,(4)将来的なマルチモーダル感情分析の課題と今後の研究方向性について考察することである。
Compared to traditional sentiment analysis, which only considers text, multimodal sentiment analysis needs to consider emotional signals from multimodal sources simultaneously and is therefore more consistent with the way how humans process sentiment in real-world scenarios. It involves processing emotional information from various sources such as natural language, images, videos, audio, physiological signals, etc. However, although other modalities also contain diverse emotional cues, natural language usually contains richer contextual information and therefore always occupies a crucial position in multimodal sentiment analysis. The emergence of ChatGPT has opened up immense potential for applying large language models (LLMs) to text-centric multimodal tasks. However, it is still unclear how existing LLMs can adapt better to text-centric multimodal sentiment analysis tasks. This survey aims to (1) present a comprehensive review of recent research in text-centric multimodal sentiment analysis tasks, (2) examine the potential of LLMs for text-centric multimodal sentiment analysis, outlining their approaches, advantages, and limitations, (3) summarize the application scenarios of LLM-based multimodal sentiment analysis technology, and (4) explore the challenges and potential research directions for multimodal sentiment analysis in the future. | 翻訳日:2024-08-19 19:52:42 公開日:2024-08-16 |
# テキスト分類におけるゼロショット生成AIモデルよりも優れた微調整'スモール'LLM(スティル)
Fine-Tuned 'Small' LLMs (Still) Significantly Outperform Zero-Shot Generative AI Models in Text Classification ( http://arxiv.org/abs/2406.08660v2 ) ライセンス: Link先を確認 | Martin Juan José Bucher, Marco Martini, | (参考訳) Generative AIは、テキスト分類タスク用の小さなBERTスタイルのLLMを微調整する、シンプルでプロンプトベースの代替手段を提供する。
これにより、手動でラベル付けされたトレーニングデータやタスク固有のモデルトレーニングが不要になる。
しかし、ChatGPTのようなツールがこの約束を達成できるかどうかには疑問の余地がある。
本稿では,より小型で微調整のLLMが,テキスト分類において,より大きく,はるかに優れ,ゼロショットの誘導モデルよりも優れていることを示す。
我々は、ChatGPTとGPT-3.5/GPT-4とClaude Opusの3つの主要な生成AIモデルと、さまざまな分類タスク(感性、承認/不承認、感情、パーティーポジション)とテキストカテゴリ(ニュース、ツイート、スピーチ)の微調整LDMを比較した。
アプリケーション固有のトレーニングデータによる微調整は、すべてのケースにおいて優れたパフォーマンスを実現する。
このアプローチをより広く利用できるようにするため,本論文とともに使いやすいツールキットを提供する。
我々のツールキットは,非技術的ステップ・バイ・ステップのガイダンスを伴って,最小限の技術・計算労力で,BERTライクなLCMを任意の分類タスクに対して選択し,微調整することができる。
Generative AI offers a simple, prompt-based alternative to fine-tuning smaller BERT-style LLMs for text classification tasks. This promises to eliminate the need for manually labeled training data and task-specific model training. However, it remains an open question whether tools like ChatGPT can deliver on this promise. In this paper, we show that smaller, fine-tuned LLMs (still) consistently and significantly outperform larger, zero-shot prompted models in text classification. We compare three major generative AI models (ChatGPT with GPT-3.5/GPT-4 and Claude Opus) with several fine-tuned LLMs across a diverse set of classification tasks (sentiment, approval/disapproval, emotions, party positions) and text categories (news, tweets, speeches). We find that fine-tuning with application-specific training data achieves superior performance in all cases. To make this approach more accessible to a broader audience, we provide an easy-to-use toolkit alongside this paper. Our toolkit, accompanied by non-technical step-by-step guidance, enables users to select and fine-tune BERT-like LLMs for any classification task with minimal technical and computational effort. | 翻訳日:2024-08-19 19:52:42 公開日:2024-08-16 |
# Potion: ポゾン・アンラーニングを目指して
Potion: Towards Poison Unlearning ( http://arxiv.org/abs/2406.09173v2 ) ライセンス: Link先を確認 | Stefan Schoepf, Jack Foster, Alexandra Brintrup, | (参考訳) トレーニングデータセットに毒のトリガーを導入するなど、悪意のあるアクターによる機械学習システムに対する攻撃は、重大なリスクを引き起こす。
このような攻撃を解決する上での課題は、実際に有毒データのサブセットのみを特定できる場合である。
これにより、既に訓練済みのモデルから有毒データのサブセットのみを除去する手法、すなわち未学習の毒物トリガーを開発する必要がある。
このタスクの要件は、モデルによって忘れられるすべてのデータが知られているプライバシー重視のアンラーニングから著しく逸脱する。
これまでの研究では、未発見の毒素サンプルが未学習の方法の確立に失敗し、選択的シナプスダンピング(Selective Synaptic Dampening, SSD)という1つの手法しか成功しなかったことが示されている。
特定された毒を除去した後の完全な再訓練でさえ、未発見の毒のサンプルがモデル内の毒の引き金の再導入につながるため、この課題には対処できない。
我々の研究は、有毒未学習の最先端を推し進めるための2つの重要な課題に対処する。
まず、SSDをベースとして、モデル保護と未学習性能を大幅に改善する新規な外れ値耐性手法を提案する。
第二に,ポゾントリガーニュートラライゼーション (PTN) 探索, 高速で並列可能なハイパーパラメータ探索を導入し, 特徴的「学習対モデル保護」のトレードオフを利用して, ディックセットのサイズが不明で, 保持セットが汚染された場合に, 適切なハイパーパラメータを求める。
CIFAR10ではResNet-9、CIFAR100ではWideResNet-28x10を用いてコントリビューションをベンチマークする。
実験の結果,本法はSSD83.41%,フルリトレーニング40.68%と比較して93.72%の毒性を治癒することがわかった。
また、未学習による平均モデルの精度低下を5.68%から1.41%に下げる。
Adversarial attacks by malicious actors on machine learning systems, such as introducing poison triggers into training datasets, pose significant risks. The challenge in resolving such an attack arises in practice when only a subset of the poisoned data can be identified. This necessitates the development of methods to remove, i.e. unlearn, poison triggers from already trained models with only a subset of the poison data available. The requirements for this task significantly deviate from privacy-focused unlearning where all of the data to be forgotten by the model is known. Previous work has shown that the undiscovered poisoned samples lead to a failure of established unlearning methods, with only one method, Selective Synaptic Dampening (SSD), showing limited success. Even full retraining, after the removal of the identified poison, cannot address this challenge as the undiscovered poison samples lead to a reintroduction of the poison trigger in the model. Our work addresses two key challenges to advance the state of the art in poison unlearning. First, we introduce a novel outlier-resistant method, based on SSD, that significantly improves model protection and unlearning performance. Second, we introduce Poison Trigger Neutralisation (PTN) search, a fast, parallelisable, hyperparameter search that utilises the characteristic "unlearning versus model protection" trade-off to find suitable hyperparameters in settings where the forget set size is unknown and the retain set is contaminated. We benchmark our contributions using ResNet-9 on CIFAR10 and WideResNet-28x10 on CIFAR100. Experimental results show that our method heals 93.72% of poison compared to SSD with 83.41% and full retraining with 40.68%. We achieve this while also lowering the average model accuracy drop caused by unlearning from 5.68% (SSD) to 1.41% (ours). | 翻訳日:2024-08-19 19:52:42 公開日:2024-08-16 |
# 条件付きボルツマン発生器を用いた位相図の効率的なマッピング
Efficient mapping of phase diagrams with conditional Boltzmann Generators ( http://arxiv.org/abs/2406.12378v2 ) ライセンス: Link先を確認 | Maximilian Schebek, Michele Invernizzi, Frank Noé, Jutta Rogal, | (参考訳) 位相図の正確な予測は、材料の基本的理解と物質科学における技術応用の両方において重要である。
しかしながら、その自由エネルギーに基づく相間の相対安定性の計算的予測は、熱力学状態の格子上の非相関平衡サンプルを得るためには、従来の自由エネルギー推定器が大量のシミュレーションデータを必要とするため、大変な作業である。
本研究では,熱力学状態,例えば温度と圧力を条件とした正規化フローを用いて,Boltzmann Generator法に基づく全位相図の深部生成機械学習モデルを構築した。
単一正規化流をトレーニングすることにより、単一の基準熱力学状態でサンプリングされた平衡分布を広範囲の目標温度と圧力に変換することにより、位相図全体にわたって効率よく平衡サンプルを生成することができる。
置換同変アーキテクチャを用いることで,同じ基盤上での固相と液相の処理が可能となる。
我々は,レナード・ジョーンズ系の固液共存線を最先端自由エネルギー法とよく一致し,必要なエネルギー評価の数を著しく削減し,我々のアプローチを実証する。
The accurate prediction of phase diagrams is of central importance for both the fundamental understanding of materials as well as for technological applications in material sciences. However, the computational prediction of the relative stability between phases based on their free energy is a daunting task, as traditional free energy estimators require a large amount of simulation data to obtain uncorrelated equilibrium samples over a grid of thermodynamic states. In this work, we develop deep generative machine learning models based on the Boltzmann Generator approach for entire phase diagrams, employing normalizing flows conditioned on the thermodynamic states, e.g., temperature and pressure, that they map to. By training a single normalizing flow to transform the equilibrium distribution sampled at only one reference thermodynamic state to a wide range of target temperatures and pressures, we can efficiently generate equilibrium samples across the entire phase diagram. Using a permutation-equivariant architecture allows us, thereby, to treat solid and liquid phases on the same footing. We demonstrate our approach by predicting the solid-liquid coexistence line for a Lennard-Jones system in excellent agreement with state-of-the-art free energy methods while significantly reducing the number of energy evaluations needed. | 翻訳日:2024-08-19 19:52:42 公開日:2024-08-16 |
# 言語モデルファインチューニングのためのユーザレベル差分プライバシー
Mind the Privacy Unit! User-Level Differential Privacy for Language Model Fine-Tuning ( http://arxiv.org/abs/2406.14322v3 ) ライセンス: Link先を確認 | Lynn Chua, Badih Ghazi, Yangsibo Huang, Pritish Kamath, Ravi Kumar, Daogao Liu, Pasin Manurangsi, Amer Sinha, Chiyuan Zhang, | (参考訳) 大規模言語モデル(LLM)は、さまざまなドメインにまたがる複雑なタスクに対処するための強力なツールとして登場したが、暗記の可能性によって機密データに微調整された場合、プライバシー上の懸念も生じている。
ディファレンシャル・プライバシ(DP)は、モデルが特定のプライバシ・ユニットと「ほとんど区別できない」ことを保証することで、有望な解決策を提供する一方で、LLMの現在の評価は、主に各例(テキスト・レコード)をプライバシ・ユニットとして扱う。
これにより、ユーザ毎のコントリビューションが変化すると、不均一なユーザのプライバシが保証される。
そこで本研究では,ユーザ間のプライバシー保護の統一に必要なアプリケーションによって動機付けられたユーザレベルのDPについて検討する。
自然言語生成タスクにおけるLLM微調整のためのユーザレベルDPの体系的評価について述べる。
ユーザレベルのDP保証を実現するための2つのメカニズム,グループプライバシとユーザワイドDP-SGDに着目し,データ選択戦略やパラメータチューニングなどの設計選択について検討する。
Large language models (LLMs) have emerged as powerful tools for tackling complex tasks across diverse domains, but they also raise privacy concerns when fine-tuned on sensitive data due to potential memorization. While differential privacy (DP) offers a promising solution by ensuring models are 'almost indistinguishable' with or without any particular privacy unit, current evaluations on LLMs mostly treat each example (text record) as the privacy unit. This leads to uneven user privacy guarantees when contributions per user vary. We therefore study user-level DP motivated by applications where it necessary to ensure uniform privacy protection across users. We present a systematic evaluation of user-level DP for LLM fine-tuning on natural language generation tasks. Focusing on two mechanisms for achieving user-level DP guarantees, Group Privacy and User-wise DP-SGD, we investigate design choices like data selection strategies and parameter tuning for the best privacy-utility tradeoff. | 翻訳日:2024-08-19 19:52:42 公開日:2024-08-16 |
# PEANO-ViT:視覚変換器における非線形の高効率近似
PEANO-ViT: Power-Efficient Approximations of Non-Linearities in Vision Transformers ( http://arxiv.org/abs/2406.14854v2 ) ライセンス: Link先を確認 | Mohammad Erfan Sadeghi, Arash Fayyazi, Seyedarmin Azizi, Massoud Pedram, | (参考訳) ビジョントランスフォーマー(ViT)のハードウェアプラットフォームへの展開、特にFPGA(Field-Programmable Gate Arrays)は、主に非線型関数(特に層正規化、ソフトマックス、ガウス誤差線形ユニット(GELU))の計算と電力要求のために多くの課題を提起している。
これらの重要な機能は、複雑な数学的操作と、FPGAの固有のリソース数とアーキテクチャ上の制約により、効率的なハードウェア実装に重大な障害をもたらす。
PEANO-ViTは、分割と平方根関数を同時に近似する分割自由手法を導入することにより、層正規化層の実装を合理化するための新しいアプローチを提供する。
さらに、PEANO-ViTは、指数関数のPadeに基づく近似により、ソフトマックス層の分割操作を除去するマルチスケール分割戦略を提供する。
最後に、PEANO-ViTはGELU関数の分数次線形近似を導入し、GELUに付随する計算集約操作をバイパスするように慎重に設計した。
総合評価では, PEANO-ViTは最小の精度劣化(DeiT-Bでは0.5%)を示し, 電力効率を著しく向上させ, それぞれ1.91x, 1.39x, 8.01xの層正規化, ソフトマックス, GELUの改善を実現した。
この改善は、DSP、LUT、レジスタカウントの大幅な削減によって達成される。
このため、PEANO-ViTはリソースと電力制約のあるFPGAプラットフォームにビジョントランスフォーマーを効率的に配置できる。
The deployment of Vision Transformers (ViTs) on hardware platforms, specially Field-Programmable Gate Arrays (FPGAs), presents many challenges, which are mainly due to the substantial computational and power requirements of their non-linear functions, notably layer normalization, softmax, and Gaussian Error Linear Unit (GELU). These critical functions pose significant obstacles to efficient hardware implementation due to their complex mathematical operations and the inherent resource count and architectural limitations of FPGAs. PEANO-ViT offers a novel approach to streamlining the implementation of the layer normalization layer by introducing a division-free technique that simultaneously approximates the division and square root function. Additionally, PEANO-ViT provides a multi-scale division strategy to eliminate division operations in the softmax layer, aided by a Pade-based approximation for the exponential function. Finally, PEANO-ViT introduces a piece-wise linear approximation for the GELU function, carefully designed to bypass the computationally intensive operations associated with GELU. In our comprehensive evaluations, PEANO-ViT exhibits minimal accuracy degradation (<= 0.5% for DeiT-B) while significantly enhancing power efficiency, achieving improvements of 1.91x, 1.39x, 8.01x for layer normalization, softmax, and GELU, respectively. This improvement is achieved through substantial reductions in DSP, LUT, and register counts for these non-linear operations. Consequently, PEANO-ViT enables efficient deployment of Vision Transformers on resource- and power-constrained FPGA platforms. | 翻訳日:2024-08-19 17:59:12 公開日:2024-08-16 |
# 事故と誤用を超えて:人工知能の構造的リスクダイナミクスをデコードする
Beyond Accidents and Misuse: Decoding the Structural Risk Dynamics of Artificial Intelligence ( http://arxiv.org/abs/2406.14873v2 ) ライセンス: Link先を確認 | Kyle A Kilian, | (参考訳) 現代産業における人工知能(AI)の統合は、単なる技術的アップグレードではなく、重要な構造的な意味を持つ変革である。
本稿では,社会・経済・政治システム間の高度AIシステムの迅速な統合に伴う構造的リスクの概念について考察する。
この枠組みは、事故や誤用などの直接的なAI脅威に主に焦点をあてる従来の視点に挑戦し、これらより近縁なリスクはより大きな社会技術システムによって相互に関連付けられ、影響されることを示唆している。
本研究は, 技術的進歩と社会的ダイナミクスの相互作用を分析することにより, 構造的リスクの3つの主要なカテゴリ, 先行的構造的原因, 先行的システム原因, 有害なフィードバックループを分離する。
これらのリスクを駆動する因果連鎖を理解するための包括的枠組みを提示し、構造的力の相互依存と、誤用やシステム障害のより近親的なリスクを強調した。
この論文は、未確認のAI進歩がパワーダイナミクス、信頼、インセンティブ構造を再形成し、深遠で予測不可能な変化につながることを明記している。
我々は、次世代AI技術がもたらす課題に対して、政策立案者や国家安全保障担当者を準備することを目的とした、これらのダイナミクスのマッピング、シミュレーション、ゲームのための方法論研究アジェンダを導入する。
論文は政策勧告で締めくくっている。
The integration of artificial intelligence (AI) across contemporary industries is not just a technological upgrade but a transformation with profound structural implications. This paper explores the concept of structural risks associated with the rapid integration of advanced AI systems across social, economic, and political systems. This framework challenges the conventional perspectives that primarily focus on direct AI threats such as accidents and misuse and suggests that these more proximate risks are interconnected and influenced by a larger sociotechnical system. By analyzing the interactions between technological advancements and social dynamics, this study isolates three primary categories of structural risk: antecedent structural causes, antecedent system causes, and deleterious feedback loops. We present a comprehensive framework to understand the causal chains that drive these risks, highlighting the interdependence between structural forces and the more proximate risks of misuse and system failures. The paper articulates how unchecked AI advancement can reshape power dynamics, trust, and incentive structures, leading to profound and often unpredictable shifts. We introduce a methodological research agenda for mapping, simulating, and gaming these dynamics aimed at preparing policymakers and national security officials for the challenges posed by next-generation AI technologies. The paper concludes with policy recommendations. | 翻訳日:2024-08-19 17:59:12 公開日:2024-08-16 |
# LLMを使ったカスタム文字作成 - ペルソナ駆動ロールプレイングエージェントフレームワークSimsChatの紹介
Crafting Customisable Characters with LLMs: Introducing SimsChat, a Persona-Driven Role-Playing Agent Framework ( http://arxiv.org/abs/2406.17962v3 ) ライセンス: Link先を確認 | Bohao Yang, Dong Liu, Chen Tang, Chenghao Xiao, Kun Zhao, Chao Li, Lin Yuan, Guang Yang, Lanxiao Huang, Chenghua Lin, | (参考訳) 大きな言語モデル(LLM)は、人間の指示を理解し、高品質なテキストを生成する素晴らしい能力を示す。
この能力により、LSMは人間の行動の単なる複製以上の、より洗練されたレベルで人間をエミュレートできるエージェントとして機能することができる。
しかし、多様な側面から文字を作成できるLLMの活用を探求することの欠如がある。
本研究では,LLMを利用して様々なユーザの好みに応じて自由にカスタマイズできる実世界の文字をシミュレートするCustomisable Conversation Agent Frameworkを紹介する。
この適応可能なフレームワークは、カスタマイズ可能なキャラクタや、人間の好みに合わせたロールプレイングエージェントの設計に有用である。
68種類のカスタマイズ文字と1,360個のマルチターンロールプレイング対話,13,971個の対話対話を含むSimsConvデータセットを提案する。
キャラクターは、キャリア、願望、特性、スキルなど、いくつかの現実世界の要素から作られる。
これらの基盤の上に構築されたSimsChatは、自由にカスタマイズ可能なロールプレイングエージェントである。
様々な現実世界のシーンとトピック固有のキャラクターの対話を取り入れ、様々なシナリオにおけるキャラクターの生活経験をシミュレートし、特定の感情とのトピック固有の相互作用をシミュレートする。
実験結果から,提案するフレームワークは望ましい性能を達成し,将来,より正確な人間シミュラクラの構築のための貴重なガイドラインを提供することが示された。
私たちのデータとコードはhttps://github.com/Bernard-Yang/SimsChat.comで公開されています。
Large Language Models (LLMs) demonstrate a remarkable ability to comprehend human instructions and generate high-quality text. This capability allows LLMs to function as agents that can emulate human beings at a more sophisticated level, beyond the mere replication of basic human behaviours. However, there is a lack of exploring into leveraging LLMs to craft characters from diverse aspects. In this work, we introduce the Customisable Conversation Agent Framework, which leverages LLMs to simulate real-world characters that can be freely customised according to various user preferences. This adaptable framework is beneficial for the design of customisable characters and role-playing agents aligned with human preferences. We propose the SimsConv dataset, which encompasses 68 different customised characters, 1,360 multi-turn role-playing dialogues, and a total of 13,971 interaction dialogues. The characters are created from several real-world elements, such as career, aspiration, trait, and skill. Building upon these foundations, we present SimsChat, a freely customisable role-playing agent. It incorporates diverse real-world scenes and topic-specific character interaction dialogues, thereby simulating characters' life experiences in various scenarios and topic-specific interactions with specific emotions. Experimental results indicate that our proposed framework achieves desirable performance and provides a valuable guideline for the construction of more accurate human simulacra in the future. Our data and code are publicly available at https://github.com/Bernard-Yang/SimsChat. | 翻訳日:2024-08-19 17:59:12 公開日:2024-08-16 |
# SD-BLS:無リンクの閾値取り消しによる検証可能なクレデンシャルの選択的開示を保存するプライバシー保護
SD-BLS: Privacy Preserving Selective Disclosure of Verifiable Credentials with Unlinkable Threshold Revocation ( http://arxiv.org/abs/2406.19035v4 ) ライセンス: Link先を確認 | Denis Roio, Rebecca Selvaggini, Gabriele Bellini, Andrea D'Intino, | (参考訳) デジタルIDシステムにおける発行者の汚職からのプライバシーと保護の確保が不可欠である。
本稿では,第2次楕円曲線とBoneh-Lynn-Shacham(BLS)署名を用いたディジタル認証情報の選択的開示とプライバシ保護のための手法を提案する。
保持者は、選択された資格証明書を開示することなく、その証明を提示できるようにし、その提示をリプレイ攻撃から保護する。
取り消しは、公開検証された秘密共有(PVSS)を使用して複数の取り消し発行者間で配布され、設定可能なコンセンサスによってのみ起動され、発行者腐敗に対する堅牢な保護が保証される。
システムのユニークな設計は、大規模なリユースリストであっても、非常に高速なリユースチェックを可能にし、最適化されたハッシュマップのルックアップを活用する。
Ensuring privacy and protection from issuer corruption in digital identity systems is crucial. We propose a method for selective disclosure and privacy-preserving revocation of digital credentials using second-order Elliptic Curves and Boneh-Lynn-Shacham (BLS) signatures. We make holders able to present proofs of possession of selected credentials without disclosing them, and we protect their presentations from replay attacks. Revocations may be distributed among multiple revocation issuers using publicly verifiable secret sharing (PVSS) and activated only by configurable consensus, ensuring robust protection against issuer corruption. Our system's unique design enables extremely fast revocation checks, even with large revocation lists, leveraging optimized hash map lookups. | 翻訳日:2024-08-19 17:59:12 公開日:2024-08-16 |
# 機械学習アンサンブルにおける予測不安定性
Prediction Instability in Machine Learning Ensembles ( http://arxiv.org/abs/2407.03194v4 ) ライセンス: Link先を確認 | Jeremy Kedziora, | (参考訳) 機械学習では、複数のモデルからの予測が集約される。
応用問題におけるアンサンブルの広範な使用と強力な性能にもかかわらず、アグリゲーションモデルの数学的性質や、そのようなモデルの安全で説明可能な使用に関する結果についてはほとんど知られていない。
本稿では,任意のアンサンブルが以下の予測不安定性の少なくとも1つの形式を示すことを示す定理を証明した。
基礎となるすべてのモデル間の合意を無視したり、基礎となるモデルが存在しない場合、その考えを変更したり、実際に予測することのないオプションを除外したりすることで、操作可能になります。
結果として、アンサンブルアグリゲーションの手順は、情報利用の利点とこれらの予測不安定性のリスクのバランスをとる必要がある。
この分析はまた、特定のアンサンブルアルゴリズムから予想される特定の形の予測不安定性(例えば、ランダムな森やxgboostのような一般的な樹木のアンサンブル)が、基本的な直感的なフェアネス特性に反する、ということにも光を当てている。
最後に、これは漸近的条件下で一貫したモデルを用いて改善可能であることを示す。
In machine learning ensembles predictions from multiple models are aggregated. Despite widespread use and strong performance of ensembles in applied problems little is known about the mathematical properties of aggregating models and associated consequences for safe, explainable use of such models. In this paper we prove a theorem that shows that any ensemble will exhibit at least one of the following forms of prediction instability. It will either ignore agreement among all underlying models, change its mind when none of the underlying models have done so, or be manipulable through inclusion or exclusion of options it would never actually predict. As a consequence, ensemble aggregation procedures will always need to balance the benefits of information use against the risk of these prediction instabilities. This analysis also sheds light on what specific forms of prediction instability to expect from particular ensemble algorithms; for example popular tree ensembles like random forest, or xgboost will violate basic, intuitive fairness properties. Finally, we show that this can be ameliorated by using consistent models in asymptotic conditions. | 翻訳日:2024-08-19 17:59:12 公開日:2024-08-16 |
# HCS-TNAS:超音波画像分割のためのハイブリッド拘束駆動半教師付き変圧器-NAS
HCS-TNAS: Hybrid Constraint-driven Semi-supervised Transformer-NAS for Ultrasound Image Segmentation ( http://arxiv.org/abs/2407.04203v2 ) ライセンス: Link先を確認 | Renqi Chen, Xinzhe Zheng, Haoyang Su, Kehan Wu, | (参考訳) 超音波の精密セグメンテーションは、臨床医が包括的診断を行う上で不可欠である。
しかし, 画像の品質が低く, ラベル付きデータが少ないため, 精度の高い超音波画像分割モデルの開発は困難である。
その結果,(1)マルチスケール特徴表現の最適化,(2)データ依存に対する抵抗の増大という2つの主要な解が得られた。
最初のアプローチは高度なネットワークアーキテクチャを必要とするが、手作りのネットワークは知識集約的であり、しばしば限られた改善をもたらす。
対照的に、ニューラルネットワークサーチ(NAS)は計算コストが大きいにもかかわらず、より容易に最適な性能が得られる。
2つ目の問題に関して、半教師付き学習(SSL)は確立された手法であるが、複雑なNASと組み合わせることで、余分な制約なしにいくつかのラベル付きサンプルに過度に適合するリスクに直面している。
そこで我々は,ハイブリッド制約駆動半教師付きトランスフォーマー-NAS (HCS-TNAS) を導入する。
HCS-TNASは、ViTのアテンション計算の前にマルチスケールトークン検索のための効率的なNAS-ViTモジュールを備え、計算コストを下げてコンテキスト情報とローカル情報を効果的にキャプチャし、データ依存を解決するための最適化にネットワーク独立性とコントラスト学習を追加するハイブリッドSSLフレームワークを含んでいる。
段階的な最適化戦略をさらに発展させることで、合理的なネットワーク構造が特定される。
公開データセットの実験では、HCS-TNASが最先端のパフォーマンスを達成し、超音波セグメンテーションの限界を押し上げることが示されている。
Precise ultrasound segmentation is vital for clinicians to provide comprehensive diagnoses. However, developing a model that accurately segments ultrasound images is challenging due to the images' low quality and the scarcity of extensive labeled data. This results in two main solutions: (1) optimizing multi-scale feature representations, and (2) increasing resistance to data dependency. The first approach necessitates an advanced network architecture, but a handcrafted network is knowledge-intensive and often yields limited improvement. In contrast, neural architecture search (NAS) can more easily attain optimal performance, albeit with significant computational costs. Regarding the second issue, semi-supervised learning (SSL) is an established method, but combining it with complex NAS faces the risk of overfitting to a few labeled samples without extra constraints. Therefore, we introduce a hybrid constraint-driven semi-supervised Transformer-NAS (HCS-TNAS), balancing both solutions for segmentation. HCS-TNAS includes an Efficient NAS-ViT module for multi-scale token search before ViT's attention calculation, effectively capturing contextual and local information with lower computational costs, and a hybrid SSL framework that adds network independence and contrastive learning to the optimization for solving data dependency. By further developing a stage-wise optimization strategy, a rational network structure is identified. Experiments on public datasets show that HCS-TNAS achieves state-of-the-art performance, pushing the limit of ultrasound segmentation. | 翻訳日:2024-08-19 17:59:12 公開日:2024-08-16 |
# ロバスト・ニューラル・インフォメーション・検索 : 敵対的・アウト・オブ・ディストリビューション的視点
Robust Neural Information Retrieval: An Adversarial and Out-of-distribution Perspective ( http://arxiv.org/abs/2407.06992v2 ) ライセンス: Link先を確認 | Yu-An Liu, Ruqing Zhang, Jiafeng Guo, Maarten de Rijke, Yixing Fan, Xueqi Cheng, | (参考訳) ニューラル情報検索(IR)モデルの最近の進歩は、様々なIRタスクに対する有効性を著しく向上させてきた。
これらのモデルの堅牢性は、実際に信頼性を確保するのに不可欠であり、大きな注目を集めている。
ロバストIRに関する幅広い研究が提案されている中で、我々は、現状を整理し、既存の方法論から洞察を得て、今後の発展に向けた基礎を築き上げることが、機会であると信じている。
我々は、IRの堅牢性を多面的概念とみなし、敵攻撃、アウト・オブ・ディストリビューション(OOD)シナリオ、パフォーマンスのばらつきに対してその必要性を強調している。
本研究は,高密度検索モデル (DRM) とニューラルランキングモデル (NRM) の強靭性解をそれぞれ識別し,これらをニューラルIRパイプラインの重要成分として認識する。
我々は,既存の手法,データセット,評価指標について詳細な議論を行い,大規模言語モデルの時代における課題や今後の方向性に光を当てる。
SIGIR 2024 \url{https://sigir2024-robust-information-retrieval.github.io}での最初のチュートリアルも行います。
既存の作業の組織化とともに、ロバストな情報検索のための異種評価ベンチマークであるロバストなIR(BestIR)のためのベンチマーク(Benchmark for robust IR)を導入し、その公開は \url{https://github.com/Davion-Liu/BestIR} で行われている。
本稿では,IRモデルの堅牢性に関する今後の研究に有用な手がかりを提供し,信頼性の高い検索エンジンである \url{https://github.com/Davion-Liu/Awesome-Robustness-in-Information-Retrieval} の開発を支援することを期待する。
Recent advances in neural information retrieval (IR) models have significantly enhanced their effectiveness over various IR tasks. The robustness of these models, essential for ensuring their reliability in practice, has also garnered significant attention. With a wide array of research on robust IR being proposed, we believe it is the opportune moment to consolidate the current status, glean insights from existing methodologies, and lay the groundwork for future development. We view the robustness of IR to be a multifaceted concept, emphasizing its necessity against adversarial attacks, out-of-distribution (OOD) scenarios and performance variance. With a focus on adversarial and OOD robustness, we dissect robustness solutions for dense retrieval models (DRMs) and neural ranking models (NRMs), respectively, recognizing them as pivotal components of the neural IR pipeline. We provide an in-depth discussion of existing methods, datasets, and evaluation metrics, shedding light on challenges and future directions in the era of large language models. To the best of our knowledge, this is the first comprehensive survey on the robustness of neural IR models, and we will also be giving our first tutorial presentation at SIGIR 2024 \url{https://sigir2024-robust-information-retrieval.github.io}. Along with the organization of existing work, we introduce a Benchmark for robust IR (BestIR), a heterogeneous evaluation benchmark for robust neural information retrieval, which is publicly available at \url{https://github.com/Davion-Liu/BestIR}. We hope that this study provides useful clues for future research on the robustness of IR models and helps to develop trustworthy search engines \url{https://github.com/Davion-Liu/Awesome-Robustness-in-Information-Retrieval}. | 翻訳日:2024-08-19 17:59:12 公開日:2024-08-16 |
# Ada-KV:効率的なLLM推論のための適応的予算割当によるKVキャッシュ推定の最適化
Ada-KV: Optimizing KV Cache Eviction by Adaptive Budget Allocation for Efficient LLM Inference ( http://arxiv.org/abs/2407.11550v3 ) ライセンス: Link先を確認 | Yuan Feng, Junlin Lv, Yukun Cao, Xike Xie, S. Kevin Zhou, | (参考訳) 大規模言語モデルは様々な分野で優れてきたが、長時間の推論に必要なキーバリュー(KV)キャッシュの拡大により、メモリと時間効率の課題に直面している。
最近の取り組みは、生成品質を保ちながら、実行時に大量の非クリティカルキャッシュ要素を排除し、KVキャッシュサイズを所定のメモリ予算に削減しようとするものである。
現在の消去法を再検討した結果,多頭部自己認識機構の事前および後消去出力における$L_1$の消去損失の上限を基本的に最小化できることが判明した。
さらに,本分析の結果から,注視先全体にわたる予算を均一に割り当てるという一般的な慣行が,予測後の品質を損なうことが示唆された。
これらの結果を踏まえて, 単純かつ効果的な適応型予算割当アルゴリズムを提案する。
このアルゴリズムは、理論的な損失上限を最適化するだけでなく、異なるヘッドにまたがる様々な特性と整合させることにより、実際には$L_1$のエビクション損失を低減させる。
このアルゴリズムを2つの最先端手法に統合することにより、KVキャッシュ消去を最適化するための適応予算割り当ての有効性を実証する。
16のデータセットとNeedle-in-a-Haystackテストに対する大規模な評価は、さまざまなタスクで大幅なパフォーマンス向上を確認している。
Large Language Models have excelled in various fields but encounter challenges in memory and time efficiency due to the expanding Key-Value (KV) cache required for long-sequence inference. Recent efforts try to reduce KV cache size to a given memory budget by evicting vast non-critical cache elements during runtime, while preserving generation quality. Our revisiting of current eviction methods reveals that they fundamentally minimize an upper bound of the $L_1$ eviction loss between the pre- and post-eviction outputs of multi-head self-attention mechanisms. Moreover, our analysis indicates that the common practices of uniformly assigning budgets across attention heads harm their post-eviction generation quality. In light of these findings, we propose a simple yet effective adaptive budget allocation algorithm. This algorithm not only optimizes the theoretical loss upper bound but also reduces the $L_1$ eviction loss in practice by aligning with the varied characteristics across different heads. By integrating this algorithm into two state-of-the-art methods, we demonstrate the effectiveness of using adaptive budget allocation to optimize KV cache eviction. Extensive evaluations on 16 datasets and the Needle-in-a-Haystack test confirm significant performance improvements across various tasks. | 翻訳日:2024-08-19 17:59:12 公開日:2024-08-16 |
# GPUによるHGNNトレーニングの特性と理解
Characterizing and Understanding HGNN Training on GPUs ( http://arxiv.org/abs/2407.11790v3 ) ライセンス: Link先を確認 | Dengke Han, Mingyu Yan, Xiaochun Ye, Dongrui Fan, | (参考訳) 不均一グラフデータに対する顕著な表現能力のため、ヘテロジニアスグラフニューラルネットワーク(HGNN)は、レコメンデーションシステムや医療分析など、多くの重要な現実世界領域で広く採用されている。
実践的な応用に先立ち、広範囲なトレーニングを通じて特定のタスクに適した最適なHGNNモデルパラメータを特定することは、時間とコストのかかるプロセスである。
HGNNトレーニングの効率を高めるためには、トレーニングプロセス内の実行セマンティクスとパターンを特徴づけて分析し、パフォーマンスボトルネックを特定することが不可欠である。
本研究では,シングルGPUとマルチGPU分散トレーニングを含む2つの主流HGNNトレーニングシナリオの詳細な定量化と分析を行う。
評価結果に基づいて,異なるHGNNトレーニングシナリオにおける性能ボトルネックとその根本原因を明らかにし,ソフトウェアとハードウェアの両方の観点から最適化ガイドラインを提供する。
Owing to their remarkable representation capabilities for heterogeneous graph data, Heterogeneous Graph Neural Networks (HGNNs) have been widely adopted in many critical real-world domains such as recommendation systems and medical analysis. Prior to their practical application, identifying the optimal HGNN model parameters tailored to specific tasks through extensive training is a time-consuming and costly process. To enhance the efficiency of HGNN training, it is essential to characterize and analyze the execution semantics and patterns within the training process to identify performance bottlenecks. In this study, we conduct an in-depth quantification and analysis of two mainstream HGNN training scenarios, including single-GPU and multi-GPU distributed training. Based on the characterization results, we disclose the performance bottlenecks and their underlying causes in different HGNN training scenarios and provide optimization guidelines from both software and hardware perspectives. | 翻訳日:2024-08-19 17:59:12 公開日:2024-08-16 |
# DropKAN: Kolmogorov-Arnold Networks のドロップアウト
DropKAN: Dropout Kolmogorov-Arnold Networks ( http://arxiv.org/abs/2407.13044v3 ) ライセンス: Link先を確認 | Mohammed Ghaith Altarabichi, | (参考訳) 本研究では,Dropout Kolmogorov-Arnold Networks(Dropout Kolmogorov-Arnold Networks)を提案する。
DropKANは、ドロップマスクをkan層に直接埋め込んで、Kansの計算グラフ内のいくつかのアクティベーションの出力をランダムにマスキングすることで機能する。
最小限のコーディング作業を必要とするこの単純な手順は、正規化効果を持ち、一貫してkansのより優れた一般化につながることを示す。
我々は、標準のDropout with Kansの適応を分析し、Kansのニューロンに適用されたDropoutがフィードフォワードパスの予測不可能な動作を引き起こすことを実証する。
実世界の機械学習データセットを用いて実証的研究を行い、その結果を検証する。
その結果,DropKANは標準のDropout with Kansよりも優れた代替手段であり,kansの一般化性能を向上させることが示唆された。
DropKANの実装は以下の通りである。
We propose DropKAN (Dropout Kolmogorov-Arnold Networks) a regularization method that prevents co-adaptation of activation function weights in Kolmogorov-Arnold Networks (KANs). DropKAN functions by embedding the drop mask directly within the KAN layer, randomly masking the outputs of some activations within the KANs' computation graph. We show that this simple procedure that require minimal coding effort has a regularizing effect and consistently lead to better generalization of KANs. We analyze the adaptation of the standard Dropout with KANs and demonstrate that Dropout applied to KANs' neurons can lead to unpredictable behavior in the feedforward pass. We carry an empirical study with real world Machine Learning datasets to validate our findings. Our results suggest that DropKAN is consistently a better alternative to using standard Dropout with KANs, and improves the generalization performance of KANs. Our implementation of DropKAN is available at: \url{https://github.com/Ghaith81/dropkan}. | 翻訳日:2024-08-19 17:59:12 公開日:2024-08-16 |
# CoDefeater: 保証ケースのデフェータを見つけるためにLLMを使用する
CoDefeater: Using LLMs To Find Defeaters in Assurance Cases ( http://arxiv.org/abs/2407.13717v2 ) ライセンス: Link先を確認 | Usman Gohar, Michael C. Hunter, Robyn R. Lutz, Myra B. Cohen, | (参考訳) 保証ケースの構築は、安全クリティカルなシステムが計画された環境で安全に動作することを示すために広く使われ、時には必要となるプロセスである。
エラーやエッジケースの欠落のリスクを軽減するため、アシュアランスケースにおける主張に異議を唱える議論や証拠といった、敗者の概念が導入された。
決定者は議論の弱点をタイムリーに検出し、さらなる調査とタイムリーな軽減を促すことができる。
しかし、敗者の捕獲は専門家の判断、経験、創造性に依存しており、要求と規則の進化のために反復的に行う必要がある。
本稿では,大言語モデル (LLM) を利用して敗者を見つける自動化プロセスであるCoDefeaterを提案する。
2つのシステムでの最初の結果は、LLMが安全アナリストを支援するために、既知の、予期せぬ破滅者を見つけ、保証事例の完全性と信頼性を高めることができることを示している。
Constructing assurance cases is a widely used, and sometimes required, process toward demonstrating that safety-critical systems will operate safely in their planned environment. To mitigate the risk of errors and missing edge cases, the concept of defeaters - arguments or evidence that challenge claims in an assurance case - has been introduced. Defeaters can provide timely detection of weaknesses in the arguments, prompting further investigation and timely mitigations. However, capturing defeaters relies on expert judgment, experience, and creativity and must be done iteratively due to evolving requirements and regulations. This paper proposes CoDefeater, an automated process to leverage large language models (LLMs) for finding defeaters. Initial results on two systems show that LLMs can efficiently find known and unforeseen feasible defeaters to support safety analysts in enhancing the completeness and confidence of assurance cases. | 翻訳日:2024-08-19 17:59:12 公開日:2024-08-16 |
# クラフトアセンブリタスクのためのコンポーネント選択
Component Selection for Craft Assembly Tasks ( http://arxiv.org/abs/2407.14001v2 ) ライセンス: Link先を確認 | Vitor Hideyo Isume, Takuya Kiyokawa, Natsuki Yamanobe, Yukiyasu Domae, Weiwei Wan, Kensuke Harada, | (参考訳) 従来の手作り工芸品にインスパイアされ、利用可能なオブジェクトに基づいてアセンブリを即興で行うことで、クラフトアセンブリータスクを正式に導入する。
ロボット組立作業であり、使用可能なオブジェクトを使用して、そのパーツに直接対応しない所定の対象オブジェクトの正確な表現を構築する。
本研究は,対象物のRGB画像が野生である場合に,最終工芸品の利用可能なオブジェクトのサブセットを選択することに焦点を当てる。
マスクセグメンテーションニューラルネットワークを用いて、目に見える部分を特定し、ラベル付きテンプレートメッシュを検索する。
これらのメッシュは、最も適切なテンプレートを決定するために最適化される。
そこで本研究では,テンプレートメッシュの一部をキュービドやシリンダーなどの原始的な形状に簡略化することを提案する。
最後に,ローカルとグローバルの比率に基づいて,シーン内の対応関係を見つけるための探索アルゴリズムを設計する。
我々は,すべての組み合わせを考慮に入れた比較のためのベースラインを開発し,前景地図やマスク精度で使用される共通指標の最高スコアの組み合わせを選択する。
提案手法は2つの異なるシーンのベースラインに匹敵する結果を達成し,実世界のシナリオにおける実装の質的な結果を示す。
Inspired by traditional handmade crafts, where a person improvises assemblies based on the available objects, we formally introduce the Craft Assembly Task. It is a robotic assembly task that involves building an accurate representation of a given target object using the available objects, which do not directly correspond to its parts. In this work, we focus on selecting the subset of available objects for the final craft, when the given input is an RGB image of the target in the wild. We use a mask segmentation neural network to identify visible parts, followed by retrieving labelled template meshes. These meshes undergo pose optimization to determine the most suitable template. Then, we propose to simplify the parts of the transformed template mesh to primitive shapes like cuboids or cylinders. Finally, we design a search algorithm to find correspondences in the scene based on local and global proportions. We develop baselines for comparison that consider all possible combinations, and choose the highest scoring combination for common metrics used in foreground maps and mask accuracy. Our approach achieves comparable results to the baselines for two different scenes, and we show qualitative results for an implementation in a real-world scenario. | 翻訳日:2024-08-19 17:59:12 公開日:2024-08-16 |
# トレーディング・デビル・ファイナル:株式市場によるバックドア攻撃とベイズ最適化
Trading Devil Final: Backdoor attack via Stock market and Bayesian Optimization ( http://arxiv.org/abs/2407.14573v3 ) ライセンス: Link先を確認 | Orson Mengara, | (参考訳) 生成人工知能の出現以来、あらゆる企業や研究者が、商業的であろうとなかろうと、独自の生成モデルの開発を急いできた。
これらの強力な新ツールのユーザ数を考えると、LLM(大規模言語モデル)が学習した時に何が起こるかを説明するための、本質的に検証可能な方法は今のところありません。
例えば,Webから収集した膨大な量のデータに頼って高速かつ効率的な結果を得る自動音声認識システムでは,音響データ中毒に基づくMarketBackFinal 2.0と呼ばれるバックドアアタックが開発され,MarketBackFinal 2.0は主に現代の株式市場モデルに基づいている。
LLMに依存する可能性のある音声ベースのトランスフォーマーの脆弱性を示す。
Since the advent of generative artificial intelligence, every company and researcher has been rushing to develop their own generative models, whether commercial or not. Given the large number of users of these powerful new tools, there is currently no intrinsically verifiable way to explain from the ground up what happens when LLMs (large language models) learn. For example, those based on automatic speech recognition systems, which have to rely on huge and astronomical amounts of data collected from all over the web to produce fast and efficient results, In this article, we develop a backdoor attack called MarketBackFinal 2.0, based on acoustic data poisoning, MarketBackFinal 2.0 is mainly based on modern stock market models. In order to show the possible vulnerabilities of speech-based transformers that may rely on LLMs. | 翻訳日:2024-08-19 17:59:12 公開日:2024-08-16 |
# BIGbench:マルチモーダルLCMに基づくテキスト・画像生成モデルにおけるソーシャルバイアスの統一ベンチマーク
BIGbench: A Unified Benchmark for Social Bias in Text-to-Image Generative Models Based on Multi-modal LLM ( http://arxiv.org/abs/2407.15240v3 ) ライセンス: Link先を確認 | Hanjun Luo, Haoyu Huang, Ziye Deng, Xuecheng Liu, Ruizhe Chen, Zuozhu Liu, | (参考訳) テキスト・ツー・イメージ(T2I)生成モデルは、高品質な画像を生成する能力によってますます重要になりつつある。
社会学的研究はバイアスの体系的な分類を確立した。
しかしながら、既存のT2Iモデルに関するバイアス研究は、様々な種類のバイアスを混同し、方法論的な進歩を妨げる。
本稿では,ビアース・オブ・イメージ・ジェネレーションのための統合ベンチマークであるBIGbenchを紹介する。
既存のベンチマークとは異なり、BIGbenchは、バイアスの表示、バイアスの可視性、取得された属性、および保護された属性の4つの次元にわたるバイアスを分類し評価し、分析の例外的な精度を保証する。
さらに、BIGbenchは完全に自動化され、高精度な評価を実現するために、高度なマルチモーダルな大規模言語モデルを適用している。
BIGbenchを用いて8つの一般的なT2Iモデルと3つのデバイアスド手法を評価する。
我々の評価結果は、画像の整列と様々なバイアスの同定におけるBIGbenchの有効性を裏付けるものである。
また, 蒸留効果や無関係な保護属性など, バイアスに関する新たな研究方向も明らかにした。
私たちのベンチマークは、再現性を確保するためにhttps://github.com/BIGbench2024/BIGbench2024/で公開されています。
Text-to-Image (T2I) generative models are becoming increasingly crucial due to their ability to generate high-quality images, which also raises concerns about the social biases in their outputs, especially in the human generation. Sociological research has established systematic classifications of bias. However, existing bias research about T2I models conflates different types of bias, impeding methodological progress. In this paper, we introduce BIGbench, a unified benchmark for Biases of Image Generation, featuring a meticulously designed dataset. Unlike existing benchmarks, BIGbench classifies and evaluates biases across four dimensions: manifestation of bias, visibility of bias, acquired attributes, and protected attributes, which ensures exceptional accuracy for analysis. Furthermore, BIGbench applies advanced multi-modal large language models to achieve fully automated and highly accurate evaluations. We apply BIGbench to evaluate eight representative general T2I models and three debiased methods. Our human evaluation results underscore BIGbench's effectiveness in aligning images and identifying various biases. Besides, our study also reveal new research directions about biases, such as the effect of distillation and irrelevant protected attributes. Our benchmark is openly accessible at https://github.com/BIGbench2024/BIGbench2024/ to ensure reproducibility. | 翻訳日:2024-08-19 17:49:17 公開日:2024-08-16 |
# ゲート定義量子ドットにおけるベルの不等式
Violating Bell's inequality in gate-defined quantum dots ( http://arxiv.org/abs/2407.15778v2 ) ライセンス: Link先を確認 | Paul Steinacker, Tuomo Tanttu, Wee Han Lim, Nard Dumoulin Stuyck, MengKe Feng, Santiago Serrano, Ensar Vahapoglu, Rocky Y. Su, Jonathan Y. Huang, Cameron Jones, Kohei M. Itoh, Fay E. Hudson, Christopher C. Escott, Andrea Morello, Andre Saraiva, Chih Hwan Yang, Andrew S. Dzurak, Arne Laucht, | (参考訳) 量子コンピュータが約束する超高次計算能力は、絡み合いの基本的な量子力学的原理を利用する。
しかし、絡み合いを達成し、生成状態が局所因性の原理に従わないことを検証することは、ベルの不等式によって課される古典的境界を破るために高いコンカレンス値と読み出し忠実さを同時に要求するため、ゲート定義量子ドットにおけるスピン量子ビットにとって困難であることが証明された。
ここでは, ゲートセットトモグラフィ(GST)による初期化と校正を行い, 全てのエラーを減らし, 状態準備と測定(SPAM)を含む, 99 %以上の完全2ビットゲートの忠実度を推し進める。
我々は、読み出し誤差を補正することなく、97.17 %のベル状態忠実度を示し、ベルの不等式をS = 2.731 のベル信号と理論上の最大値 $2\sqrt{2}$ に近い値で破る。
我々の測定値は1.1Kの高温でも古典的限界を超えるか、100$\mu s$の絡み合い寿命である。
Superior computational power promised by quantum computers utilises the fundamental quantum mechanical principle of entanglement. However, achieving entanglement and verifying that the generated state does not follow the principle of local causality has proven difficult for spin qubits in gate-defined quantum dots, as it requires simultaneously high concurrence values and readout fidelities to break the classical bound imposed by Bell's inequality. Here we employ heralded initialization and calibration via gate set tomography (GST), to reduce all relevant errors and push the fidelities of the full 2-qubit gate set above 99 %, including state preparation and measurement (SPAM). We demonstrate a 97.17 % Bell state fidelity without correcting for readout errors and violate Bell's inequality with a Bell signal of S = 2.731 close to the theoretical maximum of $2\sqrt{2}$. Our measurements exceed the classical limit even at elevated temperatures of 1.1 K or entanglement lifetimes of 100 $\mu s$. | 翻訳日:2024-08-19 17:49:17 公開日:2024-08-16 |
# $k$-subsetサンプリングのためのスコア関数推定器の再検討
Revisiting Score Function Estimators for $k$-Subset Sampling ( http://arxiv.org/abs/2407.16058v2 ) ライセンス: Link先を確認 | Klas Wijk, Ricardo Vinuesa, Hossein Azizpour, | (参考訳) スコア関数推定は$k$-subsetサンプリングによる学習の過小評価手法か?
k$-subsetsをサンプリングすることは、微分可能なパラメトリゼーションには適さない多くの機械学習タスクの基本的な操作であり、勾配に基づく最適化を妨げる。
以前の研究は、緩やかなサンプリングや道順勾配推定に重点を置いていた。
変分推論および強化学習におけるスコア関数推定器の成功に触発されて、$k$-subset サンプリングの文脈で再検討する。
具体的には、離散フーリエ変換を用いて、$k$-subset分布のスコア関数を効率的に計算し、制御変数による推定値の分散を低減する方法を示す。
得られた推定器は、既存の方法とは異なり、非微分不可能な下流モデルにも適用しながら、正確なサンプルと偏りのない勾配推定の両方を提供する。
特徴選択の実験は、仮定が弱いにもかかわらず、現在の手法と競合する結果を示している。
Are score function estimators an underestimated approach to learning with $k$-subset sampling? Sampling $k$-subsets is a fundamental operation in many machine learning tasks that is not amenable to differentiable parametrization, impeding gradient-based optimization. Prior work has focused on relaxed sampling or pathwise gradient estimators. Inspired by the success of score function estimators in variational inference and reinforcement learning, we revisit them within the context of $k$-subset sampling. Specifically, we demonstrate how to efficiently compute the $k$-subset distribution's score function using a discrete Fourier transform, and reduce the estimator's variance with control variates. The resulting estimator provides both exact samples and unbiased gradient estimates while also applying to non-differentiable downstream models, unlike existing methods. Experiments in feature selection show results competitive with current methods, despite weaker assumptions. | 翻訳日:2024-08-19 17:49:17 公開日:2024-08-16 |
# TWIN V2: Kuaishouにおける拡張CTR予測のための超長期ユーザ行動系列のスケーリング
TWIN V2: Scaling Ultra-Long User Behavior Sequence Modeling for Enhanced CTR Prediction at Kuaishou ( http://arxiv.org/abs/2407.16357v2 ) ライセンス: Link先を確認 | Zihua Si, Lin Guan, ZhongXiang Sun, Xiaoxue Zang, Jing Lu, Yiqun Hui, Xingchao Cao, Zeyu Yang, Yichen Zheng, Dewei Leng, Kai Zheng, Chenbin Zhang, Yanan Niu, Yang Song, Kun Gai, | (参考訳) 大規模レコメンデーションシステムにおけるCTR予測タスクに対する長期的ユーザの関心をモデル化することの重要性は、研究者や実践者の間で徐々に注目されている。
SIMやTWINといった既存の作業は、通常、効率の懸念のために長期的なユーザ行動シーケンスをモデル化するための2段階のアプローチを採用している。
第1のステージは、検索ベース機構であるジェネラルサーチユニット(GSU)を用いて、ターゲット項目に関連するシーケンスのサブセットを長いシーケンスから迅速に検索し、第2のステージは、検索した結果に基づいてExact Search Unit(ESU)を用いて利息スコアを算出する。
ライフサイクル全体にわたる広範囲のユーザ行動シーケンスが,最大10^6の規模に達する可能性があることから,このような拡張性のあるユーザ関心をモデル化するための効果的なソリューションは現在存在しない。
この問題を解決するため、我々はTWIN-V2を導入した。これはTWINの強化であり、ライフサイクルの振る舞いを圧縮し、より正確で多様なユーザの興味を明らかにするために分割対コンカレントアプローチを適用している。
特に、階層的クラスタリング手法は、オフラインフェーズ中にライフサイクルの挙動に類似した特徴を持つアイテムを単一のクラスタにグループ化する。
クラスタのサイズを制限することにより、GSU検索におけるオンライン推論に適した長さに10^5以上の振る舞い列を圧縮することができる。
クラスタ・アウェア・ターゲット・アテンションは、ユーザの包括的かつ多面的な長期的関心を抽出し、最終的な推奨結果をより正確かつ多種多様にする。
マルチビリオン規模の産業データセットとオンラインA/Bテストによる大規模なオフライン実験は、TWIN-V2の有効性を実証した。
効率的なデプロイメントフレームワークの下では、TWIN-V2が主要なトラフィックにデプロイされ、Kuaishouでは毎日数億人のアクティブユーザを提供する。
The significance of modeling long-term user interests for CTR prediction tasks in large-scale recommendation systems is progressively gaining attention among researchers and practitioners. Existing work, such as SIM and TWIN, typically employs a two-stage approach to model long-term user behavior sequences for efficiency concerns. The first stage rapidly retrieves a subset of sequences related to the target item from a long sequence using a search-based mechanism namely the General Search Unit (GSU), while the second stage calculates the interest scores using the Exact Search Unit (ESU) on the retrieved results. Given the extensive length of user behavior sequences spanning the entire life cycle, potentially reaching up to 10^6 in scale, there is currently no effective solution for fully modeling such expansive user interests. To overcome this issue, we introduced TWIN-V2, an enhancement of TWIN, where a divide-and-conquer approach is applied to compress life-cycle behaviors and uncover more accurate and diverse user interests. Specifically, a hierarchical clustering method groups items with similar characteristics in life-cycle behaviors into a single cluster during the offline phase. By limiting the size of clusters, we can compress behavior sequences well beyond the magnitude of 10^5 to a length manageable for online inference in GSU retrieval. Cluster-aware target attention extracts comprehensive and multi-faceted long-term interests of users, thereby making the final recommendation results more accurate and diverse. Extensive offline experiments on a multi-billion-scale industrial dataset and online A/B tests have demonstrated the effectiveness of TWIN-V2. Under an efficient deployment framework, TWIN-V2 has been successfully deployed to the primary traffic that serves hundreds of millions of daily active users at Kuaishou. | 翻訳日:2024-08-19 17:49:17 公開日:2024-08-16 |
# サイバー情報オントロジーを目指して
Towards a Cyber Information Ontology ( http://arxiv.org/abs/2407.18998v2 ) ライセンス: Link先を確認 | David Limbaugh, Mark Jensen, John Beverley, | (参考訳) 本稿では,サイバーオントロジー(ファイルシステムオントロジーやデータ融合オントロジーなど)と上層および中層オントロジー,特に基本形式オントロジーと共通コアオントロジーのインターフェースとして機能することを目的とした用語について紹介する。
これらの用語は、情報項目をコピーする数多くの行為、それらの行為から生じるコピーの集合、および他のすべてのメンバーを表すそれらの集約の忠実なメンバーなど、サイバー情報管理をユニークなものにすることに焦点を当てている。
This paper introduces a set of terms that are intended to act as an interface between cyber ontologies (like a file system ontology or a data fusion ontology) and top- and mid-level ontologies, specifically Basic Formal Ontology and the Common Core Ontologies. These terms center on what makes cyberinformation management unique: numerous acts of copying items of information, the aggregates of copies that result from those acts, and the faithful members of those aggregates that represent all other members. | 翻訳日:2024-08-19 17:49:17 公開日:2024-08-16 |
# VersusDebias: SLMベースのプロンプトエンジニアリングとジェネレーティブ・アドバイザリーによるテキスト・ツー・イメージモデルのためのユニバーサルゼロショットデバイアス
VersusDebias: Universal Zero-Shot Debiasing for Text-to-Image Models via SLM-Based Prompt Engineering and Generative Adversary ( http://arxiv.org/abs/2407.19524v3 ) ライセンス: Link先を確認 | Hanjun Luo, Ziye Deng, Haoyu Huang, Xuecheng Liu, Ruizhe Chen, Zuozhu Liu, | (参考訳) テキスト・ツー・イメージ・モデル(T2I)の急速な発展に伴い、人口統計群に対する人間の画像生成のバイアスが重要な関心事となり、AIの公正性と倫理的基準に影響を及ぼす。
この問題に対処する方法を提案する研究者もいる。
しかし、既存の手法は固定的なプロンプトを持つ特定のモデルのために設計されており、高速進化モデルや多様な実践シナリオへの適応性を制限している。
さらに、幻覚の影響を無視し、期待結果と実際の結果の相違をもたらす。
これらの問題に対処するため、我々は任意のT2Iモデルにおいて、配列生成(AG)モジュールと画像生成(IG)モジュールからなるバイアスの新しい普遍的デバイアスフレームワークであるVersusDebiasを紹介した。
自己適応AGモジュールは、プロセス後の幻覚と複数の属性を同時にデバイアスする特別な属性配列を生成する。
IGモジュールは、配列に従ってプロンプトを変更するために小さな言語モデルを使用し、T2Iモデルを駆動してデバイアス画像を生成し、ゼロショットデバイアスを可能にする。
大規模な実験は、VersusDebiasが性、人種、年齢のあらゆるモデルを同時に脱バイアスする能力を示している。
ゼロショットと少数ショットの両方のシナリオでは、VersusDebiasは既存のメソッドよりも優れており、例外的なユーティリティを示している。
私たちの仕事は、再現性を確保し、さらなる研究を促進するためにhttps://github.com/VersusDebias/VersusDebiasでアクセスできます。
With the rapid development of Text-to-Image (T2I) models, biases in human image generation against demographic social groups become a significant concern, impacting fairness and ethical standards in AI. Some researchers propose their methods to tackle with the issue. However, existing methods are designed for specific models with fixed prompts, limiting their adaptability to the fast-evolving models and diverse practical scenarios. Moreover, they neglect the impact of hallucinations, leading to discrepancies between expected and actual results. To address these issues, we introduce VersusDebias, a novel and universal debiasing framework for biases in arbitrary T2I models, consisting of an array generation (AG) module and an image generation (IG) module. The self-adaptive AG module generates specialized attribute arrays to post-process hallucinations and debias multiple attributes simultaneously. The IG module employs a small language model to modify prompts according to the arrays and drives the T2I model to generate debiased images, enabling zero-shot debiasing. Extensive experiments demonstrate VersusDebias's capability to debias any models across gender, race, and age simultaneously. In both zero-shot and few-shot scenarios, VersusDebias outperforms existing methods, showcasing its exceptional utility. Our work is accessible at https://github.com/VersusDebias/VersusDebias to ensure reproducibility and facilitate further research. | 翻訳日:2024-08-19 17:49:17 公開日:2024-08-16 |
# 注意機構を用いた全スライド画像分類のための高診断値パッチの蒸留
Distilling High Diagnostic Value Patches for Whole Slide Image Classification Using Attention Mechanism ( http://arxiv.org/abs/2407.19821v2 ) ライセンス: Link先を確認 | Tianhang Nan, Hao Quan, Yong Ding, Xingyu Li, Kai Yang, Xiaoyu Cui, | (参考訳) MIL(Multiple Instance Learning)は、ピクセルレベルの手動アノテーションをラベルとして診断レポートに置き換え、労働コストを大幅に削減するため、WSI(Whole Slide Image)分類の分野で広く注目を集めている。
最近の研究で、バッグレベルのMILメソッドはWSIのすべてのパッチを全体として考慮できるため、より良い結果が得られることが示されている。
しかし、そのような手法の欠点は、より冗長なパッチが組み込まれ、干渉につながることである。
この問題に対処するため, 干渉パッチを除いた高い診断値のパッチを抽出するために, 注目型特徴蒸留マルチインスタンスラーニング (AFD-MIL) 手法を開発した。
提案手法は、弱い教師付き学習における前処理操作として冗長パッチを排除し、広い雑音からの干渉を直接軽減するものである。
また、すべてのパッチを無差別に強制的に統合する伝統的な慣習とは対照的に、高い診断価値で特徴を蒸留するための注意機構の使用も先駆的である。
さらに我々は, 機能蒸留モジュールを微調整するグローバル損失最適化を導入した。
AFD-MILは多くの既存のMILメソッドと直交しており、一貫した性能改善につながっている。
このアプローチは現在の最先端の手法を超え、キャメリオン16(キャメリオンチャレンジ2016)では91.47%のACC(精度)と94.29%のAUC(曲線下)を達成し、TCGA-NSCLC(がんゲノムアトラスプログラム:非小細胞肺癌)では93.33%のACCと98.17%のAUCを達成している。
異なる特徴蒸留法を2つのデータセットに用い, 特定の疾患に適応し, 性能と解釈性を向上させた。
Multiple Instance Learning (MIL) has garnered widespread attention in the field of Whole Slide Image (WSI) classification as it replaces pixel-level manual annotation with diagnostic reports as labels, significantly reducing labor costs. Recent research has shown that bag-level MIL methods often yield better results because they can consider all patches of the WSI as a whole. However, a drawback of such methods is the incorporation of more redundant patches, leading to interference. To extract patches with high diagnostic value while excluding interfering patches to address this issue, we developed an attention-based feature distillation multi-instance learning (AFD-MIL) approach. This approach proposed the exclusion of redundant patches as a preprocessing operation in weakly supervised learning, directly mitigating interference from extensive noise. It also pioneers the use of attention mechanisms to distill features with high diagnostic value, as opposed to the traditional practice of indiscriminately and forcibly integrating all patches. Additionally, we introduced global loss optimization to finely control the feature distillation module. AFD-MIL is orthogonal to many existing MIL methods, leading to consistent performance improvements. This approach has surpassed the current state-of-the-art method, achieving 91.47% ACC (accuracy) and 94.29% AUC (area under the curve) on the Camelyon16 (Camelyon Challenge 2016, breast cancer), while 93.33% ACC and 98.17% AUC on the TCGA-NSCLC (The Cancer Genome Atlas Program: non-small cell lung cancer). Different feature distillation methods were used for the two datasets, tailored to the specific diseases, thereby improving performance and interpretability. | 翻訳日:2024-08-19 17:49:17 公開日:2024-08-16 |
# 改良型YOLOv10に基づく小売店用セルフチェックアウトシステム
Enhanced Self-Checkout System for Retail Based on Improved YOLOv10 ( http://arxiv.org/abs/2407.21308v2 ) ライセンス: Link先を確認 | Lianghao Tan, Shubing Liu, Jing Gao, Xiaoyi Liu, Linyue Chu, Huangqi Jiang, | (参考訳) ディープラーニング技術の急速な進歩により、コンピュータビジョンは小売自動化において大きな可能性を秘めている。
本稿では,改良型YOLOv10ネットワークに基づく小売店向けセルフチェックアウトシステムを提案する。
製品認識精度を大幅に向上するYOLOv8から検出ヘッド構造を取り入れたYOLOv10モデルに対するターゲット最適化を提案する。
さらに,自己チェックアウトシナリオに適した後処理アルゴリズムを開発し,システム適用をさらに強化する。
実験結果から,本システムは製品認識精度とチェックアウト速度の両方において既存手法よりも優れていることがわかった。
この研究は小売自動化のための新しい技術ソリューションを提供するだけでなく、現実世界のアプリケーションのためのディープラーニングモデルの最適化に関する貴重な洞察を提供する。
With the rapid advancement of deep learning technologies, computer vision has shown immense potential in retail automation. This paper presents a novel self-checkout system for retail based on an improved YOLOv10 network, aimed at enhancing checkout efficiency and reducing labor costs. We propose targeted optimizations to the YOLOv10 model, by incorporating the detection head structure from YOLOv8, which significantly improves product recognition accuracy. Additionally, we develop a post-processing algorithm tailored for self-checkout scenarios, to further enhance the application of system. Experimental results demonstrate that our system outperforms existing methods in both product recognition accuracy and checkout speed. This research not only provides a new technical solution for retail automation but offers valuable insights into optimizing deep learning models for real-world applications. | 翻訳日:2024-08-19 17:49:17 公開日:2024-08-16 |
# URLとWebページを用いた自動フィッシング検出
Automated Phishing Detection Using URLs and Webpages ( http://arxiv.org/abs/2408.01667v2 ) ライセンス: Link先を確認 | Huilin Wang, Bryan Hooi, | (参考訳) フィッシング検出(英: Phishing detection)は、機密情報を取得する不正な試みの識別と中立化を伴い、個人や組織をデータ漏洩や財務損失から保護する重要なサイバーセキュリティタスクである。
本稿では,LLMエージェントフレームワークの開発により,従来の参照型フィッシング検出の制約に対処する。
このエージェントはLarge Language Modelsを利用してオンライン情報を積極的に取得し利用し、より正確なフィッシング検出のための動的参照システムを提供する。
このイノベーションは静的な知識ベースの必要性を回避し、自動セキュリティ対策の適応性と効率を大幅に向上させる。
プロジェクトレポートには、既存のソリューションに関する最初の研究と問題分析が含まれており、新しいフレームワークを開発する動機となった。
我々は,LLMをエージェントとしてシミュレートしたフレームワークを実演し,構築に必要なテクニックを詳述し,続いて概念実証による完全な実装と,他の類似ソリューションに対するソリューションの性能評価実験を行った。
その結果,本手法は0.945の精度で達成され,既存の解(DynaPhish)の0.445よりも大幅に優れていた。
さらに、我々のアプローチの限界について議論し、それをより効果的にするための改善を提案する。
全体として、提案フレームワークは、現在の参照ベースのフィッシング検出手法の有効性を高め、現実世界のアプリケーションに適用できる可能性を持っている。
Phishing detection is a critical cybersecurity task that involves the identification and neutralization of fraudulent attempts to obtain sensitive information, thereby safeguarding individuals and organizations from data breaches and financial loss. In this project, we address the constraints of traditional reference-based phishing detection by developing an LLM agent framework. This agent harnesses Large Language Models to actively fetch and utilize online information, thus providing a dynamic reference system for more accurate phishing detection. This innovation circumvents the need for a static knowledge base, offering a significant enhancement in adaptability and efficiency for automated security measures. The project report includes an initial study and problem analysis of existing solutions, which motivated us to develop a new framework. We demonstrate the framework with LLMs simulated as agents and detail the techniques required for construction, followed by a complete implementation with a proof-of-concept as well as experiments to evaluate our solution's performance against other similar solutions. The results show that our approach has achieved with accuracy of 0.945, significantly outperforms the existing solution(DynaPhish) by 0.445. Furthermore, we discuss the limitations of our approach and suggest improvements that could make it more effective. Overall, the proposed framework has the potential to enhance the effectiveness of current reference-based phishing detection approaches and could be adapted for real-world applications. | 翻訳日:2024-08-19 17:49:17 公開日:2024-08-16 |
# GLDiTalker:グラフ遅延拡散変換器を用いた音声駆動型3次元顔アニメーション
GLDiTalker: Speech-Driven 3D Facial Animation with Graph Latent Diffusion Transformer ( http://arxiv.org/abs/2408.01826v2 ) ライセンス: Link先を確認 | Yihong Lin, Zhaoxin Fan, Lingyu Xiong, Liang Peng, Xiandong Li, Wenxiong Kang, Xianjia Wu, Songju Lei, Huang Xu, | (参考訳) 音声駆動音声ヘッド生成は、拡張現実のような多くの下流アプリケーションにとって重要な課題だが難しい課題である。
既存の手法は自己回帰モデルや拡散モデルを利用することで顕著な性能を実現している。
しかし、ほとんどの場合、モダリティの不整合、特に動きの多様性とリップシンク精度の矛盾を引き起こすオーディオとメッシュのモダリティの不整合に悩まされている。
本稿では,グラフ遅延拡散変換器を用いた音声駆動型3次元顔アニメーションモデルであるGLDiTalkerを紹介する。
GLDiTalkerの背景にある中核的な考え方は、遅延量子化された空間時間空間における信号の拡散によって、オーディオ・メッシュなモダリティの不整合を解消できるということである。
これを実現するため、GLDiTalkerは、グラフ拡張量子化宇宙学習ステージと空間時間パワー潜在拡散ステージで構成される量子化時空間拡散訓練パイプラインを構築している。
第1段階はリップシンク精度を確保し、第2段階は動きの多様性を高める。
これらの段階を合わせて、GLDiTalkerは時間的に、空間的に安定し、現実的なモデルを生成することができる。
提案手法が既存手法と比較して優れた性能を発揮することを示す。
Speech-driven talking head generation is an important but challenging task for many downstream applications such as augmented reality. Existing methods have achieved remarkable performance by utilizing autoregressive models or diffusion models. However, most still suffer from modality inconsistencies, specifically the misalignment between audio and mesh modalities, which causes inconsistencies in motion diversity and lip-sync accuracy. To address this issue, this paper introduces GLDiTalker, a novel speech-driven 3D facial animation model that employs a Graph Latent Diffusion Transformer. The core idea behind GLDiTalker is that the audio-mesh modality misalignment can be resolved by diffusing the signal in a latent quantilized spatial-temporal space. To achieve this, GLDiTalker builds upon a quantilized space-time diffusion training pipeline, which consists of a Graph Enhanced Quantilized Space Learning Stage and a Space-Time Powered Latent Diffusion Stage. The first stage ensures lip-sync accuracy, while the second stage enhances motion diversity. Together, these stages enable GLDiTalker to generate temporally and spatially stable, realistic models. Extensive evaluations on several widely used benchmarks demonstrate that our method achieves superior performance compared to existing methods. | 翻訳日:2024-08-19 17:49:17 公開日:2024-08-16 |
# サービスレコメンデーションのための大規模言語モデルを用いたQoS予測
Large Language Model Aided QoS Prediction for Service Recommendation ( http://arxiv.org/abs/2408.02223v2 ) ライセンス: Link先を確認 | Huiying Liu, Zekun Zhang, Honghao Li, Qilin Wu, Yiwen Zhang, | (参考訳) 大規模言語モデル(LLM)は近年急速に改善され、広範囲のアプリケーションで使用されている。
大規模なテキストコーパスで訓練した後、LLMはテキストデータからリッチな特徴を抽出する能力を得る。
このような機能は、Webユーザやサービスが自然言語文を使って記述できる固有の属性を持ち、レコメンデーションに有用であるWebサービスレコメンデーションタスクにおいて、潜在的に有用である。
本稿では, Web サービスレコメンデーションにおける LLM の利用可能性と実用性について検討する。
本稿では,LLMを用いて記述文によるWebユーザやサービスの属性から有用な情報を抽出する大規模言語モデルQoS予測(llmQoS)モデルを提案する。
この情報は、ユーザとサービスの歴史的なインタラクションのQoS値と組み合わせて、任意のユーザとサービスのペアのQoS値を予測する。
WSDreamデータセットでは、llmQoSはQoS予測問題に固有のデータ空間問題を克服し、同等のベースラインモデルを一貫して上回ることを示す。
Large language models (LLMs) have seen rapid improvement in the recent years, and have been used in a wider range of applications. After being trained on large text corpus, LLMs obtain the capability of extracting rich features from textual data. Such capability is potentially useful for the web service recommendation task, where the web users and services have intrinsic attributes that can be described using natural language sentences and are useful for recommendation. In this paper, we explore the possibility and practicality of using LLMs for web service recommendation. We propose the large language model aided QoS prediction (llmQoS) model, which use LLMs to extract useful information from attributes of web users and services via descriptive sentences. This information is then used in combination with the QoS values of historical interactions of users and services, to predict QoS values for any given user-service pair. On the WSDream dataset, llmQoS is shown to overcome the data sparsity issue inherent to the QoS prediction problem, and outperforms comparable baseline models consistently. | 翻訳日:2024-08-19 17:49:17 公開日:2024-08-16 |
# 強化学習による変形性膝関節症のアクティブセンシング
Active Sensing of Knee Osteoarthritis Progression with Reinforcement Learning ( http://arxiv.org/abs/2408.02349v2 ) ライセンス: Link先を確認 | Khanh Nguyen, Huy Hoang Nguyen, Egor Panfilov, Aleksei Tiulpin, | (参考訳) 変形性関節症(OA)は最も一般的な筋骨格疾患であり、治療法がない。
Knee OA (KOA) は障害の最も高い原因の1つであり、世界社会には数十億ドルの費用がかかる。
KOAの進行予測は、より効率的な臨床試験を通じて治療開発を進め、より効率的な医療利用を通じて患者の成果を向上させることができるため、何年もの間、コミュニティにとって大きな関心を集めてきた。
しかしながら、既存の KOA 予測のアプローチは、主に静的であり、例えば、単一時点からのデータを将来への何年もの進展を予測するため、膝のレベル、すなわち単一の関節での進行のみを考えるためである。
これらの理由と関連する理由により、これらの手法は予測性能のレベルを達成できず、コスト削減と患者のより良い結果をもたらすのに十分である。
全ての患者から定期的に大量のデータを収集することはこの問題に対処できるが、人口レベルでの高コストによって制限される。
本研究では,OAにおける静的な予測モデルを超えて,情報取得回数を最大化しつつ,その総コストを一定時間で最小化することを目的として,患者を動的に追跡する新しいアクティブセンシング(AS)アプローチを提案する。
我々のアプローチは強化学習(Reinforcement Learning, RL)に基づいており、人間の身体の1つ以上の部分における疾患進行のASに特化して設計された新しい報酬機能を活用している。
提案手法はエンドツーエンドであり,マルチモーダルなDeep Learningに依存し,推論時に人間の入力を必要としない。
徹底的な実験評価を通じて、RLを用いることで、最先端のベースラインと比較して高い金銭的利益が得られることを示す。
Osteoarthritis (OA) is the most common musculoskeletal disease, which has no cure. Knee OA (KOA) is one of the highest causes of disability worldwide, and it costs billions of United States dollars to the global community. Prediction of KOA progression has been of high interest to the community for years, as it can advance treatment development through more efficient clinical trials and improve patient outcomes through more efficient healthcare utilization. Existing approaches for predicting KOA, however, are predominantly static, i.e. consider data from a single time point to predict progression many years into the future, and knee level, i.e. consider progression in a single joint only. Due to these and related reasons, these methods fail to deliver the level of predictive performance, which is sufficient to result in cost savings and better patient outcomes. Collecting extensive data from all patients on a regular basis could address the issue, but it is limited by the high cost at a population level. In this work, we propose to go beyond static prediction models in OA, and bring a novel Active Sensing (AS) approach, designed to dynamically follow up patients with the objective of maximizing the number of informative data acquisitions, while minimizing their total cost over a period of time. Our approach is based on Reinforcement Learning (RL), and it leverages a novel reward function designed specifically for AS of disease progression in more than one part of a human body. Our method is end-to-end, relies on multi-modal Deep Learning, and requires no human input at inference time. Throughout an exhaustive experimental evaluation, we show that using RL can provide a higher monetary benefit when compared to state-of-the-art baselines. | 翻訳日:2024-08-19 17:49:17 公開日:2024-08-16 |
# DopQ-ViT:視覚変換器の分散親和性と外付け性を考慮したポストトレーニング量子化を目指して
DopQ-ViT: Towards Distribution-Friendly and Outlier-Aware Post-Training Quantization for Vision Transformers ( http://arxiv.org/abs/2408.03291v2 ) ライセンス: Link先を確認 | Lianwei Yang, Haisong Gong, Qingyi Gu, | (参考訳) ビジョントランスフォーマー(ViT)は、ビジョンタスクのパフォーマンスに大きな注目を集めているが、高い計算コストと重大なレイテンシの問題が広く採用を妨げている。
モデル圧縮の有望な方法であるポストトレーニング量子化(PTQ)は、ViTによる精度劣化問題に直面している。
これには2つの理由がある:既存の量子化パラダイムは、ソフトマックス後のアクティベーションのゆるい分布にうまく適合せず、レイアノーム後のアクティベーションの再パラメータ化後に必然的に精度が低下する。
そこで我々は,DopQ-ViT という名前の視覚変換器のための分散フレンドリーかつアウトリー・アウェアなポストトレーニング量子化法を提案する。
DopQ-ViTは、現在の量子化器の非効率性を分析し、TanQと呼ばれる分布に優しいタン量子化器を導入する。
TanQは、Softmax後のアクティベーションのパワーロー分布をより正確に保存し、良好な結果を得るために、1付近の値に重点を置いている。
さらに,チャネルワイドから層ワイド量子化へのポストレイアノーム活性化の再パラメータ化では,スケーリング要因のアウトレーヤの影響が主な原因である。
そこで,DopQ-ViT は,外部要因の影響を補償し,量子化モデルの性能を維持するMOSF としてMedian を最適スケーリング因子として選択する方法を提案する。
DopQ-ViTは、特に低ビット設定において、量子化モデルの性能を大幅に向上させてきた。
Vision transformers (ViTs) have garnered significant attention for their performance in vision tasks, but the high computational cost and significant latency issues have hindered widespread adoption. Post-training quantization (PTQ), a promising method for model compression, still faces accuracy degradation challenges with ViTs. There are two reasons for this: the existing quantization paradigm does not fit the power-law distribution of post-Softmax activations well, and accuracy inevitably decreases after reparameterizing post-LayerNorm activations. We propose a Distribution-Friendly and Outlier-Aware Post-training Quantization method for Vision Transformers, named DopQ-ViT. DopQ-ViT analyzes the inefficiencies of current quantizers and introduces a distribution-friendly Tan Quantizer called TanQ. TanQ focuses more on values near 1, more accurately preserving the power-law distribution of post-Softmax activations, and achieves favorable results. Besides, during the reparameterization of post-LayerNorm activations from channel-wise to layer-wise quantization, the accuracy degradation is mainly due to the significant impact of outliers in the scaling factors. Therefore, DopQ-ViT proposes a method to select Median as the Optimal Scaling Factor, denoted as MOSF, which compensates for the influence of outliers and preserves the performance of the quantization model. DopQ-ViT has been extensively validated and significantly improves the performance of quantization models, especially in low-bit settings. | 翻訳日:2024-08-19 17:39:31 公開日:2024-08-16 |
# 非負の言語コンテキスト制限を解き放つ:ネイティブ言語プロンプトは知識の抽出を促進する
Unlocking the Non-Native Language Context Limitation: Native Language Prompting Facilitates Knowledge Elicitation ( http://arxiv.org/abs/2408.03544v2 ) ライセンス: Link先を確認 | Baixuan Li, Yunlong Fan, Zhiqiang Gao, | (参考訳) 多言語大言語モデル(MLLM)は、支配的言語コーパスから関連知識を得たにもかかわらず、支配的でない言語で提起された質問に答えるのに苦労する。
対照的に、人間の多言語は、Positive Native Language Transfer (PNLT)を通じて、そのような非ネイティブ言語コンテキストの制限を克服することができる。
PNLTのプロセスにインスパイアされ、MLLMの主流言語を人間の多言語ネイティブ言語に類似させ、人間の多言語で観察されるPNLTをシミュレートするNative Language Prompting(NatLan)を提案する。
MLLM用のネイティブ言語コンテキストを明示的に作成し、質問回答中にリッチなネイティブ言語知識の活用を容易にし、非ネイティブ言語コンテキストによって課される制限を解除する。
マルチMLLMコラボレーションを利用することで、NatLanはPNLTのシミュレーションにおいて各MLLMのワークロードを削減し、セマンティックトランスファーを洗練する。
C-Evalベンチマークでは、NatLanは平均精度を最大10.1%向上させ、5つのMLLMでハードレベルサブセットを最大5.0%増加させ、トップノッチ関連のメソッドをすべて上回っている。
私たちのコードはhttps://github.com/AnonyNLP/NatLan.comで公開されています。
Multilingual large language models (MLLMs) struggle to answer questions posed in non-dominant languages, even though they have acquired the relevant knowledge from their dominant language corpus. In contrast, human multilinguals can overcome such non-native language context limitations through Positive Native Language Transfer (PNLT). Inspired by the process of PNLT, we analogize the dominant language of MLLMs to the native language of human multilinguals, and propose Native Language Prompting (NatLan) to simulate the PNLT observed in human multilinguals. It explicitly creates native language contexts for MLLMs to facilitate the elicitation of the rich native language knowledge during question-answering, unlocking the limitations imposed by non-native language contexts. By employing multi-MLLM collaboration, NatLan reduces the workload on each MLLM in simulating PNLT and refines semantic transfer. On the C-Eval benchmark, NatLan provides up to a 10.1% average accuracy improvement and up to a 5.0% increase in the hard-level subset across five MLLMs, surpassing all top-notch related methods. Our code is available at https://github.com/AnonyNLP/NatLan. | 翻訳日:2024-08-19 17:39:31 公開日:2024-08-16 |
# 拡張によるアクティベーション:ニューラルネットワークのパフォーマンス向上のためのフレームワーク
Activations Through Extensions: A Framework To Boost Performance Of Neural Networks ( http://arxiv.org/abs/2408.03599v2 ) ライセンス: Link先を確認 | Chandramouli Kamanchi, Sumanta Mukherjee, Kameshwaran Sampath, Pankaj Dayama, Arindam Jati, Vijay Ekambaram, Dzung Phan, | (参考訳) 活性化関数はニューラルネットワークの非線形性であり、入力と出力の間の複雑なマッピングを学習することができる。
アクティベーション関数の典型的な選択は、アプリケーションドメインに依存しているReLU、Tanh、Sigmoidなどである。
本研究では,アクティベーション関数に関するいくつかの研究を統一したフレームワーク/ストラテジーを提案し,これらの成果を理論的に説明する。
また、この枠組みから派生した新しい手法を提案し、活性化関数の操作を通してニューラルネットワークの「拡張」(すなわち、与えられたニューラルネットワークの特殊一般化)を得られるようにした。
ニューラルネットワークの'extensions''は、標準的なテスト関数において、空間と時間的複雑さが重要でないバニラニューラルネットワークと比較してパフォーマンス上の利点があることを示す。
また、実世界のデータセットの時系列領域において、ニューラルネットワーク ``extensions'' の利点を示す。
Activation functions are non-linearities in neural networks that allow them to learn complex mapping between inputs and outputs. Typical choices for activation functions are ReLU, Tanh, Sigmoid etc., where the choice generally depends on the application domain. In this work, we propose a framework/strategy that unifies several works on activation functions and theoretically explains the performance benefits of these works. We also propose novel techniques that originate from the framework and allow us to obtain ``extensions'' (i.e. special generalizations of a given neural network) of neural networks through operations on activation functions. We theoretically and empirically show that ``extensions'' of neural networks have performance benefits compared to vanilla neural networks with insignificant space and time complexity costs on standard test functions. We also show the benefits of neural network ``extensions'' in the time-series domain on real-world datasets. | 翻訳日:2024-08-19 17:39:31 公開日:2024-08-16 |
# ニュートンの第3法則による量子確率のボルン則
The Born rule for quantum probabilities from Newton's third law ( http://arxiv.org/abs/2408.03941v2 ) ライセンス: Link先を確認 | S. S. Afonin, | (参考訳) ボルン則によれば、量子論の確率密度は波動関数の平方によって決定される。
一般に受け入れられたこの規則の導出はまだ提案されていない。
与えられた作品では、ボルン・ルールが自然に現れるような単純な物理図面が構築される。
提案手法では, 粒子と測定装置との相互作用は, 相互作用領域における粒子波動関数の「ミラー像」の作成と等価である。
観測可能な量は、粒子波動関数とその「像」の積である。
後者の段階はニュートンの第3法則によって逆転し、ボルン・ルールに繋がった。
According to the Born rule, the probability density in quantum theory is determined by the square of the wave function. A generally accepted derivation of this rule has not yet been proposed. In the given work, a simple physical picture is constructed within which the Born rule arises in a natural way. In the proposed scheme, the interaction of a particle with a measuring apparatus is equivalent to creation of a "mirror image" of particle wave function in the space region of interaction. The observable quantity is the product of the particle wave function and its "image". The phase of the latter is reversed due to Newton's third law, thus leading to the Born rule. | 翻訳日:2024-08-19 17:39:31 公開日:2024-08-16 |
# SCENE: ソフトカウンタによる説明可能なAI技術の評価
SCENE: Evaluating Explainable AI Techniques Using Soft Counterfactuals ( http://arxiv.org/abs/2408.04575v2 ) ライセンス: Link先を確認 | Haoran Zheng, Utku Pamuksuz, | (参考訳) 説明可能な人工知能(XAI)は、AIモデルの透明性と説明責任を高める上で、特に自然言語処理(NLP)タスクにおいて重要な役割を果たす。
しかし、LIMEやSHAPといった一般的なXAI手法は不安定であり、誤解を招く可能性があり、標準化された評価アプローチの必要性が強調されている。
本稿では,SCENE(Soft Counterfactual Evaluation for Natural Language Explainability)について紹介する。
トークンベースの置換に焦点を当てることで、SCENEは広範囲の微調整なしに文脈的に適切かつ意味的に意味のあるソフトカウンタを作成できる。
SCENEは、テキスト分類タスクにおけるモデルに依存しないXAI手法の有効性を評価するために、ValiditysoftとCsoftメトリクスを採用している。
CNN、RNN、Transformerアーキテクチャに適用されたSCENEは、さまざまなXAI技術の長所と短所に関する貴重な洞察を提供する。
Explainable Artificial Intelligence (XAI) plays a crucial role in enhancing the transparency and accountability of AI models, particularly in natural language processing (NLP) tasks. However, popular XAI methods such as LIME and SHAP have been found to be unstable and potentially misleading, underscoring the need for a standardized evaluation approach. This paper introduces SCENE (Soft Counterfactual Evaluation for Natural language Explainability), a novel evaluation method that leverages large language models (LLMs) to generate Soft Counterfactual explanations in a zero-shot manner. By focusing on token-based substitutions, SCENE creates contextually appropriate and semantically meaningful Soft Counterfactuals without extensive fine-tuning. SCENE adopts Validitysoft and Csoft metrics to assess the effectiveness of model-agnostic XAI methods in text classification tasks. Applied to CNN, RNN, and Transformer architectures, SCENE provides valuable insights into the strengths and limitations of various XAI techniques. | 翻訳日:2024-08-19 17:39:31 公開日:2024-08-16 |
# RT-Surv:大規模非構造電子健康記録の大規模言語モデル構築による放射線治療後の死亡予測の改善
RT-Surv: Improving Mortality Prediction After Radiotherapy with Large Language Model Structuring of Large-Scale Unstructured Electronic Health Records ( http://arxiv.org/abs/2408.05074v2 ) ライセンス: Link先を確認 | Sangjoon Park, Chan Woo Wee, Seo Hee Choi, Kyung Hwan Kim, Jee Suk Chang, Hong In Yoon, Ik Jae Lee, Yong Bae Kim, Jaeho Cho, Ki Chang Keum, Chang Geol Lee, Hwa Kyung Byun, Woong Sub Koom, | (参考訳) 正確な患者選択は、放射線治療(RT)において非効率な治療を防ぐために重要である。
従来の生存予測モデルは、構造化データに依存し、精度を欠くことが多い。
本研究では, 大規模言語モデル(LLM)が非構造化電子健康記録(EHR)データを構成する可能性について検討し, 包括的臨床情報統合による生存予測精度の向上を図る。
2013年から2023年にかけてのyonsei Cancer CenterにおけるRT治療患者34,276人を対象に,構造的および非構造的データを含む分析を行った。
オープンソース LLM を用いて、単発学習による非構造化 EHR データを構造化し、その性能をドメイン固有の医療用 LLM とより小さな変種と比較した。
生存予測モデルは、統計的、機械学習、深層学習のアプローチを用いて、構造化データとLLM構造化データの両方を取り入れて開発された。
臨床専門家はLLM構造化データの精度を評価した。
オープンソースのLLMは、追加のトレーニングなしで構造化されていないEHRデータを構築する際に87.5%の精度を達成し、ドメイン固有の医療用LLMを著しく上回り、わずか35.8%の精度にしか達しなかった。
より大きなLSMは、特に患者の生存率と密接な相関を持つ、一般的な状態や病気の範囲といった臨床的に関係のある特徴を抽出する上で、より効果的であった。
LLMを構造化した臨床特徴を生存予測モデルに組み込むことで精度が向上し、深層学習モデルのCインデックスは0.737から0.820に増加した。
これらのモデルは、臨床的に重要な因子を強調することで、より解釈可能になった。
本研究は, 特定の医療訓練を受けなくても, 大規模非構造化EMHデータを効果的に構築することができ, 臨床予測モデルの精度と解釈可能性を大幅に向上させることができることを示した。
Accurate patient selection is critical in radiotherapy (RT) to prevent ineffective treatments. Traditional survival prediction models, relying on structured data, often lack precision. This study explores the potential of large language models (LLMs) to structure unstructured electronic health record (EHR) data, thereby improving survival prediction accuracy through comprehensive clinical information integration. Data from 34,276 patients treated with RT at Yonsei Cancer Center between 2013 and 2023 were analyzed, encompassing both structured and unstructured data. An open-source LLM was used to structure the unstructured EHR data via single-shot learning, with its performance compared against a domain-specific medical LLM and a smaller variant. Survival prediction models were developed using statistical, machine learning, and deep learning approaches, incorporating both structured and LLM-structured data. Clinical experts evaluated the accuracy of the LLM-structured data. The open-source LLM achieved 87.5% accuracy in structuring unstructured EHR data without additional training, significantly outperforming the domain-specific medical LLM, which reached only 35.8% accuracy. Larger LLMs were more effective, particularly in extracting clinically relevant features like general condition and disease extent, which closely correlated with patient survival. Incorporating LLM-structured clinical features into survival prediction models significantly improved accuracy, with the C-index of deep learning models increasing from 0.737 to 0.820. These models also became more interpretable by emphasizing clinically significant factors. This study shows that general-domain LLMs, even without specific medical training, can effectively structure large-scale unstructured EHR data, substantially enhancing the accuracy and interpretability of clinical predictive models. | 翻訳日:2024-08-19 17:39:31 公開日:2024-08-16 |
# ほぼ特異な超伝導回路の連続量子化」について
On "Consistent Quantization of Nearly Singular Superconducting Circuits" ( http://arxiv.org/abs/2408.05174v3 ) ライセンス: Link先を確認 | I. L. Egusquiza, A. Parra-Rodriguez, | (参考訳) Rymarz と DiVincenzo (Phys) による分析。
超伝導回路の量子化に関するX 13 021017 (2023) は、それらの一般的な結論を正当化するには不十分である。
様々な理由から、実験的および理論的結果といくつかの相違点の1つは、ジョセフソン接合の存在下での拡張変数とコンパクト変数の間の長期にわたる論争である。
The analysis conducted by Rymarz and DiVincenzo (Phys. Rev. X 13, 021017 (2023)) regarding quantization of superconducting circuits is insufficient to justify their general conclusions, most importantly the need to discard Kirchhoff's laws to effect variable reductions. Amongst a variety of reasons, one source of several disagreements with experimental and theoretical results is the long-standing dispute between extended vs compact variables in the presence of Josephson junctions. | 翻訳日:2024-08-19 17:39:31 公開日:2024-08-16 |
# 大次元カーネル密度推定器
Kernel Density Estimators in Large Dimensions ( http://arxiv.org/abs/2408.05807v2 ) ライセンス: Link先を確認 | Giulio Biroli, Marc Mézard, | (参考訳) 本稿では,高次元分布$\rho(x)$に対するカーネル密度推定について検討する。
従来のアプローチでは、大量のデータポイント$n$と固定次元$d$の制限に重点を置いてきた。
代わりに、データポイントの数$n$$$y_i$とそれらの次元$d$が、固定比$\alpha=(\log n)/d$で成長する状態を分析する。
我々の研究は、カーネルベースの密度$\hat \rho_h^{\mathcal {D}}(x)=\frac{1}{n h^d}\sum_{i=1}^n K\left(\frac{x-y_i}{h}\right)$, 帯域幅$h$: 中央極限定理(CLT)が持つ大帯域幅の古典的レジーム。
帯域幅の一定の値の下に$h_{CLT}(\alpha)$ とすると、CLTが故障する。
$\hat \rho_h^{\mathcal {D}}(x)$ for a fixed $x$ from $\rho(x)$の統計は、重尾分布(アルファ安定分布)によって与えられる。
特に$h_G(\alpha)$ 以下の値では、$\hat \rho_h^{\mathcal {D}}(x)$ は極値統計によって支配される。
高次元多変量ガウスデータの詳細な解析を行う。
本稿では,Kullback-Leibler分散に基づく帯域幅の最適しきい値が,本論文で同定された新しい統計体系に含まれることを示す。
本研究は,従来の手法の限界を明らかにするとともに,これらの新しい統計体系の妥当性を示し,高次元環境におけるケルネル密度推定の新しい知見を提供する。
This paper studies Kernel density estimation for a high-dimensional distribution $\rho(x)$. Traditional approaches have focused on the limit of large number of data points $n$ and fixed dimension $d$. We analyze instead the regime where both the number $n$ of data points $y_i$ and their dimensionality $d$ grow with a fixed ratio $\alpha=(\log n)/d$. Our study reveals three distinct statistical regimes for the kernel-based estimate of the density $\hat \rho_h^{\mathcal {D}}(x)=\frac{1}{n h^d}\sum_{i=1}^n K\left(\frac{x-y_i}{h}\right)$, depending on the bandwidth $h$: a classical regime for large bandwidth where the Central Limit Theorem (CLT) holds, which is akin to the one found in traditional approaches. Below a certain value of the bandwidth, $h_{CLT}(\alpha)$, we find that the CLT breaks down. The statistics of $\hat \rho_h^{\mathcal {D}}(x)$ for a fixed $x$ drawn from $\rho(x)$ is given by a heavy-tailed distribution (an alpha-stable distribution). In particular below a value $h_G(\alpha)$, we find that $\hat \rho_h^{\mathcal {D}}(x)$ is governed by extreme value statistics: only a few points in the database matter and give the dominant contribution to the density estimator. We provide a detailed analysis for high-dimensional multivariate Gaussian data. We show that the optimal bandwidth threshold based on Kullback-Leibler divergence lies in the new statistical regime identified in this paper. Our findings reveal limitations of classical approaches, show the relevance of these new statistical regimes, and offer new insights for Kernel density estimation in high-dimensional settings. | 翻訳日:2024-08-19 17:39:31 公開日:2024-08-16 |
# 熱媒質中の電場混合-量子マスター方程式のアプローチ
Field mixing in a thermal medium: A quantum master equation approach ( http://arxiv.org/abs/2408.08460v1 ) ライセンス: Link先を確認 | Shuyang Cao, | (参考訳) 本研究では,2つの(擬似)スカラー場を媒体内の共通減衰チャネルに結合させることによって誘導される間接混合の非平衡ダイナミクスについて検討した。
二つの場の還元密度行列に対する実効的な非マルコフ量子マスター方程式(QME)は、2つの場の媒体とのカップリングの先頭順序に導かれるが、媒体内の自由度間のカップリングの全ての順序に導かれる。
QMEの自己エネルギーおよびノイズカーネルは、変動散逸関係を満たす。
この解は、あるフィールドの初期期待値(凝縮値)が間接混合により他のフィールドの凝縮を誘導し、2つのフィールドの集団とコヒーレンスが熱化し、漸近的に非消滅値に近づくことを示す。
ほぼ退縮する磁場質量と結合強度は共鳴的に量子ビートと漸近コヒーレンスを高め、カップリングのスイッチオン後に真空の顕著なダイナミクスを誘導する。
我々は、漸近的極限における平衡状態の計算と一致する結果を得るために、真空の変化による粒子の時間依存的な定義を導入する必要があると論じる。
結合強度階層は、ほぼ縮退した場合の共振強度の増大を分解するが、観測可能な大きさの結合強度と進化の時間スケールの異なるパワーカウントにつながり、実際的な実験期間で準備された短寿命粒子を用いて超長寿命粒子を検出する可能性が示唆された。
We studied the nonequilibrium dynamics of the indirect mixing of two (pseudo-)scalar fields induced by their couplings to common decay channels in a medium. The effective non-Markovian quantum master equation (QME) for the two fields' reduced density matrix is derived to leading order in the couplings of the two fields with the medium, but to all orders of the couplings among degrees of freedom in the medium. The self-energy and noise-kernel in the QME satisfy a fluctuation-dissipation relation. The solutions show that an initial expectation value (condensate) of one field induces a condensate of the other field through the indirect mixing and that the populations and coherence of the two fields thermalize and approach to non-vanishing values asymptotically. The nearly-degenerate field masses and coupling strengths resonantly enhance the quantum beats and asymptotic coherence, and induce a prominent dynamics of the vacuum after the switch-on of the couplings. We argue that a time-dependent definitions of particles due to the changing vacuum must be introduced so as to obtain results consistent with the calculations of equilibrium states in the asymptotic limit. A coupling strength hierarchy breaks down the resonant enhancement in the nearly-degenerate case but leads to different power countings of the coupling strengths in the magnitudes of the observables and time-scales in the evolution, suggesting the possibility of detecting extremely long-lived particles using prepared short-lived particles within a practical experimental period. | 翻訳日:2024-08-19 16:59:46 公開日:2024-08-16 |
# TEXTOC:テキスト駆動型オブジェクト中心スタイル転送
TEXTOC: Text-driven Object-Centric Style Transfer ( http://arxiv.org/abs/2408.08461v1 ) ライセンス: Link先を確認 | Jihun Park, Jongmin Gim, Kyoungmin Lee, Seunghun Lee, Sunghoon Im, | (参考訳) テキスト入力を用いたオブジェクト中心レベルでのスタイル転送をガイドする,テキスト駆動型オブジェクト中心スタイル転送(TEXTOC)を提案する。
TEXTOCの中核は、私たちのPatch-wise Co-Directional (PCD)損失であり、入力テキストと密接に一致した正確なオブジェクト中心変換のために慎重に設計されている。
この損失は、テキスト誘導スタイルの方向に対するパッチ方向の損失と、CLIP埋め込みのオブジェクト領域間の分散に対するパッチ分布の整合性損失を組み合わせたものだ。
オブジェクト領域間のシームレスで調和の取れたスタイル転送を保証する。
本手法の鍵となるのは,テキストマッチング・パッチ・セレクション (TMPS) とプリフィックス・リージョン・セレクション (PRS) モジュールである。
最後に、画像の背景の本来のスタイルと構造的要素を維持するために、適応的背景保存(ABP)損失を導入する。
この損失は動的に同定された背景領域に適用される。
広汎な実験は、視覚的に一貫性があり、テキスト的に整合したスタイル転送の作成において、我々のアプローチの有効性を裏付けるものである。
We present Text-driven Object-Centric Style Transfer (TEXTOC), a novel method that guides style transfer at an object-centric level using textual inputs. The core of TEXTOC is our Patch-wise Co-Directional (PCD) loss, meticulously designed for precise object-centric transformations that are closely aligned with the input text. This loss combines a patch directional loss for text-guided style direction and a patch distribution consistency loss for even CLIP embedding distribution across object regions. It ensures a seamless and harmonious style transfer across object regions. Key to our method are the Text-Matched Patch Selection (TMPS) and Pre-fixed Region Selection (PRS) modules for identifying object locations via text, eliminating the need for segmentation masks. Lastly, we introduce an Adaptive Background Preservation (ABP) loss to maintain the original style and structural essence of the image's background. This loss is applied to dynamically identified background areas. Extensive experiments underline the effectiveness of our approach in creating visually coherent and textually aligned style transfers. | 翻訳日:2024-08-19 16:59:46 公開日:2024-08-16 |
# 人工知能の理解論--構成性・触媒・学習
A theory of understanding for artificial intelligence: composability, catalysts, and learning ( http://arxiv.org/abs/2408.08463v1 ) ライセンス: Link先を確認 | Zijian Zhang, Sara Aronowitz, Alán Aspuru-Guzik, | (参考訳) 理解は人工知能(AI)において重要な概念である。
本研究は,構成可能性の概念に基づく理解の枠組みを提案する。
対象(例えば、人またはAI)が与えられた場合、検証者の観点から、関連する入力を満足な出力に処理(構成)する能力の観点から、オブジェクトの理解を特徴づけることを提案する。
この非常に普遍的な枠組みは、AI、非人間動物、機関などの非人間的対象に容易に適用できる。
さらに,触媒と呼ぶ組成の出力品質を高める入力を解析する手法を提案する。
本稿では, 触媒として作用する成分を分析し, 内部触媒に入力を合成する能力として, 被験者の学習能力について論じることによって, 被験者の構造を明らかにする方法を示す。
最後に,AIが汎用知能を実現するための学習能力の重要性について検討する。
我々の分析は、言語モデルのような独自の触媒として機能する出力を生成することができるモデルが、AI理解における既存の制限を克服するための基盤を確立することを示唆している。
Understanding is a crucial yet elusive concept in artificial intelligence (AI). This work proposes a framework for analyzing understanding based on the notion of composability. Given any subject (e.g., a person or an AI), we suggest characterizing its understanding of an object in terms of its ability to process (compose) relevant inputs into satisfactory outputs from the perspective of a verifier. This highly universal framework can readily apply to non-human subjects, such as AIs, non-human animals, and institutions. Further, we propose methods for analyzing the inputs that enhance output quality in compositions, which we call catalysts. We show how the structure of a subject can be revealed by analyzing its components that act as catalysts and argue that a subject's learning ability can be regarded as its ability to compose inputs into its inner catalysts. Finally we examine the importance of learning ability for AIs to attain general intelligence. Our analysis indicates that models capable of generating outputs that can function as their own catalysts, such as language models, establish a foundation for potentially overcoming existing limitations in AI understanding. | 翻訳日:2024-08-19 16:59:46 公開日:2024-08-16 |
# \textit{MMJ-Bench}:視覚言語モデルに対するジェイルブレイク攻撃と防御に関する総合的研究
\textit{MMJ-Bench}: A Comprehensive Study on Jailbreak Attacks and Defenses for Vision Language Models ( http://arxiv.org/abs/2408.08464v1 ) ライセンス: Link先を確認 | Fenghua Weng, Yue Xu, Chengyan Fu, Wenjie Wang, | (参考訳) ディープラーニングの進歩に伴い、Large Language Models (LLMs) とそのマルチモーダルモデルであるVision-Language Models (VLMs) は多くの実世界のタスクにおいて例外的なパフォーマンスを示している。
しかしながら、VLMはジェイルブレイク攻撃のような重大なセキュリティ上の問題に直面しており、攻撃者は有害な応答を誘発するためにモデルの安全アライメントを回避しようとする。
VLMに対するジェイルブレイク攻撃の脅威は、LLMの固有の脆弱性とVLMが処理する複数の情報チャネルの両方から生じる。
様々な攻撃や防御が提案されているが、それぞれの手法が異なるデータセットやメトリクスで評価され、各手法の有効性を比較することは不可能であるため、統一的かつ包括的な評価には顕著なギャップがある。
このギャップに対処するために、VLMのジェイルブレイク攻撃と防御技術を評価する統一パイプラインである \textit{MMJ-Bench} を導入する。
広範囲にわたる実験を通じて,SoTA VLMに対する様々な攻撃方法の有効性を評価し,防御機構が通常の作業に対する防御効果とモデル実用性に与える影響を評価する。
総合的な評価は,統一的かつ体系的な評価フレームワークと,VLMジェイルブレイク研究のための最初の公開ベンチマークを提供することによって,この分野に寄与する。
また、今後の研究の方向性を浮き彫りにした洞察力のある調査結果をいくつか紹介する。
As deep learning advances, Large Language Models (LLMs) and their multimodal counterparts, Vision-Language Models (VLMs), have shown exceptional performance in many real-world tasks. However, VLMs face significant security challenges, such as jailbreak attacks, where attackers attempt to bypass the model's safety alignment to elicit harmful responses. The threat of jailbreak attacks on VLMs arises from both the inherent vulnerabilities of LLMs and the multiple information channels that VLMs process. While various attacks and defenses have been proposed, there is a notable gap in unified and comprehensive evaluations, as each method is evaluated on different dataset and metrics, making it impossible to compare the effectiveness of each method. To address this gap, we introduce \textit{MMJ-Bench}, a unified pipeline for evaluating jailbreak attacks and defense techniques for VLMs. Through extensive experiments, we assess the effectiveness of various attack methods against SoTA VLMs and evaluate the impact of defense mechanisms on both defense effectiveness and model utility for normal tasks. Our comprehensive evaluation contribute to the field by offering a unified and systematic evaluation framework and the first public-available benchmark for VLM jailbreak research. We also demonstrate several insightful findings that highlights directions for future studies. | 翻訳日:2024-08-19 16:59:46 公開日:2024-08-16 |
# 大規模言語モデルを用いた推論高速化のための文脈認識アシスタントの選択
Context-Aware Assistant Selection for Improved Inference Acceleration with Large Language Models ( http://arxiv.org/abs/2408.08470v1 ) ライセンス: Link先を確認 | Jerry Huang, Prasanna Parthasarathi, Mehdi Rezagholizadeh, Sarath Chandar, | (参考訳) 広く採用されているにもかかわらず、大きな言語モデル(LLM)は、リソース制約の下での使用は禁じられている。
注目すべき問題は、自動回帰生成に関連するレイテンシが高く、大規模LLMを高度なコンピューティングインフラストラクチャに依存していることだ。
より小さなドラフトモデルがより大きなターゲットモデルの世代をガイドする支援デコーディングは、これを緩和するのに役立っているが、2つのモデルのアライメントに依存している。
したがって、ドラフトモデルがターゲットモデルに対するいくつかの領域で不十分な場合、性能は低下する可能性がある。
あるいは、ターゲットの専門知識をよりよくカバーするために複数のドラフトモデルを利用することもできるが、複数のブラックボックスドラフトモデルが利用可能であれば、その構築の詳細を知らないアシスタントを選択することは困難である。
この意思決定問題をよりよく理解するために、我々は、ポリシーがコンテキストに基づいてドラフトモデルを選択する必要がある状況の盗聴として、それを観察する。
ドラフトモデルの事前知識がなくても、独立したドラフト/ターゲットモデルの出力のみからオフラインデータセットを作成し、これらの出力のアライメントに関するポリシーをトレーニングすることで、候補が有効であれば、複数のドメインのパフォーマンスを向上できることを示す。
さらなる結果は、複数のデコード候補で様々な設定を保ち、その柔軟性と、そのような意思決定が果たすべき有利な役割を強調していることを示している。
Despite their widespread adoption, large language models (LLMs) remain prohibitive to use under resource constraints, with their ever growing sizes only increasing the barrier for use. One noted issue is the high latency associated with auto-regressive generation, rendering large LLMs use dependent on advanced computing infrastructure. Assisted decoding, where a smaller draft model guides a larger target model's generation, has helped alleviate this, but remains dependent on alignment between the two models. Thus if the draft model is insufficiently capable on some domain relative to the target model, performance can degrade. Alternatively, one can leverage multiple draft models to better cover the expertise of the target, but when multiple black-box draft models are available, selecting an assistant without details about its construction can be difficult. To better understand this decision making problem, we observe it as a contextual bandit, where a policy must choose a draft model based on a context. We show that even without prior knowledge of the draft models, creating an offline dataset from only outputs of independent draft/target models and training a policy over the alignment of these outputs can accelerate performance on multiple domains provided the candidates are effective. Further results show this to hold on various settings with multiple assisted decoding candidates, highlighting its flexibility and the advantageous role that such decision making can play. | 翻訳日:2024-08-19 16:59:46 公開日:2024-08-16 |
# 社会デミノグラフィーデータプロセスの公正性問題と緩和
Fairness Issues and Mitigations in (Differentially Private) Socio-demographic Data Processes ( http://arxiv.org/abs/2408.08471v1 ) ライセンス: Link先を確認 | Joonhyuk Ko, Juba Ziani, Saswat Das, Matt Williams, Ferdinando Fioretto, | (参考訳) 統計機関は、政策作成と資源配分に不可欠な社会デコグラフィーデータを収集するためにサンプリング技術に依存している。
本稿では,グループレベルの推定値に不均一に影響を及ぼすサンプリングエラーを導入し,下流決定における公正さを損なうことを示す。
これらの課題に対処するため,本研究では,実世界のサーベイ設計プロセスに基づいて,所定の許容範囲内における誤差マージンを維持しつつ,サンプリングコストを最適化する最適化手法を提案する。
さらに、サンプリングレートを決定するために使われるプライバシー保護手法は、これらの公正性問題にさらに影響を及ぼす可能性がある。
本論文は,差分プライバシーがサンプリングプロセスに通知する統計に与える影響を考察し,差分プライバシに対するノイズの追加による期待される負の効果が無視可能であるだけでなく,このプライバシーノイズは,小さなカウントを正にバイアスするので,実際に不公平さを低減することができる,という驚くべき効果を明らかにした。
これらの知見は、国勢調査統計によく用いられるデータセットを用いて、広範囲な分析によって検証される。
Statistical agencies rely on sampling techniques to collect socio-demographic data crucial for policy-making and resource allocation. This paper shows that surveys of important societal relevance introduce sampling errors that unevenly impact group-level estimates, thereby compromising fairness in downstream decisions. To address these issues, this paper introduces an optimization approach modeled on real-world survey design processes, ensuring sampling costs are optimized while maintaining error margins within prescribed tolerances. Additionally, privacy-preserving methods used to determine sampling rates can further impact these fairness issues. The paper explores the impact of differential privacy on the statistics informing the sampling process, revealing a surprising effect: not only the expected negative effect from the addition of noise for differential privacy is negligible, but also this privacy noise can in fact reduce unfairness as it positively biases smaller counts. These findings are validated over an extensive analysis using datasets commonly applied in census statistics. | 翻訳日:2024-08-19 16:59:46 公開日:2024-08-16 |
# マルチポートスプリッタを用いた高次元ベルとグリーンバーガー・ホルン・ザイリンガー状態の階層化
Heralding Higher-Dimensional Bell and Greenberger-Horne-Zeilinger States Using Multiport Splitters ( http://arxiv.org/abs/2408.08473v1 ) ライセンス: Link先を確認 | Daniel Bhatti, Stefanie Barz, | (参考訳) 量子光学実験や応用のための最も重要なリソースの1つは、オンデマンドで高絡み合った多光子量子状態である。
それらを生成するための有望な方法は、独立した光子を干渉させることによって、高い速度で絡み合った生成を誘導することである。
しかし、そのようなスキームは、干渉する光子のみの特定の内部自由度のために働くことが多い。
絡み合った光子の数が増えるにつれて、必要な資源(例えば、補助光子や光学素子)の数が増えるにつれて、成功確率は減少する。
より大きな量子状態に対しても確率論的スキームを実現するためには、高い成功確率を持つ資源効率の高い生成スキームを見つけることが重要である。
本研究では,グリーンバーガー・ホーネ・ザイリンガー状態(GHZ),高次元ベル状態,高次元3次元GHZ状態に容易に実装可能なスキームを導入する。
私たちのスキームは多光子干渉にのみ依存しており、任意の自由度で動くように調整することができる。
さらに、高い成功確率を示し、比較すると補助光子をほとんど必要としない。
One of the most important resources for quantum optical experiments and applications are on-demand highly entangled multiphoton quantum states. A promising way of generating them is heralding entanglement generation at a high rate from letting independent photons interfere. However, such schemes often work for a specific internal degree of freedom of the interfering photons only. Going to higher numbers of entangled photons, the success probabilities decrease while the number of necessary resources, e.g., auxiliary photons and optical elements, increases. To make probabilistic schemes feasible also for larger quantum states, it is therefore important to find resource-efficient generation schemes with high success probabilities. In this work, we introduce easily implementable schemes to herald qubit Greenberger-Horne-Zeilinger (GHZ) states, higher-dimensional Bell states and higher-dimensional three-party GHZ states. Our schemes solely rely on multiphoton interference, i.e., they can be adjusted to work for arbitrary degrees of freedom. Furthermore, they demonstrate high success probabilities and need comparably few auxiliary photons. | 翻訳日:2024-08-19 16:59:46 公開日:2024-08-16 |
# 深層学習型超解像によるニュートリノ望遠鏡の事象の強調
Enhancing Events in Neutrino Telescopes through Deep Learning-Driven Super-Resolution ( http://arxiv.org/abs/2408.08474v1 ) ライセンス: Link先を確認 | Felix J. Yu, Nicholas Kamp, Carlos A. Argüelles, | (参考訳) アイスキューブニュートリノ天文台のようなニュートリノ望遠鏡による最近の発見は、検出された生光子から物理量を予測するために機械学習(ML)ツールに大きく依存していた。
ニュートリノ望遠鏡再構成アルゴリズムは、比較的大きな間隔(10-100\,{\rm m})$の光モジュールによる光子のスパースサンプリングによって制限される。
本稿では,深層学習駆動型データイベントの超解像を用いて,検出器媒質を介して光子輸送を学習する新しい手法を提案する。
これらの‘改善された’イベントは、従来のML技術を使って再構築できるため、解像度が向上する。
我々の戦略は、既存の検出器幾何学の中に「仮想」光学モジュールを配置し、仮想光学モジュールのヒットを予測するために畳み込みニューラルネットワークを訓練する。
この手法により、一般的な氷ベースのニュートリノ望遠鏡におけるミューオンの角度再構成が向上することを示す。
この結果は、水系ニュートリノ望遠鏡や他のイベントモルフォロジーに容易に拡張できる。
Recent discoveries by neutrino telescopes, such as the IceCube Neutrino Observatory, relied extensively on machine learning (ML) tools to infer physical quantities from the raw photon hits detected. Neutrino telescope reconstruction algorithms are limited by the sparse sampling of photons by the optical modules due to the relatively large spacing ($10-100\,{\rm m})$ between them. In this letter, we propose a novel technique that learns photon transport through the detector medium through the use of deep learning-driven super-resolution of data events. These ``improved'' events can then be reconstructed using traditional or ML techniques, resulting in improved resolution. Our strategy arranges additional ``virtual'' optical modules within an existing detector geometry and trains a convolutional neural network to predict the hits on these virtual optical modules. We show that this technique improves the angular reconstruction of muons in a generic ice-based neutrino telescope. Our results readily extend to water-based neutrino telescopes and other event morphologies. | 翻訳日:2024-08-19 16:50:01 公開日:2024-08-16 |
# モデルが重要: ローカルおよび中央の差別化プライバシに対する正確なプライバシ期待の設定
Models Matter: Setting Accurate Privacy Expectations for Local and Central Differential Privacy ( http://arxiv.org/abs/2408.08475v1 ) ライセンス: Link先を確認 | Mary Anne Smart, Priyanka Nanayakkara, Rachel Cummings, Gabriel Kaptchuk, Elissa Redmiles, | (参考訳) 差別化プライバシーは、業界と政府機関の両方に展開されている一般的なプライバシー強化技術である。
残念ながら、差分プライバシに関する既存の説明では、デプロイメントモデルの選択に依存するデータ対象に対する正確なプライバシの期待を定めていない。
ローカルモデルと中央モデルの差分プライバシーに関する新たな説明を設計し、評価し、他のプライバシー強化技術を説明する先行研究からインスピレーションを得た。
その結果、プライバシー保護ラベルのスタイルに焦点を絞った説明が、差分プライバシーの影響を浮き彫りにしていることが、正確なプライバシー期待を設定する上で有望なアプローチであることに気付きました。
さらに、プロセスに焦点を当てた説明は、正確なプライバシー期待を設定するには不十分であるが、結果に焦点を当てた説明と、差分プライバシーがどのように機能するかの簡単な説明を組み合わせることで、より信頼性を高めることができる。
Differential privacy is a popular privacy-enhancing technology that has been deployed both in industry and government agencies. Unfortunately, existing explanations of differential privacy fail to set accurate privacy expectations for data subjects, which depend on the choice of deployment model. We design and evaluate new explanations of differential privacy for the local and central models, drawing inspiration from prior work explaining other privacy-enhancing technologies. We find that consequences-focused explanations in the style of privacy nutrition labels that lay out the implications of differential privacy are a promising approach for setting accurate privacy expectations. Further, we find that while process-focused explanations are not enough to set accurate privacy expectations, combining consequences-focused explanations with a brief description of how differential privacy works leads to greater trust. | 翻訳日:2024-08-19 16:50:01 公開日:2024-08-16 |
# LLMを用いた司法制度における透明性機構の自動化--可能性と課題
Automating Transparency Mechanisms in the Judicial System Using LLMs: Opportunities and Challenges ( http://arxiv.org/abs/2408.08477v1 ) ライセンス: Link先を確認 | Ishana Shastri, Shomik Jain, Barbara Engelhardt, Ashia Wilson, | (参考訳) 説明責任を高めるために司法制度に透明性を持たせるには、しばしば、偏見とエラーのパターンを検出するために、多くの非組織的な訴訟ファイルを慎重に調べなければならない監査者による広範囲な努力が必要である。
例えば、カーティス・フラワーズ事件の高名な捜査は、検察官が人種的に偏見のある陪審員を選んだことの証拠を示すために、年間7人の記者を雇った。
LLMは、特に構造化されていないドキュメントから情報を抽出する実証された能力を考えると、これらの透明性パイプラインを自動化およびスケールする可能性がある。
刑事裁判における陪審員の選考と住居退去事件の2つの重要な裁判所プロセスにおいて、LLMを使用することの機会と課題について論じる。
Bringing more transparency to the judicial system for the purposes of increasing accountability often demands extensive effort from auditors who must meticulously sift through numerous disorganized legal case files to detect patterns of bias and errors. For example, the high-profile investigation into the Curtis Flowers case took seven reporters a full year to assemble evidence about the prosecutor's history of selecting racially biased juries. LLMs have the potential to automate and scale these transparency pipelines, especially given their demonstrated capabilities to extract information from unstructured documents. We discuss the opportunities and challenges of using LLMs to provide transparency in two important court processes: jury selection in criminal trials and housing eviction cases. | 翻訳日:2024-08-19 16:50:01 公開日:2024-08-16 |
# 画像による重み付けによる物価トレンドトレーディング戦略の強化
Enhancement of price trend trading strategies via image-induced importance weights ( http://arxiv.org/abs/2408.08483v1 ) ライセンス: Link先を確認 | Zhoufan Zhu, Ke Zhu, | (参考訳) 深層学習画像解析技術を用いて,価格チャート画像の予測的一般価格パターンを識別するために,ブラックボックスを開放する。
価格変動の予測における重要度に応じて既存の価格トレンドトレーディング信号の重み付け平均に適用される画像誘発重要度(トリプルI)重みの構築につながる。
中国株式市場における広範な実証分析から,3重I重み付け方式は,ネットワーク仕様,画像構造,ストックサイズなどの観点から,ポートフォリオ提案の価格トレンドトレーディングシグナルを著しく高めることができることを示す。
さらに、この三重化方式は、タイムスケール・トランスファー学習から長期的ポートフォリオを提案し、非技術的トランスファー学習を通じてニュースベースのトレーディング戦略を強化し、ポートフォリオ選択のための多数のトレーディングルールの全体的な強みを高めることができることを示した。
We open up the "black-box" to identify the predictive general price patterns in price chart images via the deep learning image analysis techniques. Our identified price patterns lead to the construction of image-induced importance (triple-I) weights, which are applied to weighted moving average the existing price trend trading signals according to their level of importance in predicting price movements. From an extensive empirical analysis on the Chinese stock market, we show that the triple-I weighting scheme can significantly enhance the price trend trading signals for proposing portfolios, with a thoughtful robustness study in terms of network specifications, image structures, and stock sizes. Moreover, we demonstrate that the triple-I weighting scheme is able to propose long-term portfolios from a time-scale transfer learning, enhance the news-based trading strategies through a non-technical transfer learning, and increase the overall strength of numerous trading rules for portfolio selection. | 翻訳日:2024-08-19 16:50:01 公開日:2024-08-16 |
# 最大カット問題に対するヒューリスティックスを組み合わせた教師なし学習フレームワーク
An Unsupervised Learning Framework Combined with Heuristics for the Maximum Minimal Cut Problem ( http://arxiv.org/abs/2408.08484v1 ) ライセンス: Link先を確認 | Huaiyuan Liu, Xianzhang Liu, Donghua Yang, Hongzhi Wang, Yingchi Long, Mengtong Ji, Dongjing Miao, Zhiyu Liang, | (参考訳) NP-hard combinatorial optimization (CO) 問題である最大最小カット問題 (MMCP) は、必要かつ困難な双方向接続性制約のため、あまり注目されていない。
さらに、COの問題として、特にラベル付きインスタンスを使わずに、機械学習の大変なタスクでもある。
これらの問題に対処するために,MMCPのヒューリスティックスと組み合わせた教師なし学習フレームワークを提案する。
私たちの知る限りでは、MMCPを解決するための機械学習とヒューリスティックスを探求するのはこれが初めてです。
教師なしの解法は、緩和余剰のアプローチにインスパイアされ、緩和された解はグラフニューラルネットワークによってパラメータ化され、MMCPのコストとペナルティは明示的に書き出され、モデルのエンドツーエンドをトレーニングすることができる。
重要な観察は、それぞれの溶液が少なくとも1本の枝木に対応することである。
この発見に基づいて、頂点を追加して木変換を実装するヒューリスティックソルバを用いて、教師なしソルバの解法品質を修復し改善する。
あるいは、ソリューションの一貫性を確保しながらグラフを単純化することで、実行時間を短縮する。
フレームワークを評価し、特定のアプリケーションを提供するために、広範な実験を行います。
その結果,提案手法が設計した2つの手法に対して優れていることが示された。
The Maximum Minimal Cut Problem (MMCP), a NP-hard combinatorial optimization (CO) problem, has not received much attention due to the demanding and challenging bi-connectivity constraint. Moreover, as a CO problem, it is also a daunting task for machine learning, especially without labeled instances. To deal with these problems, this work proposes an unsupervised learning framework combined with heuristics for MMCP that can provide valid and high-quality solutions. As far as we know, this is the first work that explores machine learning and heuristics to solve MMCP. The unsupervised solver is inspired by a relaxation-plus-rounding approach, the relaxed solution is parameterized by graph neural networks, and the cost and penalty of MMCP are explicitly written out, which can train the model end-to-end. A crucial observation is that each solution corresponds to at least one spanning tree. Based on this finding, a heuristic solver that implements tree transformations by adding vertices is utilized to repair and improve the solution quality of the unsupervised solver. Alternatively, the graph is simplified while guaranteeing solution consistency, which reduces the running time. We conduct extensive experiments to evaluate our framework and give a specific application. The results demonstrate the superiority of our method against two techniques designed. | 翻訳日:2024-08-19 16:50:01 公開日:2024-08-16 |
# 逆相関学習に基づく物理インフォームドテンポラルネットワークによるカフレス血圧推定
Adversarial Contrastive Learning Based Physics-Informed Temporal Networks for Cuffless Blood Pressure Estimation ( http://arxiv.org/abs/2408.08488v1 ) ライセンス: Link先を確認 | Rui Wang, Mengshi Qi, Yingxia Shao, Anfu Zhou, Huadong Ma, | (参考訳) 時系列データマイニングは、交通、医療、電子商取引などの広範な応用において非常に重要である。
本稿では,循環器医療において有意義なカフレス血圧モニタリング(BP)の医療時間変動モデリングに焦点を当てた。
快適なユーザエクスペリエンスを提供する一方で、このような手法は、侵入的あるいは強迫的BP地下構造の測定を考慮し、各被験者に対して個別のモデルを訓練するための大量の現実的なデータを要求することに悩まされている。
この課題に対処するために、非常に限られたデータで正確なBP推定を可能にするために、逆相関学習を備えた新しい物理インフォームド・テンポラル・ネットワーク~(PITN)を導入する。
具体的には,まず物理インフォームドニューラルネットワーク~(PINN)を時間ブロックで拡張し,BP動態の多周期性を検討した。
次に, 対人訓練を駆使して生理的時系列データを生成し, スパース訓練データを用いてPITNの堅牢性を向上する。
さらに, コントラスト学習を用いて, 心血管生理現象の識別的変化を捉えた。
このアプローチは、異なる血圧値のサンプル群を分離しながら、潜在空間における同様の血圧値で生理的信号を集約する。
生体インピーダンス, PPG, ミリ波) の異なる適応性を持つ3つの広帯域データセットに対する実験は, 従来の最先端手法よりも提案手法の優位性と有効性を示した。
コードは~\url{https://github.com/Zest86/ACL-PITN}で入手できる。
Time series data mining is immensely important in extensive applications, such as traffic, medical, and e-commerce. In this paper, we focus on medical temporal variation modeling, \emph{i.e.,} cuffless blood pressure (BP) monitoring which has great value in cardiovascular healthcare. Although providing a comfortable user experience, such methods are suffering from the demand for a significant amount of realistic data to train an individual model for each subject, especially considering the invasive or obtrusive BP ground-truth measurements. To tackle this challenge, we introduce a novel physics-informed temporal network~(PITN) with adversarial contrastive learning to enable precise BP estimation with very limited data. Specifically, we first enhance the physics-informed neural network~(PINN) with the temporal block for investigating BP dynamics' multi-periodicity for personal cardiovascular cycle modeling and temporal variation. We then employ adversarial training to generate extra physiological time series data, improving PITN's robustness in the face of sparse subject-specific training data. Furthermore, we utilize contrastive learning to capture the discriminative variations of cardiovascular physiologic phenomena. This approach aggregates physiological signals with similar blood pressure values in latent space while separating clusters of samples with dissimilar blood pressure values. Experiments on three widely-adopted datasets with different modailties (\emph{i.e.,} bioimpedance, PPG, millimeter-wave) demonstrate the superiority and effectiveness of the proposed methods over previous state-of-the-art approaches. The code is available at~\url{https://github.com/Zest86/ACL-PITN}. | 翻訳日:2024-08-19 16:50:01 公開日:2024-08-16 |
# MRI脳画像におけるDFTによる逆方向検出:アルツハイマー症例における診断精度の向上
DFT-Based Adversarial Attack Detection in MRI Brain Imaging: Enhancing Diagnostic Accuracy in Alzheimer's Case Studies ( http://arxiv.org/abs/2408.08489v1 ) ライセンス: Link先を確認 | Mohammad Hossein Najafi, Mohammad Morsali, Mohammadmahdi Vahediahmar, Saeed Bagheri Shouraki, | (参考訳) 近年の深層学習,特に医用画像の進歩は,医療システムの進歩を著しく促進している。
しかし,医療画像の対人攻撃に対する堅牢性を検討することは,現実の応用と個人の健康への影響が大きいため重要である。
これらの攻撃は疾患の診断における誤分類を引き起こし、深刻な結果をもたらす可能性がある。
医療画像に対する敵対的攻撃の実施と、これらの脅威に対する防御機構の開発の両方について多くの研究が行われており、このような敵対的活動に対するディープニューラルネットワークの脆弱性が強調されている。
本研究では,アルツハイマー病関連画像に対する敵対的攻撃について検討し,これらの攻撃に対する防御方法を提案する。
具体的には、アルツハイマー病の画像に周波数領域変換を用いる敵攻撃と、他のよく知られた敵攻撃について検討する。
提案手法では,畳み込みニューラルネットワーク(CNN)に基づくオートエンコーダアーキテクチャと2次元フーリエ変換を併用して検出を行う。
シミュレーションの結果、我々の検出と防御機構は、いくつかの敵攻撃を効果的に軽減し、そのような脆弱性に対するディープニューラルネットワークの堅牢性を高めることが示されている。
Recent advancements in deep learning, particularly in medical imaging, have significantly propelled the progress of healthcare systems. However, examining the robustness of medical images against adversarial attacks is crucial due to their real-world applications and profound impact on individuals' health. These attacks can result in misclassifications in disease diagnosis, potentially leading to severe consequences. Numerous studies have explored both the implementation of adversarial attacks on medical images and the development of defense mechanisms against these threats, highlighting the vulnerabilities of deep neural networks to such adversarial activities. In this study, we investigate adversarial attacks on images associated with Alzheimer's disease and propose a defensive method to counteract these attacks. Specifically, we examine adversarial attacks that employ frequency domain transformations on Alzheimer's disease images, along with other well-known adversarial attacks. Our approach utilizes a convolutional neural network (CNN)-based autoencoder architecture in conjunction with the two-dimensional Fourier transform of images for detection purposes. The simulation results demonstrate that our detection and defense mechanism effectively mitigates several adversarial attacks, thereby enhancing the robustness of deep neural networks against such vulnerabilities. | 翻訳日:2024-08-19 16:50:01 公開日:2024-08-16 |
# 遺伝モデルネットワークにおける漁師の並列アンラーニング
Fishers Harvest Parallel Unlearning in Inherited Model Networks ( http://arxiv.org/abs/2408.08493v1 ) ライセンス: Link先を確認 | Xiao Liu, Mingyuan Li, Xu Wang, Guangsheng Yu, Wei Ni, Lixiang Li, Haipeng Peng, Renping Liu, | (参考訳) さまざまな学習フレームワークにおけるアンラーニングは、複雑な継承関係を示すモデルの継続的成長と更新によって、依然として困難である。
本稿では、継承を示すモデル間で完全に並列なアンラーニングを可能にする、新しいアンラーニングフレームワークを提案する。
主要なイネーブルは、新しいUMIG(Unified Model Inheritance Graph)で、DAG(Directed Acyclic Graph)を使用して継承をキャプチャする。
このアルゴリズムは、初期未学習モデルから遺伝モデルにおける衝突パラメータのピンポイントまで、FIM(Fiher Information Matrix)を利用する。
FIMを用いることで、FIUnメソッドはモデル間のシーケンシャルな依存関係を壊し、同時学習の容易化と計算オーバーヘッドの低減を実現している。
さらに、異なるFIMを単一のマトリックスにマージし、継承されたモデル間で更新を同期するように設計する。
実験は、我々の未学習フレームワークの有効性を確認します。
シングルクラスのタスクでは、未学習ラベルに対する0\%の精度で完全な未学習を実現し、保持ラベルに対する94.53\%の精度を平均で維持する。
マルチクラスタスクでは、未学習ラベルでは1.07\%、保持ラベルでは84.77\%である。
我々のフレームワークは、代替手法と比較して、学習を99 %加速します。
Unlearning in various learning frameworks remains challenging, with the continuous growth and updates of models exhibiting complex inheritance relationships. This paper presents a novel unlearning framework, which enables fully parallel unlearning among models exhibiting inheritance. A key enabler is the new Unified Model Inheritance Graph (UMIG), which captures the inheritance using a Directed Acyclic Graph (DAG).Central to our framework is the new Fisher Inheritance Unlearning (FIUn) algorithm, which utilizes the Fisher Information Matrix (FIM) from initial unlearning models to pinpoint impacted parameters in inherited models. By employing FIM, the FIUn method breaks the sequential dependencies among the models, facilitating simultaneous unlearning and reducing computational overhead. We further design to merge disparate FIMs into a single matrix, synchronizing updates across inherited models. Experiments confirm the effectiveness of our unlearning framework. For single-class tasks, it achieves complete unlearning with 0\% accuracy for unlearned labels while maintaining 94.53\% accuracy for retained labels on average. For multi-class tasks, the accuracy is 1.07\% for unlearned labels and 84.77\% for retained labels on average. Our framework accelerates unlearning by 99\% compared to alternative methods. | 翻訳日:2024-08-19 16:50:01 公開日:2024-08-16 |
# 行列とベクトルノルムの残留誤差推定のための最適スケッチ
Optimal Sketching for Residual Error Estimation for Matrix and Vector Norms ( http://arxiv.org/abs/2408.08494v1 ) ライセンス: Link先を確認 | Yi Li, Honghao Lin, David P. Woodruff, | (参考訳) 線形スケッチを用いた行列とベクトルノルムの残差誤差推定問題について検討する。
このような推定は、例えば、より高価な低ランク近似計算がどれほど有用であるかを素早く評価するために用いられる。
行列ケースはフロベニウスノルムを扱い、そのタスクは入力行列の$A$の$k$-residual $\|A - A_k\|_F$を$(1+\epsilon)$-factorで近似することである。
行列積 $SAT$ の形式を持つ双線型スケッチのサイズに $\Theta(k^2/\epsilon^4)$ の厳密な境界を与える。
これにより、以前の$O(k^2/\epsilon^6)$ upper bound in (Andoni et al SODA 2013) が改善され、私たちの知識のベストに最初の非自明な下界を与える。
私たちのアルゴリズムでは、スケッチ行列が$S$と$T$はどちらもスパース行列であり、非常に高速な更新時間を可能にします。
これは、前作とほぼ同じスケッチサイズと精度で、経験的にかなり有利であることを示す。
ベクトルの場合、$\ell_p$-norm for $p>2$を考えると、そのタスクは$k$-residual $\|x - x_k\|_p$を定数係数まで近似することであり、$x_k$は$x$に最適な$k$-スパース近似である。
このようなベクトルノルムは、データストリームの文献で頻繁に研究されており、頻繁なアイテムやいわゆるヘビーヒットターを見つけるのに有用である。
我々は、この問題の線型スケッチの次元上で定数$\epsilon$に対して$O(k^{2/p}n^{1-2/p}\operatorname{poly}(\log n))$の上限を確立する。
我々のアルゴリズムは、同じスケッチ次元を持つ$\ell_p$スパースリカバリ問題に拡張することができる。
また、スパースリカバリ問題に対する$\Omega(k^{2/p}n^{1-2/p})$下界も示し、これは$\mathrm{poly}(\log n)$ factorまで厳密である。
We study the problem of residual error estimation for matrix and vector norms using a linear sketch. Such estimates can be used, for example, to quickly assess how useful a more expensive low-rank approximation computation will be. The matrix case concerns the Frobenius norm and the task is to approximate the $k$-residual $\|A - A_k\|_F$ of the input matrix $A$ within a $(1+\epsilon)$-factor, where $A_k$ is the optimal rank-$k$ approximation. We provide a tight bound of $\Theta(k^2/\epsilon^4)$ on the size of bilinear sketches, which have the form of a matrix product $SAT$. This improves the previous $O(k^2/\epsilon^6)$ upper bound in (Andoni et al. SODA 2013) and gives the first non-trivial lower bound, to the best of our knowledge. In our algorithm, our sketching matrices $S$ and $T$ can both be sparse matrices, allowing for a very fast update time. We demonstrate that this gives a substantial advantage empirically, for roughly the same sketch size and accuracy as in previous work. For the vector case, we consider the $\ell_p$-norm for $p>2$, where the task is to approximate the $k$-residual $\|x - x_k\|_p$ up to a constant factor, where $x_k$ is the optimal $k$-sparse approximation to $x$. Such vector norms are frequently studied in the data stream literature and are useful for finding frequent items or so-called heavy hitters. We establish an upper bound of $O(k^{2/p}n^{1-2/p}\operatorname{poly}(\log n))$ for constant $\epsilon$ on the dimension of a linear sketch for this problem. Our algorithm can be extended to the $\ell_p$ sparse recovery problem with the same sketching dimension, which seems to be the first such bound for $p > 2$. We also show an $\Omega(k^{2/p}n^{1-2/p})$ lower bound for the sparse recovery problem, which is tight up to a $\mathrm{poly}(\log n)$ factor. | 翻訳日:2024-08-19 16:50:01 公開日:2024-08-16 |
# 拡散モデルを用いた関数集約による複雑な画像編集の実現
Achieving Complex Image Edits via Function Aggregation with Diffusion Models ( http://arxiv.org/abs/2408.08495v1 ) ライセンス: Link先を確認 | Mohammadreza Samadi, Fred X. Han, Mohammad Salameh, Hao Wu, Fengyu Sun, Chunhua Zhou, Di Niu, | (参考訳) 拡散モデルは、生成タスクにおいて強力な性能を示しており、画像編集の理想的な候補となっている。
近年の研究では、テキストによる指示に従うことによって、望ましい編集を効果的に適用する能力が強調されているが、2つの重要な課題が続いている。
第一に、これらのモデルは複数の編集を同時に行うのに苦労し、逐次処理に依存するため、計算の効率が低下する。
第2に、編集領域を決定するためのテキストプロンプトに依存すると、画像の他の部分の意図しない変更につながる可能性がある。
本研究では,原子編集関数を学習し,より単純な関数を集約して複雑な編集を行うための,効率的な拡散モデルであるFunEditorを紹介する。
このアプローチは、複数の関数を集約し、それらを特定の領域に同時に適用することにより、オブジェクトの動きなどの複雑な編集タスクを可能にする。
FunEditorは、オブジェクトムーブメントのような複雑なタスクの既存のメソッドよりも5倍から24倍高速な推論を行う。
実験の結果,FunEditorは画像品質評価(IQA)やオブジェクト-背景整合性といった様々な指標において,推論時間最適化法と微調整モデルの両方を含む最近のベースラインを著しく上回っていることがわかった。
Diffusion models have demonstrated strong performance in generative tasks, making them ideal candidates for image editing. Recent studies highlight their ability to apply desired edits effectively by following textual instructions, yet two key challenges persist. First, these models struggle to apply multiple edits simultaneously, resulting in computational inefficiencies due to their reliance on sequential processing. Second, relying on textual prompts to determine the editing region can lead to unintended alterations in other parts of the image. In this work, we introduce FunEditor, an efficient diffusion model designed to learn atomic editing functions and perform complex edits by aggregating simpler functions. This approach enables complex editing tasks, such as object movement, by aggregating multiple functions and applying them simultaneously to specific areas. FunEditor is 5 to 24 times faster inference than existing methods on complex tasks like object movement. Our experiments demonstrate that FunEditor significantly outperforms recent baselines, including both inference-time optimization methods and fine-tuned models, across various metrics, such as image quality assessment (IQA) and object-background consistency. | 翻訳日:2024-08-19 16:50:01 公開日:2024-08-16 |
# 変形性に面したモデル再訓練の限界
The Limitations of Model Retraining in the Face of Performativity ( http://arxiv.org/abs/2408.08499v1 ) ライセンス: Link先を確認 | Anmol Kabra, Kumar Kshitij Patel, | (参考訳) 本研究では,データ分散が配置されたモデルに応答して変化する性能変化の文脈における確率的最適化について検討する。
簡単な分布シフトであっても, ナイーブリトレーニングは, 確実に準最適であることを示す。
この問題は、リトレーニングの各ステップで有限個のサンプルが与えられたモデルが再トレーニングされると悪化する。
再学習に正規化を加えることで、これら2つの問題を正し、分布シフトに直面した証明可能な最適モデルが得られることを示す。
我々の研究は、パフォーマンス効果の存在下で機械学習モデルがどのように再訓練されるかを再考することを提唱している。
We study stochastic optimization in the context of performative shifts, where the data distribution changes in response to the deployed model. We demonstrate that naive retraining can be provably suboptimal even for simple distribution shifts. The issue worsens when models are retrained given a finite number of samples at each retraining step. We show that adding regularization to retraining corrects both of these issues, attaining provably optimal models in the face of distribution shifts. Our work advocates rethinking how machine learning models are retrained in the presence of performative effects. | 翻訳日:2024-08-19 16:50:01 公開日:2024-08-16 |
# CoSEC: 自動運転のための同軸ステレオカメラデータセット
CoSEC: A Coaxial Stereo Event Camera Dataset for Autonomous Driving ( http://arxiv.org/abs/2408.08500v1 ) ライセンス: Link先を確認 | Shihan Peng, Hanyu Zhou, Hao Dong, Zhiwei Shi, Haoyue Liu, Yuxing Duan, Yi Chang, Luxin Yan, | (参考訳) 従来のフレームカメラは自律走行シーン知覚の主流のセンサーであるが、低照度などの悪条件では制限されている。
高ダイナミックレンジのイベントカメラは、様々なモード間のピクセルレベルの空間的アライメントに大きく依存するマルチモーダル融合のためのフレームカメラのアシストに応用されている。
通常、既存のマルチモーダルデータセットは主にイベントとフレームカメラを並列に配置し、ワープ操作を通じて直接空間的に調整する。
しかし、この並列戦略は、大きなイベントフレームベースラインによる空間的不整合が悪化するため、マルチモーダル融合にはあまり効果がない。
ベースラインの最小化は、イベントカメラとフレームカメラのアライメント誤差を低減することができる。
本研究では,マルチモーダルシステム構築のためのハイブリッド同軸イベントフレームデバイスを導入し,自動運転のための同軸ステレオイベントカメラ(CoSEC)データセットを提案する。
マルチモーダルシステムでは、まずマイクロコントローラを用いて時間同期を行い、次に空間的に異なるセンサを校正し、ステレオ同軸デバイスの校正と校正を行う。
マルチモーダルデータセットでは、LDAR点雲をフィルタリングして参照深度を用いて深度と光フローラベルを生成する。
同軸装置の助けを借りて、提案したデータセットは、全日のピクセルレベルのマルチモーダル融合を促進することができる。
さらに,提案したデータセットがマルチモーダル融合の性能と一般化を向上できることを示す実験も行った。
Conventional frame camera is the mainstream sensor of the autonomous driving scene perception, while it is limited in adverse conditions, such as low light. Event camera with high dynamic range has been applied in assisting frame camera for the multimodal fusion, which relies heavily on the pixel-level spatial alignment between various modalities. Typically, existing multimodal datasets mainly place event and frame cameras in parallel and directly align them spatially via warping operation. However, this parallel strategy is less effective for multimodal fusion, since the large disparity exacerbates spatial misalignment due to the large event-frame baseline. We argue that baseline minimization can reduce alignment error between event and frame cameras. In this work, we introduce hybrid coaxial event-frame devices to build the multimodal system, and propose a coaxial stereo event camera (CoSEC) dataset for autonomous driving. As for the multimodal system, we first utilize the microcontroller to achieve time synchronization, and then spatially calibrate different sensors, where we perform intra- and inter-calibration of stereo coaxial devices. As for the multimodal dataset, we filter LiDAR point clouds to generate depth and optical flow labels using reference depth, which is further improved by fusing aligned event and frame data in nighttime conditions. With the help of the coaxial device, the proposed dataset can promote the all-day pixel-level multimodal fusion. Moreover, we also conduct experiments to demonstrate that the proposed dataset can improve the performance and generalization of the multimodal fusion. | 翻訳日:2024-08-19 16:50:01 公開日:2024-08-16 |
# 対向ロバスト性のための高能率画像対画像拡散分類器
Efficient Image-to-Image Diffusion Classifier for Adversarial Robustness ( http://arxiv.org/abs/2408.08502v1 ) ライセンス: Link先を確認 | Hefei Mei, Minjing Dong, Chang Xu, | (参考訳) 拡散モデル (DM) は, 敵の強靭性において大きな可能性を示し, 敵の訓練を伴わずに, 敵の防御能力を向上することができる。
しかし、これら全ては大規模事前訓練DMの使用により膨大な計算コストを必要とするため、強力な攻撃下で完全な評価を行い、従来のCNNベースの手法と比較することは困難である。
単純なDMのネットワークサイズとタイムステップの削減は、以前のフレームワークを無効にする画像生成の品質を著しく損なう可能性がある。
この問題を軽減するため,高画質画像の生成から識別可能な画像ラベルの予測に至るまで,拡散フレームワークを再設計する。
具体的には、入力サンプルから直交画像ラベルへの多対一マッピングを学習するために、画像翻訳フレームワークを用いる。
この枠組みに基づいて, プルーニングされたU-Net構造と拡散時間を短縮した, 効率的な画像間拡散分類器を提案する。
本フレームワークの他に,DMの最適化目的を画像分類の対象に合わせるように再設計し,DMベースの画像翻訳フレームワークに新たな分類損失を組み込んで,生成されたラベルを他のクラスと区別する。
一般的なベンチマークに対する様々な攻撃の下で,提案した分類器の十分な評価を行う。
拡張実験により, DM法やCNN法よりも計算コストが少なく, 対向ロバスト性を向上できることが示された。
コードはhttps://github.com/hfmei/IDC.comで公開されている。
Diffusion models (DMs) have demonstrated great potential in the field of adversarial robustness, where DM-based defense methods can achieve superior defense capability without adversarial training. However, they all require huge computational costs due to the usage of large-scale pre-trained DMs, making it difficult to conduct full evaluation under strong attacks and compare with traditional CNN-based methods. Simply reducing the network size and timesteps in DMs could significantly harm the image generation quality, which invalidates previous frameworks. To alleviate this issue, we redesign the diffusion framework from generating high-quality images to predicting distinguishable image labels. Specifically, we employ an image translation framework to learn many-to-one mapping from input samples to designed orthogonal image labels. Based on this framework, we introduce an efficient Image-to-Image diffusion classifier with a pruned U-Net structure and reduced diffusion timesteps. Besides the framework, we redesign the optimization objective of DMs to fit the target of image classification, where a new classification loss is incorporated in the DM-based image translation framework to distinguish the generated label from those of other classes. We conduct sufficient evaluations of the proposed classifier under various attacks on popular benchmarks. Extensive experiments show that our method achieves better adversarial robustness with fewer computational costs than DM-based and CNN-based methods. The code is available at https://github.com/hfmei/IDC. | 翻訳日:2024-08-19 16:50:01 公開日:2024-08-16 |
# Ex3: Extracting, Excelsior and Expandingによる自動新規作成
Ex3: Automatic Novel Writing by Extracting, Excelsior and Expanding ( http://arxiv.org/abs/2408.08506v1 ) ライセンス: Link先を確認 | Huang Lei, Jiaming Guo, Guanhua He, Xishan Zhang, Rui Zhang, Shaohui Peng, Shaoli Liu, Tianshi Chen, | (参考訳) 人工知能を使って小説などの長期的なテキストを生成することは、常に困難である。
一般的なアプローチは、大きな言語モデル(LLM)を使用して、最初に計画し、次に書く階層的なフレームワークを構築することである。
生成された小説が十分な長さに達するという事実にもかかわらず、彼らのプロットに論理的一貫性と魅力が乏しく、性格や出来事の描写に欠陥があり、最終的に全体の物語の質を損なうことになる。
本稿では,Excelsior と Expanding を抽出する手法を提案する。
Ex3は、当初、生の新規データから構造情報を抽出する。
この構造情報を新しいデータと組み合わせることで、指示追従データセットを慎重に作成する。
このデータセットを使用してLLMを微調整し、優れた生成性能を実現する。
最終段階では、任意に長い小説の生成を容易にするために、木のような展開方法が展開される。
以前の手法に対する評価は、高品質の長編小説を制作するEx3の能力を示している。
Generating long-term texts such as novels using artificial intelligence has always been a challenge. A common approach is to use large language models (LLMs) to construct a hierarchical framework that first plans and then writes. Despite the fact that the generated novels reach a sufficient length, they exhibit poor logical coherence and appeal in their plots and deficiencies in character and event depiction, ultimately compromising the overall narrative quality. In this paper, we propose a method named Extracting Excelsior and Expanding. Ex3 initially extracts structure information from raw novel data. By combining this structure information with the novel data, an instruction-following dataset is meticulously crafted. This dataset is then utilized to fine-tune the LLM, aiming for excelsior generation performance. In the final stage, a tree-like expansion method is deployed to facilitate the generation of arbitrarily long novels. Evaluation against previous methods showcases Ex3's ability to produce higher-quality long-form novels. | 翻訳日:2024-08-19 16:50:01 公開日:2024-08-16 |
# 符号付きグラフニューラルネットワークにおける遅延バイアスの緩和
Mitigating Degree Bias in Signed Graph Neural Networks ( http://arxiv.org/abs/2408.08508v1 ) ライセンス: Link先を確認 | Fang He, Jinhai Deng, Ruizhan Xue, Maojun Wang, Zeyu Zhang, | (参考訳) グラフニューラルネットワーク(GNN)と同様に、サイン付きグラフニューラルネットワーク(SGNN)も、ソースデータと典型的な集約方法による公平性の問題に対処している。
本稿では,GNN から拡張された SGNN の公正性の調査を先駆的に進める。
署名されたグラフ内の次数バイアスの問題を識別し、SGNNに関する公平性問題に対する新たな視点を提供する。
次数バイアスに関する従来の研究から着想を得た、対立バイアス問題に対処するため、異なる次数のノードの表現を強化するために、新しいモデル非依存法が提案され、Degree Debiased Signed Graph Neural Network (DD-SGNN) と名付けられた。
より具体的には、各層において、頭-尾三重項内の低次ノードへの高次ノードへの転送を行い、テールノードの根底にあるドメイン欠落構造を補うとともに、符号付きグラフのバランス理論によって定義された正と負のセマンティクスを維持する。
4つの実世界のデータセットについて広範な実験を行う。
その結果、モデルの有効性、すなわち我々のモデルは性能を損なうことなく次数バイアス問題を緩和する($\textit{i.e.}$, AUC, F1)。
コードには補足材料が備わっている。
Like Graph Neural Networks (GNNs), Signed Graph Neural Networks (SGNNs) are also up against fairness issues from source data and typical aggregation method. In this paper, we are pioneering to make the investigation of fairness in SGNNs expanded from GNNs. We identify the issue of degree bias within signed graphs, offering a new perspective on the fairness issues related to SGNNs. To handle the confronted bias issue, inspired by previous work on degree bias, a new Model-Agnostic method is consequently proposed to enhance representation of nodes with different degrees, which named as Degree Debiased Signed Graph Neural Network (DD-SGNN) . More specifically, in each layer, we make a transfer from nodes with high degree to nodes with low degree inside a head-to-tail triplet, which to supplement the underlying domain missing structure of the tail nodes and meanwhile maintain the positive and negative semantics specified by balance theory in signed graphs. We make extensive experiments on four real-world datasets. The result verifies the validity of the model, that is, our model mitigates the degree bias issue without compromising performance($\textit{i.e.}$, AUC, F1). The code is provided in supplementary material. | 翻訳日:2024-08-19 16:50:01 公開日:2024-08-16 |
# JVMファジィ化のための初期種子の選択
Selecting Initial Seeds for Better JVM Fuzzing ( http://arxiv.org/abs/2408.08515v1 ) ライセンス: Link先を確認 | Tianchang Gao, Junjie Chen, Dong Wang, Yile Guo, Yingquan Zhao, Zan Wang, | (参考訳) 従来のプログラムファジィングの文献では、効果は初期種子の冗長性によって大きく影響され、一連の種選択法が提案されている。
JVMファジィングは、従来のファジィに比べて、大規模かつ複雑なコードや、構文的および意味的両方の特徴を持つプログラムなど、ユニークな特徴を示している。
しかし,既存のシード選択法がJVMファジィングに適しているか,プログラム機能を利用することで効率が向上するかどうかは不明である。
そこで本研究では,カバー範囲ベース,プレファズベース,プログラム機能ベースの10種類の初期種選択手法を考案した。
次に、3つのJVM実装に関する実証的研究を行い、2つのSOTAファジリング技術(JavaTailorとVECT)におけるシード選択手法の性能を広範囲に評価する。
具体的には,3つの側面からパフォーマンスについて検討する。
(i)広く研究されている初期種子を用いた有効性と効率
(二)野生のプログラムによる効果、及び
(iii)新しいバグを検出する機能。
評価結果から,制御フローグラフを用いたプログラム機能ベースの手法は,時間オーバーヘッドが著しく低い(30s)だけでなく,他の手法よりも優れており,初期種子の完全なセットに比べて142%から269%向上していることがわかった。
第2に,初期種選択は野生のプログラムの品質を大幅に向上させ,新たな行動を検出することによって相補的効果を示すことを示した。
第三に、テスト期間が同じならば、初期シード選択は、より未知のバグを検出することによって、JVMファジングテクニックを改善します。
特に、検出された25のバグのうち21が、開発者によって確認または修正されている。
この作業は、JVMファジングにおける最初のシード選択を初めて見て、ファジングの有効性と効率性の重要性を確認します。
Literature in traditional program fuzzing has confirmed that effectiveness is largely impacted by redundancy among initial seeds, thereby proposing a series of seed selection methods. JVM fuzzing, compared to traditional ones, presents unique characteristics, including large-scale and intricate code, and programs with both syntactic and semantic features. However, it remains unclear whether the existing seed selection methods are suitable for JVM fuzzing and whether utilizing program features can enhance effectiveness. To address this, we devise a total of 10 initial seed selection methods, comprising coverage-based, prefuzz-based, and program-feature-based methods. We then conduct an empirical study on three JVM implementations to extensively evaluate the performance of the seed selection methods within two SOTA fuzzing techniques (JavaTailor and VECT). Specifically, we examine performance from three aspects: (i) effectiveness and efficiency using widely studied initial seeds, (ii) effectiveness using the programs in the wild, and (iii) the ability to detect new bugs. Evaluation results first show that the program-feature-based method that utilizes the control flow graph not only has a significantly lower time overhead (i.e., 30s), but also outperforms other methods, achieving 142% to 269% improvement compared to the full set of initial seeds. Second, results reveal that the initial seed selection greatly improves the quality of wild programs and exhibits complementary effectiveness by detecting new behaviors. Third, results demonstrate that given the same testing period, initial seed selection improves the JVM fuzzing techniques by detecting more unknown bugs. Particularly, 21 out of the 25 detected bugs have been confirmed or fixed by developers. This work takes the first look at initial seed selection in JVM fuzzing, confirming its importance in fuzzing effectiveness and efficiency. | 翻訳日:2024-08-19 16:39:36 公開日:2024-08-16 |
# 選択的対向摂動による視覚的親和性概念保護
Visual-Friendly Concept Protection via Selective Adversarial Perturbations ( http://arxiv.org/abs/2408.08518v1 ) ライセンス: Link先を確認 | Xiaoyue Mi, Fan Tang, Juan Cao, Peng Li, Yang Liu, | (参考訳) いくつかの画像で拡散モデルをチューニングすることで個人化された概念生成は、プライバシーと知的財産権に関する法的および倫理的懸念を提起する。
研究者は敵対的摂動を用いて悪意のある個人化を防ごうとする。
しかし、従来の取り組みは、摂動の可視性を無視しながら、保護の有効性に重点を置いてきた。
原画像に顕著な変化を導入し、視覚的品質を著しく低下させる。
本研究では,画像所有者が選択した重要な概念の保護を,認識能力の低い対角的摂動を通じて優先する,視覚親和性概念保護(VCPro)フレームワークを提案する。
これらの摂動を極力目立たないものにするために,ラグランジアン乗算器法を用いて解いた最小の知覚可能かつ効果的な対向摂動を同定するための緩和最適化手法を提案する。
定性的かつ定量的な実験は、VCProが摂動の可視性と保護効果の間のトレードオフをより良く達成し、知覚可能な摂動の少ない画像におけるターゲット概念の保護を効果的に優先することを検証する。
Personalized concept generation by tuning diffusion models with a few images raises potential legal and ethical concerns regarding privacy and intellectual property rights. Researchers attempt to prevent malicious personalization using adversarial perturbations. However, previous efforts have mainly focused on the effectiveness of protection while neglecting the visibility of perturbations. They utilize global adversarial perturbations, which introduce noticeable alterations to original images and significantly degrade visual quality. In this work, we propose the Visual-Friendly Concept Protection (VCPro) framework, which prioritizes the protection of key concepts chosen by the image owner through adversarial perturbations with lower perceptibility. To ensure these perturbations are as inconspicuous as possible, we introduce a relaxed optimization objective to identify the least perceptible yet effective adversarial perturbations, solved using the Lagrangian multiplier method. Qualitative and quantitative experiments validate that VCPro achieves a better trade-off between the visibility of perturbations and protection effectiveness, effectively prioritizing the protection of target concepts in images with less perceptible perturbations. | 翻訳日:2024-08-19 16:39:36 公開日:2024-08-16 |
# MuRAR: マルチモーダル質問応答のための簡易かつ効果的なマルチモーダル検索および回答検索フレームワーク
MuRAR: A Simple and Effective Multimodal Retrieval and Answer Refinement Framework for Multimodal Question Answering ( http://arxiv.org/abs/2408.08521v1 ) ライセンス: Link先を確認 | Zhengyuan Zhu, Daniel Lee, Hong Zhang, Sai Sree Harsha, Loic Feujio, Akash Maharaj, Yunyao Li, | (参考訳) 検索強化世代(RAG)の最近の進歩は,質問応答(QA)タスクにおいて顕著なパフォーマンスを示している。
しかし、それまでのほとんどの作品は、主にテキストベースの回答に焦点を当てていた。
マルチモーダルデータを扱う研究もあるが、概念の説明や特定の目的を達成するためのステップバイステップのチュートリアルの提供など、包括的なマルチモーダル回答の生成には依然として不足している。
この機能は、エンタープライズチャットボットのようなアプリケーションや、顧客サービスや教育システムのような設定で、回答はマルチモーダルデータから得られる。
本稿では,MuRAR(Multimodal Retrieval and Answer Refinement)という,シンプルで効果的なフレームワークを紹介する。
MuRARは、関連するマルチモーダルデータを検索し、応答を洗練してコヒーレントなマルチモーダル回答を生成することで、テキストベースの回答を強化する。
このフレームワークは、最小限の変更で、エンタープライズチャットボットのマルチモーダル回答をサポートするように簡単に拡張できる。
人間の評価結果から, MuRAR が生成するマルチモーダル回答は, 平易なテキスト回答よりも有用で, 可読性が高いことが示唆された。
Recent advancements in retrieval-augmented generation (RAG) have demonstrated impressive performance in the question-answering (QA) task. However, most previous works predominantly focus on text-based answers. While some studies address multimodal data, they still fall short in generating comprehensive multimodal answers, particularly for explaining concepts or providing step-by-step tutorials on how to accomplish specific goals. This capability is especially valuable for applications such as enterprise chatbots and settings such as customer service and educational systems, where the answers are sourced from multimodal data. In this paper, we introduce a simple and effective framework named MuRAR (Multimodal Retrieval and Answer Refinement). MuRAR enhances text-based answers by retrieving relevant multimodal data and refining the responses to create coherent multimodal answers. This framework can be easily extended to support multimodal answers in enterprise chatbots with minimal modifications. Human evaluation results indicate that multimodal answers generated by MuRAR are more useful and readable compared to plain text answers. | 翻訳日:2024-08-19 16:39:36 公開日:2024-08-16 |
# GS-ID:拡散前およびパラメトリック光源最適化によるガウス散乱の照明分解
GS-ID: Illumination Decomposition on Gaussian Splatting via Diffusion Prior and Parametric Light Source Optimization ( http://arxiv.org/abs/2408.08524v1 ) ライセンス: Link先を確認 | Kang Du, Zhihao Liang, Zeyu Wang, | (参考訳) 本稿では,ガウス格子の照明分解のための新しいフレームワークであるGS-IDについて述べる。
照明の分解は、3つの大きな課題に直面している不適切な問題である。
1) 幾何学及び資料の先行は,しばしば欠落している。
2 複雑な照明条件は、複数の未知の光源を含む。
3) 多数の光源による表面シェーディングの計算は, 計算コストが高い。
これらの課題に対処するために、まず本質的な拡散先を導入し、物理ベースレンダリングの属性を推定する。
次に,照明を環境と直接成分に分割し,共同最適化を行う。
最後に,遅延レンダリングを用いて計算負荷を削減する。
我々のフレームワークは学習可能な環境マップと球状ガウス (SG) を用いて光源をパラメトリックに表現し、ガウススティングにおける制御可能で光リアルなリライトを可能にする。
大規模な実験と応用により、GS-IDは、より優れた幾何再構成とレンダリング性能を達成しつつ、最先端の照明分解結果を生成することが示された。
We present GS-ID, a novel framework for illumination decomposition on Gaussian Splatting, achieving photorealistic novel view synthesis and intuitive light editing. Illumination decomposition is an ill-posed problem facing three main challenges: 1) priors for geometry and material are often lacking; 2) complex illumination conditions involve multiple unknown light sources; and 3) calculating surface shading with numerous light sources is computationally expensive. To address these challenges, we first introduce intrinsic diffusion priors to estimate the attributes for physically based rendering. Then we divide the illumination into environmental and direct components for joint optimization. Last, we employ deferred rendering to reduce the computational load. Our framework uses a learnable environment map and Spherical Gaussians (SGs) to represent light sources parametrically, therefore enabling controllable and photorealistic relighting on Gaussian Splatting. Extensive experiments and applications demonstrate that GS-ID produces state-of-the-art illumination decomposition results while achieving better geometry reconstruction and rendering performance. | 翻訳日:2024-08-19 16:39:36 公開日:2024-08-16 |
# 条件付きカスケード拡散モデルを用いた逆設計
Inverse design with conditional cascaded diffusion models ( http://arxiv.org/abs/2408.08526v1 ) ライセンス: Link先を確認 | Milad Habibi, Mark Fuge, | (参考訳) 随伴型設計最適化は通常計算コストが高く、それらのコストは分解能でスケールする。
これを解決するために、研究者は低コスト/高解像度のソリューションから高解像度のソリューションを予測することができる逆設計のための機械学習アプローチを提案した。
従来の生成モデルに対する拡散モデルの成功により、条件付きカスケード拡散モデル(cCDM)を提案することにより、多分解能タスクに対する拡散モデルの利用を拡大する。
GANと比較して、cCDMは訓練に安定であり、cCDM内の各拡散モデルを独立に訓練できるため、各モデルのパラメータを個別に調整してパイプラインの性能を最大化することができる。
本研究は,cCDMをcGANモデルと転写学習を比較した。
以上の結果から,cCDMは,高解像度のトレーニングデータ(102以上の設計)が十分に利用可能である場合に,細部の詳細の取得,ボリューム分数制約の保存,多分解能タスクにおけるコンプライアンスエラーの最小化に優れることが示された。
さらに、トレーニングデータサイズが両モデルの性能に与える影響についても検討する。
両モデルとも高分解能トレーニングデータを減らすことで性能が低下するが,cCDMは訓練データに制限がある場合(102未満)に伝達学習を施したcGANモデルに優劣がある。
また,拡散モデルでは低分解能,高分解能の両シナリオで優れた画素性能が得られるが,このモデルが最適コンプライアンスエラーや制約満足度を生成することは必ずしも保証されない。
Adjoint-based design optimizations are usually computationally expensive and those costs scale with resolution. To address this, researchers have proposed machine learning approaches for inverse design that can predict higher-resolution solutions from lower cost/resolution ones. Due to the recent success of diffusion models over traditional generative models, we extend the use of diffusion models for multi-resolution tasks by proposing the conditional cascaded diffusion model (cCDM). Compared to GANs, cCDM is more stable to train, and each diffusion model within the cCDM can be trained independently, thus each model's parameters can be tuned separately to maximize the performance of the pipeline. Our study compares cCDM against a cGAN model with transfer learning. Our results demonstrate that the cCDM excels in capturing finer details, preserving volume fraction constraints, and minimizing compliance errors in multi-resolution tasks when a sufficient amount of high-resolution training data (more than 102 designs) is available. Furthermore, we explore the impact of training data size on the performance of both models. While both models show decreased performance with reduced high-resolution training data, the cCDM loses its superiority to the cGAN model with transfer learning when training data is limited (less than 102), and we show the break-even point for this transition. Also, we highlight that while the diffusion model may achieve better pixel-wise performance in both low-resolution and high-resolution scenarios, this does not necessarily guarantee that the model produces optimal compliance error or constraint satisfaction. | 翻訳日:2024-08-19 16:39:36 公開日:2024-08-16 |
# Focus on Focus: Focus-oriented Representation Learning と Multi-view Cross-Modal Alignment for Glioma Grading
Focus on Focus: Focus-oriented Representation Learning and Multi-view Cross-modal Alignment for Glioma Grading ( http://arxiv.org/abs/2408.08527v1 ) ライセンス: Link先を確認 | Li Pan, Yupei Zhang, Qiushi Yang, Tan Li, Xiaohan Xing, Maximus C. F. Yeung, Zhen Chen, | (参考訳) 近年,病理組織学スライドと分子バイオマーカーを統合したマルチモーダルディープラーニングが,グリオーマのグレーディングにおいて有望な成果を上げている。
モダリティ内複雑性とモダリティ間不均一性により、大きな進歩があったが、既存の研究は、不適切な病理組織学表現学習と非効率的な分子-病理知識アライメントに悩まされている。
これらの2つの問題は、診断の分子病理的特徴を正確に解釈する既存の手法を妨げ、その結果、その評価性能が制限される。
さらに、既存のマルチモーダルアプローチの現実的な適用性は、臨床展開中に分子バイオマーカーが常に利用できるとは限らないため、著しく制限されている。
これらの問題に対処するため,我々は,FoF(FoF)フレームワークを導入した。FoF(FoF)フレームワークは,ペアの病理-ゲノム訓練と適用可能な病理-のみの推論により,分子-病理表現を効果的に向上する。
具体的には、グリオーマグレーディングに関連する領域を正あるいは負に識別し、一貫性の制約のある診断領域にフォーカスするようモデルに促す、焦点指向表現学習(FRL)モジュールを提案する。
分子バイオマーカーと形態学的特徴を効果的に結びつけるために, 組織学的表現を分子サブ空間に投影する多視点クロスモーダルアライメント (MCA) モジュールを提案する。
TCGA GBM-LGGデータセットの実験により、我々のFoFフレームワークはグリオーマのグレーディングを大幅に改善することが示された。
このFoFは,既存のマルチモーダル法と比較して,病理組織学的スライドのみを用いて優れた性能を発揮する。
ソースコードはhttps://github.com/peterlipan/FoF.comで入手できる。
Recently, multimodal deep learning, which integrates histopathology slides and molecular biomarkers, has achieved a promising performance in glioma grading. Despite great progress, due to the intra-modality complexity and inter-modality heterogeneity, existing studies suffer from inadequate histopathology representation learning and inefficient molecular-pathology knowledge alignment. These two issues hinder existing methods to precisely interpret diagnostic molecular-pathology features, thereby limiting their grading performance. Moreover, the real-world applicability of existing multimodal approaches is significantly restricted as molecular biomarkers are not always available during clinical deployment. To address these problems, we introduce a novel Focus on Focus (FoF) framework with paired pathology-genomic training and applicable pathology-only inference, enhancing molecular-pathology representation effectively. Specifically, we propose a Focus-oriented Representation Learning (FRL) module to encourage the model to identify regions positively or negatively related to glioma grading and guide it to focus on the diagnostic areas with a consistency constraint. To effectively link the molecular biomarkers to morphological features, we propose a Multi-view Cross-modal Alignment (MCA) module that projects histopathology representations into molecular subspaces, aligning morphological features with corresponding molecular biomarker status by supervised contrastive learning. Experiments on the TCGA GBM-LGG dataset demonstrate that our FoF framework significantly improves the glioma grading. Remarkably, our FoF achieves superior performance using only histopathology slides compared to existing multimodal methods. The source code is available at https://github.com/peterlipan/FoF. | 翻訳日:2024-08-19 16:39:36 公開日:2024-08-16 |
# 制限ランダム置換行列で暗号化された画像を用いたプライバシー保護型視覚変換器
Privacy-Preserving Vision Transformer Using Images Encrypted with Restricted Random Permutation Matrices ( http://arxiv.org/abs/2408.08529v1 ) ライセンス: Link先を確認 | Kouki Horio, Kiyoshi Nishikawa, Hitoshi Kiya, | (参考訳) 本稿では,暗号化画像を用いたプライバシー保護型微調整型視覚変換器(ViT)を提案する。
従来の暗号化画像を用いた手法では,画像暗号化の影響により,通常の画像に比べてモデル性能が低下していた。
対照的に、制限されたランダムな置換行列を用いた暗号化手法は、従来の手法よりも高い性能が得られる。
We propose a novel method for privacy-preserving fine-tuning vision transformers (ViTs) with encrypted images. Conventional methods using encrypted images degrade model performance compared with that of using plain images due to the influence of image encryption. In contrast, the proposed encryption method using restricted random permutation matrices can provide a higher performance than the conventional ones. | 翻訳日:2024-08-19 16:39:36 公開日:2024-08-16 |
# 2つの異なる学習環境におけるサイバーセキュリティ演習における不必要な学生の検出
Detecting Unsuccessful Students in Cybersecurity Exercises in Two Different Learning Environments ( http://arxiv.org/abs/2408.08531v1 ) ライセンス: Link先を確認 | Valdemar Švábenský, Kristián Tkáčik, Aubrey Birdwell, Richard Weiss, Ryan S. Baker, Pavel Čeleda, Jan Vykopal, Jens Mache, Ankur Chattopadhyay, | (参考訳) この研究トラックの全文は、サイバーセキュリティ演習で記録されたデータを用いて、パフォーマンス不良のリスクがある学生を予測している。
学生が自分のスキルを実践できるようにするため、ハンズオン演習は学習に不可欠である。
サイバーセキュリティでは、ハンズオンエクササイズは複雑で、多くのトピックに関する知識を必要とすることが多い。
そのため、学生は知識不足による解を見逃し、フラストレーションとなり、学習を阻害する可能性がある。
インストラクターの目標支援は役に立つが、インストラクターの時間に制限があるため、苦労している学生を検出する効率的な方法が必要である。
本稿では,学生の難易度を予測するための自動ツールを開発する。
KYPO CRPとEDURangeの2つの学習環境と2つの国からの313人の学生の行動を用いたデータセットを構築した。
これらのデータは、これらの環境にデプロイされた演習における学生の成功を予測するために、機械学習アルゴリズムで使用される。
データから特徴を抽出した後、運動結果を予測するために8つの分類器を訓練し、クロスバリデーションし、それらの予測力を評価した。
本稿では,2つの学習環境のデータに対する特徴工学,モデリング,分類性能の2つのアプローチを比較した。
学習環境と学習環境の両方の特徴を用いて,成功した学生と苦しい学生を識別し,識別することができた。
決定木分類器は,両学習環境のデータと高いバランスの取れた精度と感度を達成した。
その結果,サイバーセキュリティ演習の行動データは,学生の成功を予測するのに適していることがわかった。
潜在的な応用として、このようなモデルは、苦労している生徒を検知し、目標とする支援を提供するインストラクターを助けることができる。
私たちはこれらのモデルを構築するためのデータとコードを公開し、他の人がそれを採用または適応できるようにします。
This full paper in the research track evaluates the usage of data logged from cybersecurity exercises in order to predict students who are potentially at risk of performing poorly. Hands-on exercises are essential for learning since they enable students to practice their skills. In cybersecurity, hands-on exercises are often complex and require knowledge of many topics. Therefore, students may miss solutions due to gaps in their knowledge and become frustrated, which impedes their learning. Targeted aid by the instructor helps, but since the instructor's time is limited, efficient ways to detect struggling students are needed. This paper develops automated tools to predict when a student is having difficulty. We formed a dataset with the actions of 313 students from two countries and two learning environments: KYPO CRP and EDURange. These data are used in machine learning algorithms to predict the success of students in exercises deployed in these environments. After extracting features from the data, we trained and cross-validated eight classifiers for predicting the exercise outcome and evaluated their predictive power. The contribution of this paper is comparing two approaches to feature engineering, modeling, and classification performance on data from two learning environments. Using the features from either learning environment, we were able to detect and distinguish between successful and struggling students. A decision tree classifier achieved the highest balanced accuracy and sensitivity with data from both learning environments. The results show that activity data from cybersecurity exercises are suitable for predicting student success. In a potential application, such models can aid instructors in detecting struggling students and providing targeted help. We publish data and code for building these models so that others can adopt or adapt them. | 翻訳日:2024-08-19 16:39:36 公開日:2024-08-16 |
# 対人コントラスト学習による教師なしトランスファー学習
Unsupervised Transfer Learning via Adversarial Contrastive Training ( http://arxiv.org/abs/2408.08533v1 ) ライセンス: Link先を確認 | Chenguang Duan, Yuling Jiao, Huazhen Lin, Wensen Ma, Jerry Zhijian Yang, | (参考訳) ラベルのないシナリオの下で、下流で教師付き学習タスクのためのデータ表現を学ぶことは、決定的かつ困難である。
本稿では,対戦型コントラスト学習(ACT)を用いた新しい教師なしトランスファー学習手法を提案する。
実験の結果,様々なデータセットにまたがる細調整線形プローブとK-NNプロトコルによる分類精度は優れており,既存の最先端の自己教師型学習手法との競合性を示している。
さらに、不特定かつ過度なパラメータ設定で下流分類タスクをエンド・ツー・エンドで保証し、大量のラベルのないデータが予測精度にどのように貢献するかを明らかにする。
以上の結果から,下流タスクのテスト誤差は,未ラベルのサンプルサイズが十分に大きい場合,ACTで使用されるデータ拡張の効率にのみ依存することが示唆された。
これは、小さなサンプルサイズで下流のタスクを学習する理論的な理解を提供する。
Learning a data representation for downstream supervised learning tasks under unlabeled scenario is both critical and challenging. In this paper, we propose a novel unsupervised transfer learning approach using adversarial contrastive training (ACT). Our experimental results demonstrate outstanding classification accuracy with both fine-tuned linear probe and K-NN protocol across various datasets, showing competitiveness with existing state-of-the-art self-supervised learning methods. Moreover, we provide an end-to-end theoretical guarantee for downstream classification tasks in a misspecified, over-parameterized setting, highlighting how a large amount of unlabeled data contributes to prediction accuracy. Our theoretical findings suggest that the testing error of downstream tasks depends solely on the efficiency of data augmentation used in ACT when the unlabeled sample size is sufficiently large. This offers a theoretical understanding of learning downstream tasks with a small sample size. | 翻訳日:2024-08-19 16:39:36 公開日:2024-08-16 |
# QWalkVec: 量子ウォークによるノード埋め込み
QWalkVec: Node Embedding by Quantum Walk ( http://arxiv.org/abs/2408.08534v1 ) ライセンス: Link先を確認 | Rei Sato, Shuichiro Haruta, Kazuhiro Saito, Mori Kurokawa, | (参考訳) 本稿では,量子ウォークに基づくノード埋め込み手法QWalkVecを提案する。
量子ウォーク(quantum walk)は、ランダムウォークの量子バージョンで、グラフ上のランダムウォークよりも高速な伝播を示す。
本稿では,重畳状態の量子ウォークをグラフに適用した場合,深度優先探索法の効果が支配的であることに着目した。
量子ウォークを重畳状態で単純に使用すると、ノード分類タスクにおいて深さ優先と幅優先の探索プロセスのバランスが不可欠であるため、性能が低下する。
この欠点を克服するために、量子ウォーカーの近隣ノードへの移動を決定する新しいコイン演算子を定式化する。
これによりQWalkVecは、ノードサンプリングの優先順位付けにより、深さ優先の検索と幅優先の検索プロセスを統合できる。
4つの小さな実データを用いたノード分類作業におけるQWalkVecの有効性を評価する。
その結果,QWalkVecの性能は,複数のデータセットの既存手法よりも優れていることがわかった。
私たちのコードは \url{https://github.com/ReiSato18/QWalkVec} で利用可能です。
In this paper, we propose QWalkVec, a quantum walk-based node embedding method. A quantum walk is a quantum version of a random walk that demonstrates a faster propagation than a random walk on a graph. We focus on the fact that the effect of the depth-first search process is dominant when a quantum walk with a superposition state is applied to graphs. Simply using a quantum walk with its superposition state leads to insufficient performance since balancing the depth-first and breadth-first search processes is essential in node classification tasks. To overcome this disadvantage, we formulate novel coin operators that determine the movement of a quantum walker to its neighboring nodes. They enable QWalkVec to integrate the depth-first search and breadth-first search processes by prioritizing node sampling. We evaluate the effectiveness of QWalkVec in node classification tasks conducted on four small-sized real datasets. As a result, we demonstrate that the performance of QWalkVec is superior to that of the existing methods on several datasets. Our code will be available at \url{https://github.com/ReiSato18/QWalkVec}. | 翻訳日:2024-08-19 16:39:36 公開日:2024-08-16 |
# CommunityKG-RAG:Fact-Checkingにおける検索強化生成のための知識グラフにおけるコミュニティ構造を活用する
CommunityKG-RAG: Leveraging Community Structures in Knowledge Graphs for Advanced Retrieval-Augmented Generation in Fact-Checking ( http://arxiv.org/abs/2408.08535v1 ) ライセンス: Link先を確認 | Rong-Ching Chang, Jiawei Zhang, | (参考訳) LLM(Large Language Models)やRAG(Retrieval-Augmented Generation)システムの進歩にもかかわらず、それらの効果はエンティティ関係やコミュニティ構造との統合の欠如によってしばしば妨げられ、事実チェックのための文脈的にリッチで正確な情報検索を提供する能力を制限する。
コミュニティKG-RAG(Community Knowledge Graph-Retrieval Augmented Generation)は、知識グラフ(KG)内のコミュニティ構造をRAGシステムと統合し、ファクトチェックプロセスを強化する新しいゼロショットフレームワークである。
コミュニティKG-RAGは、KG内のコミュニティ構造のマルチホップ特性を活用して、情報検索の精度と関連性を大幅に向上する。
実験の結果、CommunityKG-RAGは、堅牢でスケーラブルで効率的なソリューションを提供することにより、ファクトチェックの大幅な進歩を示す従来の手法よりも優れていることが示された。
Despite advancements in Large Language Models (LLMs) and Retrieval-Augmented Generation (RAG) systems, their effectiveness is often hindered by a lack of integration with entity relationships and community structures, limiting their ability to provide contextually rich and accurate information retrieval for fact-checking. We introduce CommunityKG-RAG (Community Knowledge Graph-Retrieval Augmented Generation), a novel zero-shot framework that integrates community structures within Knowledge Graphs (KGs) with RAG systems to enhance the fact-checking process. Capable of adapting to new domains and queries without additional training, CommunityKG-RAG utilizes the multi-hop nature of community structures within KGs to significantly improve the accuracy and relevance of information retrieval. Our experimental results demonstrate that CommunityKG-RAG outperforms traditional methods, representing a significant advancement in fact-checking by offering a robust, scalable, and efficient solution. | 翻訳日:2024-08-19 16:39:36 公開日:2024-08-16 |
# データサプライチェーンにおけるブロックチェーン可能な説明責任: 材料アプローチのデータ請求書
Blockchain-Enabled Accountability in Data Supply Chain: A Data Bill of Materials Approach ( http://arxiv.org/abs/2408.08536v1 ) ライセンス: Link先を確認 | Yue Liu, Dawen Zhang, Boming Xia, Julia Anticev, Tunde Adebayo, Zhenchang Xing, Moses Machao, | (参考訳) 高度な人工知能の時代において、GPT-4のような大規模な生成モデルによって強調され、彼らのライフサイクルを通してデータセットのトレーサビリティ、検証可能性、再現性を保証することは、研究機関や技術企業にとって最重要である。
これらの組織はますます、高度なAIモデルを訓練し、微調整するために巨大なコーパスに依存しており、結果として、効果的なデータガバナンスメカニズムを必要とする複雑なデータサプライチェーンが生まれる。
さらに、様々な利害関係者が、データの説明責任と結果の信頼性を確保するための適切な措置を使わずに、様々なツールを使用する可能性があるため、この課題は激化します。
本研究では,これらの課題に対処するため,データガバナンスと管理の分野に ‘Software Bill of Materials’ の概念を適用し,特定のメタデータを格納することで,異なるデータセットと利害関係者間の依存関係関係を捉えるために ‘Data Bill of Materials' (DataBOM) を導入する。
ブロックチェーンベースのDataBOMサービスを提供するためのプラットフォームアーキテクチャを実証し、利害関係者のためのインタラクションプロトコルを提示し、DataBOMメタデータの最小要件について議論する。
提案手法は, ケーススタディと定量的解析により, 実現可能性, 性能の両面から評価する。
In the era of advanced artificial intelligence, highlighted by large-scale generative models like GPT-4, ensuring the traceability, verifiability, and reproducibility of datasets throughout their lifecycle is paramount for research institutions and technology companies. These organisations increasingly rely on vast corpora to train and fine-tune advanced AI models, resulting in intricate data supply chains that demand effective data governance mechanisms. In addition, the challenge intensifies as diverse stakeholders may use assorted tools, often without adequate measures to ensure the accountability of data and the reliability of outcomes. In this study, we adapt the concept of ``Software Bill of Materials" into the field of data governance and management to address the above challenges, and introduce ``Data Bill of Materials" (DataBOM) to capture the dependency relationship between different datasets and stakeholders by storing specific metadata. We demonstrate a platform architecture for providing blockchain-based DataBOM services, present the interaction protocol for stakeholders, and discuss the minimal requirements for DataBOM metadata. The proposed solution is evaluated in terms of feasibility and performance via case study and quantitative analysis respectively. | 翻訳日:2024-08-19 16:39:36 公開日:2024-08-16 |
# SeeWasm:WebAssemblyバイナリのための効率的で完全なシンボリック実行エンジン
SeeWasm: An Efficient and Fully-Functional Symbolic Execution Engine for WebAssembly Binaries ( http://arxiv.org/abs/2408.08537v1 ) ライセンス: Link先を確認 | Ningyu He, Zhehao Zhao, Hanqin Guan, Jikai Wang, Shuo Peng, Ding Li, Haoyu Wang, Xiangqun Chen, Yao Guo, | (参考訳) WebAssembly(Wasm)は、コンパクトで高速で、分離保証されたバイナリフォーマットで、40以上のハイレベルプログラミング言語からコンパイルできる。
しかし、Wasmバイナリの脆弱性は機密性の高いデータ漏洩を引き起こし、ホスティング環境を脅かす恐れがある。
それらを特定するために、その音質と、悪用を自動生成する能力により、象徴的実行が広く採用されている。
しかし、既存のWasmバイナリの象徴的な実行子は通常プラットフォーム固有のものであるため、すべてのWasm機能をサポートできない。
また、分析を完了し、効率上の問題にも苦しむために、かなりの手動の介入も必要となるかもしれない。
本稿では,SeeWasmという,効率的で機能的なシンボル実行エンジンを提案する。
既存のツールと比較して,SeeeWasmはより手作業で介入することなく,フル機能のWasmバイナリをサポートし,解析を2~6倍高速化することを示した。
SeeWasmは、Wasmバイナリにコンパイルした後、よく知られたC、Go、SGXアプリケーションの30日以上の脆弱性やセキュリティ問題を特定するために、既存の作業で採用されている。
WebAssembly (Wasm), as a compact, fast, and isolation-guaranteed binary format, can be compiled from more than 40 high-level programming languages. However, vulnerabilities in Wasm binaries could lead to sensitive data leakage and even threaten their hosting environments. To identify them, symbolic execution is widely adopted due to its soundness and the ability to automatically generate exploitations. However, existing symbolic executors for Wasm binaries are typically platform-specific, which means that they cannot support all Wasm features. They may also require significant manual interventions to complete the analysis and suffer from efficiency issues as well. In this paper, we propose an efficient and fully-functional symbolic execution engine, named SeeWasm. Compared with existing tools, we demonstrate that SeeWasm supports full-featured Wasm binaries without further manual intervention, while accelerating the analysis by 2 to 6 times. SeeWasm has been adopted by existing works to identify more than 30 0-day vulnerabilities or security issues in well-known C, Go, and SGX applications after compiling them to Wasm binaries. | 翻訳日:2024-08-19 16:39:36 公開日:2024-08-16 |
# トークン化空間の信号はどこにありますか。
Where is the signal in tokenization space? ( http://arxiv.org/abs/2408.08541v1 ) ライセンス: Link先を確認 | Renato Lui Geh, Honghua Zhang, Kareem Ahmed, Benjie Wang, Guy Van den Broeck, | (参考訳) 大規模言語モデル (LLMs) は通常、LLMが確率値を割り当てる、いわゆる標準トークンシーケンスにテキストを決定的にエンコードするトークン化器と共に出荷される。
1つの一般的な仮定は、テキストの確率はその標準トークンシーケンスの確率であるということである。
しかし、文字列のトークン化はユニークではない。例えば、Llama2トークンーはTokensを[Tok,ens]としてエンコードするが、[Tok,en,s]も同じテキストを表す。
本稿では,非標準トークン化について検討する。
文字列が与えられた場合、自己回帰 LLM の最も可能性の高いトークン化を見つけることは困難であり、全ての可能なトークン化の限界確率を計算することは困難である。
そして、その限界が、ほとんどの場合、正準確率と区別できないかを示す。
驚いたことに、トークン化空間内に隠されたかなりの量の信号の存在を実証的に実証する。
特に、非標準トークン化の確率を単純に集約することで、トランスフォーマーや状態空間モデルなど、さまざまなアーキテクチャに対するLLM評価ベンチマークの範囲で改善を実現する。
Large Language Models (LLMs) are typically shipped with tokenizers that deterministically encode text into so-called canonical token sequences, to which the LLMs assign probability values. One common assumption is that the probability of a piece of text is the probability of its canonical token sequence. However, the tokenization of a string is not unique: e.g., the Llama2 tokenizer encodes Tokens as [Tok,ens], but [Tok,en,s] also represents the same text. In this paper, we study non-canonical tokenizations. We prove that, given a string, it is computationally hard to find the most likely tokenization for an autoregressive LLM, as well as to compute the marginal probability over all possible tokenizations. We then show how the marginal is, in most cases, indistinguishable from the canonical probability. Surprisingly, we then empirically demonstrate the existence of a significant amount of signal hidden within tokenization space. Notably, by simply aggregating the probabilities of non-canonical tokenizations, we achieve improvements across a range of LLM evaluation benchmarks for a variety of architectures, including transformers and state space models. | 翻訳日:2024-08-19 16:39:36 公開日:2024-08-16 |
# 言語駆動型対話型シャドウ検出
Language-Driven Interactive Shadow Detection ( http://arxiv.org/abs/2408.08543v1 ) ライセンス: Link先を確認 | Hongqiu Wang, Wei Wang, Haipeng Zhou, Huihui Xu, Shaozhi Wu, Lei Zhu, | (参考訳) 従来のシャドウ検出器は、静的画像やビデオシーケンスのすべてのシャドウ領域を識別することが多い。
本研究は,記述型自然言語プロンプトに基づくビデオにおける特定のシャドウのセグメンテーションを容易にすることで,従来のパラダイムを再定義する革新的なタスクであるReferring Video Shadow Detection (RVSD)を紹介する。
この斬新なRVSDは、記述(フレキシビリティ)に基づいて、任意のシャドウ領域のセグメンテーションを達成できるだけでなく、自然言語プロンプト(対話性)を用いて視覚的コンテンツをより直接的かつ自然に操作し、高度なビデオ編集からバーチャルリアリティ体験まで、豊富なアプリケーションへの道を開くことができる。
RVSD研究のパイオニアとして,86本のビデオと15,011対のテキスト記述と対応するシャドウのリッチなセットを含む,よく注釈付きRVSDデータセットをキュレートした。
私たちの知る限りでは、このデータセットはRVSDに対処する最初のデータセットです。
このデータセットに基づいて、RVSDタスクに対処するための参照シャドウ・トラック・メモリ・ネットワーク(RSM-Net)を提案する。
RSM-Netでは、TSM(Twin-Track Synergistic Memory)を考案し、メモリ内機能と階層間メモリ機能を記憶し、これらのメモリ機能をメモリリードモジュールに渡すことで、現在のビデオフレームの特徴を洗練し、シャドウ検出を参照する。
また,映像フレームの重み付けにより,より視覚的な特徴を学習するための粗い影マップを得るために,物理的な先行情報を活用するための混合パラメータ陰影注意(MSA)も開発した。
RSM-Net は RVSD の最先端性能を達成し, IOU は 4.4 % 向上した。
私たちのコードとデータセットはhttps://github.com/whq-xxh/RVSD.comで公開されています。
Traditional shadow detectors often identify all shadow regions of static images or video sequences. This work presents the Referring Video Shadow Detection (RVSD), which is an innovative task that rejuvenates the classic paradigm by facilitating the segmentation of particular shadows in videos based on descriptive natural language prompts. This novel RVSD not only achieves segmentation of arbitrary shadow areas of interest based on descriptions (flexibility) but also allows users to interact with visual content more directly and naturally by using natural language prompts (interactivity), paving the way for abundant applications ranging from advanced video editing to virtual reality experiences. To pioneer the RVSD research, we curated a well-annotated RVSD dataset, which encompasses 86 videos and a rich set of 15,011 paired textual descriptions with corresponding shadows. To the best of our knowledge, this dataset is the first one for addressing RVSD. Based on this dataset, we propose a Referring Shadow-Track Memory Network (RSM-Net) for addressing the RVSD task. In our RSM-Net, we devise a Twin-Track Synergistic Memory (TSM) to store intra-clip memory features and hierarchical inter-clip memory features, and then pass these memory features into a memory read module to refine features of the current video frame for referring shadow detection. We also develop a Mixed-Prior Shadow Attention (MSA) to utilize physical priors to obtain a coarse shadow map for learning more visual features by weighting it with the input video frame. Experimental results show that our RSM-Net achieves state-of-the-art performance for RVSD with a notable Overall IOU increase of 4.4\%. Our code and dataset are available at https://github.com/whq-xxh/RVSD. | 翻訳日:2024-08-19 16:39:36 公開日:2024-08-16 |
# 手話理解のためのマルチモーダル事前学習のスケールアップ
Scaling up Multimodal Pre-training for Sign Language Understanding ( http://arxiv.org/abs/2408.08544v1 ) ライセンス: Link先を確認 | Wengang Zhou, Weichao Zhao, Hezhen Hu, Zecheng Li, Houqiang Li, | (参考訳) 手話は、難聴者コミュニティにとってコミュニケーションの主要な意味である。
音声言語とは違って、手動の特徴、例えば手の動きや身体の動き、非手動の特徴、すなわち表情や口の動きの協調による情報伝達が一般的である。
近年, 難聴者と聴覚者のコミュニケーションを容易にするために, 孤立/連続手話認識 (ISLR/CSLR) や無声手話翻訳 (GF-SLT) や手話検索 (SL-RT) など, 一連の手話理解 (SLU) タスクが研究されている。
手話認識と翻訳は,手話が意味する意味を,それぞれグロスレベルと文レベルから理解することを目的としている。
対照的に、SL-RTはクローズドセットから検索パラダイムに基づく手話ビデオや対応するテキストの検索に重点を置いている。
これらの課題は、多様な視点から手話のトピックを調査し、手話ビデオの効果的な表現を学ぶ上での課題を提起する。
手話理解の発展を進めるために、様々なSLUタスクに適用可能な一般化されたモデルを探索することが、重要な研究方向である。
Sign language serves as the primary meaning of communication for the deaf-mute community. Different from spoken language, it commonly conveys information by the collaboration of manual features, i.e., hand gestures and body movements, and non-manual features, i.e., facial expressions and mouth cues. To facilitate communication between the deaf-mute and hearing people, a series of sign language understanding (SLU) tasks have been studied in recent years, including isolated/continuous sign language recognition (ISLR/CSLR), gloss-free sign language translation (GF-SLT) and sign language retrieval (SL-RT). Sign language recognition and translation aims to understand the semantic meaning conveyed by sign languages from gloss-level and sentence-level, respectively. In contrast, SL-RT focuses on retrieving sign videos or corresponding texts from a closed-set under the query-by-example search paradigm. These tasks investigate sign language topics from diverse perspectives and raise challenges in learning effective representation of sign language videos. To advance the development of sign language understanding, exploring a generalized model that is applicable across various SLU tasks is a profound research direction. | 翻訳日:2024-08-19 16:28:41 公開日:2024-08-16 |
# SelectLLM:大規模言語モデルに対するクエリ対応効率的な選択アルゴリズム
SelectLLM: Query-Aware Efficient Selection Algorithm for Large Language Models ( http://arxiv.org/abs/2408.08545v1 ) ライセンス: Link先を確認 | Kaushal Kumar Maurya, KV Aditya Srivatsa, Ekaterina Kochmar, | (参考訳) 大規模言語モデル(LLM)は、様々なタスクで顕著な成功を収めたために人気を博し、多種多様なLLMの活発な開発に繋がった。
しかしながら、個々のLLMは、トレーニングバイアス、モデルサイズ、使用されるデータセットなどの要因のために、複雑なタスクに適用する場合に制限がある。
有望なアプローチは、これらの個々の制限を克服するために、LLMの多様な能力を効率的に活用することである。
そこで本研究では,SelectLLMという新しいLLM選択アルゴリズムを提案する。
このアルゴリズムは入力クエリを大きなプールからLLMの最も適切なサブセットに誘導し、正しい応答を効率的に提供する。
SelectLLMはマルチラベル分類器を使用し、分類器の予測と信頼性スコアを利用して、LLMの最適でクエリ対応で軽量なサブセットを選択するための最適なポリシーを設計する。
これらの結果から,提案手法は個々のLLMよりも優れており,計算コストも高いLLMサブセットに比べて競争性能が高いことがわかった。
具体的には,GSM8Kの13%低レイテンシとMMLUの70%低レイテンシの2つの標準推論ベンチマークにおいて,同様の性能のLLMサブセットを用いて,遅延の大幅な削減を実現している。
さらに,提案モデルのロバスト性を検証した包括的分析およびアブレーション研究を行った。
Large language models (LLMs) have gained increased popularity due to their remarkable success across various tasks, which has led to the active development of a large set of diverse LLMs. However, individual LLMs have limitations when applied to complex tasks because of such factors as training biases, model sizes, and the datasets used. A promising approach is to efficiently harness the diverse capabilities of LLMs to overcome these individual limitations. Towards this goal, we introduce a novel LLM selection algorithm called SelectLLM. This algorithm directs input queries to the most suitable subset of LLMs from a large pool, ensuring they collectively provide the correct response efficiently. SelectLLM uses a multi-label classifier, utilizing the classifier's predictions and confidence scores to design optimal policies for selecting an optimal, query-aware, and lightweight subset of LLMs. Our findings show that the proposed model outperforms individual LLMs and achieves competitive performance compared to similarly sized, computationally expensive top-performing LLM subsets. Specifically, with a similarly sized top-performing LLM subset, we achieve a significant reduction in latency on two standard reasoning benchmarks: 13% lower latency for GSM8K and 70% lower latency for MMLU. Additionally, we conduct comprehensive analyses and ablation studies, which validate the robustness of the proposed model. | 翻訳日:2024-08-19 16:28:41 公開日:2024-08-16 |
# AI生成コードの脆弱性処理 - 既存のソリューションとオープンチャレンジ
Vulnerability Handling of AI-Generated Code -- Existing Solutions and Open Challenges ( http://arxiv.org/abs/2408.08549v1 ) ライセンス: Link先を確認 | Sabrina Kaniewski, Dieter Holstein, Fabian Schmidt, Tobias Heer, | (参考訳) 現代のソフトウェアエンジニアリングにおける生成人工知能(AI)の利用の増加、特にコード生成のためのLarge Language Models(LLM)は、生産性を高め、開発プロセスを自動化することで、プロフェッショナルなソフトウェア開発を変革した。
しかし、この採用は重大な問題、すなわちコードにセキュリティ脆弱性が導入されることを強調している。
これらの脆弱性は、例えば、生成されたコードに伝播するトレーニングデータの欠陥から発生し、それらを開示する上での課題を生み出します。
従来の脆弱性処理プロセスには、手作業による広範なレビューが伴うことが多い。
このような従来のプロセスをAI生成コードに適用することは難しい。
AI生成コードには、いくつかの脆弱性が含まれている可能性がある。
本研究では、脆弱性検出、ローカライゼーション、修復に焦点をあて、脆弱性処理のためのLLMベースのアプローチの現状について検討する。
この領域における最近の進歩の概要を提供し、AI生成コードの信頼性とスケーラブルな脆弱性処理プロセスを確立するためには、対処しなければならないオープンな課題を強調します。
The increasing use of generative Artificial Intelligence (AI) in modern software engineering, particularly Large Language Models (LLMs) for code generation, has transformed professional software development by boosting productivity and automating development processes. This adoption, however, has highlighted a significant issue: the introduction of security vulnerabilities into the code. These vulnerabilities result, e.g., from flaws in the training data that propagate into the generated code, creating challenges in disclosing them. Traditional vulnerability handling processes often involve extensive manual review. Applying such traditional processes to AI-generated code is challenging. AI-generated code may include several vulnerabilities, possibly in slightly different forms as developers might not build on already implemented code but prompt similar tasks. In this work, we explore the current state of LLM-based approaches for vulnerability handling, focusing on approaches for vulnerability detection, localization, and repair. We provide an overview of recent progress in this area and highlight open challenges that must be addressed in order to establish a reliable and scalable vulnerability handling process of AI-generated code. | 翻訳日:2024-08-19 16:28:41 公開日:2024-08-16 |
# 最適輸送の文字列図
String Diagram of Optimal Transports ( http://arxiv.org/abs/2408.08550v1 ) ライセンス: Link先を確認 | Kazuki Watanabe, Noboru Isobe, | (参考訳) 本稿では,最適輸送(OT)の階層的枠組み,すなわち OT の文字列図を提案する。
本研究の目的は,OTの文字列図上での安全性の問題であり,OTの文字列図における最小輸送コストが所定の閾値を超えることを証明または証明する必要がある。
我々は、コスト行列を構成することにより、OTの文字列図上の安全性問題をモノリシックOT上のものより低くする。
提案手法は, 連続合成と並列合成という2つの構成からなるコスト行列の代数的構造を利用する。
本稿では,OTの弦図上での安全性問題に対する新しいアルゴリズムを提案し,その効率性と性能を実験により実証する。
We propose a hierarchical framework of optimal transports (OTs), namely string diagrams of OTs. Our target problem is a safety problem on string diagrams of OTs, which requires proving or disproving that the minimum transportation cost in a given string diagram of OTs is above a given threshold. We reduce the safety problem on a string diagram of OTs to that on a monolithic OT by composing cost matrices. Our novel reduction exploits an algebraic structure of cost matrices equipped with two compositions: a sequential composition and a parallel composition. We provide a novel algorithm for the safety problem on string diagrams of OTs by our reduction, and we demonstrate its efficiency and performance advantage through experiments. | 翻訳日:2024-08-19 16:28:41 公開日:2024-08-16 |
# マルチビュー分析の統合:テキスト・パーソナリティ検出のためのマルチビュー・ミックス・オブ・エキスパート
Integrating Multi-view Analysis: Multi-view Mixture-of-Expert for Textual Personality Detection ( http://arxiv.org/abs/2408.08551v1 ) ライセンス: Link先を確認 | Haohao Zhu, Xiaokun Zhang, Junyu Lu, Liang Yang, Hongfei Lin, | (参考訳) テキスト・パーソナリティ検出は、ユーザ生成コンテンツを分析して人格の特徴を識別することを目的としている。
これを効果的に実現するためには、様々な視点からユーザー生成コンテンツを徹底的に検証することが不可欠である。
しかし、従来の研究では、複数の視点から情報を自動的に抽出し、効果的に統合することで、人格検出の性能を制限してきた。
これらの課題に対処するために,テキスト・パーソナリティ検出のためのMulti-view Mixture-of-Experts Model(MvP)を提案する。
MvPは、様々な視点からユーザー投稿を自動的に分析するMulti-view Mixture-of-Experts (MoE)ネットワークを導入した。
さらに、異なる視点の衝突を緩和し、多視点の汎用的ユーザ表現を学ぶために、ユーザ一貫性規則化を採用している。
モデルのトレーニングは、教師付きパーソナリティ検出と自己教師付きユーザ一貫性制約のバランスをとるマルチタスク共同学習戦略によって最適化される。
広く使われている2つの人格検出データセットの実験結果は、MvPモデルの有効性と、テキストによる人格検出のための多様な視点からユーザー投稿を自動的に分析する利点を示している。
Textual personality detection aims to identify personality traits by analyzing user-generated content. To achieve this effectively, it is essential to thoroughly examine user-generated content from various perspectives. However, previous studies have struggled with automatically extracting and effectively integrating information from multiple perspectives, thereby limiting their performance on personality detection. To address these challenges, we propose the Multi-view Mixture-of-Experts Model for Textual Personality Detection (MvP). MvP introduces a Multi-view Mixture-of-Experts (MoE) network to automatically analyze user posts from various perspectives. Additionally, it employs User Consistency Regularization to mitigate conflicts among different perspectives and learn a multi-view generic user representation. The model's training is optimized via a multi-task joint learning strategy that balances supervised personality detection with self-supervised user consistency constraints. Experimental results on two widely-used personality detection datasets demonstrate the effectiveness of the MvP model and the benefits of automatically analyzing user posts from diverse perspectives for textual personality detection. | 翻訳日:2024-08-19 16:28:41 公開日:2024-08-16 |
# 大規模言語モデルを用いた事前学習型言語モデルの指導による差別的タスクの強化
Enhancing Discriminative Tasks by Guiding the Pre-trained Language Model with Large Language Model's Experience ( http://arxiv.org/abs/2408.08553v1 ) ライセンス: Link先を確認 | Xin Yin, Chao Ni, Xiaodan Xu, Xinrui Li, Xiaohu Yang, | (参考訳) 大きな言語モデル(LLM)と事前訓練された言語モデル(LM)は多くのソフトウェア工学のタスク(例えば、コード補完とコード生成)で素晴らしい成功を収めています。
これらのモデルは、巨大な既存のコードコーパス(GitHubなど)を活用することで、ソースコードのパターンを理解し、これらのパターンを使用してコードプロパティを予測することを目指している。
しかし、微調整 LLM はエンドユーザーや小さな組織にとって時間とコストがかかります。
さらに、微調整LMは利用可能なデータセットの量と品質に大きく依存する。
その結果、現在のデータ不足と実際のシナリオで収集する高コストにより、LMの適用性はさらに制限される。
本稿では, LLMの強力な生成能力を活用し, 事前学習型 LM を改良する。
具体的には、LLMを用いてドメイン固有のデータを生成し、目標タスクにおける事前学習されたLMの性能を向上させる。
生成段階で異なるLLMを組み合わせて実験を行い、LLM生成データから学習するために様々なLMを導入する。
そして、これらのLMの性能を、データ学習前後で比較する。
LLM生成データにより,LMの性能が著しく向上することが判明した。
この改良により、フォールトローカライゼーションでは58.36%、クローン検出では6.09%に達する。
本研究は,LSMを用いてLMのデータを生成することにより,大きなマージンで性能を向上できることを示す。
Large Language Models (LLMs) and pre-trained Language Models (LMs) have achieved impressive success on many software engineering tasks (e.g., code completion and code generation). By leveraging huge existing code corpora (e.g., GitHub), these models aim to understand the patterns in source code and use these patterns to predict code properties. However, fine-tuning LLMs is time-consuming and costly for end users and small organizations. Furthermore, fine-tuning LMs heavily depends on the amount and quality of datasets available. As a result, the current lack of data and the high cost of collecting it in real-world scenarios further limit the applicability of LMs. In this paper, we leverage the powerful generation capabilities of LLMs to enhance pre-trained LMs. Specifically, we use LLMs to generate domain-specific data, thereby improving the performance of pre-trained LMs on the target tasks. We conduct experiments by combining different LLMs in our generation phase and introducing various LMs to learn from the LLM-generated data. Then, we compare the performance of these LMs before and after learning the data. We find that LLM-generated data significantly enhances the performance of LMs. The improvement can reach up to 58.36% for fault localization and up to 6.09% for clone detection. Our study highlights that using LLMs to generate data for LMs can improve performance by a large margin. | 翻訳日:2024-08-19 16:28:41 公開日:2024-08-16 |
# ABQ-LLM:大規模言語モデルのための任意ビット量子化推論高速化
ABQ-LLM: Arbitrary-Bit Quantized Inference Acceleration for Large Language Models ( http://arxiv.org/abs/2408.08554v1 ) ライセンス: Link先を確認 | Chao Zeng, Songwei Liu, Yusheng Xie, Hong Liu, Xiaojian Wang, Miao Wei, Shu Yang, Fangmin Chen, Xing Mei, | (参考訳) 大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
しかし、それらの実践的応用は、かなりのメモリと計算要求に制約されている。
後学習量子化(PTQ)はLLM推論を加速する有効な方法と考えられている。
LLMモデル圧縮の人気が高まっているにもかかわらず、PTQデプロイメントは2つの大きな課題に直面している。
第一に、低ビット量子化は性能を低下させる。
第二に、GPU上の限定整数演算ユニットタイプによって制限されているため、精度の異なる量子化行列演算を効果的に高速化することはできない。
これらの問題に対処するために、新しい任意のビット量子化アルゴリズムと推論フレームワークであるABQ-LLMを導入する。
様々な量子化設定において優れた性能を実現し、GPU上で効率的な任意の精度の量子化推論を可能にする。
ABQ-LLMは、(1)ウェイトとアクティベーションの完全量子化による分布差を緩和し、低ビット幅での性能を向上させる変圧器ブロックの分布補正手法を導入している。
2) 極低ビット幅 (eg, 2-bit) における非対称分布問題から性能劣化に対処するためのビットバランス戦略について検討した。
3) BTC(Binary TensorCore)の等価値に基づく任意の精度の組み合わせの量子化行列乗算を再構築する革新的な量子化加速フレームワークは、INT4/INT8演算ユニットの制限を取り除く。
ABQ-LLMは、各コンポーネントビット幅ゲインを実際の加速度ゲインに変換し、混合精度(例えば、W6A6、W2A8)で性能を最大化する。
LLaMA-7BモデルのW2*A8量子化構成に基づいて、7.59(AffineQuantの2.17$\downarrow $対9.76)のWikiText2パープレクシリティを達成した。
SmoothQuantと比較して、1.6$\times$Acceleration Improvementと2.7$\times$Memory compression gainを実現しました。
Large Language Models (LLMs) have revolutionized natural language processing tasks. However, their practical application is constrained by substantial memory and computational demands. Post-training quantization (PTQ) is considered an effective method to accelerate LLM inference. Despite its growing popularity in LLM model compression, PTQ deployment faces two major challenges. First, low-bit quantization leads to performance degradation. Second, restricted by the limited integer computing unit type on GPUs, quantized matrix operations with different precisions cannot be effectively accelerated. To address these issues, we introduce a novel arbitrary-bit quantization algorithm and inference framework, ABQ-LLM. It achieves superior performance across various quantization settings and enables efficient arbitrary-precision quantized inference on the GPU. ABQ-LLM introduces several key innovations: (1) a distribution correction method for transformer blocks to mitigate distribution differences caused by full quantization of weights and activations, improving performance at low bit-widths. (2) the bit balance strategy to counteract performance degradation from asymmetric distribution issues at very low bit-widths (e.g., 2-bit). (3) an innovative quantization acceleration framework that reconstructs the quantization matrix multiplication of arbitrary precision combinations based on BTC (Binary TensorCore) equivalents, gets rid of the limitations of INT4/INT8 computing units. ABQ-LLM can convert each component bit width gain into actual acceleration gain, maximizing performance under mixed precision(e.g., W6A6, W2A8). Based on W2*A8 quantization configuration on LLaMA-7B model, it achieved a WikiText2 perplexity of 7.59 (2.17$\downarrow $ vs 9.76 in AffineQuant). Compared to SmoothQuant, we realized 1.6$\times$ acceleration improvement and 2.7$\times$ memory compression gain. | 翻訳日:2024-08-19 16:28:41 公開日:2024-08-16 |
# ロゼット走査パターンを用いたLiDARによるMAVの検出と追跡
Detection and tracking of MAVs using a LiDAR with rosette scanning pattern ( http://arxiv.org/abs/2408.08555v1 ) ライセンス: Link先を確認 | Sándor Gazdag, Tom Möller, Tamás Filep, Anita Keszler, András L. Majdik, | (参考訳) 商用のマイクロ・エアリアル・ビークル(MAV)の使用は、過去10年間で劇的に増加した。
MAVの社会への付加価値は明らかだが、空港での公共空域違反やプライバシー侵害などのリスクが増大している。
これらの問題を緩和するためには、MAVの検出と追跡を自律システムに組み込むソリューションを開発することが重要になっている。
本研究は,パンティルト・ターレット上の低コストロゼットスキャンLiDARを用いてMAVの検出と追跡を行う手法を提案する。
静的背景を捕捉すると、粒子フィルタを使用して、可能なターゲットを検出し、その位置を物理的にプログラム可能なパンティルトシステムで追跡する。
トラッキングにより、ターゲットの3Dポイントの密度をLiDARセンサーで最大化して、MAVを中央に保持することができる。
開発したアルゴリズムは,室内のMIcro航空機とMIMO(Motion Captaining)アリーナ内で評価され,トラッキングロス時の最先端のトラッキング精度,安定性,高速再検出時間を有する。
野外実験により,LiDARを用いた他の類似手法と比較して,検出距離と帰還点数を大幅に増加させることができた。
The usage of commercial Micro Aerial Vehicles (MAVs) has increased drastically during the last decade. While the added value of MAVs to society is apparent, their growing use is also coming with increasing risks like violating public airspace at airports or committing privacy violations. To mitigate these issues it is becoming critical to develop solutions that incorporate the detection and tracking of MAVs with autonomous systems. This work presents a method for the detection and tracking of MAVs using a novel, low-cost rosette scanning LiDAR on a pan-tilt turret. Once the static background is captured, a particle filter is utilized to detect a possible target and track its position with a physical, programmable pan-tilt system. The tracking makes it possible to keep the MAV in the center, maximizing the density of 3D points measured on the target by the LiDAR sensor. The developed algorithm was evaluated within the indoor MIcro aerial vehicle and MOtion capture (MIMO) arena and has state-of-the-art tracking accuracy, stability, and fast re-detection time in case of tracking loss. Based on the outdoor tests, it was possible to significantly increase the detection distance and number of returned points compared to other similar methods using LiDAR. | 翻訳日:2024-08-19 16:28:41 公開日:2024-08-16 |
# 基底状態計算のための量子ランダムパワー法
Quantum random power method for ground state computation ( http://arxiv.org/abs/2408.08556v1 ) ライセンス: Link先を確認 | Taehee Ko, Hyowon Park, Sangkook Choi, | (参考訳) 本稿では,ハミルトニアン基底状態を近似した量子古典的ハイブリッドランダムパワー法を提案する。
本手法の量子部分は量子多項式フィルタリング法を用いてハミルトン行列多項式の定数数を計算する。
この手法はハミルトンシミュレーションやブロック符号化を用いて実装することができる。
この手法の古典的部分は、量子部分から計算された行列要素を入力として、ハミルトニアン基底状態の近似を出力するランダム化反復アルゴリズムである。
提案手法では,古典時間に要する時間はシステムサイズによらず,量子回路の複雑性はシステムサイズに大きく依存する。
確率 1 で、我々の方法がハミルトン基底状態の近似に収束することを証明する。
また、近似基底状態の忠実度が真であることも示す。
下界は臨界値よりも小さい場合、量子計算から発生する雑音の大きさに線形に依存する。
いくつかの数値実験により,本手法は,システマティックおよび/またはサンプリングノイズの存在下での基底状態の近似が良好であることが示された。
We present a quantum-classical hybrid random power method that approximates a ground state of a Hamiltonian. The quantum part of our method computes a fixed number of elements of a Hamiltonian-matrix polynomial via a quantum polynomial filtering technique. This technique can be implemented using Hamiltonian simulation or block encoding, suitable for early fault-tolerant and fault-tolerant regimes, respectively. The classical part of our method is a randomized iterative algorithm that takes as input the matrix elements computed from the quantum part and outputs an approximation of ground state of the Hamiltonian. For the per-iteration complexity of our method, the required classical time is independent of system size, and the quantum circuit complexity depends polylogarithmically on the system size. We prove that with probability one, our method converges to an approximation of a ground state of the Hamiltonian. We also show a lower bound of the fidelity of the approximate ground state with the true one. The lower bound depends linearly on the magnitude of noise occurring from quantum computation if it is smaller than a critical value. Several numerical experiments demonstrate that our method provides a good approximation of ground state in the presence of systematic and/or sampling noise. | 翻訳日:2024-08-19 16:28:41 公開日:2024-08-16 |
# 拡散モデルにおける潜伏剤の線形結合:補間とそれ以上
Linear combinations of latents in diffusion models: interpolation and beyond ( http://arxiv.org/abs/2408.08558v1 ) ライセンス: Link先を確認 | Erik Bodin, Henry Moss, Carl Henrik Ek, | (参考訳) データ合成や拡張といったアプリケーションには、生成モデルが不可欠です。
拡散、フローマッチング、連続正規化フローは様々なモードで有効性を示し、生成にはガウス潜在変数に依存している。
生成されたオブジェクトは特定の潜在変数と直接関連付けられているので、変数を操作して生成プロセスを制御することができます。
しかし、球面補間のような潜伏変数を組み合わせるための標準的なアプローチは、特別な場合のみ適用または有効である。
さらに,探索および創造的アプリケーションのための代理モデルとして重要な,データの低次元表現を得るための現在の手法は,ネットワークとデータモダリティに特化している。
本研究では,変数を結合する標準的な手法が,モデルが期待する分布に従って中間子を生成できないことを示す。
本稿では,この問題に対処する新しい補間法であるガウス変数の組合せ(COG)を提案する。
COG は一般の線型結合に対処し、また、私たちが証明したように、潜在空間の部分空間を g で定義するなど他の操作もサポートし、ガウス潜在空間に基づく生成モデルを用いた高次元オブジェクトの表現的低次元空間の作成を単純化する。
Generative models are crucial for applications like data synthesis and augmentation. Diffusion, Flow Matching and Continuous Normalizing Flows have shown effectiveness across various modalities, and rely on Gaussian latent variables for generation. As any generated object is directly associated with a particular latent variable, we can manipulate the variables to exert control over the generation process. However, standard approaches for combining latent variables, such as spherical interpolation, only apply or work well in special cases. Moreover, current methods for obtaining low-dimensional representations of the data, important for e.g. surrogate models for search and creative applications, are network and data modality specific. In this work we show that the standard methods to combine variables do not yield intermediates following the distribution the models are trained to expect. We propose Combination of Gaussian variables (COG), a novel interpolation method that addresses this, is easy to implement yet matches or improves upon current methods. COG addresses linear combinations in general and, as we demonstrate, also supports other operations including e.g. defining subspaces of the latent space, simplifying the creation of expressive low-dimensional spaces of high-dimensional objects using generative models based on Gaussian latents. | 翻訳日:2024-08-19 16:28:41 公開日:2024-08-16 |
# 量子光学格子を持つマヨラナ零モードの安定性
Stability of Majorana zero modes with quantum optical lattices ( http://arxiv.org/abs/2408.08559v1 ) ライセンス: Link先を確認 | Santiago F. Caballero-Benitez, | (参考訳) 高Q空洞内の光学格子に閉じ込められた1次元超低温フェルミオン系におけるマヨラナゼロモード(MZM)の出現を解析した。
これはキャビティのバックアクションによって量子光学格子を形成し、システムに励起された光によって制御される創発的な長距離相互作用により、長距離対が形成される。
本稿では,MZMの質量ギャップを計算しながら,Majorana表現におけるハミルトニアンの正確な対角化と特異値分解を用いたエッジモードの生成と出現の可能性について検討する。
特定の条件下では、MZMは独特に見えます。
このMZMは、北エフ鎖の挙動に類似した位相的に保護されているため、量子情報に対する潜在的な応用を持つ。
I analyze the emergence of Majorana zero modes (MZM) in a one dimensional ultracold fermionic system confined by an optical lattice inside a high-Q cavity. This forms a quantum optical lattice due to the cavity backaction, with emergent long range interactions controlled by the light pumped into the system and thus long range pairing. I investigate the possibility of formation and emergence of edge modes using exact diagonalization and singular value decomposition of the Hamiltonian in the Majorana representation, while computing the mass gap of the MZM. I find that under certain conditions MZM appear distinctively. This MZM have potential applications for quantum information as they are topologically protected analogous to the behaviour of the Kitaev chain. | 翻訳日:2024-08-19 16:28:41 公開日:2024-08-16 |
# 相補的乳房画像モダリティから統一表現を学習する訓練体制
A training regime to learn unified representations from complementary breast imaging modalities ( http://arxiv.org/abs/2408.08560v1 ) ライセンス: Link先を確認 | Umang Sharma, Jungkyu Park, Laura Heacock, Sumit Chopra, Krzysztof Geras, | (参考訳) FDM(Full Field Digital Mammograms)とDBT(Digital Breast Tomo synthesis)は、乳がん検診において最も広く用いられている画像モダリティである。
DBT は FFDM と比較して癌の検出が増加したが, 解釈時間の増加, 特定の病変の出現率の低下などにより, 臨床実践への普及が鈍化している。
特に、微小石灰化のためのDBTの不等式については議論が続いている。
視力低下の懸念から、DBT-FFDMの合併は依然として人気があり、試験時間と放射線量の増加につながった。
FFDMとDBTの両方に存在する診断情報を提供するためのDBTの導入は、FFDMへの依存を減らし、両方の量を減らすことになる。
本稿では,DBTとFFDMの両方から補完的な診断信号を利用する高レベル表現を学習する機械学習手法を提案する。
大規模データセットを用いた実験により,DBTモデルやFFDMモデルよりも正確な乳房病変検出が可能であることが確認された。
Full Field Digital Mammograms (FFDMs) and Digital Breast Tomosynthesis (DBT) are the two most widely used imaging modalities for breast cancer screening. Although DBT has increased cancer detection compared to FFDM, its widespread adoption in clinical practice has been slowed by increased interpretation times and a perceived decrease in the conspicuity of specific lesion types. Specifically, the non-inferiority of DBT for microcalcifications remains under debate. Due to concerns about the decrease in visual acuity, combined DBT-FFDM acquisitions remain popular, leading to overall increased exam times and radiation dosage. Enabling DBT to provide diagnostic information present in both FFDM and DBT would reduce reliance on FFDM, resulting in a reduction in both quantities. We propose a machine learning methodology that learns high-level representations leveraging the complementary diagnostic signal from both DBT and FFDM. Experiments on a large-scale data set validate our claims and show that our representations enable more accurate breast lesion detection than any DBT- or FFDM-based model. | 翻訳日:2024-08-19 16:28:41 公開日:2024-08-16 |
# ドリームブースを用いた安定拡散に基づく新しい中国景観絵画生成モデル
A New Chinese Landscape Paintings Generation Model based on Stable Diffusion using DreamBooth ( http://arxiv.org/abs/2408.08561v1 ) ライセンス: Link先を確認 | Yujia Gu, Xinyu Fang, Xueyuan Deng, | (参考訳) 本研究は, 安定拡散モデル (SDM) とパラメータ効率の良いファインチューニング法を組み合わせた中国景観絵画の製作を主目的とする手法を提案する。
このトレーニングプロセスは、LoRAと事前訓練されたSDMとDreamBoothとをそれぞれ組み合わせて加速する。
本研究は,中国景観絵画インターネットデータセットにおいて,DreamBoothと組み合わせたSDMが,一般的な事前学習型SDMやLoRAによる微調整型SDMなど,他のモデルよりも優れた性能を示すことを示す。
SDMとDreamBoothを組み合わせたSDMは、データセット上で12.75のFIDを達成し、専門家評価の観点から他のモデルよりも優れており、中国景観絵画の分野におけるモデルの汎用性は、ユニークな識別子、高い忠実さ、高品質を与えられた。
本研究は,特に景観絵画の領域において,ドメイン固有のタスクにおけるSDMの性能を向上させるための特別調整手法の可能性を示す。
This study mainly introduces a method combining the Stable Diffusion Model (SDM) and Parameter-Efficient Fine-Tuning method for generating Chinese Landscape Paintings. This training process is accelerated by combining LoRA with pre-trained SDM and DreamBooth with pre-trained SDM, respectively. On the Chinese Landscape Paintings Internet dataset used in this paper, this study finds that SDM combined with DreamBooth exhibits superior performance, outperforming other models, including the generic pre-trained SDM and LoRA-based fine-tuning SDM. The SDM combined with DreamBooth achieves a FID of 12.75 on the dataset and outperforms all other models in terms of expert evaluation, highlighting the model's versatility in the field of Chinese Landscape Paintings given the unique identifier, high fidelity and high quality. This study illustrates the potential of specialised fine-tuning method to improve the performance of SDM on domain-specific tasks, particularly in the domain of Landscape Paintings. | 翻訳日:2024-08-19 16:28:41 公開日:2024-08-16 |
# 勧告のための大規模言語モデルを用いた協調的クロスモーダルフュージョン
Collaborative Cross-modal Fusion with Large Language Model for Recommendation ( http://arxiv.org/abs/2408.08564v1 ) ライセンス: Link先を確認 | Zhongzhou Liu, Hao Zhang, Kuicai Dong, Yuan Fang, | (参考訳) 従来のコラボレーティブ・フィルタリング(CF)によるレコメンデーションシステムの成功にもかかわらず、ユーザやアイテムのテキスト属性内の意味的知識の活用には限界がある。
大規模言語モデルのレコメンデーションへの応用(LLM4Rec)に注目が集まっている。
しかし、これらの手法はユーザー行動の協調的な信号を見落としてしまうことが多い。
言語モデルを指示-チューニングするものもあるが、CFベースのモデルの埋め込みを直接注入するものもある。
これらの問題に対処するために,CCF-LLMと呼ばれる大規模言語モデルを用いた協調的クロスモーダル融合のフレームワークを提案する。
本フレームワークでは,ユーザとイテムのインタラクションをハイブリッドプロンプトに変換し,意味的知識と協調的なシグナルの両方を符号化し,注意深い相互融合戦略を用いて,両方のモダリティの潜伏埋め込みを効果的に融合する。
CCF-LLMはLLM4Recコンテキストにおける意味的および協調的なシグナルを効果的に利用することにより、既存の手法よりも優れていることを示す。
Despite the success of conventional collaborative filtering (CF) approaches for recommendation systems, they exhibit limitations in leveraging semantic knowledge within the textual attributes of users and items. Recent focus on the application of large language models for recommendation (LLM4Rec) has highlighted their capability for effective semantic knowledge capture. However, these methods often overlook the collaborative signals in user behaviors. Some simply instruct-tune a language model, while others directly inject the embeddings of a CF-based model, lacking a synergistic fusion of different modalities. To address these issues, we propose a framework of Collaborative Cross-modal Fusion with Large Language Models, termed CCF-LLM, for recommendation. In this framework, we translate the user-item interactions into a hybrid prompt to encode both semantic knowledge and collaborative signals, and then employ an attentive cross-modal fusion strategy to effectively fuse latent embeddings of both modalities. Extensive experiments demonstrate that CCF-LLM outperforms existing methods by effectively utilizing semantic and collaborative signals in the LLM4Rec context. | 翻訳日:2024-08-19 16:28:41 公開日:2024-08-16 |
# バイオレイサム2024(バイオレイサム2024)の生医学研究論文のレイサム化に関する共有課題の概要
Overview of the BioLaySumm 2024 Shared Task on the Lay Summarization of Biomedical Research Articles ( http://arxiv.org/abs/2408.08566v1 ) ライセンス: Link先を確認 | Tomas Goldsack, Carolina Scarton, Matthew Shardlow, Chenghua Lin, | (参考訳) 本稿では,ACL 2024のBioNLPワークショップで開催されている,生物医学研究記事のLay Summarisationに関する第2版共有タスクのセットアップと成果について述べる。
この課題版では、この重要な課題に対する研究の関心をさらに高め、参加者に最先端を推し進めるための新しいアプローチを探求するよう促すことにより、初版の成功に資することを目的としている。
調査の結果、このタスクは53の参加チームを引き寄せ、前バージョンからの参加が大幅に増加した。
以上の結果から,大規模言語モデル(LLM)の活用に向けて,幅広い革新的アプローチがタスク参加者によって採用されていることが示唆された。
This paper presents the setup and results of the second edition of the BioLaySumm shared task on the Lay Summarisation of Biomedical Research Articles, hosted at the BioNLP Workshop at ACL 2024. In this task edition, we aim to build on the first edition's success by further increasing research interest in this important task and encouraging participants to explore novel approaches that will help advance the state-of-the-art. Encouragingly, we found research interest in the task to be high, with this edition of the task attracting a total of 53 participating teams, a significant increase in engagement from the previous edition. Overall, our results show that a broad range of innovative approaches were adopted by task participants, with a predictable shift towards the use of Large Language Models (LLMs). | 翻訳日:2024-08-19 16:28:41 公開日:2024-08-16 |
# S$^3$Attention: Smoothed Skeleton Sketching によるLong Sequence Attentionの改善
S$^3$Attention: Improving Long Sequence Attention with Smoothed Skeleton Sketching ( http://arxiv.org/abs/2408.08567v1 ) ライセンス: Link先を確認 | Xue Wang, Tian Zhou, Jianqing Zhu, Jialin Liu, Kun Yuan, Tao Yao, Wotao Yin, Rong Jin, HanQin Cai, | (参考訳) 注意に基づくモデルは、多くのアプリケーションで多くの顕著なブレークスルーを達成した。
しかし、注意の二次的な複雑さは、バニラ注意に基づくモデルが長い連続タスクに適用しにくくする。
低ランク化を誘導し、列全体をサブシーケンスで近似することにより計算コストを削減するために、様々な改良された注意構造を提案する。
これらのアプローチの最も難しい部分は、情報保存と計算の削減の間の適切なバランスを維持することである。
本稿では,S$^3$Attentionというスムーズなスケルトンスケッチに基づくアテンション構造を提案する。
S$3$Attentionは、長い列に情報を混ぜる滑らかなブロックと、入力行列から列と行を同時に選択する行列スケッチという2つのメカニズムを持つ。
S$^3$Attentionの有効性を理論的にも経験的にも検証する。
ロングレンジ・アリーナ(LRA)データセットと6つの時系列予測に関する広範な研究は、S$^3$Attentionがバニラ・アテンションと他の最先端のアテンション構造の両方を著しく上回っていることを示している。
Attention based models have achieved many remarkable breakthroughs in numerous applications. However, the quadratic complexity of Attention makes the vanilla Attention based models hard to apply to long sequence tasks. Various improved Attention structures are proposed to reduce the computation cost by inducing low rankness and approximating the whole sequence by sub-sequences. The most challenging part of those approaches is maintaining the proper balance between information preservation and computation reduction: the longer sub-sequences used, the better information is preserved, but at the price of introducing more noise and computational costs. In this paper, we propose a smoothed skeleton sketching based Attention structure, coined S$^3$Attention, which significantly improves upon the previous attempts to negotiate this trade-off. S$^3$Attention has two mechanisms to effectively minimize the impact of noise while keeping the linear complexity to the sequence length: a smoothing block to mix information over long sequences and a matrix sketching method that simultaneously selects columns and rows from the input matrix. We verify the effectiveness of S$^3$Attention both theoretically and empirically. Extensive studies over Long Range Arena (LRA) datasets and six time-series forecasting show that S$^3$Attention significantly outperforms both vanilla Attention and other state-of-the-art variants of Attention structures. | 翻訳日:2024-08-19 16:17:46 公開日:2024-08-16 |
# 大規模視覚モデルによる非教師なし非ライダー点雲マッチング
Unsupervised Non-Rigid Point Cloud Matching through Large Vision Models ( http://arxiv.org/abs/2408.08568v1 ) ライセンス: Link先を確認 | Zhangquan Chen, Puhua Jiang, Ruqi Huang, | (参考訳) 本稿では,非剛性点クラウドマッチングのための新しい学習ベースフレームワークを提案する。これは,対応アノテーションを使わずに純粋に点クラウド上で訓練できるが,部分対フルマッチングにも自然に拡張できる。
我々の重要な洞察は、大きな視覚モデル(LVM)から派生した意味的特徴を幾何学に基づく形状特徴学習に取り入れることである。
本フレームワークは,局所的な地形間の自己相似性から生じるあいまいさに対処するために,意味的特徴に含まれる構造情報を効果的に活用する。
さらに,我々のフレームワークは,LVMの部分的な観察に関する強い一般化性とロバスト性も享受しており,点クラウドマッチングタスクの改善につながっている。
そこで本研究では,画素間特徴集合モジュール,局所的及びグローバルな注目ネットワーク,および幾何学的類似性損失関数を提案する。
実験結果から,本手法はより現実的な部分的・雑音的データだけでなく,非剛性点群をほぼ等尺的および異質な形状の収集に適合させることができた。
In this paper, we propose a novel learning-based framework for non-rigid point cloud matching, which can be trained purely on point clouds without any correspondence annotation but also be extended naturally to partial-to-full matching. Our key insight is to incorporate semantic features derived from large vision models (LVMs) to geometry-based shape feature learning. Our framework effectively leverages the structural information contained in the semantic features to address ambiguities arise from self-similarities among local geometries. Furthermore, our framework also enjoys the strong generalizability and robustness regarding partial observations of LVMs, leading to improvements in the regarding point cloud matching tasks. In order to achieve the above, we propose a pixel-to-point feature aggregation module, a local and global attention network as well as a geometrical similarity loss function. Experimental results show that our method achieves state-of-the-art results in matching non-rigid point clouds in both near-isometric and heterogeneous shape collection as well as more realistic partial and noisy data. | 翻訳日:2024-08-19 16:17:46 公開日:2024-08-16 |
# EraW-Net:Scene-associated Driver Attention Estimationのための Enhance-Refine-Align W-Net
EraW-Net: Enhance-Refine-Align W-Net for Scene-Associated Driver Attention Estimation ( http://arxiv.org/abs/2408.08570v1 ) ライセンス: Link先を確認 | Jun Zhou, Chunsheng Liu, Faliang Chang, Wenqian Wang, Penghui Hao, Yiming Huang, Zhiqiang Yang, | (参考訳) 2つの視野(FOV)にわたる運転シーンと運転注意を関連付けることは、クロスビューマッピング、動的運転シーン分析、運転状態追跡の包括的な検討を必要とする、難しいクロスドメイン認識問題である。
従来の手法は、通常、単一のビューにフォーカスするか、推定された視線を通してシーンに注意を向け、それらの間の暗黙のつながりを悪用しなかった。
さらに、単純な融合モジュールは2つのビュー間の複雑な関係をモデル化するのに不十分であり、情報統合を困難にしている。
これらの問題に対処するために,EraW-Netと呼ばれる,エンド・ツー・エンドのシーン関連運転注意度推定手法を提案する。
この方法は、最も差別的な動的キューを強化し、特徴表現を洗練し、W字型アーキテクチャ(W-Net)を通じて意味的に整合したクロスドメイン統合を容易にする。
具体的には,動的適応フィルタモジュール (DAF-Module) を提案する。
これは、無差別に記録された力学を抑え、革新的な結合周波数空間解析によって重要な力学を強調させ、複雑な力学を解析するモデルの能力を高める。
さらに,非固定顔貌におけるドライバの状態を追跡するために,頭部・眼球運動の様々なスケールに適応する階層的特徴を捉えることにより,洗練された特徴表現を構築するためのGlobal Context Sharing Module (GCS-Module)を提案する。
最後に、W-Netは、"Encoding-Independent partial Decoding-Fusion Decoding"構造を通じて、体系的なクロスビュー情報統合を実現し、異種データ統合における意味的ミスアライメントに対処する。
実験により,提案手法は大規模公共データセットのシーンにおける運転注意のマッピングを頑健かつ正確に推定することを示した。
Associating driver attention with driving scene across two fields of views (FOVs) is a hard cross-domain perception problem, which requires comprehensive consideration of cross-view mapping, dynamic driving scene analysis, and driver status tracking. Previous methods typically focus on a single view or map attention to the scene via estimated gaze, failing to exploit the implicit connection between them. Moreover, simple fusion modules are insufficient for modeling the complex relationships between the two views, making information integration challenging. To address these issues, we propose a novel method for end-to-end scene-associated driver attention estimation, called EraW-Net. This method enhances the most discriminative dynamic cues, refines feature representations, and facilitates semantically aligned cross-domain integration through a W-shaped architecture, termed W-Net. Specifically, a Dynamic Adaptive Filter Module (DAF-Module) is proposed to address the challenges of frequently changing driving environments by extracting vital regions. It suppresses the indiscriminately recorded dynamics and highlights crucial ones by innovative joint frequency-spatial analysis, enhancing the model's ability to parse complex dynamics. Additionally, to track driver states during non-fixed facial poses, we propose a Global Context Sharing Module (GCS-Module) to construct refined feature representations by capturing hierarchical features that adapt to various scales of head and eye movements. Finally, W-Net achieves systematic cross-view information integration through its "Encoding-Independent Partial Decoding-Fusion Decoding" structure, addressing semantic misalignment in heterogeneous data integration. Experiments demonstrate that the proposed method robustly and accurately estimates the mapping of driver attention in scene on large public datasets. | 翻訳日:2024-08-19 16:17:46 公開日:2024-08-16 |
# AgentSimulator: データ駆動型ビジネスプロセスシミュレーションのためのエージェントベースのアプローチ
AgentSimulator: An Agent-based Approach for Data-driven Business Process Simulation ( http://arxiv.org/abs/2408.08571v1 ) ライセンス: Link先を確認 | Lukas Kirchdorfer, Robert Blümel, Timotheus Kampik, Han van der Aa, Heiner Stuckenschmidt, | (参考訳) ビジネスプロセスシミュレーション(Business Process Simulation, BPS)は、プロセスのパフォーマンスを様々なシナリオで推定するための汎用的な手法である。
伝統的に、BPSアプローチは、シミュレーションパラメータでプロセスモデルを強化することによって、制御フローファーストの視点を採用する。
このようなアプローチはワークフローシステムなどでサポートされているような集中的に組織されたプロセスの挙動を模倣することができるが、現在の制御フロー優先のアプローチは、異なるリソースの振る舞いと分散化された意思決定を含む現実のプロセスのダイナミクスを忠実に捉えられない。
本稿では、イベントログからマルチエージェントシステムを発見するリソースファーストなBPSアプローチであるAgentSimulatorを紹介し、その基盤となるプロセスをシミュレートするために、異なるリソースの挙動と相互作用パターンをモデル化する。
実験の結果,AgentSimulatorは従来の手法に比べて計算時間を大幅に削減し,様々なプロセス実行シナリオに対して高い解釈性と適応性を提供する。
Business process simulation (BPS) is a versatile technique for estimating process performance across various scenarios. Traditionally, BPS approaches employ a control-flow-first perspective by enriching a process model with simulation parameters. Although such approaches can mimic the behavior of centrally orchestrated processes, such as those supported by workflow systems, current control-flow-first approaches cannot faithfully capture the dynamics of real-world processes that involve distinct resource behavior and decentralized decision-making. Recognizing this issue, this paper introduces AgentSimulator, a resource-first BPS approach that discovers a multi-agent system from an event log, modeling distinct resource behaviors and interaction patterns to simulate the underlying process. Our experiments show that AgentSimulator achieves state-of-the-art simulation accuracy with significantly lower computation times than existing approaches while providing high interpretability and adaptability to different types of process-execution scenarios. | 翻訳日:2024-08-19 16:17:46 公開日:2024-08-16 |
# 局所的一元同値下における実絡み証人の検出力
The detection power of real entanglement witnesses under local unitary equivalence ( http://arxiv.org/abs/2408.08574v1 ) ライセンス: Link先を確認 | Yi Shen, Lin Chen, Zhihao Bian, | (参考訳) 量子論の誕生以来、実数がその形式論を記述するのに適切かどうかという議論が続いている。
近年、虚数単位$i$は量子力学には不可欠であることが実験的に証明されている。
実検体(EW)と複雑検体(EWs)の検知能力の違いを調査し、実検体(EWs)の検出力を局所同値で分析する動機となっている。
実EWは実の絡み合った状態を検出しなければならず、逆に実の絡み合った状態は実EWによって検出されなければならないことを示す。
実EWによって検出された絡み合った状態に対して必要かつ十分な条件を示し、実EWの検出限界を示す具体例を示す。
そして、すべての絡み合った状態は実数と局所的に等価なEWによって検出されると推測する。
正でない部分転置を持つすべての状態に対する予想を証明する。
また,EWsによって検出された複素PT(正部分転移)絡み合い状態に対して,実数と局所的に等価な必要十分条件を導出する。
さらに、2量子PPT絡み合った状態の族に対する予想を証明した。
この予想を理解する別の方法は、反例が存在するかどうかを確認することである。
本稿では, 集合論的な観点から反例の存在を検証し, 非存在の裏付けとなる証拠を提示する。
最後に,製品プロジェクタを用いたEWの局所射影についていくつかの結果を得る。
Since the birth of quantum theory, it has been controversial that whether real numbers are adequate to describe its formalism. Recently, the imaginary unit $i$ has been experimentally proven to be indispensable for quantum mechanics. It motivates us to study the differences in detection power between real and complex entanglement witnesses (EWs), and analyze the detection power of real EWs under local equivalences. We show that a real EW must detect a real entangled state, and conversely a real entangled state must be detected by a real EW. We present a necessary and sufficient condition for the entangled states detected by real EWs, and give a specific example which implies the detection limitations of real EWs. Then, we conjecture that all entangled states are detected by the EWs locally equivalent to real ones. We prove the conjecture for all states with non-positive partial transpose. We also derive a necessary and sufficient condition for the complex PPT (positive-partial-transpose) entangled states detected by the EWs locally equivalent to real ones. We further prove the conjecture for a family of two-quqart PPT entangled states. Another way to figure out the conjecture is to check whether a counterexample exists. We propose an equivalent method to examine the existence of a counterexample from a set-theoretic perspective, and provide some supporting evidence of non-existence. Finally, we derive some results on local projections of EWs with product projectors. | 翻訳日:2024-08-19 16:17:46 公開日:2024-08-16 |
# 圧縮する価値をコーデックに伝える:LMMを持つマシンのための意味的に切り離された画像符号化
Tell Codec What Worth Compressing: Semantically Disentangled Image Coding for Machine with LMMs ( http://arxiv.org/abs/2408.08575v1 ) ライセンス: Link先を確認 | Jinming Liu, Yuntao Wei, Junyan Lin, Shengyang Zhao, Heming Sun, Zhibo Chen, Wenjun Zeng, Xin Jin, | (参考訳) 本稿では,LMM(Large Multimodal Models)の常識を巧みに活用して,「機械のためのインテリジェントコーディング」を実現するための新しい画像圧縮パラダイムを提案する。
我々は,大規模言語/マルチモーダルモデルが実世界を理解するための強力な汎用意味論予測器であることの証拠に動機付けられている。
従来の画像圧縮が人間の目に最適化されているのとは違って、私たちが注目するマシン向け画像符号化(ICM)フレームワークでは、下流のインテリジェントな分析タスクにもっと準拠するために圧縮ビットストリームが必要になります。
この目的のために、私たちは LMM を \textcolor{red}{tell codec What to compress} に採用します。
1)LMMの強力な意味理解能力は,まず,圧縮前の画像内容のアンタングルを解消するために,プロンプトによるオブジェクトのグラウンド,識別,重要ランク付けなどを利用する。
そして、これらのセマンティックな前提に基づいて、構造化されたビットストリームで画像のオブジェクトを順にエンコードし、送信する。
このようにして、画像分類、オブジェクト検出、インスタンスセグメンテーションなどの多様な視覚ベンチマークを、このような意味的に構造化されたビットストリームで適切にサポートすることができる。
We dub our method ``\textit{SDComp}' for ``\textit{S}emantically \textit{D}isentangled \textit{Comp}ression'', and compare it with state-of-the-art codecs on various different vision task。
SDCompコーデックは、よりフレキシブルな再構築結果、デコードされた視覚的品質、より汎用的で満足なタスクサポート能力をもたらす。
We present a new image compression paradigm to achieve ``intelligently coding for machine'' by cleverly leveraging the common sense of Large Multimodal Models (LMMs). We are motivated by the evidence that large language/multimodal models are powerful general-purpose semantics predictors for understanding the real world. Different from traditional image compression typically optimized for human eyes, the image coding for machines (ICM) framework we focus on requires the compressed bitstream to more comply with different downstream intelligent analysis tasks. To this end, we employ LMM to \textcolor{red}{tell codec what to compress}: 1) first utilize the powerful semantic understanding capability of LMMs w.r.t object grounding, identification, and importance ranking via prompts, to disentangle image content before compression, 2) and then based on these semantic priors we accordingly encode and transmit objects of the image in order with a structured bitstream. In this way, diverse vision benchmarks including image classification, object detection, instance segmentation, etc., can be well supported with such a semantically structured bitstream. We dub our method ``\textit{SDComp}'' for ``\textit{S}emantically \textit{D}isentangled \textit{Comp}ression'', and compare it with state-of-the-art codecs on a wide variety of different vision tasks. SDComp codec leads to more flexible reconstruction results, promised decoded visual quality, and a more generic/satisfactory intelligent task-supporting ability. | 翻訳日:2024-08-19 16:17:46 公開日:2024-08-16 |
# リモートセンシングインスタンスセグメンテーションのための多認識視覚適応器を用いたSAMモデルチューニング
Tuning a SAM-Based Model with Multi-Cognitive Visual Adapter to Remote Sensing Instance Segmentation ( http://arxiv.org/abs/2408.08576v1 ) ライセンス: Link先を確認 | Linghao Zheng, Xinyang Pu, Feng Xu, | (参考訳) Segment Anything Model (SAM)は、素早いセグメンテーションタスク用に設計された基礎モデルであり、例外的な一般化能力を示し、自然なシーン画像セグメンテーションに高い期待を寄せている。
しかし、SAMは大規模なリモートセンシング画像の事前訓練を欠いているため、そのインタラクティブな構造は自動マスク予測能力を制限している。
本稿では,Multi-Cognitive SAM-Based Instance Segmentation Model (MC-SAM SEG)を導入し,SAMをリモートセンシング領域に適用する。
The SAM-Mona encoder using the Multi-cognitive Visual Adapter (Mona) was performed to help SAM's transfer learning in remote sensor applications。
MC-SAM SEG と呼ばれる提案手法は,SAM-Mona エンコーダの微調整と特徴アグリゲータによって高品質な特徴を抽出する。
その後、プロンプトフリーマスク生成とインスタンス分類のために、ピクセルデコーダとトランスフォーマーデコーダが設計される。
総合的な実験は、合成開口レーダ(SAR)画像と光リモートセンシング画像のサンプルセグメンテーションタスクのためのRSIDデータセットとWHUデータセットを用いて行われた。
評価結果は,提案手法が他の深層学習アルゴリズムを超越し,その有効性と一般化を検証したことを示している。
The Segment Anything Model (SAM), a foundational model designed for promptable segmentation tasks, demonstrates exceptional generalization capabilities, making it highly promising for natural scene image segmentation. However, SAM's lack of pretraining on massive remote sensing images and its interactive structure limit its automatic mask prediction capabilities. In this paper, a Multi-Cognitive SAM-Based Instance Segmentation Model (MC-SAM SEG) is introduced to employ SAM on remote sensing domain. The SAM-Mona encoder utilizing the Multi-cognitive Visual Adapter (Mona) is conducted to facilitate SAM's transfer learning in remote sensing applications. The proposed method named MC-SAM SEG extracts high-quality features by fine-tuning the SAM-Mona encoder along with a feature aggregator. Subsequently, a pixel decoder and transformer decoder are designed for prompt-free mask generation and instance classification. The comprehensive experiments are conducted on the HRSID and WHU datasets for instance segmentation tasks on Synthetic Aperture Radar (SAR) images and optical remote sensing images respectively. The evaluation results indicate the proposed method surpasses other deep learning algorithms and verify its effectiveness and generalization. | 翻訳日:2024-08-19 16:17:46 公開日:2024-08-16 |
# TAMER:手書き数式認識のための木認識変換器
TAMER: Tree-Aware Transformer for Handwritten Mathematical Expression Recognition ( http://arxiv.org/abs/2408.08578v1 ) ライセンス: Link先を確認 | Jianhua Zhu, Wenqi Zhao, Yu Li, Xingjian Hu, Liangcai Gao, | (参考訳) 手書き数学的表現認識(HMER)は、自動階調とオフィス自動化に広く応用されている。
しかし、$\LaTeX$シーケンスを直接予測する既存のシーケンスベースのデコード手法は、$\LaTeX$の固有のツリー構造を理解し、モデル化するのに苦労し、デコードされた結果の構文的正しさを保証するのに失敗することが多い。
これらの課題に対処するため,手書き数式認識のためのTAMER(Tree-Aware Transformer)という新しいモデルを提案する。
TAMERは、Transformerの柔軟性と効率的なトレーニングを維持しながら、革新的なTree-Aware Moduleを導入している。
TAMERは、シーケンス予測とツリー構造予測タスクを協調的に最適化することで、シーケンス復号とツリー復号の両方の利点を組み合わせることで、複雑な数学的表現構造の理解と一般化を促進する。
推論中、TAMERは、生成された$\LaTeX$シーケンスの構造的妥当性を改善するために、ツリー構造予測のメカニズムを使用する。
CROHMEデータセットを用いた実験結果から、TAMERは従来のシーケンスデコーディングやツリーデコーディングモデルよりも優れており、特に複雑な数学的構造を扱う場合、最先端(SOTA)のパフォーマンスが達成されている。
Handwritten Mathematical Expression Recognition (HMER) has extensive applications in automated grading and office automation. However, existing sequence-based decoding methods, which directly predict $\LaTeX$ sequences, struggle to understand and model the inherent tree structure of $\LaTeX$ and often fail to ensure syntactic correctness in the decoded results. To address these challenges, we propose a novel model named TAMER (Tree-Aware Transformer) for handwritten mathematical expression recognition. TAMER introduces an innovative Tree-aware Module while maintaining the flexibility and efficient training of Transformer. TAMER combines the advantages of both sequence decoding and tree decoding models by jointly optimizing sequence prediction and tree structure prediction tasks, which enhances the model's understanding and generalization of complex mathematical expression structures. During inference, TAMER employs a Tree Structure Prediction Scoring Mechanism to improve the structural validity of the generated $\LaTeX$ sequences. Experimental results on CROHME datasets demonstrate that TAMER outperforms traditional sequence decoding and tree decoding models, especially in handling complex mathematical structures, achieving state-of-the-art (SOTA) performance. | 翻訳日:2024-08-19 16:17:46 公開日:2024-08-16 |
# 周波数適応型連続可変量子鍵分布系のパラメータ最適化
Parameter Optimization of Rate-Adaptive Continuous-Variable Quantum Key Distribution Systems ( http://arxiv.org/abs/2408.08581v1 ) ライセンス: Link先を確認 | Erdem Eray Cil, Jonas Berl, Laurent Schmalen, | (参考訳) 速度適応型CV-QKDシステムの最適化手法を提案し,SKRを最大15%改善する。
単一の情報和解装置は、秘密鍵を最大112kmまで生成することができる。
これにより、統一的な和解システムが可能となり、CV-QKDの商業化が容易になる。
We propose an optimization method for rate-adaptive CV-QKD systems, improving the SKR by up to 15%. A single information reconciliation setup can generate secret keys up to a distance of 112 km. This enables a unified reconciliation system, thereby facilitating the commercialization of CV-QKD. | 翻訳日:2024-08-19 16:17:46 公開日:2024-08-16 |
# GrassNet: 状態空間モデルとグラフニューラルネットワーク
GrassNet: State Space Model Meets Graph Neural Network ( http://arxiv.org/abs/2408.08583v1 ) ライセンス: Link先を確認 | Gongpei Zhao, Tao Wang, Yi Jin, Congyan Lang, Yidong Li, Haibin Ling, | (参考訳) スペクトル畳み込みネットワークを設計することは、グラフ学習における大きな課題である。
従来のスペクトルグラフニューラルネットワーク(GNN)では、多項式ベースの手法がラプラシア行列を介してフィルタを設計するのによく用いられる。
しかし、実際、これらの多項式法は、主に多項式フィルタの低次の切り離しとグラフスペクトルの全体モデリングの欠如から生じる固有の制限に直面する。
これにより、実世界のグラフデータに対する既存のスペクトルアプローチ、特にスペクトルが高度に集中している場合や、同じ周波数の信号に対して全く同じ変調を適用する傾向があるため、多くの数値が同じ値を含む場合、性能が低下する。
そこで本稿では,任意のグラフスペクトルフィルタを設計・学習するための簡易かつ効果的なスキームを提供する,理論的支援を備えたグラフ状態空間ネットワーク(GrassNet)を提案する。
特に、GrassNetでは、異なる周波数でのグラフ信号の相関をモデル化するための構造化状態空間モデル(SSM)を導入し、グラフスペクトルの各周波数に対して独自の補正を導出しています。
我々の知る限り、我々の研究は、GNNスペクトルフィルタの設計に初めてSSMを使用し、理論上は多項式フィルタよりも優れた表現力を提供する。
9つの公開ベンチマークでの大規模な実験により、GrassNetは現実世界のグラフモデリングタスクにおいて優れたパフォーマンスを達成することが明らかになった。
Designing spectral convolutional networks is a formidable task in graph learning. In traditional spectral graph neural networks (GNNs), polynomial-based methods are commonly used to design filters via the Laplacian matrix. In practical applications, however, these polynomial methods encounter inherent limitations, which primarily arise from the the low-order truncation of polynomial filters and the lack of overall modeling of the graph spectrum. This leads to poor performance of existing spectral approaches on real-world graph data, especially when the spectrum is highly concentrated or contains many numerically identical values, as they tend to apply the exact same modulation to signals with the same frequencies. To overcome these issues, in this paper, we propose Graph State Space Network (GrassNet), a novel graph neural network with theoretical support that provides a simple yet effective scheme for designing and learning arbitrary graph spectral filters. In particular, our GrassNet introduces structured state space models (SSMs) to model the correlations of graph signals at different frequencies and derives a unique rectification for each frequency in the graph spectrum. To the best of our knowledge, our work is the first to employ SSMs for the design of GNN spectral filters, and it theoretically offers greater expressive power compared with polynomial filters. Extensive experiments on nine public benchmarks reveal that GrassNet achieves superior performance in real-world graph modeling tasks. | 翻訳日:2024-08-19 16:17:46 公開日:2024-08-16 |
# S-RAF: 責任のある自律運転のためのシミュレーションに基づくロバストネス評価フレームワーク
S-RAF: A Simulation-Based Robustness Assessment Framework for Responsible Autonomous Driving ( http://arxiv.org/abs/2408.08584v1 ) ライセンス: Link先を確認 | Daniel Omeiza, Pratik Somaiya, Jo-Ann Pattinson, Carolyn Ten-Holter, Jack Stilgoe, Marina Jirotka, Lars Kunze, | (参考訳) 人工知能(AI)技術が進歩するにつれて、AI駆動システムの堅牢性と安全性が最重要になっている。
しかし、AI開発者の堅牢性に対するさまざまな認識は、自律運転(AD)エージェントのような安全クリティカルで複雑なAIシステムの評価と認定を複雑にし、不整合評価指標を作成する。
この課題に対処するために、自動運転のためのシミュレーションベースロバストネス評価フレームワーク(S-RAF)を導入する。
S-RAFはCARLAドライビングシミュレータを利用して、異常センサー、環境変化、複雑な交通状況を含む様々な条件でADエージェントを厳格に評価する。
S-RAFは、ロバスト性とその炭素排出量などの他の安全クリティカルな要因との関係を定量化することにより、開発者やステークホルダーが安全で責任ある運転エージェントの構築を支援し、安全認証プロセスの合理化に役立てる。
さらに、S-RAFは、テストコストの削減や、現実世界でテストするのが安全でないエッジケースを探索する機能など、大きなアドバンテージを提供する。
https://github.com/cognitive-robots/rai- Leaderboard.com/
As artificial intelligence (AI) technology advances, ensuring the robustness and safety of AI-driven systems has become paramount. However, varying perceptions of robustness among AI developers create misaligned evaluation metrics, complicating the assessment and certification of safety-critical and complex AI systems such as autonomous driving (AD) agents. To address this challenge, we introduce Simulation-Based Robustness Assessment Framework (S-RAF) for autonomous driving. S-RAF leverages the CARLA Driving simulator to rigorously assess AD agents across diverse conditions, including faulty sensors, environmental changes, and complex traffic situations. By quantifying robustness and its relationship with other safety-critical factors, such as carbon emissions, S-RAF aids developers and stakeholders in building safe and responsible driving agents, and streamlining safety certification processes. Furthermore, S-RAF offers significant advantages, such as reduced testing costs, and the ability to explore edge cases that may be unsafe to test in the real world. The code for this framework is available here: https://github.com/cognitive-robots/rai-leaderboard | 翻訳日:2024-08-19 16:17:46 公開日:2024-08-16 |
# OptDist: 顧客生涯価値予測のための最適分布学習
OptDist: Learning Optimal Distribution for Customer Lifetime Value Prediction ( http://arxiv.org/abs/2408.08585v1 ) ライセンス: Link先を確認 | Yunpeng Weng, Xing Tang, Zhenhao Xu, Fuyuan Lyu, Dugang Liu, Zexu Sun, Xiuqiang He, | (参考訳) CLTV(Customer Lifetime Value)予測は、ビジネスアプリケーションにおいて重要なタスクである。
CLTVの分布は複雑で可変であるため、現実のビジネスシナリオでは正確な予測は困難である。
第一に、長い尾の部分が複雑すぎるため、何の消費も必要としないユーザーが多数いる。
第二に、高価値ユーザの小さなセットは、通常のユーザよりも桁違いに多くのオーダーを費やし、単一のディストリビューションではキャプチャが難しいCLTVディストリビューションの幅広い範囲に導いた。
CLTV推定のための既存のアプローチは、事前確率分布を仮定し、全てのサンプルに対して分布関連パラメータの1つのグループに適合するか、または、手動で予め定義されたバケットを用いて後続分布から直接ヒューリスティックな方法で学習する。
しかし、これらの手法は複雑で可変な分布を扱えない。
本稿では,CLTV予測のための新しい最適分布選択モデルOptDistを提案する。
具体的には、CLTVの確率分布をモデル化するために、分布学習モジュール(DLM)にいくつかの候補サブディストリビューションネットワークを訓練する。
次に, 分布選択モジュール (DSM) を提案し, 各サンプルのサブ分布を選択し, 自動的に適応的に選択する。
さらに,両モジュールを接続するアライメント機構を設計し,最適化を効果的に導く。
2つのパブリックデータセットと1つのプライベートデータセットで広範な実験を行い、OpsDistが最先端のベースラインを上回っていることを確認します。
さらに、OpsDistは顧客獲得マーケティングキャンペーンのための大規模な金融プラットフォームにデプロイされており、オンライン実験もOpsDistの有効性を実証している。
Customer Lifetime Value (CLTV) prediction is a critical task in business applications. Accurately predicting CLTV is challenging in real-world business scenarios, as the distribution of CLTV is complex and mutable. Firstly, there is a large number of users without any consumption consisting of a long-tailed part that is too complex to fit. Secondly, the small set of high-value users spent orders of magnitude more than a typical user leading to a wide range of the CLTV distribution which is hard to capture in a single distribution. Existing approaches for CLTV estimation either assume a prior probability distribution and fit a single group of distribution-related parameters for all samples, or directly learn from the posterior distribution with manually predefined buckets in a heuristic manner. However, all these methods fail to handle complex and mutable distributions. In this paper, we propose a novel optimal distribution selection model OptDist for CLTV prediction, which utilizes an adaptive optimal sub-distribution selection mechanism to improve the accuracy of complex distribution modeling. Specifically, OptDist trains several candidate sub-distribution networks in the distribution learning module (DLM) for modeling the probability distribution of CLTV. Then, a distribution selection module (DSM) is proposed to select the sub-distribution for each sample, thus making the selection automatically and adaptively. Besides, we design an alignment mechanism that connects both modules, which effectively guides the optimization. We conduct extensive experiments on both two public and one private dataset to verify that OptDist outperforms state-of-the-art baselines. Furthermore, OptDist has been deployed on a large-scale financial platform for customer acquisition marketing campaigns and the online experiments also demonstrate the effectiveness of OptDist. | 翻訳日:2024-08-19 16:17:46 公開日:2024-08-16 |
# 自己回帰型言語モデルにおけるソロジカル推論の機械論的解釈
A Mechanistic Interpretation of Syllogistic Reasoning in Auto-Regressive Language Models ( http://arxiv.org/abs/2408.08590v1 ) ライセンス: Link先を確認 | Geonhee Kim, Marco Valentino, André Freitas, | (参考訳) 自己回帰言語モデル(LM)における論理的推論に関する最近の研究は、そのようなモデルが事前学習中に体系的推論原理を学習できるか、あるいは単にトレーニングデータにおける表面的パターンを活用できるかという議論を引き起こしている。
本稿では, 内部力学の理解を深めるため, LMにおけるシロメトリクス推論の機械論的解釈を提案する。
具体的には、事前学習中に得られた世界知識から、コンテンツに依存しない推論メカニズムを遠ざけることを目的とした回路発見手法を提案する。
2つの異なる介入手法により、LMが情報をどのように伝達し、前提から妥当な結論を導出するかを解明する、中期的抑制を伴う十分かつ必要な回路を明らかにする。
さらに,シロメトリクス的推論において信念バイアスがどのように現れるのかを考察し,コモンセンスや文脈的知識の符号化に寄与する追加の注意頭から部分的な汚染の証拠を見出した。
最後に、同定されたメカニズムを様々なシロメクススキームとモデルサイズにまたがって一般化し、同定された回路は、モデルが下流の精度を高い精度で達成するすべてのスキームに十分かつ必要であることを示す($60 %)。
総じて, LMは, 伝達可能な内容非依存の推論機構を学習するが, 同時に, それらのメカニズムは一般的かつ抽象的な論理的プリミティブを伴わず, 事前学習中に獲得した同じ世界知識によって汚染される可能性が示唆された。
Recent studies on logical reasoning in auto-regressive Language Models (LMs) have sparked a debate on whether such models can learn systematic reasoning principles during pre-training or merely exploit superficial patterns in the training data. This paper presents a mechanistic interpretation of syllogistic reasoning in LMs to further enhance our understanding of internal dynamics. Specifically, we present a methodology for circuit discovery aimed at disentangling content-independent reasoning mechanisms from world knowledge acquired during pre-training. Through two distinct intervention methods, we uncover a sufficient and necessary circuit involving middle-term suppression that elucidates how LMs transfer information to derive valid conclusions from premises. Furthermore, we investigate how belief biases manifest in syllogistic reasoning, finding evidence of partial contamination from additional attention heads responsible for encoding commonsense and contextualized knowledge. Finally, we explore the generalization of the discovered mechanisms across various syllogistic schemes and model sizes, finding that the identified circuit is sufficient and necessary for all the schemes on which the model achieves high downstream accuracy ($\geq$ 60\%). Overall, our findings suggest that LMs indeed learn transferable content-independent reasoning mechanisms, but that, at the same time, such mechanisms do not involve generalisable and abstract logical primitives, being susceptible to contamination by the same world knowledge acquired during pre-training. | 翻訳日:2024-08-19 16:17:46 公開日:2024-08-16 |
# Open-Vocabulary 3Dインスタンスセグメンテーションのためのゼロショットデュアルパス統合フレームワーク
Zero-Shot Dual-Path Integration Framework for Open-Vocabulary 3D Instance Segmentation ( http://arxiv.org/abs/2408.08591v1 ) ライセンス: Link先を確認 | Tri Ton, Ji Woo Hong, SooHwan Eom, Jun Yeop Shim, Junyeong Kim, Chang D. Yoo, | (参考訳) Open-vocabulary 3Dのインスタンスセグメンテーションは、従来のクローズドボキャブラリの手法を超越し、現実世界のシナリオにおいて、これまで見たことのないオブジェクトの識別を可能にする。
3Dポイントクラウドと2Dマルチビューイメージの両方を利用して、クラスに依存しないオブジェクトマスクの提案を生成する。
これまでの取り組みは主に3Dマスクの提案モデルの強化に重点を置いていたため、3Dと2Dの関連性から得られる情報は十分に活用されなかった。
この3Dデータに対するバイアスは、慣れ親しんだ屋内オブジェクトに対して有効であるが、システムの適応性は2Dモデルがより大きなユーティリティを提供する新しい多様なオブジェクトタイプに制限される。
このギャップに対処するため、Zero-Shot Dual-Path Integration Frameworkを導入します。
本フレームワークは,3次元経路,2次元経路,Dual-Path Integrationの3成分からなる。
3D経路は、事前訓練された3Dモデルを用いて3Dポイントクラウドデータから、共通屋内物体の空間的精度の高いクラス非依存マスク提案を生成する一方、2D経路は、事前訓練されたオープン語彙のインスタンスセグメンテーションモデルを用いて、多視点RGB-D画像から多様なオブジェクト提案を識別する。
Dual-Path Integrationでは、条件統合プロセスが2つの段階で動作し、両方の経路からの提案を適応的にフィルタリングし、マージします。
このプロセスは、セグメンテーション機能を強化するために出力提案を調和させる。
ScanNet200の総合的な評価やARKitScenesデータセットの定性的な結果によって証明されたように、事前学習されたモデルをゼロショットで活用するフレームワークは、モデルに依存しず、見えていないデータと見えないデータの両方で優れた性能を示す。
Open-vocabulary 3D instance segmentation transcends traditional closed-vocabulary methods by enabling the identification of both previously seen and unseen objects in real-world scenarios. It leverages a dual-modality approach, utilizing both 3D point clouds and 2D multi-view images to generate class-agnostic object mask proposals. Previous efforts predominantly focused on enhancing 3D mask proposal models; consequently, the information that could come from 2D association to 3D was not fully exploited. This bias towards 3D data, while effective for familiar indoor objects, limits the system's adaptability to new and varied object types, where 2D models offer greater utility. Addressing this gap, we introduce Zero-Shot Dual-Path Integration Framework that equally values the contributions of both 3D and 2D modalities. Our framework comprises three components: 3D pathway, 2D pathway, and Dual-Path Integration. 3D pathway generates spatially accurate class-agnostic mask proposals of common indoor objects from 3D point cloud data using a pre-trained 3D model, while 2D pathway utilizes pre-trained open-vocabulary instance segmentation model to identify a diverse array of object proposals from multi-view RGB-D images. In Dual-Path Integration, our Conditional Integration process, which operates in two stages, filters and merges the proposals from both pathways adaptively. This process harmonizes output proposals to enhance segmentation capabilities. Our framework, utilizing pre-trained models in a zero-shot manner, is model-agnostic and demonstrates superior performance on both seen and unseen data, as evidenced by comprehensive evaluations on the ScanNet200 and qualitative results on ARKitScenes datasets. | 翻訳日:2024-08-19 16:17:46 公開日:2024-08-16 |
# RadioDiff: サンプリング不要な動的無線マップ構築のための効率的な生成拡散モデル
RadioDiff: An Effective Generative Diffusion Model for Sampling-Free Dynamic Radio Map Construction ( http://arxiv.org/abs/2408.08593v1 ) ライセンス: Link先を確認 | Xiucheng Wang, Keda Tao, Nan Cheng, Zhisheng Yin, Zan Li, Yuan Zhang, Xuemin Shen, | (参考訳) 無線マップ (RM) は6Gネットワークアプリケーションにおいてパスロス推定のための通信コストを削減し, 位置のみに基づいてパスロスを得ることができる, 有望な技術である。
しかし、従来のRMの構成は計算集約的であるか、高価なサンプリングベースのパスロス測定に依存している。
ニューラルネットワーク(NN)ベースの手法はサンプリングなしでRMを効率的に構築できるが、その性能は依然として準最適である。
これは主に、RM構成問題の生成特性と既存のNN方式による識別モデルとの相違によるものである。
そこで本論文では, 試料を含まないRM構造を条件付き生成問題としてモデル化し, 高品質なRM構造を実現するためにRadioDiffという名前の拡散拡散法を提案する。
さらに,動的環境から特徴を抽出する拡散モデルの能力を高めるため,適応型高速フーリエ変換モジュールを用いた注目U-Netをバックボーンネットワークとして使用し,動的環境特徴抽出能力を向上させる。
一方, 脱結合拡散モデルを用いて, RMの施工性能をさらに向上する。
さらに、データ特徴とNNトレーニング手法の両方の観点から、RM構築が生成問題である理由を包括的に理論的に分析する。
実験の結果,提案したRadioDiffは,3つの精度,構造的類似度,ピーク信号対雑音比の3つの指標において,最先端性能を実現していることがわかった。
コードはhttps://github.com/UNIC-Lab/RadioDiffで公開されている。
Radio map (RM) is a promising technology that can obtain pathloss based on only location, which is significant for 6G network applications to reduce the communication costs for pathloss estimation. However, the construction of RM in traditional is either computationally intensive or depends on costly sampling-based pathloss measurements. Although the neural network (NN)-based method can efficiently construct the RM without sampling, its performance is still suboptimal. This is primarily due to the misalignment between the generative characteristics of the RM construction problem and the discrimination modeling exploited by existing NN-based methods. Thus, to enhance RM construction performance, in this paper, the sampling-free RM construction is modeled as a conditional generative problem, where a denoised diffusion-based method, named RadioDiff, is proposed to achieve high-quality RM construction. In addition, to enhance the diffusion model's capability of extracting features from dynamic environments, an attention U-Net with an adaptive fast Fourier transform module is employed as the backbone network to improve the dynamic environmental features extracting capability. Meanwhile, the decoupled diffusion model is utilized to further enhance the construction performance of RMs. Moreover, a comprehensive theoretical analysis of why the RM construction is a generative problem is provided for the first time, from both perspectives of data features and NN training methods. Experimental results show that the proposed RadioDiff achieves state-of-the-art performance in all three metrics of accuracy, structural similarity, and peak signal-to-noise ratio. The code is available at https://github.com/UNIC-Lab/RadioDiff. | 翻訳日:2024-08-19 16:17:46 公開日:2024-08-16 |
# DeepREST: 深層強化学習を爆発させるREST APIの自動テストケース生成
DeepREST: Automated Test Case Generation for REST APIs Exploiting Deep Reinforcement Learning ( http://arxiv.org/abs/2408.08594v1 ) ライセンス: Link先を確認 | Davide Corradini, Zeno Montolli, Michele Pasqua, Mariano Ceccato, | (参考訳) REST APIのテストシナリオの自動作成は、より信頼性が高く信頼性の高いWeb指向システムを提供するのに役立つ。
しかしながら、現在のブラックボックステストのアプローチは、APIの正式なドキュメンテーション、すなわちOpenAPI Specification(略してOAS)で利用できる情報に大きく依存している。
OASは主にAPIの構文的側面(オペレーション間のプロデューサとコンシューマの関係、入力値プロパティ、自然言語のさらなる制約など)をカバーしていますが、APIビジネスロジックの深い理解は欠如しています。
不足するセマンティクスには、操作間の暗黙的な順序付け(論理的依存関係)と暗黙的な入力値制約が含まれる。
これらの制限は、ブラックボックステストツールが真に効果的なテストケースを自動的に生成する能力を妨げます。
本稿では、REST APIを自動テストするための新しいブラックボックスアプローチであるDeepRESTを紹介します。
深い強化学習を活用して、暗黙のAPI制約、すなわちAPIドキュメントから隠された制約を明らかにする。
好奇心駆動学習は、APIの探索においてエージェントを誘導し、その操作をテストする効果的な順序を学ぶ。
これによって、最初にAPIをテスト可能な状態にするために、どの操作をテストすべきかを特定し、後でAPIのインタラクションが失敗するのを避けることができる。
同時に、成功したAPIインタラクションで得られた経験を利用して、正確な入力データ生成(どのパラメータを使うか、どのように値を選択するか)を駆動します。
さらに、DeepRESTは、成功したAPIインタラクションを変更して、テストカバレッジを改善し、さらなるエクスペリエンスを収集することで、エクスプロイトとエクスプロイトを交換する。
実験により,提案手法は高いテストカバレッジと故障検出を実現する上で非常に有効であり,最先端のベースラインよりも優れていることが示唆された。
Automatically crafting test scenarios for REST APIs helps deliver more reliable and trustworthy web-oriented systems. However, current black-box testing approaches rely heavily on the information available in the API's formal documentation, i.e., the OpenAPI Specification (OAS for short). While useful, the OAS mostly covers syntactic aspects of the API (e.g., producer-consumer relations between operations, input value properties, and additional constraints in natural language), and it lacks a deeper understanding of the API business logic. Missing semantics include implicit ordering (logic dependency) between operations and implicit input-value constraints. These limitations hinder the ability of black-box testing tools to generate truly effective test cases automatically. This paper introduces DeepREST, a novel black-box approach for automatically testing REST APIs. It leverages deep reinforcement learning to uncover implicit API constraints, that is, constraints hidden from API documentation. Curiosity-driven learning guides an agent in the exploration of the API and learns an effective order to test its operations. This helps identify which operations to test first to take the API in a testable state and avoid failing API interactions later. At the same time, experience gained on successful API interactions is leveraged to drive accurate input data generation (i.e., what parameters to use and how to pick their values). Additionally, DeepREST alternates exploration with exploitation by mutating successful API interactions to improve test coverage and collect further experience. Our empirical validation suggests that the proposed approach is very effective in achieving high test coverage and fault detection and superior to a state-of-the-art baseline. | 翻訳日:2024-08-19 16:07:32 公開日:2024-08-16 |
# MM-UNet:眼科画像分割改善のための混合MLPアーキテクチャ
MM-UNet: A Mixed MLP Architecture for Improved Ophthalmic Image Segmentation ( http://arxiv.org/abs/2408.08600v1 ) ライセンス: Link先を確認 | Zunjie Xiao, Xiaoqing Zhang, Risa Higashita, Jiang Liu, | (参考訳) 眼科画像分割は眼疾患の診断において重要な基礎となる。
完全畳み込みニューラルネットワーク(CNN)は一般的にセグメンテーションに使用されるが、帰納的バイアスと長距離依存を確立する上での課題によって制約される。
トランスフォーマーベースのモデルはこれらの制限に対処するが、かなりの計算オーバーヘッドをもたらす。
近年,画像分類のためのシンプルな多層パーセプトロン(MLP)アーキテクチャが提案されている。
しかし,眼内画像分割の有効性はいまだ不明である。
本稿では,眼画像分割に適したMLPモデルMM-UNetを提案する。
MM-UNet内では,グループ化戦略によって様々な深度における特徴の相互作用を容易にし,グローバルおよびローカル情報の同時取得を可能にするマルチスケールMLP (MMLP) モジュールを提案する。
我々は,AS-OCT画像データセットとパブリックファンドス画像データセットの両方について,広範囲にわたる実験を行った。
その結果,最先端のディープセグメンテーションネットワークと比較してMM-UNetモデルの方が優れていることが示された。
Ophthalmic image segmentation serves as a critical foundation for ocular disease diagnosis. Although fully convolutional neural networks (CNNs) are commonly employed for segmentation, they are constrained by inductive biases and face challenges in establishing long-range dependencies. Transformer-based models address these limitations but introduce substantial computational overhead. Recently, a simple yet efficient Multilayer Perceptron (MLP) architecture was proposed for image classification, achieving competitive performance relative to advanced transformers. However, its effectiveness for ophthalmic image segmentation remains unexplored. In this paper, we introduce MM-UNet, an efficient Mixed MLP model tailored for ophthalmic image segmentation. Within MM-UNet, we propose a multi-scale MLP (MMLP) module that facilitates the interaction of features at various depths through a grouping strategy, enabling simultaneous capture of global and local information. We conducted extensive experiments on both a private anterior segment optical coherence tomography (AS-OCT) image dataset and a public fundus image dataset. The results demonstrated the superiority of our MM-UNet model in comparison to state-of-the-art deep segmentation networks. | 翻訳日:2024-08-19 16:07:32 公開日:2024-08-16 |
# Visual Task Promptによる低レベルビジョンジェネラリストの学習
Learning A Low-Level Vision Generalist via Visual Task Prompt ( http://arxiv.org/abs/2408.08601v1 ) ライセンス: Link先を確認 | Xiangyu Chen, Yihao Liu, Yuandong Pu, Wenlong Zhang, Jiantao Zhou, Yu Qiao, Chao Dong, | (参考訳) 一般的な低レベル視覚タスクのための統一モデルを構築することは、重要な研究と実践的価値をもたらす。
現在の手法にはいくつかの重大な問題がある。
マルチタスク復元アプローチは、複数の劣化からクリーンな復元タスクに対処できるが、異なる対象領域(例えば、画像スタイリング)のタスクに適用性は限られている。
PromptGIPのようなメソッドは複数の入力ターゲットドメインを扱えるが、Masked Autoencoder(MAE)パラダイムに依存している。
結果として、それらはViTアーキテクチャに結びついており、その結果、最適画像再構成の品質が向上する。
さらに,これらの手法は画像内容に敏感であり,低周波情報処理に苦慮することが多い。
本稿では,これらの課題を解決するために,視覚タスクプロンプトベース画像処理(VPIP)フレームワークを提案する。
VPIPは視覚的なタスクプロンプトを使用して、異なる入力ターゲットドメインでタスクを管理し、一般的なタスクに適したバックボーンネットワークの柔軟な選択を可能にする。
さらに、入力とプロンプト情報の相互作用を容易にするために、新しいプロンプトクロスアテンションが導入される。
VPIPフレームワークに基づいて、30種類のタスクで低レベルのビジョンジェネラリストモデル、すなわちGenLVをトレーニングする。
実験の結果、GenLVは様々な低レベルタスクにうまく対応でき、既存の手法を定量的にも質的にも大幅に上回っていることがわかった。
コードはhttps://github.com/chxy95/GenLVで入手できる。
Building a unified model for general low-level vision tasks holds significant research and practical value. Current methods encounter several critical issues. Multi-task restoration approaches can address multiple degradation-to-clean restoration tasks, while their applicability to tasks with different target domains (e.g., image stylization) is limited. Methods like PromptGIP can handle multiple input-target domains but rely on the Masked Autoencoder (MAE) paradigm. Consequently, they are tied to the ViT architecture, resulting in suboptimal image reconstruction quality. In addition, these methods are sensitive to prompt image content and often struggle with low-frequency information processing. In this paper, we propose a Visual task Prompt-based Image Processing (VPIP) framework to overcome these challenges. VPIP employs visual task prompts to manage tasks with different input-target domains and allows flexible selection of backbone network suitable for general tasks. Besides, a new prompt cross-attention is introduced to facilitate interaction between the input and prompt information. Based on the VPIP framework, we train a low-level vision generalist model, namely GenLV, on 30 diverse tasks. Experimental results show that GenLV can successfully address a variety of low-level tasks, significantly outperforming existing methods both quantitatively and qualitatively. Codes are available at https://github.com/chxy95/GenLV. | 翻訳日:2024-08-19 16:07:32 公開日:2024-08-16 |
# 双方向深層映像圧縮
Bi-Directional Deep Contextual Video Compression ( http://arxiv.org/abs/2408.08604v1 ) ライセンス: Link先を確認 | Xihua Sheng, Li Li, Dong Liu, Shiqi Wang, | (参考訳) 近年、ディープビデオ圧縮は顕著なプロセスとなり、ほとんどの進歩はPフレームのコーディングに集中している。
Bフレーム符号化の強化努力は進行中であるが、圧縮性能は従来の双方向ビデオコーデックよりもはるかに遅れている。
本稿では,深部Bフレーム符号化の圧縮性能を向上させるため,Bフレームに適した双方向の深部Bフレーム圧縮方式(DCVC-B)を提案する。
私たちの計画には、主に3つの重要な革新があります。
まず, 双方向動作のビットコストを大幅に低減する, 効果的な動き差符号化のための双方向動作差コンテキスト伝搬法を提案する。
次に,両方向の文脈圧縮モデルと対応する両方向の時間エントロピーモデルを提案する。
第3に、階層的な構造に基づくトレーニング戦略を提案し、大規模な画像群(GOP)間で効果的なビット割り当てを実現する。
実験の結果,我々のDCVC-Bは,ランダムアクセス条件下でのH.265/HEVCの基準ソフトウェアと比較して平均26.6%のBD-Rate削減を実現していることがわかった。
注目すべきは、H.266/VVC参照ソフトウェアと同じ構成の特定のテストデータセット上での性能を上回ることだ。
Deep video compression has made remarkable process in recent years, with the majority of advancements concentrated on P-frame coding. Although efforts to enhance B-frame coding are ongoing, their compression performance is still far behind that of traditional bi-directional video codecs. In this paper, we introduce a bi-directional deep contextual video compression scheme tailored for B-frames, termed DCVC-B, to improve the compression performance of deep B-frame coding. Our scheme mainly has three key innovations. First, we develop a bi-directional motion difference context propagation method for effective motion difference coding, which significantly reduces the bit cost of bi-directional motions. Second, we propose a bi-directional contextual compression model and a corresponding bi-directional temporal entropy model, to make better use of the multi-scale temporal contexts. Third, we propose a hierarchical quality structure-based training strategy, leading to an effective bit allocation across large groups of pictures (GOP). Experimental results show that our DCVC-B achieves an average reduction of 26.6% in BD-Rate compared to the reference software for H.265/HEVC under random access conditions. Remarkably, it surpasses the performance of the H.266/VVC reference software on certain test datasets under the same configuration. | 翻訳日:2024-08-19 16:07:32 公開日:2024-08-16 |
# 拡散モデルに基づく生成データセット蒸留
Generative Dataset Distillation Based on Diffusion Model ( http://arxiv.org/abs/2408.08610v1 ) ライセンス: Link先を確認 | Duo Su, Junjie Hou, Guang Li, Ren Togo, Rui Song, Takahiro Ogawa, Miki Haseyama, | (参考訳) 本稿では,ECCV 2024における第1回データセット蒸留チャレンジの生成過程について述べる。
拡散モデルがその高品質な生成効果のため, 生成モデルの主流となっているため, 拡散モデルに基づく蒸留法に着目する。
CIFAR-100およびTiny-ImageNetデータセットの生成モデルを用いて10分で一定数の画像しか生成できないことを考えると、高速に画像を生成することができる生成モデルを使用する必要がある。
本研究では, 安定拡散に基づく新しい生成データセット蒸留法を提案する。
具体的には,SDXL-Turboモデルを用いて高速で画質の高い画像を生成する。
クラス毎の画像を生成できる他の拡散モデルと比較すると,Tiny-ImageNetではIPC = 10,CIFAR-100ではIPC = 20が得られる。
さらに,CIFAR-100とTiny-ImageNetの高品質蒸留データセットを生成するために,SDXL-Turboモデルのテキストプロンプトおよびポストデータ拡張としてクラス情報を用いる。
実験の結果,提案手法の有効性が示され,ECCV 2024 DD Challengeでは3位となった。
コードはhttps://github.com/Guang000/BANKO.comで入手できる。
This paper presents our method for the generative track of The First Dataset Distillation Challenge at ECCV 2024. Since the diffusion model has become the mainstay of generative models because of its high-quality generative effects, we focus on distillation methods based on the diffusion model. Considering that the track can only generate a fixed number of images in 10 minutes using a generative model for CIFAR-100 and Tiny-ImageNet datasets, we need to use a generative model that can generate images at high speed. In this study, we proposed a novel generative dataset distillation method based on Stable Diffusion. Specifically, we use the SDXL-Turbo model which can generate images at high speed and quality. Compared to other diffusion models that can only generate images per class (IPC) = 1, our method can achieve an IPC = 10 for Tiny-ImageNet and an IPC = 20 for CIFAR-100, respectively. Additionally, to generate high-quality distilled datasets for CIFAR-100 and Tiny-ImageNet, we use the class information as text prompts and post data augmentation for the SDXL-Turbo model. Experimental results show the effectiveness of the proposed method, and we achieved third place in the generative track of the ECCV 2024 DD Challenge. Codes are available at https://github.com/Guang000/BANKO. | 翻訳日:2024-08-19 16:07:32 公開日:2024-08-16 |
# 強楕円偏光短波長レーザーパルスによる中性原子の加速とねじれ
Acceleration and twisting of neutral atoms by strong elliptically polarized short-wavelength laser pulses ( http://arxiv.org/abs/2408.08613v1 ) ライセンス: Link先を確認 | Vladimir S. Melezhik, Sara Shadmehri, | (参考訳) 我々は,水素原子と強度10$^{14}$W/cm$^2$の楕円偏光レーザーパルスとの相互作用における非双極子効果を約8 fs持続時間で検討した。
この研究は、電子に対する時間依存的なシュリンガー方程式と原子の中心質量(CM)に対する古典的なハミルトン方程式を同時に統合するハイブリッド量子-準古典的アプローチの枠組みの中で実施された。
レーザー場の空間的不均一性 $ \mathbf{k}\cdot\mathbf{r}$ と、その中の磁気成分の存在は、中性原子におけるCMと電子変数の非分離性をもたらし、その結果、その加速に繋がる。
我々はレーザーパルスとの相互作用により得られた原子の励起とイオン化の総確率とCMの速度との間に厳密な相関関係を確立した。
原子の加速は、その周波数の考慮領域(\mbox{5 eV $\lesssim \hbar\omega \lesssim $ 27 eV})におけるレーザーの偏光に弱い。
しかし、線形レーザー偏光から楕円レーザーへの遷移は、パルス伝播に沿って向き付けられた軸(加速された原子の運動量の方向と一致する)に対する原子のねじれにつながる。
楕円性の増加に伴い、ねじれ効果は増大し、円偏光で最大値に達することが示されている。
この時点で、電子によって取得された軌道角運動量のパルス伝播方向への投影はその最大値に達する。
電磁パルスによる加速およびねじれた原子の生成の可能性のさらなる探索は、多くの将来的な応用に注目されている。
We have investigated non-dipole effects in the interaction of a hydrogen atom with elliptically polarized laser pulses of intensity 10$^{14}$ W/cm$^2$ with about 8 fs duration. The study was performed within the framework of a hybrid quantum-quasiclassical approach in which the time-dependent Schr\"odinger equation for an electron and the classical Hamilton equations for the center-of-mass (CM) of an atom are simultaneously integrated. It is shown that the spatial inhomogeneity $ \mathbf{k}\cdot\mathbf{r}$ of the laser field and the presence of a magnetic component in it lead to the non-separability of the CM and electron variables in a neutral atom and, as a consequence, to its acceleration. We have established a strict correlation between the total probability of excitation and ionization of an atom and the velocity of its CM acquired as a result of interaction with a laser pulse. The acceleration of the atom weakly depends on the polarization of the laser in the considered region (\mbox{5 eV $\lesssim \hbar\omega \lesssim $ 27 eV}) of its frequencies. However, the transition from linear to elliptical laser polarization leads to the twisting of the atom relative to the axis directed along the pulse propagation (coinciding with the direction of the momentum of the accelerated atom). It is shown that with increasing ellipticity the twisting effect increases and reaches its maximum value with circular polarization. At this point the projection of the orbital angular momentum acquired by the electron onto the direction of the pulse propagation reaches its maximum value. Further exploration of the possibilities for producing accelerated and twisted atoms with electromagnetic pulses is of interest for a number of prospective applications. | 翻訳日:2024-08-19 16:07:32 公開日:2024-08-16 |
# インシシットニューラル表現を用いた3次元顕微鏡画像の2次元拡散前処理による非参照軸超解像
Reference-free Axial Super-resolution of 3D Microscopy Images using Implicit Neural Representation with a 2D Diffusion Prior ( http://arxiv.org/abs/2408.08616v1 ) ライセンス: Link先を確認 | Kyungryun Lee, Won-Ki Jeong, | (参考訳) 3次元顕微鏡画像の解析と可視化は、軸方向に沿って体積超解像を必要とする異方性軸分解能による課題を提起する。
学習に基づく3D超解像モデルのトレーニングは簡単な解決策のようだが、真理等方的なボリュームが必要であり、次元の呪いに苦しむ。
そのため、既存の手法では2次元ニューラルネットワークを用いて各軸スライスを再構築し、最終的には体積全体をまとめる。
しかし、画素領域の各スライスを再構成しても、すべての方向が一貫した再構成を行なわなかったため、ミスアライメントアーティファクトが生じる。
本研究では,独立軸スライスによってバッチ的に最適化された場合でも3次元コヒーレンシを実現する暗黙的ニューラル表現(INR)に基づく再構成フレームワークを提案する。
提案手法は, 等方ボリュームを必要とせず, 高分解能側方スライスをトレーニングした2次元拡散法を用いて, 低分解能軸スライスからの連続体積表現を最適化する。
実・合成異方性顕微鏡画像の実験を通して,本手法が他の最先端の再構成手法を上回ることを示す。
ソースコードはGitHubで入手できる: https://github.com/hvcl/INR-diffusion。
Analysis and visualization of 3D microscopy images pose challenges due to anisotropic axial resolution, demanding volumetric super-resolution along the axial direction. While training a learning-based 3D super-resolution model seems to be a straightforward solution, it requires ground truth isotropic volumes and suffers from the curse of dimensionality. Therefore, existing methods utilize 2D neural networks to reconstruct each axial slice, eventually piecing together the entire volume. However, reconstructing each slice in the pixel domain fails to give consistent reconstruction in all directions leading to misalignment artifacts. In this work, we present a reconstruction framework based on implicit neural representation (INR), which allows 3D coherency even when optimized by independent axial slices in a batch-wise manner. Our method optimizes a continuous volumetric representation from low-resolution axial slices, using a 2D diffusion prior trained on high-resolution lateral slices without requiring isotropic volumes. Through experiments on real and synthetic anisotropic microscopy images, we demonstrate that our method surpasses other state-of-the-art reconstruction methods. The source code is available on GitHub: https://github.com/hvcl/INR-diffusion. | 翻訳日:2024-08-19 16:07:32 公開日:2024-08-16 |
# PatUntrack: セキュアなコード追跡なしのイシューレポートのためのパッチの自動生成
PatUntrack: Automated Generating Patch Examples for Issue Reports without Tracked Insecure Code ( http://arxiv.org/abs/2408.08619v1 ) ライセンス: Link先を確認 | Ziyou Jiang, Lin Shi, Guowei Yang, Qing Wang, | (参考訳) セキュリティパッチは、ソフトウェアコミュニティにおけるプロジェクトの安定性と堅牢性を高めるために不可欠です。
脆弱性は公式には公表される前にパッチが適用されることが期待されているが、脆弱性のパッチは複雑で、多くの組織で依然として苦労している。
脆弱性をパッチするために、セキュリティ実践者は一般的に脆弱性のあるイシューレポート(IR)を追跡し、関連するセキュリティコードを分析して潜在的なパッチを生成する。
しかし、関連する安全でないコードは明示的に指定されておらず、実践者はリポジトリ内の安全でないコードを追跡できないため、パッチを生成する能力は制限される。
そのような場合、安全でないコードとそれに対応するパッチの例を提供することで、セキュリティ開発者は安全でないコードを見つけ、修正するのに役立つだろう。
本稿では,セキュアでないコードを追跡せずにIRからパッチ例を自動的に生成するPatUntrackを提案する。
LLM(Large Language Models)を自動実行して、脆弱性の分析に適用できるようにする。
脆弱性のあるIRからVTP(Vulnerability-Triggering Path)の完全な記述を生成する。
そして、VTP記述における幻覚を外部の黄金知識で補正する。
最後に、修正されたVTP記述に基づいて、セキュリティコードとパッチサンプルのTop-Kペアを生成する。
この性能を評価するために,5,465個の脆弱赤外線の実験を行った。
実験の結果、PatUntrackは、パッチのサンプル生成において、最高のパフォーマンスを得ることができ、従来のLCMベースラインを+14.6%(Fix@10)改善できることがわかった。
さらに、PatUntrackは76個の新たに公開された脆弱性IRのパッチ例を生成するために適用された。
PatUntrackが生成したパッチ例の有用性を確認し、これらの例から脆弱性をパッチするメリットが示された。
Security patches are essential for enhancing the stability and robustness of projects in the software community. While vulnerabilities are officially expected to be patched before being disclosed, patching vulnerabilities is complicated and remains a struggle for many organizations. To patch vulnerabilities, security practitioners typically track vulnerable issue reports (IRs), and analyze their relevant insecure code to generate potential patches. However, the relevant insecure code may not be explicitly specified and practitioners cannot track the insecure code in the repositories, thus limiting their ability to generate patches. In such cases, providing examples of insecure code and the corresponding patches would benefit the security developers to better locate and fix the insecure code. In this paper, we propose PatUntrack to automatically generating patch examples from IRs without tracked insecure code. It auto-prompts Large Language Models (LLMs) to make them applicable to analyze the vulnerabilities. It first generates the completed description of the Vulnerability-Triggering Path (VTP) from vulnerable IRs. Then, it corrects hallucinations in the VTP description with external golden knowledge. Finally, it generates Top-K pairs of Insecure Code and Patch Example based on the corrected VTP description. To evaluate the performance, we conducted experiments on 5,465 vulnerable IRs. The experimental results show that PatUntrack can obtain the highest performance and improve the traditional LLM baselines by +14.6% (Fix@10) on average in patch example generation. Furthermore, PatUntrack was applied to generate patch examples for 76 newly disclosed vulnerable IRs. 27 out of 37 replies from the authors of these IRs confirmed the usefulness of the patch examples generated by PatUntrack, indicating that they can benefit from these examples for patching the vulnerabilities. | 翻訳日:2024-08-19 16:07:32 公開日:2024-08-16 |
# DeepDFA: 神経確率的緩和によるオートマタ学習
DeepDFA: Automata Learning through Neural Probabilistic Relaxations ( http://arxiv.org/abs/2408.08622v1 ) ライセンス: Link先を確認 | Elena Umili, Roberto Capobianco, | (参考訳) 本稿では,決定論的有限オートマタ(DFA)をトレースから識別する新しい手法であるDeepDFAを紹介し,微分可能かつ離散的モデルを用いた。
DFAとリカレントニューラルネットワーク(RNN)の確率的緩和にインスパイアされた当社のモデルは、複雑性の低減と従来のRNNと比較してトレーニング効率の向上とともに、トレーニング後の解釈可能性を提供する。
さらに,勾配に基づく最適化により,拡張性と雑音耐性の両面での組合せ的アプローチを超越した手法を提案する。
様々な大きさと複雑さの正規言語を対象とした検証実験により、我々のアプローチは、入力シンボルとトレーニングデータの出力ラベルの両方において正確で、高速で、ノイズに対して頑健であることを示し、論理文法帰納法とディープラーニングの両方の長所を統合した。
In this work, we introduce DeepDFA, a novel approach to identifying Deterministic Finite Automata (DFAs) from traces, harnessing a differentiable yet discrete model. Inspired by both the probabilistic relaxation of DFAs and Recurrent Neural Networks (RNNs), our model offers interpretability post-training, alongside reduced complexity and enhanced training efficiency compared to traditional RNNs. Moreover, by leveraging gradient-based optimization, our method surpasses combinatorial approaches in both scalability and noise resilience. Validation experiments conducted on target regular languages of varying size and complexity demonstrate that our approach is accurate, fast, and robust to noise in both the input symbols and the output labels of training data, integrating the strengths of both logical grammar induction and deep learning. | 翻訳日:2024-08-19 16:07:32 公開日:2024-08-16 |
# SketchRef: 自動スケッチ合成のためのベンチマークデータセットと評価指標
SketchRef: A Benchmark Dataset and Evaluation Metrics for Automated Sketch Synthesis ( http://arxiv.org/abs/2408.08623v1 ) ライセンス: Link先を確認 | Xingyue Lin, Xingjian Hu, Shuai Peng, Jianhua Zhu, Liangcai Gao, | (参考訳) 現実の物体に関する重要な視覚情報をキャプチャする強力な芸術的手法であるSketchは、画像合成分野においてますます注目を集めている。
しかし、合成スケッチの品質を評価することは、ユニークな未解決の課題を呈する。
統合ベンチマークデータセットの欠如、認識可能性のための分類精度の過度な信頼、および異なるレベルの単純化によるスケッチの不公平な評価により、スケッチ合成の現在の評価方法が不十分である。
これらの問題に対処するため、SketchRefは、動物、人間の顔、人体、一般的な物体の4つのカテゴリからなるベンチマークデータセットである。
スケッチと参照写真の構造的整合性を測定するには,分類精度が不十分であることを考慮し,構造レベルの認識性を評価するためにポーズ推定を利用する平均的オブジェクトキーポイント類似度(mOKS)指標を提案する。
単純化レベルが異なる公正な評価スケッチを確保するため,単純さに制約された認識可能性計算法を提案する。
また,アート愛好家から8K応答を収集し,提案手法の有効性を検証した。
この研究によって、スケッチ合成アルゴリズムの総合的な評価が得られ、それによって、その性能が人間の理解とより密に一致できることを願っている。
Sketch, a powerful artistic technique to capture essential visual information about real-world objects, is increasingly gaining attention in the image synthesis field. However, evaluating the quality of synthesized sketches presents unique unsolved challenges. Current evaluation methods for sketch synthesis are inadequate due to the lack of a unified benchmark dataset, over-reliance on classification accuracy for recognizability, and unfair evaluation of sketches with different levels of simplification. To address these issues, we introduce SketchRef, a benchmark dataset comprising 4 categories of reference photos--animals, human faces, human bodies, and common objects--alongside novel evaluation metrics. Considering that classification accuracy is insufficient to measure the structural consistency between a sketch and its reference photo, we propose the mean Object Keypoint Similarity (mOKS) metric, utilizing pose estimation to assess structure-level recognizability. To ensure fair evaluation sketches with different simplification levels, we propose a recognizability calculation method constrained by simplicity. We also collect 8K responses from art enthusiasts, validating the effectiveness of our proposed evaluation methods. We hope this work can provide a comprehensive evaluation of sketch synthesis algorithms, thereby aligning their performance more closely with human understanding. | 翻訳日:2024-08-19 16:07:32 公開日:2024-08-16 |
# RealMedQA: 現実的な臨床質問を含むパイロットバイオメディカル質問応答データセット
RealMedQA: A pilot biomedical question answering dataset containing realistic clinical questions ( http://arxiv.org/abs/2408.08624v1 ) ライセンス: Link先を確認 | Gregory Kell, Angus Roberts, Serge Umansky, Yuti Khare, Najma Ahmed, Nikhil Patel, Chloe Simela, Jack Coumbe, Julian Rozario, Ryan-Rhys Griffiths, Iain J. Marshall, | (参考訳) 臨床質問応答システムは、臨床医に質問に対する適切なタイムリーな回答を提供する可能性がある。
しかし, 臨床現場での導入は遅れている。
問題のひとつは、健康専門家の現実的なニーズを反映した質問応答データセットの欠如だ。
本研究では,人間とLLMが生み出す現実的な臨床質問のデータセットであるRealMedQAを紹介する。
本稿では,QAペアの生成と検証のプロセスについて述べるとともに,BioASQとRealMedQAで複数のQAモデルを評価し,質問に対する回答の適合の相対的困難さを評価する。
LLMは「理想的な」QAペアを生成するのに、よりコスト効率が高いことを示す。
さらに、BioASQよりも質問と回答の語彙的類似性が低くなり、結果によると、上位2つのQAモデルにさらなる課題がもたらされる。
コードとデータセットを公開して、さらなる研究を奨励しています。
Clinical question answering systems have the potential to provide clinicians with relevant and timely answers to their questions. Nonetheless, despite the advances that have been made, adoption of these systems in clinical settings has been slow. One issue is a lack of question-answering datasets which reflect the real-world needs of health professionals. In this work, we present RealMedQA, a dataset of realistic clinical questions generated by humans and an LLM. We describe the process for generating and verifying the QA pairs and assess several QA models on BioASQ and RealMedQA to assess the relative difficulty of matching answers to questions. We show that the LLM is more cost-efficient for generating "ideal" QA pairs. Additionally, we achieve a lower lexical similarity between questions and answers than BioASQ which provides an additional challenge to the top two QA models, as per the results. We release our code and our dataset publicly to encourage further research. | 翻訳日:2024-08-19 16:07:32 公開日:2024-08-16 |
# セキュアな分散最適化と学習に関する研究
A survey on secure decentralized optimization and learning ( http://arxiv.org/abs/2408.08628v1 ) ライセンス: Link先を確認 | Changxin Liu, Nicola Bastianello, Wei Huo, Yang Shi, Karl H. Johansson, | (参考訳) 分散最適化は、大規模な意思決定問題を解決するための標準パラダイムとなり、データを集中化せずに大規模な機械学習モデルをトレーニングしている。
しかし、このパラダイムは新たなプライバシとセキュリティリスクを導入し、悪意のあるエージェントがプライベートデータを推論したり、モデルの正確性を損なう可能性がある。
過去10年間で、セキュアな分散最適化と学習フレームワークとアルゴリズムの開発において、大きな進歩があった。
この調査は、これらの進歩に関する包括的なチュートリアルを提供する。
分散最適化と学習の基礎から始まり、中央集権的な集約と分散コンセンサスを、それぞれフェデレートと分散最適化のセキュリティリスクにさらされる重要なモジュールとして強調する。
次に、プライバシ保護アルゴリズムに焦点を当て、3つの暗号ツールとその分散最適化および学習システムへの統合について詳述する。
さらに、レジリエントなアルゴリズムを検討し、これらのシステムをサポートするレジリエントなアグリゲーションとコンセンサスプロトコルの設計と分析を行う。
我々は現在の動向と今後の方向性を議論して調査を締めくくる。
Decentralized optimization has become a standard paradigm for solving large-scale decision-making problems and training large machine learning models without centralizing data. However, this paradigm introduces new privacy and security risks, with malicious agents potentially able to infer private data or impair the model accuracy. Over the past decade, significant advancements have been made in developing secure decentralized optimization and learning frameworks and algorithms. This survey provides a comprehensive tutorial on these advancements. We begin with the fundamentals of decentralized optimization and learning, highlighting centralized aggregation and distributed consensus as key modules exposed to security risks in federated and distributed optimization, respectively. Next, we focus on privacy-preserving algorithms, detailing three cryptographic tools and their integration into decentralized optimization and learning systems. Additionally, we examine resilient algorithms, exploring the design and analysis of resilient aggregation and consensus protocols that support these systems. We conclude the survey by discussing current trends and potential future directions. | 翻訳日:2024-08-19 16:07:32 公開日:2024-08-16 |
# 構造力学における機械学習の不確かさの探索--フォワード問題と逆問題における確率的・非確率的アプローチの包括的考察
Navigating Uncertainties in Machine Learning for Structural Dynamics: A Comprehensive Review of Probabilistic and Non-Probabilistic Approaches in Forward and Inverse Problems ( http://arxiv.org/abs/2408.08629v1 ) ライセンス: Link先を確認 | Wang-Ji Yan, Lin-Feng Mei, Jiang Mo, Costas Papadimitriou, Ka-Veng Yuen, Michael Beer, | (参考訳) ビッグデータの時代、機械学習(ML)は様々な分野で強力なツールとなり、特に構造力学に影響を与えている。
MLアルゴリズムは、基礎となるメカニズムがなくても、データに基づいて物理現象をモデル化することで利点を提供する。
しかし、計測ノイズやモデリングエラーなどの不確実性はML予測の信頼性を損なう可能性があり、予測の堅牢性を高めるために効果的な不確実性認識の必要性を強調している。
本稿では,MLの不確実性をナビゲートし,不確実性を考慮したアプローチを確率論的手法(ベイズ的・頻繁な視点を含む)と非確率的手法(インターバルラーニングやファジィラーニングなど)に分類する。
不確かさの定量化と非線形マッピング能力で知られているベイズニューラルネットワークは、その優れた性能とポテンシャルで強調されている。
本総説では,MLにおける不確実性に対処するための様々な手法と方法論を概説し,各手法の基本と実装方法について論じる。
基本概念の簡潔な概要を提供する一方で、論文は深い批判的な説明を控えている。
応答予測や感度評価,信頼性解析などの構造的前方問題,システム識別やモデル更新,損傷識別といった逆問題など,各手法の強度と限界について検討した。
さらに、研究のギャップを特定し、研究コミュニティに総合的な洞察を提供することを目的として、今後の研究の方向性を提案する。
本レビューは,確率的アプローチと非確率的アプローチの両方を網羅的に概観することにより,ML技術を用いて構造的動的問題の不確実性に対処する上で,研究者や実践者が情報的決定を行うのを支援することを目的とする。
In the era of big data, machine learning (ML) has become a powerful tool in various fields, notably impacting structural dynamics. ML algorithms offer advantages by modeling physical phenomena based on data, even in the absence of underlying mechanisms. However, uncertainties such as measurement noise and modeling errors can compromise the reliability of ML predictions, highlighting the need for effective uncertainty awareness to enhance prediction robustness. This paper presents a comprehensive review on navigating uncertainties in ML, categorizing uncertainty-aware approaches into probabilistic methods (including Bayesian and frequentist perspectives) and non-probabilistic methods (such as interval learning and fuzzy learning). Bayesian neural networks, known for their uncertainty quantification and nonlinear mapping capabilities, are emphasized for their superior performance and potential. The review covers various techniques and methodologies for addressing uncertainties in ML, discussing fundamentals and implementation procedures of each method. While providing a concise overview of fundamental concepts, the paper refrains from in-depth critical explanations. Strengths and limitations of each approach are examined, along with their applications in structural dynamic forward problems like response prediction, sensitivity assessment, and reliability analysis, and inverse problems like system identification, model updating, and damage identification. Additionally, the review identifies research gaps and suggests future directions for investigations, aiming to provide comprehensive insights to the research community. By offering an extensive overview of both probabilistic and non-probabilistic approaches, this review aims to assist researchers and practitioners in making informed decisions when utilizing ML techniques to address uncertainties in structural dynamic problems. | 翻訳日:2024-08-19 16:07:32 公開日:2024-08-16 |
# ペルソナは、ロールプレイングとニュートラルプロンプトを組み込むことでゼロショット推論を促進するダブルエッジソードである
Persona is a Double-edged Sword: Enhancing the Zero-shot Reasoning by Ensembling the Role-playing and Neutral Prompts ( http://arxiv.org/abs/2408.08631v1 ) ライセンス: Link先を確認 | Junseok Kim, Nakyeong Yang, Kyomin Jung, | (参考訳) 近年の研究では、適切なロールプレイングペルソナをLLMに導入することで、推論能力が向上することが示されている。
しかし、LLMのパフォーマンスが割り当てられたプロンプトに非常に敏感であるため、適切なペルソナの割り当ては困難である。
本稿では,ロールプレイングの一方的な使用によるパフォーマンス劣化を解消し,LLMの推論能力の堅牢性を高めるために,ロールプレイングと中立的なプロンプトの結果をまとめる新しいフレームワークであるJekyll \& Hydeを提案する。
具体的には、Jekyll \& Hydeはロールプレイングとニュートラルプロンプトの両方から2つの潜在的な解を収集し、LSM評価器を介してクロスチェックした後、より良い解を選択する。
しかし, LLMに基づく評価器は, 適切な解を選択する際に, プロンプト内の潜在的な解の順序に影響を受けやすいため, 位置バイアスを軽減する頑健なLCM評価器も提案する。
実験分析により,12データセット中4データセットにおいて,ロールプレイングがLDMを邪魔し,推論能力を低下させることが示された。
さらに、Jekyll \&Hydeは、12の広く使用されている推論データセット上で、潜在的なソリューションの中からよりよい選択肢を選択することにより、推論能力を改善することを明らかにした。
さらに,提案したLLM評価器が他のベースラインよりも優れており,LLMの位置バイアスが軽減されていることを示す。
Recent studies demonstrate that prompting an appropriate role-playing persona to an LLM improves its reasoning capability. However, assigning a proper persona is difficult since an LLM's performance is extremely sensitive to assigned prompts; therefore, personas sometimes hinder LLMs and degrade their reasoning capabilities. In this paper, we propose a novel framework, Jekyll \& Hyde, which ensembles the results of role-playing and neutral prompts to eradicate performance degradation via unilateral use of role-playing prompted LLM and enhance the robustness of an LLM's reasoning ability. Specifically, Jekyll \& Hyde collects two potential solutions from both role-playing and neutral prompts and selects a better solution after cross-checking via an LLM evaluator. However, LLM-based evaluators tend to be affected by the order of those potential solutions within the prompt when selecting the proper solution; thus, we also propose a robust LLM evaluator to mitigate the position bias. The experimental analysis demonstrates that role-playing prompts distract LLMs and degrade their reasoning abilities in 4 out of 12 datasets, even when using GPT-4. In addition, we reveal that Jekyll \& Hyde improves reasoning capabilities by selecting better choices among the potential solutions on twelve widely-used reasoning datasets. We further show that our proposed LLM evaluator outperforms other baselines, proving the LLMs' position bias is successfully mitigated. | 翻訳日:2024-08-19 16:07:32 公開日:2024-08-16 |
# マルチモーダル大言語モデルのベンチマークに関する調査
A Survey on Benchmarks of Multimodal Large Language Models ( http://arxiv.org/abs/2408.08632v1 ) ライセンス: Link先を確認 | Jian Li, Weiheng Lu, | (参考訳) マルチモーダル大規模言語モデル(MLLM)は、視覚的質問応答、視覚的知覚、理解、推論など、様々なアプリケーションで顕著な性能を発揮したため、学術と産業の両方で人気が高まっている。
近年,MLLMを多視点から検討する試みが盛んに行われている。
本稿では,(1)知覚と理解,(2)認知と推論,(3)特定のドメイン,(4)キー機能,(5)他のモダリティに着目した,MLLMのベンチマークと評価の総合的なレビューを行う。
最後に,MLLMの現在の評価手法の限界について考察し,将来の可能性を探る。
我々のキーとなる論点は、MLLMの開発をもっと支援するための重要な規律として評価されるべきだということです。
詳細はGitHubリポジトリを参照してほしい。
Multimodal Large Language Models (MLLMs) are gaining increasing popularity in both academia and industry due to their remarkable performance in various applications such as visual question answering, visual perception, understanding, and reasoning. Over the past few years, significant efforts have been made to examine MLLMs from multiple perspectives. This paper presents a comprehensive review of \textbf{180 benchmarks} and evaluation for MLLMs, focusing on (1)perception and understanding, (2)cognition and reasoning, (3)specific domains, (4)key capabilities, and (5)other modalities. Finally, we discuss the limitations of the current evaluation methods for MLLMs and explore promising future directions. Our key argument is that evaluation should be regarded as a crucial discipline to better support the development of MLLMs. For more details, please visit our GitHub repository: https://github.com/swordlidev/Evaluation-Multimodal-LLMs-Survey. | 翻訳日:2024-08-19 16:07:32 公開日:2024-08-16 |
# 歴史的印刷物:データセットと課題
Historical Printed Ornaments: Dataset and Tasks ( http://arxiv.org/abs/2408.08633v1 ) ライセンス: Link先を確認 | Sayan Kumar Chaki, Zeynep Sonat Baltaci, Elliot Vincent, Remi Emonet, Fabienne Vial-Bonacci, Christelle Bahier-Porte, Mathieu Aubry, Thierry Fournel, | (参考訳) 本稿では,現代の教師なしコンピュータビジョンを用いた歴史印刷物の研究をめざす。
書籍史家にとって重要な3つの複雑なタスク、すなわちクラスタリング、要素発見、教師なしの変更ローカライゼーションに焦点を当てる。
それぞれのタスクに対して評価ベンチマークを導入し、最先端モデルの適応と評価を行う。
私たちのRey's Ornamentsデータセットは、歴史学者が興味を持つであろう一連の装飾の代表的な例として設計されています。
XVIII世紀の書店マルク・ミシェル・レイ(Marc-Michel Rey)に焦点をあて、幅広い多様性と代表的課題を持った一貫した装飾セットを提供する。
本結果は,実データに直面する場合の最先端モデルの限界を強調し,k-meansやcongealingのような単純なベースラインは,そのようなデータに対するより洗練されたアプローチよりも優れていることを示す。
データセットとコードはhttps://printed-ornaments.github.io/.com/で確認できます。
This paper aims to develop the study of historical printed ornaments with modern unsupervised computer vision. We highlight three complex tasks that are of critical interest to book historians: clustering, element discovery, and unsupervised change localization. For each of these tasks, we introduce an evaluation benchmark, and we adapt and evaluate state-of-the-art models. Our Rey's Ornaments dataset is designed to be a representative example of a set of ornaments historians would be interested in. It focuses on an XVIIIth century bookseller, Marc-Michel Rey, providing a consistent set of ornaments with a wide diversity and representative challenges. Our results highlight the limitations of state-of-the-art models when faced with real data and show simple baselines such as k-means or congealing can outperform more sophisticated approaches on such data. Our dataset and code can be found at https://printed-ornaments.github.io/. | 翻訳日:2024-08-19 15:57:39 公開日:2024-08-16 |
# 雑誌の供給最適化 : ケーススタディ
Magazine Supply Optimization: a Case-study ( http://arxiv.org/abs/2408.08637v1 ) ライセンス: Link先を確認 | Duong Nguyen, Ana Ulianovici, Sami Achour, Soline Aubry, Nicolas Chesneau, | (参考訳) 供給の最適化は、固定在庫の前提、不規則な販売パターン、様々な製品や販売ポイントの特性のために、雑誌小売業界では複雑で困難な課題である。
我々は、フランスで2万ポイント以上の販売を予定している、工業化された雑誌供給最適化ソリューションであるAthenIAを紹介します。
私たちは、サプライ計画プロセスを4段階のパイプラインにモジュール化します。
ソリューションの中核は、ドメインエキスパートの洞察を統合する新しいグループ適合型量子レグレッション法であり、供給過剰のコストに対してストックのコストを均衡させる供給最適化技術と組み合わせている。
AthenIAは雑誌出版社にとって、特に経済的・生態学的課題の進化の文脈において、貴重なツールであることが証明されている。
Supply optimization is a complex and challenging task in the magazine retail industry because of the fixed inventory assumption, irregular sales patterns, and varying product and point-of-sale characteristics. We introduce AthenIA, an industrialized magazine supply optimization solution that plans the supply for over 20,000 points of sale in France. We modularize the supply planning process into a four-step pipeline: demand sensing, optimization, business rules, and operating. The core of the solution is a novel group conformalized quantile regression method that integrates domain expert insights, coupled with a supply optimization technique that balances the costs of out-of-stock against the costs of over-supply. AthenIA has proven to be a valuable tool for magazine publishers, particularly in the context of evolving economic and ecological challenges. | 翻訳日:2024-08-19 15:57:39 公開日:2024-08-16 |
# ニューラル微分方程式を用いた量子多体ハミルトン学習問題の解法
Solving The Quantum Many-Body Hamiltonian Learning Problem with Neural Differential Equations ( http://arxiv.org/abs/2408.08639v1 ) ライセンス: Link先を確認 | Timothy Heightman, Edward Jiang, Antonio Acín, | (参考訳) 量子多体力学の理解と特徴付けは、量子多体ハミルトニアンを表現するのに必要な指数関数的な複雑さと、そのようなハミルトニアンの作用の下での状態の正確な追跡の必要性の両方から、依然として重要な課題である。
この固有の複雑さは、量子多体システムを特徴づける能力を制限し、その潜在能力を最大限に活用するための革新的なアプローチの必要性を強調している。
この課題に対処するために,多体状態トラジェクトリを用いたニューラル微分方程式とアンザッツ・ハミルトン方程式を組み合わせた,ハミルトニアン学習(HL)問題推論量子力学の解法を提案する。
本手法は信頼性が高く, 実験的に親和性があり, 解釈可能であることから, HL の安定解法として, それまで文献で学べなかったハミルトニアンの集合上での HL の安定解となる。
さらに,2つのHLアルゴリズムの信頼性と一般化能力を客観的に比較可能な,電力法則に基づく新しい定量的ベンチマークを提案する。
最後に,提案手法を1次元スピン-1/2連鎖の概念証明を用いて,最先端のHLアルゴリズムと比較した。
Understanding and characterising quantum many-body dynamics remains a significant challenge due to both the exponential complexity required to represent quantum many-body Hamiltonians, and the need to accurately track states in time under the action of such Hamiltonians. This inherent complexity limits our ability to characterise quantum many-body systems, highlighting the need for innovative approaches to unlock their full potential. To address this challenge, we propose a novel method to solve the Hamiltonian Learning (HL) problem-inferring quantum dynamics from many-body state trajectories-using Neural Differential Equations combined with an Ansatz Hamiltonian. Our method is reliably convergent, experimentally friendly, and interpretable, making it a stable solution for HL on a set of Hamiltonians previously unlearnable in the literature. In addition to this, we propose a new quantitative benchmark based on power laws, which can objectively compare the reliability and generalisation capabilities of any two HL algorithms. Finally, we benchmark our method against state-of-the-art HL algorithms with a 1D spin-1/2 chain proof of concept. | 翻訳日:2024-08-19 15:57:39 公開日:2024-08-16 |
# Math-PUMA: 数学的推論を促進するための前進的上向き多モーダルアライメント
Math-PUMA: Progressive Upward Multimodal Alignment to Enhance Mathematical Reasoning ( http://arxiv.org/abs/2408.08640v1 ) ライセンス: Link先を確認 | Wenwen Zhuang, Xin Huang, Xiantao Zhang, Jin Zeng, | (参考訳) MLLM(Multimodal Large Language Models)は、テキストベースの数学的問題を解くのに優れているが、主に自然のシーンイメージに基づいて訓練されているため、数学的図形に苦しむ。
人間にとって、視覚補助は一般的に問題解決を促進するが、MLLMは、情報がテキストから視覚的モダリティへと変化するにつれて、さらに悪化する。
この減少は、主に画像とテキストの整列に欠点があるためである。
上記の課題に対処するため,プログレッシブ・アップワード・マルチモーダルアライメントに着目したMath-PUMAを提案する。
このアプローチは、3段階のトレーニングプロセスを通じてMLLMの数学的推論スキルを向上させるために設計されており、第2段階が臨界アライメントステージである。
まず,言語モデルの数学的推論能力を,幅広いテキスト数学的問題を用いて拡張する。
次に,テキストおよび視覚情報の程度が異なるマルチモーダルデータセットを構築し,各問題を少なくとも2つの形式で提示することで,データペアを作成する。
Kullback-Leibler(KL)の次点予測分布のばらつきを利用して、視覚的およびテキスト的モダリティを整列させることにより、一貫した問題解決能力を確保できる。
最後に,高品質なマルチモーダルデータを用いたMLLMのマルチモーダル命令チューニングを行う。
複数の数学的推論ベンチマークの実験結果は、Math-PUMAで訓練されたMLLMが、ほとんどのオープンソースMLLMを上回っていることを示している。
提案手法は, 異なるモダリティで表される問題に対して, 性能ギャップを効果的に狭める。
Multimodal Large Language Models (MLLMs) excel in solving text-based mathematical problems, but they struggle with mathematical diagrams since they are primarily trained on natural scene images. For humans, visual aids generally enhance problem-solving, but MLLMs perform worse as information shifts from textual to visual modality. This decline is mainly due to their shortcomings in aligning images and text. To tackle aforementioned challenges, we propose Math-PUMA, a methodology focused on Progressive Upward Multimodal Alignment. This approach is designed to improve the mathematical reasoning skills of MLLMs through a three-stage training process, with the second stage being the critical alignment stage. We first enhance the language model's mathematical reasoning capabilities with extensive set of textual mathematical problems. We then construct a multimodal dataset with varying degrees of textual and visual information, creating data pairs by presenting each problem in at least two forms. By leveraging the Kullback-Leibler (KL) divergence of next-token prediction distributions to align visual and textual modalities, consistent problem-solving abilities are ensured. Finally, we utilize multimodal instruction tuning for MLLMs with high-quality multimodal data. Experimental results on multiple mathematical reasoning benchmarks demonstrate that the MLLMs trained with Math-PUMA surpass most open-source MLLMs. Our approach effectively narrows the performance gap for problems presented in different modalities. | 翻訳日:2024-08-19 15:57:38 公開日:2024-08-16 |
# バイアスの力:不均一な差分プライバシーによるフェデレーション学習におけるクライアント選択の最適化
The Power of Bias: Optimizing Client Selection in Federated Learning with Heterogeneous Differential Privacy ( http://arxiv.org/abs/2408.08642v1 ) ライセンス: Link先を確認 | Jiating Ma, Yipeng Zhou, Qi Li, Quan Z. Sheng, Laizhong Cui, Jiangchuan Liu, | (参考訳) データプライバシを維持するために、フェデレートラーニング(FL)パラダイムは、クライアントがモデルトレーニングを行うためのオリジナルのデータではなく、モデル勾配のみを公開する、というものです。
FLにおけるモデル勾配の保護を強化するために,差分プライベート・フェデレート・ラーニング(DPFL)を提案する。
しかし,DPFLでは,クライアントのプライバシ要件が不均一であることや,DPFLのクライアント選択問題を極めて複雑化する,といった問題が発生している。
言い換えれば、クライアントを選択する際には、データ品質とDPノイズの影響の両方を考慮する必要がある。
この問題を解決するために,不均一なプライバシ,汎用クライアント選択戦略,一般的なDP機構,凸損失を考慮したDPFLの収束解析を行う。
収束解析に基づいてクライアント選択問題を定式化し、凸最適化問題である不均一なプライバシーを持つDPFLにおける損失関数の値を最小限に抑える。
そこで本研究では,DPFL-BCSアルゴリズムを提案する。
凸損失関数と非凸損失関数の両方の下での実際のデータセットによる広範な実験結果から、DPFL-BCSはSOTAベースラインと比較してモデルの有用性を著しく改善できることが示された。
To preserve the data privacy, the federated learning (FL) paradigm emerges in which clients only expose model gradients rather than original data for conducting model training. To enhance the protection of model gradients in FL, differentially private federated learning (DPFL) is proposed which incorporates differentially private (DP) noises to obfuscate gradients before they are exposed. Yet, an essential but largely overlooked problem in DPFL is the heterogeneity of clients' privacy requirement, which can vary significantly between clients and extremely complicates the client selection problem in DPFL. In other words, both the data quality and the influence of DP noises should be taken into account when selecting clients. To address this problem, we conduct convergence analysis of DPFL under heterogeneous privacy, a generic client selection strategy, popular DP mechanisms and convex loss. Based on convergence analysis, we formulate the client selection problem to minimize the value of loss function in DPFL with heterogeneous privacy, which is a convex optimization problem and can be solved efficiently. Accordingly, we propose the DPFL-BCS (biased client selection) algorithm. The extensive experiment results with real datasets under both convex and non-convex loss functions indicate that DPFL-BCS can remarkably improve model utility compared with the SOTA baselines. | 翻訳日:2024-08-19 15:57:38 公開日:2024-08-16 |
# Segment Anything Model を用いたオフナディア画像における多角形フットプリントの抽出
Extracting polygonal footprints in off-nadir images with Segment Anything Model ( http://arxiv.org/abs/2408.08645v1 ) ライセンス: Link先を確認 | Kai Li, Jingbo Chen, Yupeng Deng, Yu Meng, Diyou Liu, Junxian Ma, Chenhao Wang, | (参考訳) オフナディア航空画像におけるフットプリント抽出(BFE)の構築は、しばしば屋根のセグメンテーションと屋根からフットプリントのオフセット予測に依存し、その後、オフセットを介して屋根からフットプリントをドラッグする。
しかし、この多段階推論の結果は、予測によって与えられるマスクの品質が低いため、データ生産には適用できない。
この問題を解決するため,本論文では,エンドツーエンドと高速な多角形フットプリント予測をサポートするOBMv2を提案する。
OBMとは異なり、OBMv2は新たに提案されたSOFA(Self Offset Attention)を使用してバンガローと超高層ビルのパフォーマンスギャップを埋め、後処理なしで実際のエンドツーエンドのフットプリントポリゴン予測を実現した。
%,非最大抑制 (NMS) や距離NMS (DNMS) などであった。
% 屋上マスク,建築マスク,オフセットに含まれる情報を完全に活用するために,OBMv2 がフットプリント予測に不十分な場合でもフットプリントを予測できるマルチレベル情報サイステム (MISS) を提案した。
さらに,同じモデルから情報を抽出するために,Nature Language Processing におけるRetrieval-Augmented Generation (RAG) に触発され,"RAG in BFE" 問題を提案した。
提案手法の有効性を検証するため,BONAIとOmniCity-view3を用いて実験を行った。
福州試験セットにも一般化試験が実施された。
コードは \url{https://github.com/likaiucas/OBM} で入手できる。
Building Footprint Extraction (BFE) in off-nadir aerial images often relies on roof segmentation and roof-to-footprint offset prediction, then drugging roof-to-footprint via the offset. However, the results from this multi-stage inference are not applicable in data production, because of the low quality of masks given by prediction. To solve this problem, we proposed OBMv2 in this paper, which supports both end-to-end and promptable polygonal footprint prediction. Different from OBM, OBMv2 using a newly proposed Self Offset Attention (SOFA) to bridge the performance gap on bungalow and skyscraper, which realized a real end-to-end footprint polygon prediction without postprocessing. %, such as Non-Maximum Suppression (NMS) and Distance NMS (DNMS). % To fully use information contained in roof masks, building masks and offsets, we proposed a Multi-level Information SyStem (MISS) for footprint prediction, with which OBMv2 can predict footprints even with insufficient predictions. Additionally, to squeeze information from the same model, we were inspired by Retrieval-Augmented Generation (RAG) in Nature Language Processing and proposed "RAG in BFE" problem. To verify the effectiveness of the proposed method, experiments were conducted on open datasets BONAI and OmniCity-view3. A generalization test was also conducted on Huizhou test set. The code will be available at \url{https://github.com/likaiucas/OBM}. | 翻訳日:2024-08-19 15:57:38 公開日:2024-08-16 |
# Inlicit Neural Representation を用いた新生児脳発達のモデル化
Modeling the Neonatal Brain Development Using Implicit Neural Representations ( http://arxiv.org/abs/2408.08647v1 ) ライセンス: Link先を確認 | Florentin Bieder, Paul Friedrich, Hélène Corbaz, Alicia Durrer, Julia Wolleb, Philippe C. Cattin, | (参考訳) ヒトの脳は妊娠3年目の間に急速に発達する。
本研究では,この年齢帯における新生児脳の発達をモデル化する。
本研究は, 発達期ヒトコネクトームプロジェクト(dHCP)から, 初期および中期の新生児のMRI画像を用いた。
本稿では,異なる時間点の2次元および3次元画像を予測するニューラルネットワーク,特に暗黙的ニューラル表現(INR)を提案する。
被写体特異的な発達過程をモデル化するには,INRの潜伏空間における被写体同一性から年齢を遠ざける必要がある。
本稿では,SGLA(Stochastic Global Latent Augmentation)とSSL(Stochastic Global Latent Vectors)の2つの手法を提案する。
結果を分析し,提案モデルと年齢条件付き偏微分拡散モデルとをベースラインとして比較する。
また,本手法はメモリ効率のよい方法で適用可能であることを示し,特に3次元データにおいて重要であることを示す。
The human brain undergoes rapid development during the third trimester of pregnancy. In this work, we model the neonatal development of the infant brain in this age range. As a basis, we use MR images of preterm- and term-birth neonates from the developing human connectome project (dHCP). We propose a neural network, specifically an implicit neural representation (INR), to predict 2D- and 3D images of varying time points. In order to model a subject-specific development process, it is necessary to disentangle the age from the subjects' identity in the latent space of the INR. We propose two methods, Subject Specific Latent Vectors (SSL) and Stochastic Global Latent Augmentation (SGLA), enabling this disentanglement. We perform an analysis of the results and compare our proposed model to an age-conditioned denoising diffusion model as a baseline. We also show that our method can be applied in a memory-efficient way, which is especially important for 3D data. | 翻訳日:2024-08-19 15:57:38 公開日:2024-08-16 |
# 論証地図におけるエンサイメムの理解--論証マイニングと論理に基づく論証
Understanding Enthymemes in Argument Maps: Bridging Argument Mining and Logic-based Argumentation ( http://arxiv.org/abs/2408.08648v1 ) ライセンス: Link先を確認 | Jonathan Ben-Naim, Victor David, Anthony Hunter, | (参考訳) 引数マイニング(Argument mining)は、テキスト中の引数を特定することを目的とした自然言語処理技術である。
さらに、これらの議論の前提とクレームを特定し、サポートやアタック関係を含む議論間の関係を特定するために、このアプローチが開発されている。
本稿では,議論の前提と主張を含む議論マップを仮定し,議論マイニングによって特定された議論間の関係を支援し,攻撃する。
そこで、あるテキストから、自然言語処理によって引数マップが自動的に得られると仮定する。
しかし、その引数マップを理解・分析するためには、その引数マップを論理的引数でインスタンス化することが望ましい。
引数マップに引数の論理的表現が得られたら、自動推論を使って議論を分析することができる(例えば、前提の整合性を確認し、クレームの妥当性を確認し、各弧上のラベルがthw論理的引数に対応する)。
テキスト内の明示的な情報を表現するための古典論理と、テキスト内の暗黙的な情報を表現するためのデフォルト論理を用いて、このニーズに対処する。
本提案について検討するために, インスタンス化の具体的な選択肢について検討する。
Argument mining is natural language processing technology aimed at identifying arguments in text. Furthermore, the approach is being developed to identify the premises and claims of those arguments, and to identify the relationships between arguments including support and attack relationships. In this paper, we assume that an argument map contains the premises and claims of arguments, and support and attack relationships between them, that have been identified by argument mining. So from a piece of text, we assume an argument map is obtained automatically by natural language processing. However, to understand and to automatically analyse that argument map, it would be desirable to instantiate that argument map with logical arguments. Once we have the logical representation of the arguments in an argument map, we can use automated reasoning to analyze the argumentation (e.g. check consistency of premises, check validity of claims, and check the labelling on each arc corresponds with thw logical arguments). We address this need by using classical logic for representing the explicit information in the text, and using default logic for representing the implicit information in the text. In order to investigate our proposal, we consider some specific options for instantiation. | 翻訳日:2024-08-19 15:57:38 公開日:2024-08-16 |
# 光共有多モード対話生成のためのエンドツーエンドモデル
An End-to-End Model for Photo-Sharing Multi-modal Dialogue Generation ( http://arxiv.org/abs/2408.08650v1 ) ライセンス: Link先を確認 | Peiming Guo, Sinuo Liu, Yanzhao Zhang, Dingkun Long, Pengjun Xie, Meishan Zhang, Min Zhang, | (参考訳) 写真共有マルチモーダル対話生成には、テキスト応答を生成するだけでなく、適切なタイミングで写真を共有するための対話エージェントが必要である。
画像テキストキャプションをブリッジとして使用することにより、パイプラインモデルは、この複雑なマルチモーダルタスクを処理するために、画像キャプションモデル、テキスト生成モデル、画像生成モデルを統合する。
しかし、テキストキャプションによる画像表現は、重要な視覚的詳細や情報を失い、複雑な対話システムにおいてエラーの伝播を引き起こす可能性がある。
さらに、パイプラインモデルでは、分割された画像テキストキャプションがエンドツーエンドの勾配伝播を妨げるため、3つのモデルを分離する。
本稿では,画像パーセプトロンと画像生成器を大言語モデルに統合した,写真共有マルチモーダル対話生成のための最初のエンドツーエンドモデルを提案する。
大規模言語モデルは、入力端の視覚的イメージを知覚するためにQ-Formerを使用する。
出力端における画像生成のために、動的語彙変換行列を提案し、ストレートスルーおよびガムベル・ソフトマックス技術を用いて、大きな言語モデルと安定した拡散モデルとを整合させ、エンドツーエンドの勾配伝播を実現する。
エンドツーエンドモデルを評価するために,PhotoChatとDilogCCデータセットの実験を行った。
パイプラインモデルと比較すると、エンドツーエンドモデルは、テキストと画像生成のさまざまなメトリクスで最先端のパフォーマンスを得る。
さらなる解析実験により、写真共有マルチモーダル対話生成におけるエンドツーエンドモデルの有効性が検証された。
Photo-Sharing Multi-modal dialogue generation requires a dialogue agent not only to generate text responses but also to share photos at the proper moment. Using image text caption as the bridge, a pipeline model integrates an image caption model, a text generation model, and an image generation model to handle this complex multi-modal task. However, representing the images with text captions may loss important visual details and information and cause error propagation in the complex dialogue system. Besides, the pipeline model isolates the three models separately because discrete image text captions hinder end-to-end gradient propagation. We propose the first end-to-end model for photo-sharing multi-modal dialogue generation, which integrates an image perceptron and an image generator with a large language model. The large language model employs the Q-Former to perceive visual images in the input end. For image generation in the output end, we propose a dynamic vocabulary transformation matrix and use straight-through and gumbel-softmax techniques to align the large language model and stable diffusion model and achieve end-to-end gradient propagation. We perform experiments on PhotoChat and DialogCC datasets to evaluate our end-to-end model. Compared with pipeline models, the end-to-end model gains state-of-the-art performances on various metrics of text and image generation. More analysis experiments also verify the effectiveness of the end-to-end model for photo-sharing multi-modal dialogue generation. | 翻訳日:2024-08-19 15:57:38 公開日:2024-08-16 |
# バイアスを超えた推論:思考推論の反実的プロンプトと連鎖に関する研究
Reasoning Beyond Bias: A Study on Counterfactual Prompting and Chain of Thought Reasoning ( http://arxiv.org/abs/2408.08651v1 ) ライセンス: Link先を確認 | Kyle Moore, Jesse Roberts, Thao Pham, Douglas Fisher, | (参考訳) 言語モデルは、トレーニングデータからバイアスを吸収することが知られており、意味的関連性よりも統計的規則性によって駆動される予測につながっている。
MMLU(Massive Multi-Task Language Understanding)タスクにおいて,これらのバイアスが回答選択選択に与える影響について検討する。
その結果,解答オプション間の学習規則の相違は,モデルの選好を予測し,人間の試行戦略を反映していることが判明した。
この問題に対処するため,2つの新しい手法として,CoT(Chain of Thought)とAgnostically Primed CoT(Agnostically Primed CoT)の2つを紹介した。
提案手法は,CoTだけではバイアスを軽減するには不十分であるが,本手法では,ベースレートの確率の影響を効果的に低減し,全体的な精度を向上する。
以上の結果から,予測バイアスの緩和には「システム-2」のようなプロセスが必要であることが示唆された。
私たちのコントリビューションは、より堅牢で公正な言語モデルを開発するための実用的なソリューションを提供します。
Language models are known to absorb biases from their training data, leading to predictions driven by statistical regularities rather than semantic relevance. We investigate the impact of these biases on answer choice preferences in the Massive Multi-Task Language Understanding (MMLU) task. Our findings reveal that differences in learned regularities across answer options are predictive of model preferences and mirror human test-taking strategies. To address this issue, we introduce two novel methods: Counterfactual Prompting with Chain of Thought (CoT) and Counterfactual Prompting with Agnostically Primed CoT (APriCoT). We demonstrate that while Counterfactual Prompting with CoT alone is insufficient to mitigate bias, our novel Primed Counterfactual Prompting with CoT approach effectively reduces the influence of base-rate probabilities while improving overall accuracy. Our results suggest that mitigating bias requires a "System-2" like process and that CoT reasoning is susceptible to confirmation bias under some prompting methodologies. Our contributions offer practical solutions for developing more robust and fair language models. | 翻訳日:2024-08-19 15:57:38 公開日:2024-08-16 |
# TextCAVs: テキストを使った視覚モデルのデバッグ
TextCAVs: Debugging vision models using text ( http://arxiv.org/abs/2408.08652v1 ) ライセンス: Link先を確認 | Angus Nicolson, Yarin Gal, J. Alison Noble, | (参考訳) 概念ベースの解釈可能性法は、高レベルの人間解釈可能性の概念の形で説明を提供するディープラーニングモデルの一般的な説明形式である。
これらの手法は通常、概念の例のプローブデータセットを使用して概念アクティベーションベクトル(CAV)を見つける。
これは、医療分野における高価なタスクである、これらの概念のためのラベル付きデータを必要とする。
本稿では,CLIP などの視覚言語モデルを用いて CAV を生成する新しい手法である TextCAV について紹介する。
このテストコンセプトのコスト削減により、画像収集やアノテーションによる遅延ではなく、多くの概念をテストし、ユーザがモデルと対話し、考え通りの新しいアイデアをテストすることが可能になる。
実験の結果,TextCAVは胸部X線データセット (MIMIC-CXR) と自然画像 (ImageNet) に対して合理的な説明を行い,これらの説明は深層学習に基づくモデルのデバッグに利用できることを示した。
Concept-based interpretability methods are a popular form of explanation for deep learning models which provide explanations in the form of high-level human interpretable concepts. These methods typically find concept activation vectors (CAVs) using a probe dataset of concept examples. This requires labelled data for these concepts -- an expensive task in the medical domain. We introduce TextCAVs: a novel method which creates CAVs using vision-language models such as CLIP, allowing for explanations to be created solely using text descriptions of the concept, as opposed to image exemplars. This reduced cost in testing concepts allows for many concepts to be tested and for users to interact with the model, testing new ideas as they are thought of, rather than a delay caused by image collection and annotation. In early experimental results, we demonstrate that TextCAVs produces reasonable explanations for a chest x-ray dataset (MIMIC-CXR) and natural images (ImageNet), and that these explanations can be used to debug deep learning-based models. | 翻訳日:2024-08-19 15:57:38 公開日:2024-08-16 |
# 低活動入力ニューロンのフリップ重み更新によるフェデレーション学習におけるバックドアアタックの軽減
Mitigating Backdoor Attacks in Federated Learning via Flipping Weight Updates of Low-Activation Input Neurons ( http://arxiv.org/abs/2408.08655v1 ) ライセンス: Link先を確認 | Binbin Ding, Penghui Yang, Zeqing Ge, Shengjun Huang, | (参考訳) フェデレーション学習により、複数のクライアントが、プライバシ要件に準拠しながら、サーバ全体の計画の下で機械学習モデルを協調的にトレーニングすることができる。
しかし、サーバはローカルなトレーニングプロセスを直接監督することができず、悪意のあるクライアントがバックドアを導入する機会を生み出す。
既存の研究によると、バックドアアタックは汚染されたモデルで特定のニューロンを活性化する。
そこで本研究では,FLAIN(Flipping Weight Updates of Low-Activation Input Neurons)と呼ばれる手法を提案する。
具体的には、グローバルトレーニングを終えた後、低活性化入力ニューロンを識別し、関連する重み更新を反転させる補助データセットを使用する。
我々は、補助データの性能劣化が受け入れられなくなるまで、低活性化入力のしきい値を漸進的に引き上げ、反復的に重み更新を行う。
非IIDデータ分布や高いMCRを含む様々な攻撃シナリオにおいて,本手法はバックドア攻撃の成功率を効果的に低下させ,クリーンデータの性能低下を最小限に抑えることができることが実証された。
Federated learning enables multiple clients to collaboratively train machine learning models under the overall planning of the server while adhering to privacy requirements. However, the server cannot directly oversee the local training process, creating an opportunity for malicious clients to introduce backdoors. Existing research shows that backdoor attacks activate specific neurons in the compromised model, which remain dormant when processing clean data. Leveraging this insight, we propose a method called Flipping Weight Updates of Low-Activation Input Neurons (FLAIN) to defend against backdoor attacks in federated learning. Specifically, after completing global training, we employ an auxiliary dataset to identify low-activation input neurons and flip the associated weight updates. We incrementally raise the threshold for low-activation inputs and flip the weight updates iteratively, until the performance degradation on the auxiliary data becomes unacceptable. Extensive experiments validate that our method can effectively reduce the success rate of backdoor attacks to a low level in various attack scenarios including those with non-IID data distribution or high MCRs, causing only minimal performance degradation on clean data. | 翻訳日:2024-08-19 15:57:38 公開日:2024-08-16 |
# LLMs are Biased tos Output Formats! Systematically Evaluating Output Format Bias of LLMs
LLMs Are Biased Towards Output Formats! Systematically Evaluating and Mitigating Output Format Bias of LLMs ( http://arxiv.org/abs/2408.08656v1 ) ライセンス: Link先を確認 | Do Xuan Long, Hai Nguyen Ngoc, Tiviatis Sim, Hieu Dao, Shafiq Joty, Kenji Kawaguchi, Nancy F. Chen, Min-Yen Kan, | (参考訳) 本稿では,大規模言語モデル(LLM)の性能評価において,形式バイアスを初めて評価する。
提案手法は,フォーマット制約下での評価基準の2つのカテゴリを区別し,信頼性・精度の高い性能評価を行う。
次に、LCMのフォーマットバイアスを測定し、それを減らす効果的な戦略を確立するための指標を定義する。
次に、広く使われている15のフォーマットをカバーする4つのカテゴリ(複数選択質問回答、ラッピング、リスト、マッピング)にまたがる実験的なフォーマットバイアス評価を示す。
8 世代タスクに対する評価により,最先端の LLM 間で有意なフォーマットバイアスが明らかとなった。
さらに,書式間のLLMによる書式指示の改善は,書式バイアスを低減させる可能性が示唆された。
評価結果に基づき,フォーマットバイアスを軽減するため,合成フォーマットデータ技術による高速化と微調整について検討した。
235.33から0.71(%$^2$)まで,ChatGPTの性能のばらつきを低減できた。
We present the first systematic evaluation examining format bias in performance of large language models (LLMs). Our approach distinguishes between two categories of an evaluation metric under format constraints to reliably and accurately assess performance: one measures performance when format constraints are adhered to, while the other evaluates performance regardless of constraint adherence. We then define a metric for measuring the format bias of LLMs and establish effective strategies to reduce it. Subsequently, we present our empirical format bias evaluation spanning four commonly used categories -- multiple-choice question-answer, wrapping, list, and mapping -- covering 15 widely-used formats. Our evaluation on eight generation tasks uncovers significant format bias across state-of-the-art LLMs. We further discover that improving the format-instruction following capabilities of LLMs across formats potentially reduces format bias. Based on our evaluation findings, we study prompting and fine-tuning with synthesized format data techniques to mitigate format bias. Our methods successfully reduce the variance in ChatGPT's performance among wrapping formats from 235.33 to 0.71 (%$^2$). | 翻訳日:2024-08-19 15:57:38 公開日:2024-08-16 |
# アイルランドにおける衛星量子鍵分布のための光学的地上局の多様性
Optical Ground Station Diversity for Satellite Quantum Key Distribution in Ireland ( http://arxiv.org/abs/2408.08657v1 ) ライセンス: Link先を確認 | Naga Lakshmi Anipeddi, Jerry Horgan, Daniel K L Oi, Deirdre Kilbane, | (参考訳) 宇宙量子通信は、グローバルなセキュアな通信と量子ネットワークを確立するための潜在的な手段である。
衛星量子鍵分布の先駆的な実証にもかかわらず、単一光子レベルの量子信号の伝送に対する大気の局所的な影響のような広範な展開には大きな課題が残っている。
アイルランドは、他のヨーロッパと量子リンクを確立する努力の一環として、宇宙と地球のチャネルの地理的および気象的影響を考慮に入れた衛星量子鍵分布の実現可能性について予備的な研究を行った。
アイルランドの4カ所をカバーする5年間にわたる気象データは、サービス可用性を向上させるために、パフォーマンスと光学地上局(OGS)の地理的多様性を評価するために使用された。
1つのOGSロケーションの性能を低下させる大きな雲カバーにもかかわらず、4-OGSネットワークを使用することで、雲カバーの反相関を利用して1つの衛星に対して最大45%の改善が達成できるが、ほとんどの利益は2または3 OGSで達成される。
Space quantum communications is a potential means for establishing global secure communications and quantum networking. Despite pioneering demonstrations of satellite quantum key distribution, considerable challenges remain for wide deployment such as the local effects of the atmosphere on the transmission of single-photon level quantum signals. As part of Ireland's efforts to establish quantum links with the rest of Europe and further afield, we present a preliminary study of the feasibility of satellite quantum key distribution taking into account geographic and weather effects on the space-Earth channel. Weather data over 5 years covering 4 locations across Ireland were used to assess performance and the prospects of optical ground station (OGS) geographic diversity to improve service availability. Despite significant cloud cover that may reduce the performance of a single OGS location, the use of a 4-OGS network can provide up to 45% improvement for a single satellite exploiting anti-correlation in cloud cover, though most gains are achieved with 2 or 3 OGSs. | 翻訳日:2024-08-19 15:57:38 公開日:2024-08-16 |
# MIA-Tuner: 事前学習用テキスト検出器として大規模言語モデルを適用する
MIA-Tuner: Adapting Large Language Models as Pre-training Text Detector ( http://arxiv.org/abs/2408.08661v1 ) ライセンス: Link先を確認 | Wenjie Fu, Huandong Wang, Chen Gao, Guanghua Liu, Yong Li, Tao Jiang, | (参考訳) 大規模言語モデル(LLM)のパラメータと拡張データセットの増加は、LLMに関連するプライバシーリスクと著作権の問題を評価する技術的ソリューションに対する緊急の要求を浮き彫りにする。
既存の研究は、メンバーシップ推論攻撃(MIA)の事例である事前学習データ検出問題の探索を通じて、このニーズに部分的に対処している。
この問題は、目標LLMの事前学習フェーズで、あるテキストが使用されているかどうかを決定することである。
既存の手法は、事前訓練されたLLMにおいてかなりの検出性能を達成するために、様々な高度なMIAスコア関数を設計してきたが、高信頼度検出の方法と、協調したLLM上でMIAを実行する方法はまだ難しいままである。
本稿では,新たなMIA手法であるMIA-Tunerを提案する。このMIA-Tunerは,外部MIAスコア関数を設計するのではなく,LCM自身が内部でより正確な事前学習データ検出器として機能するように指示する。
さらに、既存の方法とMIA-Tunerがもたらすプライバシーリスクを軽減すべく、2つの命令ベースのセーフガードを設計する。
最新のLLMを包括的に評価するために、WIKIMIA-24と呼ばれる最新のMIAベンチマークデータセットを収集し、広く採用されているWIKIMIAを置き換えた。
2つのベンチマークデータセット上で、様々な整列性および非整列性 LLM に対して広範な実験を行う。
その結果、MIA-TunerはMIAのAUCを0.7から0.9に引き上げた。
The increasing parameters and expansive dataset of large language models (LLMs) highlight the urgent demand for a technical solution to audit the underlying privacy risks and copyright issues associated with LLMs. Existing studies have partially addressed this need through an exploration of the pre-training data detection problem, which is an instance of a membership inference attack (MIA). This problem involves determining whether a given piece of text has been used during the pre-training phase of the target LLM. Although existing methods have designed various sophisticated MIA score functions to achieve considerable detection performance in pre-trained LLMs, how to achieve high-confidence detection and how to perform MIA on aligned LLMs remain challenging. In this paper, we propose MIA-Tuner, a novel instruction-based MIA method, which instructs LLMs themselves to serve as a more precise pre-training data detector internally, rather than design an external MIA score function. Furthermore, we design two instruction-based safeguards to respectively mitigate the privacy risks brought by the existing methods and MIA-Tuner. To comprehensively evaluate the most recent state-of-the-art LLMs, we collect a more up-to-date MIA benchmark dataset, named WIKIMIA-24, to replace the widely adopted benchmark WIKIMIA. We conduct extensive experiments across various aligned and unaligned LLMs over the two benchmark datasets. The results demonstrate that MIA-Tuner increases the AUC of MIAs from 0.7 to a significantly high level of 0.9. | 翻訳日:2024-08-19 15:57:38 公開日:2024-08-16 |
# ベイジアン・オペレーショナル・モーダル分析の新展開
A new perspective on Bayesian Operational Modal Analysis ( http://arxiv.org/abs/2408.08664v1 ) ライセンス: Link先を確認 | Brandon J. O'Connell, Max D. Champneys, Timothy J. Rogers, | (参考訳) オペレーショナル・モーダル・アナリティクス(OMA)の分野では、取得したモーダル情報は、航空宇宙、機械、オフショア、土木構造物の現在の状態を評価するために頻繁に使用される。
しかし、運用システムの確率性と強制情報の欠如は、一貫性のない結果をもたらす可能性がある。
したがって、OMAによる復元されたモーダルパラメータの不確かさの定量化は重要な意味を持つ。
本稿では,ベイズ確率部分空間同定法(SSI)を提案する。
ベイジアンOMAに対する既存のアプローチとは違い、階層的確率モデルが共分散駆動SSIのコアに埋め込まれている。
標準相関解析をベイズ同値に置換することにより、モーダル特性上の後部分布が得られる。
提案されたベイズ式に対して、マルコフ・チェイン・モンテカルロと変分ベイズという2つの推論スキームが提示される。
次に2つのケーススタディが検討される。
1つ目は、シミュレーションされた多自由度線形システムのデータを用いたベンチマーク研究である。
ベイズ平均値と従来のSSI値との間には良好な一致がみられたが, ベイズ平均値と従来のSSI値とは一致しない。
第2の研究では、サービス内構造から得られたデータに変分形式を適用した。
本研究の結果は1つのモデル順序で示され、安定化図を用いて示される。
回復後の不確実性を示し、古典的なSSI結果と比較する。
自然周波数と一致する平均値の後方分布は, 自然周波数から離れた値よりも低い分散を示すことが観察された。
In the field of operational modal analysis (OMA), obtained modal information is frequently used to assess the current state of aerospace, mechanical, offshore and civil structures. However, the stochasticity of operational systems and the lack of forcing information can lead to inconsistent results. Quantifying the uncertainty of the recovered modal parameters through OMA is therefore of significant value. In this article, a new perspective on Bayesian OMA is proposed: a Bayesian stochastic subspace identification (SSI) algorithm. Distinct from existing approaches to Bayesian OMA, a hierarchical probabilistic model is embedded at the core of covariance-driven SSI. Through substitution of canonical correlation analysis with a Bayesian equivalent, posterior distributions over the modal properties are obtained. Two inference schemes are presented for the proposed Bayesian formulation: Markov Chain Monte Carlo and variational Bayes. Two case studies are then explored. The first is benchmark study using data from a simulated, multi degree-of-freedom, linear system. Following application of Bayesian SSI, it is shown that the same posterior is targeted and recovered by both inference schemes, with good agreement between the posterior mean and the conventional SSI result. The second study applies the variational form to data obtained from an in-service structure: The Z24 bridge. The results of this study are presented at single model orders, and then using a stabilisation diagram. The recovered posterior uncertainty is presented and compared to the classic SSI result. It is observed that the posterior distributions with mean values coinciding with the natural frequencies exhibit lower variance than values situated away from the natural frequencies. | 翻訳日:2024-08-19 15:45:35 公開日:2024-08-16 |
# QMambaBSR: クエリ状態空間モデルによるバーストイメージ超解法
QMambaBSR: Burst Image Super-Resolution with Query State Space Model ( http://arxiv.org/abs/2408.08665v1 ) ライセンス: Link先を確認 | Xin Di, Long Peng, Peizhe Xia, Wenbo Li, Renjing Pei, Yang Cao, Yang Wang, Zheng-Jun Zha, | (参考訳) バースト超解像度は、複数のバースト低解像度フレームからサブピクセル情報を融合することにより、高画質でよりリッチな細部で高解像度の画像を再構成することを目的としている。
BusrtSRにおいて鍵となる課題は、高周波ノイズ障害を同時に抑制しつつ、ベースフレームの補完的なサブピクセルの詳細を抽出することである。
既存手法では、フレーム間関係フレームをフレーム単位でモデル化し、多電流フレーム間の相互相関を見落とし、フレーム内相互作用を無視し、ベースフレーム超解像のための不正確でノイズの多いサブピクセルを抽出しようとする。
さらに、既存の手法では、固定パラメータによるスタティックアップサンプリングを用いて全シーンの空間分解能を向上し、複数のフレームにまたがるサブピクセルの分布差を認識できず、異なるフレームの融合重みのバランスが取れず、過度に滑らかな詳細とアーティファクトをもたらす。
これらの制約に対処するために、クエリ状態空間モデル(QSSM)と適応アップサンプリングモジュール(AdaUp)を組み込んだ新しいクエリMamba Burst Super-Resolution (QMambaBSR)ネットワークを導入する。
具体的には,一段階のノイズ干渉を緩和しつつ,フレーム間クエリやフレーム内スキャンを通じて,サブピクセルを効率よく抽出するQSSMを提案する。
さらに、AdaUpは、異なるバーストシーンにおけるマルチフレームサブピクセル情報の空間分布に基づいて、アップサンプリングカーネルを動的に調整し、高解像度の詳細の空間配置の再構築を容易にするように設計されている。
4つの一般的な合成および実世界のベンチマーク実験により,本手法が新たな最先端性能を実現することを示す。
Burst super-resolution aims to reconstruct high-resolution images with higher quality and richer details by fusing the sub-pixel information from multiple burst low-resolution frames. In BusrtSR, the key challenge lies in extracting the base frame's content complementary sub-pixel details while simultaneously suppressing high-frequency noise disturbance. Existing methods attempt to extract sub-pixels by modeling inter-frame relationships frame by frame while overlooking the mutual correlations among multi-current frames and neglecting the intra-frame interactions, leading to inaccurate and noisy sub-pixels for base frame super-resolution. Further, existing methods mainly employ static upsampling with fixed parameters to improve spatial resolution for all scenes, failing to perceive the sub-pixel distribution difference across multiple frames and cannot balance the fusion weights of different frames, resulting in over-smoothed details and artifacts. To address these limitations, we introduce a novel Query Mamba Burst Super-Resolution (QMambaBSR) network, which incorporates a Query State Space Model (QSSM) and Adaptive Up-sampling module (AdaUp). Specifically, based on the observation that sub-pixels have consistent spatial distribution while random noise is inconsistently distributed, a novel QSSM is proposed to efficiently extract sub-pixels through inter-frame querying and intra-frame scanning while mitigating noise interference in a single step. Moreover, AdaUp is designed to dynamically adjust the upsampling kernel based on the spatial distribution of multi-frame sub-pixel information in the different burst scenes, thereby facilitating the reconstruction of the spatial arrangement of high-resolution details. Extensive experiments on four popular synthetic and real-world benchmarks demonstrate that our method achieves a new state-of-the-art performance. | 翻訳日:2024-08-19 15:45:35 公開日:2024-08-16 |
# フェデレーション学習におけるプライバシと公正性に関する多言語文献レビュー
A Multivocal Literature Review on Privacy and Fairness in Federated Learning ( http://arxiv.org/abs/2408.08666v1 ) ライセンス: Link先を確認 | Beatrice Balbierer, Lukas Heinlein, Domenique Zipperling, Niklas Kühl, | (参考訳) フェデレートラーニング(Federated Learning)は、データ共有の必要性を排除することによって、AIアプリケーションに革命をもたらす方法を提供する。
しかし、研究によると、情報はまだトレーニング中に抽出可能であることが示されており、差分プライバシー命令のようなプライバシー保護対策が加えられている。
実世界のフェデレーション学習アプリケーションを実装するには、パフォーマンスの公平な分布から非差別的行動まで、公平性を考慮する必要がある。
特に、リスクの高いアプリケーション(例えば医療)では、過去の差別的エラーの繰り返しを避けることが最重要である。
近年の研究では、プライバシとフェアネスの間に固有の緊張関係が示されており、フェデレートラーニングにおけるプライバシとフェアネスを統合するための現在の方法を検討するために、多言語文献レビューを実施している。
分析の結果,プライバシと公正性の関係は無視され,現実世界のアプリケーションにとって重大なリスクが生じたことが示唆された。
我々は、プライバシ、公平性、パフォーマンスの関係を探求する必要性を強調し、統合された学習フレームワークの作成を提唱する。
Federated Learning presents a way to revolutionize AI applications by eliminating the necessity for data sharing. Yet, research has shown that information can still be extracted during training, making additional privacy-preserving measures such as differential privacy imperative. To implement real-world federated learning applications, fairness, ranging from a fair distribution of performance to non-discriminative behaviour, must be considered. Particularly in high-risk applications (e.g. healthcare), avoiding the repetition of past discriminatory errors is paramount. As recent research has demonstrated an inherent tension between privacy and fairness, we conduct a multivocal literature review to examine the current methods to integrate privacy and fairness in federated learning. Our analyses illustrate that the relationship between privacy and fairness has been neglected, posing a critical risk for real-world applications. We highlight the need to explore the relationship between privacy, fairness, and performance, advocating for the creation of integrated federated learning frameworks. | 翻訳日:2024-08-19 15:45:35 公開日:2024-08-16 |
# 非ユニティゲイン型量子テレポーテーションによるガウスチャネルシミュレーションの改善
Improving Gaussian channel simulation using non-unity gain heralded quantum teleportation ( http://arxiv.org/abs/2408.08667v1 ) ライセンス: Link先を確認 | Biveen Shajilal, Lorcán O. Conlon, Angus Walsh, Spyros Tserkis, Jie Zhao, Jiri Janousek, Syed Assad, Ping Koy Lam, | (参考訳) ガウスチャネルシミュレーションは、ボゾン量子状態の進化を理解する上で不可欠なパラダイムである。
これにより、そのような状態が環境にどのように影響され、どのように量子情報を伝達するかを調べることができる。
これにより、ガウス量子通信の性質を理解するための重要なツールとなる。
量子テレポーテーションは、増幅器チャネル、損失チャネル、古典的に付加的なノイズチャネルなどのガウスチャネルを効果的にシミュレートする手段を提供する。
しかし、これらのチャネルの実装、特にガウスノイズ抑制が可能な量子増幅器チャネルやチャネルの実装は、実験的な不完全性や非理想的絡み合い資源によって制限される。
本研究では,計測に基づくノイズレスリニア増幅器によって駆動される量子テレポーテーション方式を用いて,これらの課題を克服する。
雑音のない線形増幅により、これまでアクセス不能であったガウスチャネルの範囲をシミュレートすることができる。
特に,従来の方法ではアクセスできない非物理的ガウスチャネルのシミュレーションを実演する。
ガウス雑音の抑制を報告し、不完全な量子チャネルをほぼ同一のチャネルに効果的に変換する。
送信エンタングルメントを計算することにより、ガウス雑音抑圧の性能を定量化する。
Gaussian channel simulation is an essential paradigm in understanding the evolution of bosonic quantum states. It allows us to investigate how such states are influenced by the environment and how they transmit quantum information. This makes it an essential tool for understanding the properties of Gaussian quantum communication. Quantum teleportation provides an avenue to effectively simulate Gaussian channels such as amplifier channels, loss channels and classically additive noise channels. However, implementations of these channels, particularly quantum amplifier channels and channels capable of performing Gaussian noise suppression are limited by experimental imperfections and non-ideal entanglement resources. In this work, we overcome these difficulties using a heralded quantum teleportation scheme that is empowered by a measurement-based noiseless linear amplifier. The noiseless linear amplification enables us to simulate a range of Gaussian channels that were previously inaccessible. In particular, we demonstrate the simulation of non-physical Gaussian channels otherwise inaccessible using conventional means. We report Gaussian noise suppression, effectively converting an imperfect quantum channel into a near-identity channel. The performance of Gaussian noise suppression is quantified by calculating the transmitted entanglement. | 翻訳日:2024-08-19 15:45:35 公開日:2024-08-16 |
# リスク感性インクリメンタルサンプリングによるロバスト確率的ショートパス計画
Robust Stochastic Shortest-Path Planning via Risk-Sensitive Incremental Sampling ( http://arxiv.org/abs/2408.08668v1 ) ライセンス: Link先を確認 | Clinton Enwerem, Erfaun Noorani, John S. Baras, Brian M. Sadler, | (参考訳) 最終マイルの自律配送やサプライチェーン管理といったリスクの高い産業におけるSSP(Stochastic Shortest-Path)問題の普及に伴い、ロバストな計画アルゴリズムは、有害な成果を軽減しつつ、タスク完了を成功させるのに不可欠である。
メインストリームの確率制約インクリメンタルサンプリング技術は、SSP問題を解決するには保守的すぎる傾向があり、通常は望ましくない尾イベントの可能性を考慮しない。
本稿では,漸近的に最適化されたRapidly-Exploring Random Trees (RRT*)計画アルゴリズムに着想を得たリスク認識手法を提案する。
我々のモチベーションは、CVaRリスク尺度の段階的コヒーレンスとSSP問題の最適部分構造に依存している。
したがって、各サンプリング繰り返しにおけるCVaRの最適化は、必ずしもサンプルサイズに制限のある最適経路につながる。
我々は,障害物と確率的経路分割長を持つ2次元格子空間における数値経路計画実験によるアプローチの有効性を検証した。
解析の結果,木の成長過程にリスクを組み込むことで,騒音パラメータの変動に対する感受性が著しく低い経路,あるいは環境の不確実性に対してより堅牢な経路が得られることがわかった。
アルゴリズム解析により、ベースラインRT*プロシージャに類似したクエリ時間とメモリ空間の複雑さが明らかとなり、処理時間が極端に増加する。
この増加は、ノイズ感度を著しく低下させ、プランナーの故障率を低下させることで相殺される。
With the pervasiveness of Stochastic Shortest-Path (SSP) problems in high-risk industries, such as last-mile autonomous delivery and supply chain management, robust planning algorithms are crucial for ensuring successful task completion while mitigating hazardous outcomes. Mainstream chance-constrained incremental sampling techniques for solving SSP problems tend to be overly conservative and typically do not consider the likelihood of undesirable tail events. We propose an alternative risk-aware approach inspired by the asymptotically-optimal Rapidly-Exploring Random Trees (RRT*) planning algorithm, which selects nodes along path segments with minimal Conditional Value-at-Risk (CVaR). Our motivation rests on the step-wise coherence of the CVaR risk measure and the optimal substructure of the SSP problem. Thus, optimizing with respect to the CVaR at each sampling iteration necessarily leads to an optimal path in the limit of the sample size. We validate our approach via numerical path planning experiments in a two-dimensional grid world with obstacles and stochastic path-segment lengths. Our simulation results show that incorporating risk into the tree growth process yields paths with lengths that are significantly less sensitive to variations in the noise parameter, or equivalently, paths that are more robust to environmental uncertainty. Algorithmic analyses reveal similar query time and memory space complexity to the baseline RRT* procedure, with only a marginal increase in processing time. This increase is offset by significantly lower noise sensitivity and reduced planner failure rates. | 翻訳日:2024-08-19 15:45:34 公開日:2024-08-16 |
# 視覚変換器ファインチューニングのための適応層選択法
Adaptive Layer Selection for Efficient Vision Transformer Fine-Tuning ( http://arxiv.org/abs/2408.08670v1 ) ライセンス: Link先を確認 | Alessio Devoto, Federico Alvetreti, Jary Pomponi, Paolo Di Lorenzo, Pasquale Minervini, Simone Scardapane, | (参考訳) 近年,視覚変換器(ViT)に基づく基礎モデルが広く普及している。
しかし、その微調整プロセスは非常にリソース集約的であり、エッジや低エネルギーのアプリケーションでは採用を妨げている。
そこで本論文では,視覚変換器のファインチューニングを高速化し,計算コスト,メモリ負荷,トレーニング時間を削減しつつ,ViTの効率的な微調整手法である$\textbf{ALaST}$$(\textit{Adaptive Layer Selection Fine-Tuning for Vision Transformers}$)を導入する。
我々のアプローチは、すべての層が微調整中に等しく重要であるわけではなく、その重要性が現在のミニバッチによって異なるという観察に基づいている。
したがって、各微調整ステップにおいて、すべてのレイヤの重要性を適応的に推定し、それに応じて '`compute budgets'' と呼ぶものを割り当てる。
低い予算で割り当てられたレイヤは、少ない数の入力トークンでトレーニングされるか、凍結される。
レイヤの凍結は処理コストとメモリ使用量を削減し、トークンの破棄は冗長なデータを取り除き、処理を高速化し、メモリ要求を短縮する。
この適応型計算アロケーションにより、計算リソースを階層に分散するほぼ最適スケジュールが可能であり、従来のフルチューニングアプローチと比較して、トレーニング時間(最大1.5倍)、FLOP(最大2倍)、メモリ負荷(最大2倍)を大幅に削減できることを示す。
加えて、LoRAのような他のパラメータ効率の良い微調整手法とうまく組み合わせることができる。
Recently, foundation models based on Vision Transformers (ViTs) have become widely available. However, their fine-tuning process is highly resource-intensive, and it hinders their adoption in several edge or low-energy applications. To this end, in this paper we introduce an efficient fine-tuning method for ViTs called $\textbf{ALaST}$ ($\textit{Adaptive Layer Selection Fine-Tuning for Vision Transformers}$) to speed up the fine-tuning process while reducing computational cost, memory load, and training time. Our approach is based on the observation that not all layers are equally critical during fine-tuning, and their importance varies depending on the current mini-batch. Therefore, at each fine-tuning step, we adaptively estimate the importance of all layers and we assign what we call ``compute budgets'' accordingly. Layers that were allocated lower budgets are either trained with a reduced number of input tokens or kept frozen. Freezing a layer reduces the computational cost and memory usage by preventing updates to its weights, while discarding tokens removes redundant data, speeding up processing and reducing memory requirements. We show that this adaptive compute allocation enables a nearly-optimal schedule for distributing computational resources across layers, resulting in substantial reductions in training time (up to 1.5x), FLOPs (up to 2x), and memory load (up to 2x) compared to traditional full fine-tuning approaches. Additionally, it can be successfully combined with other parameter-efficient fine-tuning methods, such as LoRA. | 翻訳日:2024-08-19 15:45:34 公開日:2024-08-16 |
# 骨格行動認識に対する物理世界バックドア攻撃に向けて
Towards Physical World Backdoor Attacks against Skeleton Action Recognition ( http://arxiv.org/abs/2408.08671v1 ) ライセンス: Link先を確認 | Qichen Zheng, Yi Yu, Siyuan Yang, Jun Liu, Kwok-Yan Lam, Alex Kot, | (参考訳) スケルトン行動認識(SAR)は、ヒト骨格構造の効率的な表現において大きな関心を集めている。
その進歩にもかかわらず、最近の研究はSARモデル、特に敵の攻撃に対する脆弱性に対するセキュリティ上の懸念を高めている。
しかし、このような戦略はデジタルシナリオに限られており、物理的な攻撃では有効ではないため、現実の応用性が制限される。
物理界におけるSARの脆弱性を調べるため,SARに対する物理的バックドア攻撃を最初に調査した物理骨格バックドア攻撃(PSBA)を紹介した。
身体的実行の実用性を考えると,本研究では,創傷として頻繁で知覚不能な動作を,元の骨格データに組み込む新しいトリガ注入法を提案する。
この操作されたデータの最小限の量をトレーニングセットに組み込むことで、PSBAはトリガーアクションが存在する場合、システムが任意のスケルトンシーケンスをターゲットクラスに誤分類できるようにする。
有毒およびクリーンラベルの両方のシナリオにおけるPSBAのレジリエンスについて検討し、その効果をさまざまなデータセット、有毒比、モデルアーキテクチャで実証する。
さらに,クリーンラベル設定における攻撃性能を高めるためのトリガーエンハンシング戦略を導入する。
PSBAのロバスト性は3つの異なるバックドアディフェンスに対して試験され、PSBAのステルス性は2つの定量的指標を用いて評価された。
さらに、Kinect V2カメラを用いることで、実世界の人間の行動のデータセットをコンパイルし、物理的な攻撃状況を模倣し、提案した攻撃の有効性を確認した。
プロジェクトのWebサイトはhttps://qichenzheng.github.io/psba-website.orgにある。
Skeleton Action Recognition (SAR) has attracted significant interest for its efficient representation of the human skeletal structure. Despite its advancements, recent studies have raised security concerns in SAR models, particularly their vulnerability to adversarial attacks. However, such strategies are limited to digital scenarios and ineffective in physical attacks, limiting their real-world applicability. To investigate the vulnerabilities of SAR in the physical world, we introduce the Physical Skeleton Backdoor Attacks (PSBA), the first exploration of physical backdoor attacks against SAR. Considering the practicalities of physical execution, we introduce a novel trigger implantation method that integrates infrequent and imperceivable actions as triggers into the original skeleton data. By incorporating a minimal amount of this manipulated data into the training set, PSBA enables the system misclassify any skeleton sequences into the target class when the trigger action is present. We examine the resilience of PSBA in both poisoned and clean-label scenarios, demonstrating its efficacy across a range of datasets, poisoning ratios, and model architectures. Additionally, we introduce a trigger-enhancing strategy to strengthen attack performance in the clean label setting. The robustness of PSBA is tested against three distinct backdoor defenses, and the stealthiness of PSBA is evaluated using two quantitative metrics. Furthermore, by employing a Kinect V2 camera, we compile a dataset of human actions from the real world to mimic physical attack situations, with our findings confirming the effectiveness of our proposed attacks. Our project website can be found at https://qichenzheng.github.io/psba-website. | 翻訳日:2024-08-19 15:45:34 公開日:2024-08-16 |
# 準局所ギブス状態を引き起こす局所量子チャネル
Local quantum channels giving rise to quasi-local Gibbs states ( http://arxiv.org/abs/2408.08672v1 ) ライセンス: Link先を確認 | Itai Arad, Raz Firanko, Omer Gurevich, | (参考訳) 局所クラウス作用素を用いた量子チャネルの定常特性について検討する。
一般エルゴード的1-局所(非相互作用的)項と一般2-局所(相互作用的)項からなる大族を考える。
物理的には、これらのチャネルの繰り返し適用は、多体系の熱化過程の単純なモデルと見なすことができる。
1-局所チャネルと2-局所チャネルを摂動パラメータ$\epsilon$で補間することにより、定常摂動状態を研究する。
非常に一般的な条件下では、これらの状態は準局所ハミルトニアンのギブス状態であることを示す。
このハミルトニアンを$\epsilon$ の級数として拡張すると、$k$'th という項がハミルトニアンの$(k+1)$-局所相互作用項に対応することが示され、これはクラウスチャネルと同じ相互作用グラフに従う。
また、ハミルトン崩壊における高次項の総重量が指数関数的に速くなる相互作用強度閾値の存在を示唆する相補的な結果も証明する。
この結果はまた、そのような定常状態における局所可観測物の期待値を計算するための準多項式古典的アルゴリズムも意味している。
最後に,理論的な主張を裏付ける様々なチャネルの数値シミュレーションについて述べる。
We study the steady-state properties of quantum channels with local Kraus operators. We consider a large family that consists of general ergodic 1-local (non-interacting) terms and general 2-local (interacting) terms. Physically, a repeated application of these channels can be seen as a simple model for the thermalization process of a many-body system. We study its steady state perturbatively by interpolating between the 1-local and 2-local channels with a perturbation parameter $\epsilon$. We prove that under very general conditions, these states are Gibbs states of a quasi-local Hamiltonian. Expanding this Hamiltonian as a series in $\epsilon$, we show that the $k$'th order term corresponds to a $(k+1)$-local interaction term in the Hamiltonian, which follows the same interaction graph as the Kraus channel. We also prove a complementary result suggesting the existence of an interaction strength threshold, under which the total weight of the high-order terms in the Hamiltonian decays exponentially fast. This result also implies a quasi-polynomial classical algorithm for computing the expectation value of local observables in such steady states. Finally, we also present numerical simulations of various channels that support our theoretical claims. | 翻訳日:2024-08-19 15:45:34 公開日:2024-08-16 |
# MAT-SED:マスケリコンストラクタを用いた音響イベント検出のための事前学習
MAT-SED: AMasked Audio Transformer with Masked-Reconstruction Based Pre-training for Sound Event Detection ( http://arxiv.org/abs/2408.08673v1 ) ライセンス: Link先を確認 | Pengfei Cai, Yan Song, Kang Li, Haoyu Song, Ian McLoughlin, | (参考訳) 大規模なトレーニング済みトランスフォーマーエンコーダネットワークを利用する音響イベント検出(SED)手法は,最近のDCASE課題において有望な性能を示した。
しかし、主にラベル付きデータの不足のために、時間的依存をモデル化するためにRNNベースのコンテキストネットワークに依存している。
本研究では,マスク付き再構成に基づく事前学習モデルであるMAT-SEDを提案する。
具体的には、まず、相対的な位置エンコーディングを持つトランスフォーマーをコンテキストネットワークとして設計する。
エンコーダとコンテキストネットワークは、共に半教師付きで微調整される。
さらに,ローカライゼーション能力を高めるため,グローバルな特徴融合戦略を提案する。
DCASE2023 Task4におけるMAT-SEDの評価は最先端性能を超え,それぞれ0.587/0.896 PSDS1/PSDS2を達成した。
Sound event detection (SED) methods that leverage a large pre-trained Transformer encoder network have shown promising performance in recent DCASE challenges. However, they still rely on an RNN-based context network to model temporal dependencies, largely due to the scarcity of labeled data. In this work, we propose a pure Transformer-based SED model with masked-reconstruction based pre-training, termed MAT-SED. Specifically, a Transformer with relative positional encoding is first designed as the context network, pre-trained by the masked-reconstruction task on all available target data in a self-supervised way. Both the encoder and the context network are jointly fine-tuned in a semi-supervised manner. Furthermore, a global-local feature fusion strategy is proposed to enhance the localization capability. Evaluation of MAT-SED on DCASE2023 task4 surpasses state-of-the-art performance, achieving 0.587/0.896 PSDS1/PSDS2 respectively. | 翻訳日:2024-08-19 15:45:34 公開日:2024-08-16 |
# 凸化損失によるPAC-ベイズ分類の誤分類過剰リスク境界
Misclassification excess risk bounds for PAC-Bayesian classification via convexified loss ( http://arxiv.org/abs/2408.08675v1 ) ライセンス: Link先を確認 | The Tien Mai, | (参考訳) PAC-Bayesian境界は、一般化境界を導出し、機械学習で新しい学習アルゴリズムを設計するための貴重なツールであることが証明されている。
しかし、通常は、選択された損失関数に関して一般化境界を提供することにフォーカスする。
分類タスクでは、0-1損失の非凸性のため、凸代理損失が頻繁に使用され、したがって現在のPAC-ベイズ境界は、この凸代理に対して主に指定される。
この研究は、凸代理損失を使用する際に、PAC-ベイズ分類の誤分類過剰リスク境界を提供することに焦点を移す。
ここでの鍵となる要素は, PAC-Bayesian 境界を確率で依存するのではなく, PAC-Bayesian 境界を期待に利用することである。
このアプローチをいくつかの重要なアプリケーションで実証します。
PAC-Bayesian bounds have proven to be a valuable tool for deriving generalization bounds and for designing new learning algorithms in machine learning. However, it typically focus on providing generalization bounds with respect to a chosen loss function. In classification tasks, due to the non-convex nature of the 0-1 loss, a convex surrogate loss is often used, and thus current PAC-Bayesian bounds are primarily specified for this convex surrogate. This work shifts its focus to providing misclassification excess risk bounds for PAC-Bayesian classification when using a convex surrogate loss. Our key ingredient here is to leverage PAC-Bayesian relative bounds in expectation rather than relying on PAC-Bayesian bounds in probability. We demonstrate our approach in several important applications. | 翻訳日:2024-08-19 15:45:34 公開日:2024-08-16 |
# 自律型宇宙機制御のための微調整LDM:Kerbal Space Programを用いたケーススタディ
Fine-tuning LLMs for Autonomous Spacecraft Control: A Case Study Using Kerbal Space Program ( http://arxiv.org/abs/2408.08676v1 ) ライセンス: Link先を確認 | Alejandro Carrasco, Victor Rodriguez-Fernandez, Richard Linares, | (参考訳) 近年,ユーザテキストプロンプトの内容に基づいて行動を起こす自律エージェントとして,Large Language Models (LLMs) が登場している。
本研究は、KSPDG(Kerbal Space Program Differential Games Suite)をテスト環境として、自動宇宙船制御のための微調整大型言語モデル(LLM)の使用について検討する。
従来の強化学習(RL)は、シミュレーション能力とデータ不足のために、この分野で制限に直面している。
GPT-3.5やLLaMAのような微調整モデルであるLLMを利用することで、これらのモデルが言語ベースの入力と出力を使用して宇宙船を効果的に制御できることを実証する。
提案手法では,リアルタイムミッションテレメトリをLLMによって処理されたテキストプロンプトに統合し,エージェントを介して制御動作を生成する。
この結果から, LLMs の空間操作の可能性に関する議論が, テキスト関連タスクへの名目的使用以外にも開かれている。
今後の研究は、この方法論を他の空間制御タスクに拡張し、異なるLLMファミリーの性能を評価することを目的としている。
コードは、以下のURLで利用可能である。
Recent trends are emerging in the use of Large Language Models (LLMs) as autonomous agents that take actions based on the content of the user text prompt. This study explores the use of fine-tuned Large Language Models (LLMs) for autonomous spacecraft control, using the Kerbal Space Program Differential Games suite (KSPDG) as a testing environment. Traditional Reinforcement Learning (RL) approaches face limitations in this domain due to insufficient simulation capabilities and data. By leveraging LLMs, specifically fine-tuning models like GPT-3.5 and LLaMA, we demonstrate how these models can effectively control spacecraft using language-based inputs and outputs. Our approach integrates real-time mission telemetry into textual prompts processed by the LLM, which then generate control actions via an agent. The results open a discussion about the potential of LLMs for space operations beyond their nominal use for text-related tasks. Future work aims to expand this methodology to other space control tasks and evaluate the performance of different LLM families. The code is available at this URL: \texttt{https://github.com/ARCLab-MIT/kspdg}. | 翻訳日:2024-08-19 15:45:34 公開日:2024-08-16 |
# ニューラルリワードマシン
Neural Reward Machines ( http://arxiv.org/abs/2408.08677v1 ) ライセンス: Link先を確認 | Elena Umili, Francesco Argenziano, Roberto Capobianco, | (参考訳) 非マルコフ的強化学習(RL)タスクは、エージェントが環境の中で合理的に行動するために、状態-作用ペアの歴史全体を考える必要があるため、解決が困難である。
ほとんどの作品では、時間的に拡張されたタスクを指定するために記号形式(線形時間論理(英語版)やオートマトン(英語版)など)を用いる。
これらのアプローチは、原状態と記号解釈の間の写像が記号基底関数(SG)と呼ばれる有限かつ離散的な状態環境や連続的な問題でのみ機能する。
本稿では、ムーアマシンの確率的緩和に基づく非象徴的RLドメインの推論と学習に使用できるオートマタベースのニューロシンボリックフレームワークであるNeural Reward Machines(NRM)を定義する。
我々は,RLと半教師付き記号接地(SSSG)を組み合わせることで,NRMがSG関数の知識を必要とせず,事前知識を組み込むことができないDeep RL法より優れていることを示す。
さらに,SSSGの研究を前進させ,時間的仕様の基盤性を解析するアルゴリズムを提案し,これは10^3$の基準手法よりも効率的である。
Non-markovian Reinforcement Learning (RL) tasks are very hard to solve, because agents must consider the entire history of state-action pairs to act rationally in the environment. Most works use symbolic formalisms (as Linear Temporal Logic or automata) to specify the temporally-extended task. These approaches only work in finite and discrete state environments or continuous problems for which a mapping between the raw state and a symbolic interpretation is known as a symbol grounding (SG) function. Here, we define Neural Reward Machines (NRM), an automata-based neurosymbolic framework that can be used for both reasoning and learning in non-symbolic non-markovian RL domains, which is based on the probabilistic relaxation of Moore Machines. We combine RL with semisupervised symbol grounding (SSSG) and we show that NRMs can exploit high-level symbolic knowledge in non-symbolic environments without any knowledge of the SG function, outperforming Deep RL methods which cannot incorporate prior knowledge. Moreover, we advance the research in SSSG, proposing an algorithm for analysing the groundability of temporal specifications, which is more efficient than baseline techniques of a factor $10^3$. | 翻訳日:2024-08-19 15:45:34 公開日:2024-08-16 |
# ゼロショット重量移動のための平均場アンサッツ
A Mean Field Ansatz for Zero-Shot Weight Transfer ( http://arxiv.org/abs/2408.08681v1 ) ライセンス: Link先を確認 | Xingyuan Chen, Wenwei Kuang, Lei Deng, Wei Han, Bo Bai, Goncalo dos Reis, | (参考訳) 大規模言語モデル(LLM)の事前学習費用は禁じられている。
コスト削減のための最先端のアプローチの1つはゼロショット重量移動(英語版)であり、いくつかのケースではモデル成長(英語版)としても知られ、小さなモデルで訓練された重量を魔法のように大きなモデルに転送する。
しかし、重量移動の背後には理論的な謎がいくつか残っている。
本稿では,平均場理論のニューラルネットワーク力学への応用に触発されて,平均場アンサッツを導入し,重み移動の理論的説明を行う。
具体的には、ニューラルネットワーク(NN)における重みの計測構造を記述し、密度測定のダイナミックさを許容する、平均フィールド視点下での行カラム(RC)アンザッツを提案する。
したがって、異なる大きさのNNの重みは、適切な仮定の下で共通の分布を認め、重み移動法はサンプリング法とみなすことができる。
GPT-3 や Llama-3.1 のような単純な MLP の例や LLM を探索することで, RC アンザッツを実証的に検証する。
ゼロショット重み移動の理論的支援を提供する適切な仮定の下では,平均場視点が適切であることを示す。
The pre-training cost of large language models (LLMs) is prohibitive. One cutting-edge approach to reduce the cost is zero-shot weight transfer, also known as model growth for some cases, which magically transfers the weights trained in a small model to a large model. However, there are still some theoretical mysteries behind the weight transfer. In this paper, inspired by prior applications of mean field theory to neural network dynamics, we introduce a mean field ansatz to provide a theoretical explanation for weight transfer. Specifically, we propose the row-column (RC) ansatz under the mean field point of view, which describes the measure structure of the weights in the neural network (NN) and admits a close measure dynamic. Thus, the weights of different sizes NN admit a common distribution under proper assumptions, and weight transfer methods can be viewed as sampling methods. We empirically validate the RC ansatz by exploring simple MLP examples and LLMs such as GPT-3 and Llama-3.1. We show the mean-field point of view is adequate under suitable assumptions which can provide theoretical support for zero-shot weight transfer. | 翻訳日:2024-08-19 15:45:34 公開日:2024-08-16 |
# LLM-PCGC:大規模言語モデルに基づくポイントクラウド幾何圧縮
LLM-PCGC: Large Language Model-based Point Cloud Geometry Compression ( http://arxiv.org/abs/2408.08682v1 ) ライセンス: Link先を確認 | Yuqi Ye, Wei Gao, | (参考訳) 効率的なポイントクラウド圧縮の鍵は、複雑な3Dデータ構造と整合した堅牢なコンテキストモデルを得ることである。
近年,大規模言語モデル (LLM) の進歩は,テキスト内学習と生成のための強力なジェネレータとしてだけでなく,効率的な圧縮機としてもその能力を強調している。
これらのLLMの2つの属性は、データ圧縮の要求を満たすのに特に適している。
そこで本研究では,LLMを用いた圧縮作業の可能性について検討し,ロスレスポイントクラウド幾何圧縮(PCGC)実験に着目した。
しかし, LLMをPCGCタスクに直接適用することは, 点雲の構造をよく理解していないこと, テキスト記述による点雲と点雲のギャップを埋めることの難しさなど, 重大な課題を生じさせる。
これらの問題に対処するために,LLMを用いたLarge Language Model-based Point Cloud Geometry Compression (LLM-PCGC)法という新しいアーキテクチャを導入する。
クラスタリング,Kツリー,トークンマッピング不変性,ローランク適応(LoRA)など,多種多様な適応手法を用いて,LLMをポイントクラウド用の圧縮子/ジェネレータに変換する。
我々の知る限りでは、これはポイントクラウドデータの圧縮機としてLLMを使用した最初の構造である。
LLM-PCGCはMPEG Geometry-based Point Cloud Compression (G-PCC)標準の基準ソフトウェアと比較して-40.213%のビットレート削減を達成し、最先端の学習法に比べて-2.267%のビットレート削減を達成し、既存の手法よりも大幅に性能が向上した。
The key to effective point cloud compression is to obtain a robust context model consistent with complex 3D data structures. Recently, the advancement of large language models (LLMs) has highlighted their capabilities not only as powerful generators for in-context learning and generation but also as effective compressors. These dual attributes of LLMs make them particularly well-suited to meet the demands of data compression. Therefore, this paper explores the potential of using LLM for compression tasks, focusing on lossless point cloud geometry compression (PCGC) experiments. However, applying LLM directly to PCGC tasks presents some significant challenges, i.e., LLM does not understand the structure of the point cloud well, and it is a difficult task to fill the gap between text and point cloud through text description, especially for large complicated and small shapeless point clouds. To address these problems, we introduce a novel architecture, namely the Large Language Model-based Point Cloud Geometry Compression (LLM-PCGC) method, using LLM to compress point cloud geometry information without any text description or aligning operation. By utilizing different adaptation techniques for cross-modality representation alignment and semantic consistency, including clustering, K-tree, token mapping invariance, and Low Rank Adaptation (LoRA), the proposed method can translate LLM to a compressor/generator for point cloud. To the best of our knowledge, this is the first structure to employ LLM as a compressor for point cloud data. Experiments demonstrate that the LLM-PCGC outperforms the other existing methods significantly, by achieving -40.213% bit rate reduction compared to the reference software of MPEG Geometry-based Point Cloud Compression (G-PCC) standard, and by achieving -2.267% bit rate reduction compared to the state-of-the-art learning-based method. | 翻訳日:2024-08-19 15:45:34 公開日:2024-08-16 |
# 均質エントロピー増加に基づく事前学習モデルのパーソナライズされた圧縮アルゴリズムに関する研究
Research on Personalized Compression Algorithm for Pre-trained Models Based on Homomorphic Entropy Increase ( http://arxiv.org/abs/2408.08684v1 ) ライセンス: Link先を確認 | Yicong Li, Xing Guo, Haohua Du, | (参考訳) 本稿では、現在のAI分野における2つの重要な技術、ビジョントランスフォーマーモデルとLarge Language Model(LLM)の課題と進化について考察する。
Vision Transformerは、画像を小さな断片に分割し、Transformerのマルチヘッドアテンションメカニズムを活用することで、グローバルな情報をキャプチャする。
同時に、LLMの急速な開発は自然言語処理に革命をもたらしたが、同時に大規模なデプロイメントの課題に直面している。
これらの問題に対処するために、モデルプルーニング手法について検討し、特に、パーソナライズされたデータやリソースに制約のある環境に対応するために、精度を損なうことなく、冗長パラメータの削減に焦点をあてる。
本稿では, 圧縮センシングとランダムサンプリングにより, パーソナライズされた層と共通層とを識別し, モデルパラメータを著しく低減する新しい層状プルーニング手法を提案する。
実験の結果, 導入したステップバッファリング機構により, プルーニング後のモデルの精度が向上し, モバイル端末に効率的かつパーソナライズされたAIモデルを展開するための新たな方向性と可能性が示された。
In this article, we explore the challenges and evolution of two key technologies in the current field of AI: Vision Transformer model and Large Language Model (LLM). Vision Transformer captures global information by splitting images into small pieces and leveraging Transformer's multi-head attention mechanism, but its high reference count and compute overhead limit deployment on mobile devices. At the same time, the rapid development of LLM has revolutionized natural language processing, but it also faces huge deployment challenges. To address these issues, we investigate model pruning techniques, with a particular focus on how to reduce redundant parameters without losing accuracy to accommodate personalized data and resource-constrained environments. In this paper, a new layered pruning strategy is proposed to distinguish the personalized layer from the common layer by compressed sensing and random sampling, thus significantly reducing the model parameters. Our experimental results show that the introduced step buffering mechanism further improves the accuracy of the model after pruning, providing new directions and possibilities for the deployment of efficient and personalized AI models on mobile devices in the future. | 翻訳日:2024-08-19 15:45:34 公開日:2024-08-16 |
# 大規模言語モデルはグラフニューラルネットワークの対向ロバスト性を改善するか?
Can Large Language Models Improve the Adversarial Robustness of Graph Neural Networks? ( http://arxiv.org/abs/2408.08685v1 ) ライセンス: Link先を確認 | Zhongjian Zhang, Xiao Wang, Huichi Zhou, Yue Yu, Mengmei Zhang, Cheng Yang, Chuan Shi, | (参考訳) グラフニューラルネットワーク(GNN)は、特にトポロジ攻撃に対する敵の摂動に対して脆弱であり、GNNの堅牢性を改善する多くの手法が注目されている。
近年,大規模言語モデル (LLM) の顕著な成功を目の当たりにしている。
しかし、主にLLMを利用してノード機能を強化することで、GNNの性能向上に重点を置いている。
LLMの強力な理解と推論能力によって,GNNの堅牢性も向上するのだろうか?
実験の結果から、LLMはGNNの堅牢性を改善することができるにもかかわらず、平均的な23.1%の精度低下がみられ、GNNはトポロジー攻撃に対して極めて脆弱であることが示された。
したがって、グラフ対向ロバスト性において LLM の能力をいかに拡張するかという問題もある。
本稿では,LLMに基づく頑健なグラフ構造推論フレームワーク LLM4RGNN を提案する。このフレームワークは,GPT-4 の推論能力をローカル LLM に蒸留し,悪意のあるエッジを識別する。
大規模な実験により、LLM4RGNNは様々なGNN間のロバスト性を一貫して改善することが示された。
摂動比が40%に増加する場合においても、GNNの精度はクリーングラフよりも優れている。
Graph neural networks (GNNs) are vulnerable to adversarial perturbations, especially for topology attacks, and many methods that improve the robustness of GNNs have received considerable attention. Recently, we have witnessed the significant success of large language models (LLMs), leading many to explore the great potential of LLMs on GNNs. However, they mainly focus on improving the performance of GNNs by utilizing LLMs to enhance the node features. Therefore, we ask: Will the robustness of GNNs also be enhanced with the powerful understanding and inference capabilities of LLMs? By presenting the empirical results, we find that despite that LLMs can improve the robustness of GNNs, there is still an average decrease of 23.1% in accuracy, implying that the GNNs remain extremely vulnerable against topology attack. Therefore, another question is how to extend the capabilities of LLMs on graph adversarial robustness. In this paper, we propose an LLM-based robust graph structure inference framework, LLM4RGNN, which distills the inference capabilities of GPT-4 into a local LLM for identifying malicious edges and an LM-based edge predictor for finding missing important edges, so as to recover a robust graph structure. Extensive experiments demonstrate that LLM4RGNN consistently improves the robustness across various GNNs. Even in some cases where the perturbation ratio increases to 40%, the accuracy of GNNs is still better than that on the clean graph. | 翻訳日:2024-08-19 15:35:21 公開日:2024-08-16 |
# SC-Rec:シークエンシャルレコメンデーションのための自己整合性レコメンデーションによるジェネレーティブレコメンデーションの強化
SC-Rec: Enhancing Generative Retrieval with Self-Consistent Reranking for~Sequential Recommendation ( http://arxiv.org/abs/2408.08686v1 ) ライセンス: Link先を確認 | Tongyoung Kim, Soojin Yoon, Seongku Kang, Jinyoung Yeo, Dongha Lee, | (参考訳) 言語モデル(LM)は、高度な言語理解と生成能力のためにレコメンデーションシステムにますます採用されている。
生成検索に基づく最近のレコメンデータシステムは、LMの推論能力を利用して、ユーザのインタラクション履歴内のアイテムシーケンスに基づいて、次の項目のインデックストークンを直接生成している。
これまでの研究は主に、文章の意味や協調的な情報のみに基づく項目指標に重点を置いてきた。
しかし、これらの側面のスタンドアロンの有効性は実証されているものの、この情報の統合は未解明のままである。
詳細な分析の結果,異種項目の指標と多様な入力プロンプトから得られた知識に有意な差がみられ,相補性が高い可能性が示唆された。
本稿では,2つの異なる項目指標と複数のプロンプトテンプレートから多様な嗜好知識を学習する統合レコメンデーションシステムであるSC-Recを提案する。
さらに、SC-Recは、モデルの自己整合性を達成するために、異なる指標とプロンプトに基づいて推測される一連のランキング結果を集約する、新しいランク付け戦略を採用する。
実世界の3つのデータセットに対する実証的な評価は、SC-Recがシーケンシャルレコメンデーションのために最先端の手法をかなり上回り、モデルの様々な出力から補完的知識を効果的に組み込むことを示した。
Language Models (LMs) are increasingly employed in recommendation systems due to their advanced language understanding and generation capabilities. Recent recommender systems based on generative retrieval have leveraged the inferential abilities of LMs to directly generate the index tokens of the next item, based on item sequences within the user's interaction history. Previous studies have mostly focused on item indices based solely on textual semantic or collaborative information. However, although the standalone effectiveness of these aspects has been demonstrated, the integration of this information has remained unexplored. Our in-depth analysis finds that there is a significant difference in the knowledge captured by the model from heterogeneous item indices and diverse input prompts, which can have a high potential for complementarity. In this paper, we propose SC-Rec, a unified recommender system that learns diverse preference knowledge from two distinct item indices and multiple prompt templates. Furthermore, SC-Rec adopts a novel reranking strategy that aggregates a set of ranking results, inferred based on different indices and prompts, to achieve the self-consistency of the model. Our empirical evaluation on three real-world datasets demonstrates that SC-Rec considerably outperforms the state-of-the-art methods for sequential recommendation, effectively incorporating complementary knowledge from varied outputs of the model. | 翻訳日:2024-08-19 15:35:21 公開日:2024-08-16 |
# LLMのフェローシップ:合成選好最適化データセット生成のためのマルチエージェントワークフロー
The Fellowship of the LLMs: Multi-Agent Workflows for Synthetic Preference Optimization Dataset Generation ( http://arxiv.org/abs/2408.08688v1 ) ライセンス: Link先を確認 | Samee Arif, Sualeha Farid, Abdul Hameed Azeemi, Awais Athar, Agha Ali Raza, | (参考訳) 本稿では,PO(Synthetic Preference Optimization)データセット生成のためのマルチエージェントワークフローを提示し,評価する。
POデータセット生成には,(1)応答評価,(2)応答生成という2つのモジュールが必要である。
応答評価モジュールでは,Lumge Language Models (LLMs) からの応答を評価し,評価する。
反応評価モジュールを2段階のプロセスで評価する。
ステップ1では,LLMを3つの異なるプロンプト戦略を用いて評価する。
ステップ2では, LLM-as-a-Judge, LLMs-as-a-Jury, LLM Debateの性能の比較を行う。
それぞれのステップで、人間のアノテーションとLDM間のCohen's Kappaを用いたラスタ間合意を用いる。
応答生成モジュールについて、LLM評価器の設定を用いて、LLMフィードバックループの異なる構成を比較する。
我々は、勝利率(LLM評価器によって生成フレームワークがベストに選択される回数)を用いて、生成のための最適なマルチエージェント構成を決定する。
両方のモジュールで最適な設定を特定した後、GPT、Gemma、Llamaファミリーのモデルを使用して、上記のパイプラインを使用してPOデータセットを生成します。
我々は2種類のPOデータセットを生成し、1つは個々のLLMの生成能力を向上し、もう1つはマルチエージェントワークフローを改善する。
GPT4o-as-a-Judgeは,GPTファミリーからの応答を含まない場合,データセット間でより一貫性があることが評価された。
さらに、Llamaをジェネレータとし、GemmaをレビュアーとするLLMフィードバックループは、LlamaとGemmaをそれぞれ71.8%、73.8%の勝利率を達成した。
This paper presents and evaluates multi-agent workflows for synthetic Preference Optimization (PO) dataset generation. PO dataset generation requires two modules: (1) response evaluation, and (2) response generation. In the response evaluation module, the responses from Large Language Models (LLMs) are evaluated and ranked - a task typically carried out by human annotators that we automate using LLMs. We assess the response evaluation module in a 2 step process. In step 1, we assess LLMs as evaluators using three distinct prompting strategies. In step 2, we apply the winning prompting strategy to compare the performance of LLM-as-a-Judge, LLMs-as-a-Jury, and LLM Debate. In each step, we use inter-rater agreement using Cohen's Kappa between human annotators and LLMs. For the response generation module, we compare different configurations for the LLM Feedback Loop using the identified LLM evaluator configuration. We use the win rate (the fraction of times a generation framework is selected as the best by an LLM evaluator) to determine the best multi-agent configuration for generation. After identifying the best configurations for both modules, we use models from the GPT, Gemma, and Llama families to generate our PO datasets using the above pipeline. We generate two types of PO datasets, one to improve the generation capabilities of individual LLM and the other to improve the multi-agent workflow. Our evaluation shows that GPT-4o-as-a-Judge is more consistent across datasets when the candidate responses do not include responses from the GPT family. Additionally, we find that the LLM Feedback Loop, with Llama as the generator and Gemma as the reviewer, achieves a notable 71.8% and 73.8% win rate over single-agent Llama and Gemma, respectively. | 翻訳日:2024-08-19 15:35:21 公開日:2024-08-16 |
# 分散化された二面マッチング市場のための探索的アルゴリズム
Explore-then-Commit Algorithms for Decentralized Two-Sided Matching Markets ( http://arxiv.org/abs/2408.08690v1 ) ライセンス: Link先を確認 | Tejas Pagare, Avishek Ghosh, | (参考訳) オンライン学習は、需要側(プレイヤー)がサプライ側(アーム)と競合する分散化された二面マッチング市場において、マッチングプラットフォーム(UpWork、TaskRabbitなど)における複雑なインタラクションを抽象化するため、かなりの関心を集めている。
しかし、過去の研究は、各腕がプレイヤーよりも好みのランク(一方的な学習)を知っていると仮定しており、各プレイヤーは連続した相互作用を通じて武器よりも好みを学習することを目指している。
さらに、この問題に関するいくつかの(実践的でない)仮定は、通常、放送プレーヤーアームマッチのLiu et al (2020; 2021)、Kong & Li (2023)、シリアルディクテーターシップのSankararaman et al (2021)、Basu et al (2021)、Ghosh et al (2022)といった理論的なトラクタビリティに対してなされる。
本稿では,分散化された二面マッチング市場について検討し,プレイヤーに対する選好のランキングが腕のアプリオリ(apriori)で知られていると仮定する。
さらに、この問題に関する構造的な仮定は一切ない。
本稿では,エージェント(プレイヤとアーム)間の通信を必要としない問題に対して,エポックベースのCA-ETC(コリエーション回避探索,コミット)を提案する。
T_{\circ} の初期エポック長が$T_{\circ}$およびそれに続くエポック長が$2^{l/\gamma} T_{\circ}$ ($l-$th epoch with $\gamma \in (0,1)$) の場合、 \texttt{CA-ETC} は$\mathcal{O}\left(T_{\circ} (\frac{K \log T}{T_{\circ} \Delta^2})^{1/\gamma} + T_{\circ} (\frac{T}{T_{\circ}})^\gamma\right)$ ($T は$i$のプレイヤーで、$K は$1のアームの数であり、$K は$$$$$$$$のギャップを適切に定義する。
さらに,対数後悔を実現するブラックボード通信ベースラインを$T$で提案する。
Online learning in a decentralized two-sided matching markets, where the demand-side (players) compete to match with the supply-side (arms), has received substantial interest because it abstracts out the complex interactions in matching platforms (e.g. UpWork, TaskRabbit). However, past works assume that each arm knows their preference ranking over the players (one-sided learning), and each player aim to learn the preference over arms through successive interactions. Moreover, several (impractical) assumptions on the problem are usually made for theoretical tractability such as broadcast player-arm match Liu et al. (2020; 2021); Kong & Li (2023) or serial dictatorship Sankararaman et al. (2021); Basu et al. (2021); Ghosh et al. (2022). In this paper, we study a decentralized two-sided matching market, where we do not assume that the preference ranking over players are known to the arms apriori. Furthermore, we do not have any structural assumptions on the problem. We propose a multi-phase explore-then-commit type algorithm namely epoch-based CA-ETC (collision avoidance explore then commit) (\texttt{CA-ETC} in short) for this problem that does not require any communication across agents (players and arms) and hence decentralized. We show that for the initial epoch length of $T_{\circ}$ and subsequent epoch-lengths of $2^{l/\gamma} T_{\circ}$ (for the $l-$th epoch with $\gamma \in (0,1)$ as an input parameter to the algorithm), \texttt{CA-ETC} yields a player optimal expected regret of $\mathcal{O}\left(T_{\circ} (\frac{K \log T}{T_{\circ} \Delta^2})^{1/\gamma} + T_{\circ} (\frac{T}{T_{\circ}})^\gamma\right)$ for the $i$-th player, where $T$ is the learning horizon, $K$ is the number of arms and $\Delta$ is an appropriately defined problem gap. Furthermore, we propose a blackboard communication based baseline achieving logarithmic regret in $T$. | 翻訳日:2024-08-19 15:35:21 公開日:2024-08-16 |
# Med-PMC : アクティブAsk-First-Observe-Next Paradigmを用いた医療用マルチモーダルコンサルテーション
Med-PMC: Medical Personalized Multi-modal Consultation with a Proactive Ask-First-Observe-Next Paradigm ( http://arxiv.org/abs/2408.08693v1 ) ライセンス: Link先を確認 | Hongcheng Liu, Yusheng Liao, Siqv Ou, Yuhao Wang, Heyang Liu, Yanfeng Wang, Yu Wang, | (参考訳) 臨床シナリオにおけるMLLM(Multi-modal Large Language Models)の適用はいまだ検討されていない。
これまでのベンチマークでは、医療視覚質問応答(VQA)やレポート生成におけるMLLMの能力にのみ焦点をあてており、複雑な臨床マルチモーダルタスクにおけるMLLMの性能評価に失敗している。
本稿では,MLLMの臨床的能力を評価するために,医療パーソナライズド・マルチモーダル・コンサルテーション(Med-PMC)パラダイムを提案する。
Med-PMCは、MLLMが患者シミュレーターと対話し、マルチモーダルな情報収集と意思決定のタスクを完了する、シミュレーションされた臨床環境を構築する。
具体的には、患者シミュレーターは、実際のシナリオで多様な患者をシミュレートするパーソナライズされたアクターで装飾される。
12種類のMLLMにアクセスするための広範囲な実験を行い,MLLMの臨床成績を概観した。
その結果,現在のMLLMはマルチモーダル情報の収集に失敗し,パーソナライズされた患者シミュレーターに相談した場合に,意思決定タスクに潜在的なバイアスが生じることがわかった。
さらなる分析は、Med-PMCの有効性を示し、堅牢で信頼性の高い臨床MLLMの開発を導く可能性を示している。
コードとデータはhttps://github.com/LiuHC0428/Med-PMCで公開されている。
The application of the Multi-modal Large Language Models (MLLMs) in medical clinical scenarios remains underexplored. Previous benchmarks only focus on the capacity of the MLLMs in medical visual question-answering (VQA) or report generation and fail to assess the performance of the MLLMs on complex clinical multi-modal tasks. In this paper, we propose a novel Medical Personalized Multi-modal Consultation (Med-PMC) paradigm to evaluate the clinical capacity of the MLLMs. Med-PMC builds a simulated clinical environment where the MLLMs are required to interact with a patient simulator to complete the multi-modal information-gathering and decision-making task. Specifically, the patient simulator is decorated with personalized actors to simulate diverse patients in real scenarios. We conduct extensive experiments to access 12 types of MLLMs, providing a comprehensive view of the MLLMs' clinical performance. We found that current MLLMs fail to gather multimodal information and show potential bias in the decision-making task when consulted with the personalized patient simulators. Further analysis demonstrates the effectiveness of Med-PMC, showing the potential to guide the development of robust and reliable clinical MLLMs. Code and data are available at https://github.com/LiuHC0428/Med-PMC. | 翻訳日:2024-08-19 15:35:21 公開日:2024-08-16 |
# 自然言語処理による学生組織活動の効果の定量化
Quantifying the Effectiveness of Student Organization Activities using Natural Language Processing ( http://arxiv.org/abs/2408.08694v1 ) ライセンス: Link先を確認 | Lyberius Ennio F. Taruc, Arvin R. De La Cruz, | (参考訳) 学生の課外活動は、学生の教育経験を豊かにする上で重要な役割を担っている。
機械学習と自然言語処理の人気が高まるにつれ、ML-NLPを課外活動の改善に取り入れることが人工知能(AI)研究の潜在的焦点となる。
本研究の目的は、感情分析を用いて学生の感情反応に基づいて、学生が組織した活動の有効性を定量化する機械学習ワークフローを開発することである。
この研究は、pysentimientoツールキットを介して呼ばれるBERT(Large Language Model)からの双方向エンコーダ表現を、Hugging FaceのTransformerパイプラインとして使用している。
フィリピンの高等教育機関であるCollege Xの認知学生組織(RSO)であるOrganization Cから得られたサンプルデータをワークフローの開発に利用した。
ワークフローは、データ前処理、キー機能選択、LLM機能処理、スコアアグリゲーションで構成され、結果としてデータセット毎にEvent Scoreが生成される。
その結果,BERT LLMは製品レビューや投稿コメント以外の感情分析にも有効であることがわかった。
本研究は,教育機関の学生事務室において,NLPが実世界のシナリオにどのように適用できるかを実例として示し,データ駆動意思決定の潜在的影響を示す。
Student extracurricular activities play an important role in enriching the students' educational experiences. With the increasing popularity of Machine Learning and Natural Language Processing, it becomes a logical step that incorporating ML-NLP in improving extracurricular activities is a potential focus of study in Artificial Intelligence (AI). This research study aims to develop a machine learning workflow that will quantify the effectiveness of student-organized activities based on student emotional responses using sentiment analysis. The study uses the Bidirectional Encoder Representations from Transformers (BERT) Large Language Model (LLM) called via the pysentimiento toolkit, as a Transformer pipeline in Hugging Face. A sample data set from Organization C, a Recognized Student Organization (RSO) of a higher educational institute in the Philippines, College X, was used to develop the workflow. The workflow consisted of data preprocessing, key feature selection, LLM feature processing, and score aggregation, resulting in an Event Score for each data set. The results show that the BERT LLM can also be used effectively in analyzing sentiment beyond product reviews and post comments. For the student affairs offices of educational institutions, this study can provide a practical example of how NLP can be applied to real-world scenarios, showcasing the potential impact of data-driven decision making. | 翻訳日:2024-08-19 15:35:21 公開日:2024-08-16 |
# トラッシュを宝物に変える:トークンリサイクルによる大規模言語モデルの推論の高速化
Turning Trash into Treasure: Accelerating Inference of Large Language Models with Token Recycling ( http://arxiv.org/abs/2408.08696v1 ) ライセンス: Link先を確認 | Xianzhen Luo, Yixuan Wang, Qingfu Zhu, Zhiming Zhang, Xuanyu Zhang, Qing Yang, Dongliang Xu, Wanxiang Che, | (参考訳) 大規模言語モデル(LLM)のパラメータの急速な増加は、推論遅延を基本的なボトルネックとし、LLMの広範な適用を制限する。
投機的復号化(英: Speculative decoding)は、現代のハードウェアの並列能力を生かし、推測と検証のパラダイムを通じて推論を加速する損失のないアプローチである。
いくつかの投機的復号法は、小さなモデルやパラメータ効率のアーキテクチャなど、使用する前に追加のトレーニングを必要とするドラフトトークンを推測するための追加構造に依存している。
あるいは、既存のコーパスやn-gram生成によるライブラリを検索ベースで構築する。
しかし、大きなストレージ要件、時間を要する検索、適応性の制限といった課題に直面している。
復号処理中に生成した候補トークンが,将来のシーケンスで再発見される可能性が示唆された。
この手法では、候補トークンを隣接行列に格納し、行列上に幅優先探索(BFS)のようなアルゴリズムを用いてドラフトツリーを構築する。
木は木々の注意によって検証される。
その後、デコードプロセスから新しい候補トークンを使用してマトリックスを更新する。
Tokenリサイクリングには‘textless2MB’の追加ストレージが必要で、LLMのすべてのサイズで約2倍のスピードアップを実現している。
既存の列車不要の手法を30倍、訓練方法さえ25倍に大きく上回っている。
既存のLLMやタスクに適応することなく直接適用することができる。
The rapid growth in the parameters of large language models (LLMs) has made inference latency a fundamental bottleneck, limiting broader application of LLMs. Speculative decoding represents a lossless approach to accelerate inference through a guess-and-verify paradigm, leveraging the parallel capabilities of modern hardware. Some speculative decoding methods rely on additional structures to guess draft tokens, such as small models or parameter-efficient architectures, which need extra training before use. Alternatively, retrieval-based train-free techniques build libraries from pre-existing corpora or by n-gram generation. However, they face challenges like large storage requirements, time-consuming retrieval, and limited adaptability. Observing that candidate tokens generated during the decoding process are likely to reoccur in future sequences, we propose Token Recycling. This approach stores candidate tokens in an adjacency matrix and employs a breadth-first search (BFS)-like algorithm on the matrix to construct a draft tree. The tree is then validated through tree attention. New candidate tokens from the decoding process are then used to update the matrix. Token Recycling requires \textless2MB of additional storage and achieves approximately 2x speedup across all sizes of LLMs. It significantly outperforms existing train-free methods by 30\% and even a training method by 25\%. It can be directly applied to any existing LLMs and tasks without the need for adaptation. | 翻訳日:2024-08-19 15:35:21 公開日:2024-08-16 |
# NFDI4DSO:データサイエンスのためのBFO準拠オントロジーを目指して
NFDI4DSO: Towards a BFO Compliant Ontology for Data Science ( http://arxiv.org/abs/2408.08698v1 ) ライセンス: Link先を確認 | Genet Asefa Gesese, Jörg Waitelonis, Zongxiong Chen, Sonja Schimmler, Harald Sack, | (参考訳) NFDI4DataScience(NFDI4DS)プロジェクトは、デジタルアーティファクトを接続し、FAIR(Findable, Accessible, Interoperable, Reusable)の原則に準拠することによる、データサイエンス(DS)と人工知能(AI)における研究データのアクセシビリティと相互運用性の向上を目的としている。
この目的のために、このポスターでは、DSとAIのリソースを記述し、NFDI4DSコンソーシアムの構造をモデル化するNFDI4DSオントロジーを紹介している。
NFDICoreオントロジーに基づいて構築され、Basic Formal Ontology (BFO)にマッピングされたこのオントロジーは、現在開発中のNFDI4DS知識グラフの基礎となっている。
The NFDI4DataScience (NFDI4DS) project aims to enhance the accessibility and interoperability of research data within Data Science (DS) and Artificial Intelligence (AI) by connecting digital artifacts and ensuring they adhere to FAIR (Findable, Accessible, Interoperable, and Reusable) principles. To this end, this poster introduces the NFDI4DS Ontology, which describes resources in DS and AI and models the structure of the NFDI4DS consortium. Built upon the NFDICore ontology and mapped to the Basic Formal Ontology (BFO), this ontology serves as the foundation for the NFDI4DS knowledge graph currently under development. | 翻訳日:2024-08-19 15:35:21 公開日:2024-08-16 |
# RBLA:FLaaSにおける微調整不均一モデルのランクベースロラ集約
RBLA: Rank-Based-LoRA-Aggregation for Fine-tuning Heterogeneous Models in FLaaS ( http://arxiv.org/abs/2408.08699v1 ) ライセンス: Link先を確認 | Shuaijun Chen, Omid Tavallaie, Niousha Nazemi, Albert Y. Zomaya, | (参考訳) Federated Learning(FL)は、モバイルデバイスやデスクトップ、CPUやGPUを備えたデバイスなど、さまざまなデバイスにデプロイ可能な、プライバシーに配慮した分散型学習フレームワークである。
サーバベースのフェデレートラーニング・アズ・ア・サービス(FLaas)のコンテキストにおいて、FLは、中央サーバがローカルデータに直接アクセスすることなく、複数のデバイス間でトレーニングプロセスを調整することを可能にする。
Low-Rank Adaptation (LoRA) は、モデルのパラメータの低次元部分空間に焦点をあてることで、モデルを効率的に微調整する手法である。
このアプローチは、すべてのパラメータをスクラッチから微調整するのに比べて、計算とメモリのコストを大幅に削減する。
特にFLaas環境でFLと統合された場合、LoRAはローカルモデルのランクを調整することで様々な計算能力を持つ様々なハードウェアに柔軟で効率的な展開を可能にする。
しかし、LoRA対応のFLでは、異なるクライアントが様々なランクのモデルをトレーニングすることができるため、サーバ上でモデルアグリゲーションが困難になる。
異なるランクのモデルを集約する現在の方法は、パディングウェイトを均一な形状にし、グローバルモデルの性能を低下させることができる。
この問題を解決するために,不均質なLoRA構造のための新しいモデル集約手法であるRange-Based LoRA Aggregation (RBLA)を提案する。
RBLAは、異なるランクのモデルにまたがる重要な特徴を保存している。
本稿では,FLaas環境におけるアグリゲーションモデルを再形成する現在のパディング手法の問題点を解析する。
RBLAは,低ランクと高ランクの両特徴を両立するランクベースアグリゲーション手法である。
最後に,最先端手法との比較実験により,RBLAの有効性を実証した。
Federated Learning (FL) is a promising privacy-aware distributed learning framework that can be deployed on various devices, such as mobile phones, desktops, and devices equipped with CPUs or GPUs. In the context of server-based Federated Learning as a Service (FLaas), FL enables the central server to coordinate the training process across multiple devices without direct access to the local data, thereby enhancing privacy and data security. Low-Rank Adaptation (LoRA) is a method that fine-tunes models efficiently by focusing on a low-dimensional subspace of the model's parameters. This approach significantly reduces computational and memory costs compared to fine-tuning all parameters from scratch. When integrated with FL, especially in a FLaas environment, LoRA allows for flexible and efficient deployment across diverse hardware with varying computational capabilities by adjusting the local model's rank. However, in LoRA-enabled FL, different clients may train models with varying ranks, which poses a challenge for model aggregation on the server. Current methods of aggregating models of different ranks require padding weights to a uniform shape, which can degrade the global model's performance. To address this issue, we propose Rank-Based LoRA Aggregation (RBLA), a novel model aggregation method designed for heterogeneous LoRA structures. RBLA preserves key features across models with different ranks. This paper analyzes the issues with current padding methods that reshape models for aggregation in a FLaas environment. Then, we introduce RBLA, a rank-based aggregation method that maintains both low-rank and high-rank features. Finally, we demonstrate the effectiveness of RBLA through comparative experiments with state-of-the-art methods. | 翻訳日:2024-08-19 15:35:21 公開日:2024-08-16 |
# HyCoT:効率的なトレーニング戦略を備えたハイパースペクトル圧縮変圧器
HyCoT: Hyperspectral Compression Transformer with an Efficient Training Strategy ( http://arxiv.org/abs/2408.08700v1 ) ライセンス: Link先を確認 | Martin Hermann Paul Fuchs, Behnood Rasti, Begüm Demir, | (参考訳) 近年,学習型ハイパースペクトル画像(HSI)圧縮モデルの開発が注目されている。
既存のモデルは、主に畳み込みフィルタを使用し、ローカル依存関係のみをキャプチャする。
さらに、彼らはしばしば高いトレーニングコストを発生させ、相当な計算複雑性を示す。
本稿では,HSI圧縮のためのトランスを用いたオートエンコーダであるHyperspectral Compression Transformer (HyCoT)を提案する。
さらに,トレーニングプロセスの高速化のための効率的なトレーニング戦略も導入する。
HySpecNet-11kデータセットの実験結果は、HyCoTが計算要求を大幅に低減した1dB以上の圧縮比で最先端を超越していることを示している。
私たちのコードと事前トレーニングされたウェイトはhttps://git.tu-berlin.de/rsim/hycot.orgで公開されています。
The development of learning-based hyperspectral image (HSI) compression models has recently attracted significant interest. Existing models predominantly utilize convolutional filters, which capture only local dependencies. Furthermore, they often incur high training costs and exhibit substantial computational complexity. To address these limitations, in this paper we propose Hyperspectral Compression Transformer (HyCoT) that is a transformer-based autoencoder for pixelwise HSI compression. Additionally, we introduce an efficient training strategy to accelerate the training process. Experimental results on the HySpecNet-11k dataset demonstrate that HyCoT surpasses the state-of-the-art across various compression ratios by over 1 dB with significantly reduced computational requirements. Our code and pre-trained weights are publicly available at https://git.tu-berlin.de/rsim/hycot . | 翻訳日:2024-08-19 15:35:21 公開日:2024-08-16 |
# ジェット画像分類のための量子畳み込みニューラルネットワーク
Quantum convolutional neural networks for jet images classification ( http://arxiv.org/abs/2408.08701v1 ) ライセンス: Link先を確認 | Hala Elhag, Karl Jansen, Lento Nagano, Alice di Tucci, | (参考訳) 近年、量子コンピューティングへの関心は、古典的手法よりも潜在的に有利なことから、著しく高まっている。
量子機械学習(QML)は、古典的な機械学習を広範囲のインスタンスで超越することが期待される重要な量子コンピューティングアプリケーションの1つを例示する。
本稿では,高エネルギー物理(HEP)におけるQMLの性能について述べる。
例えば、古典的畳み込みニューラルネットワーク(CNN)が有効だが、高エネルギージェット画像を扱う際には精度が低いトップクォークタグに注目する。
本稿では,量子畳み込みニューラルネットワーク(QCNN)を用いて,その性能を従来のノイズレスシミュレータを用いてCNNと比較する。
我々はQCNNの様々な設定を比較し、畳み込み回路、エンコーディングの種類、損失関数、バッチサイズを変化させる。
任意の量子集合に対して、等価な比較のために、対応する古典的モデルに類似した構成を設計する。
以上の結果から,適切な設定を持つQCNNは,特に畳み込みブロックのパラメータ数が低い場合には,CNNよりも優れた性能を示す傾向が示唆された。
このことは、量子モデル、特に適切なエンコーディングでは、トップクォークジェットタグ付けのようなHEPタスクのパフォーマンスを高める可能性を秘めていることを示唆している。
Recently, interest in quantum computing has significantly increased, driven by its potential advantages over classical techniques. Quantum machine learning (QML) exemplifies one of the important quantum computing applications that are expected to surpass classical machine learning in a wide range of instances. This paper addresses the performance of QML in the context of high-energy physics (HEP). As an example, we focus on the top-quark tagging, for which classical convolutional neural networks (CNNs) have been effective but fall short in accuracy when dealing with highly energetic jet images. In this paper, we use a quantum convolutional neural network (QCNN) for this task and compare its performance with CNN using a classical noiseless simulator. We compare various setups for the QCNN, varying the convolutional circuit, type of encoding, loss function, and batch sizes. For every quantum setup, we design a similar setup to the corresponding classical model for a fair comparison. Our results indicate that QCNN with proper setups tend to perform better than their CNN counterparts, particularly when the convolution block has a lower number of parameters. This suggests that quantum models, especially with appropriate encodings, can hold potential promise for enhancing performance in HEP tasks such as top quark jet tagging. | 翻訳日:2024-08-19 15:35:21 公開日:2024-08-16 |
# TsCA:コンポジションゼロショット学習のためのコンディショナルトランスポートによるセマンティック一貫性アライメントについて
TsCA: On the Semantic Consistency Alignment via Conditional Transport for Compositional Zero-Shot Learning ( http://arxiv.org/abs/2408.08703v1 ) ライセンス: Link先を確認 | Miaoge Li, Jingcai Guo, Richard Yi Da Xu, Dongsheng Wang, Xiaofeng Cao, Song Guo, | (参考訳) 合成ゼロショット学習 (CZSL) は, 基本コンポーネントの共有知識を活用することで, 新規な \textit{state-object} 合成を認識することを目的としている。
かなりの進歩にもかかわらず、意味的に類似したマルチモーダル表現間のバイアスを効果的に調整し、事前学習された知識を新しい構成文脈に一般化することは、持続的な課題である。
本稿では,条件伝達(CT)理論とそのホモロジーをCZSLにおける視覚・セマンティック相互作用に再考すること,さらにこれらの問題によく適応する新しい三値整合性フレームワーク(TsCA)を提案する。
具体的には、パッチ、プリミティブ、コンポジションの3つの異なる意味的相同性集合を用いて、その意味的相違を最小限に抑えるために、ペアワイズCTコストを構築する。
これらの集合内の整合性伝達をさらに確実にするため、モダリティに関係なく、輸送フロー中の自己マッピングの特徴的整合性を保証することによって学習を洗練させるサイクル整合性制約を実装した。
さらに,CTプランをオープンワールド設定に拡張することで,非実現不可能なペアを効果的にフィルタリングし,推論を高速化し,精度を向上する。
提案手法の有効性を検証するため, 広範囲な実験を行った。
Compositional Zero-Shot Learning (CZSL) aims to recognize novel \textit{state-object} compositions by leveraging the shared knowledge of their primitive components. Despite considerable progress, effectively calibrating the bias between semantically similar multimodal representations, as well as generalizing pre-trained knowledge to novel compositional contexts, remains an enduring challenge. In this paper, our interest is to revisit the conditional transport (CT) theory and its homology to the visual-semantics interaction in CZSL and further, propose a novel Trisets Consistency Alignment framework (dubbed TsCA) that well-addresses these issues. Concretely, we utilize three distinct yet semantically homologous sets, i.e., patches, primitives, and compositions, to construct pairwise CT costs to minimize their semantic discrepancies. To further ensure the consistency transfer within these sets, we implement a cycle-consistency constraint that refines the learning by guaranteeing the feature consistency of the self-mapping during transport flow, regardless of modality. Moreover, we extend the CT plans to an open-world setting, which enables the model to effectively filter out unfeasible pairs, thereby speeding up the inference as well as increasing the accuracy. Extensive experiments are conducted to verify the effectiveness of the proposed method. | 翻訳日:2024-08-19 15:35:21 公開日:2024-08-16 |
# Beyond the Hype:医療シナリオにおける視覚言語モデルへの思いやり
Beyond the Hype: A dispassionate look at vision-language models in medical scenario ( http://arxiv.org/abs/2408.08704v1 ) ライセンス: Link先を確認 | Yang Nan, Huichi Zhou, Xiaodan Xing, Guang Yang, | (参考訳) 近年のLVLM(Large Vision-Language Models)の進歩は、さまざまなタスクにまたがる顕著な能力を示し、AIコミュニティにおいて大きな注目を集めている。
しかし、医学などの専門分野における性能や信頼性は依然として十分に評価されていない。
特に,視覚質問応答(VQA)に基づくマルチモーダルデータに基づくVLMの評価において,LVLMの奥行き特性を無視しながら過大な評価を行う場合が多い。
本研究では,既存のLVLMを包括的に評価するために,RadVUQA(Radlogical Visual Understanding and Question Answering benchmark)を導入する。
RadVUQAは主に5次元にわたるLVLMを検証する。
1) 生物学的構造を視覚的に識別するモデルの能力を評価する解剖学的理解
2 言語的・視覚的指示を解釈して所望の成果を生ずる多モーダル理解
3 定量的・空間的推論、定量的分析と視覚的・言語的情報の組み合わせにおけるモデルの空間的意識と熟練度の評価
4) 生理的知識、臓器及びシステムの機能及び機構を理解するためのモデルの能力を測定すること。
5) 調和のない合成データに対してモデルの能力を評価するロバストネス。
その結果,一般LVLMと医用LVLMの両方が,マルチモーダル理解の弱さと定量的推論能力に重大な欠陥があることが示唆された。
既存のLVLMと臨床医の間には大きなギャップがあり,より堅牢でインテリジェントなLVLMの必要性が浮かび上がっている。
この論文の受理後、コードとデータセットが利用可能になる。
Recent advancements in Large Vision-Language Models (LVLMs) have demonstrated remarkable capabilities across diverse tasks, garnering significant attention in AI communities. However, their performance and reliability in specialized domains such as medicine remain insufficiently assessed. In particular, most assessments over-concentrate in evaluating VLMs based on simple Visual Question Answering (VQA) on multi-modality data, while ignoring the in-depth characteristic of LVLMs. In this study, we introduce RadVUQA, a novel Radiological Visual Understanding and Question Answering benchmark, to comprehensively evaluate existing LVLMs. RadVUQA mainly validates LVLMs across five dimensions: 1) Anatomical understanding, assessing the models' ability to visually identify biological structures; 2) Multimodal comprehension, which involves the capability of interpreting linguistic and visual instructions to produce desired outcomes; 3) Quantitative and spatial reasoning, evaluating the models' spatial awareness and proficiency in combining quantitative analysis with visual and linguistic information; 4) Physiological knowledge, measuring the models' capability to comprehend functions and mechanisms of organs and systems; and 5) Robustness, which assesses the models' capabilities against unharmonised and synthetic data. The results indicate that both generalized LVLMs and medical-specific LVLMs have critical deficiencies with weak multimodal comprehension and quantitative reasoning capabilities. Our findings reveal the large gap between existing LVLMs and clinicians, highlighting the urgent need for more robust and intelligent LVLMs. The code and dataset will be available after the acceptance of this paper. | 翻訳日:2024-08-19 15:35:21 公開日:2024-08-16 |
# 強化学習のための効率的な多目的評価
Efficient Multi-Policy Evaluation for Reinforcement Learning ( http://arxiv.org/abs/2408.08706v1 ) ライセンス: Link先を確認 | Shuze Liu, Yuxin Chen, Shangtong Zhang, | (参考訳) 複数の目標政策を不公平に評価するために、RL実践者の間で支配的なアプローチは、それぞれの目標政策を個別に実行し、評価することである。
しかし、この評価手法は、政策間でサンプルが共有されず、自らを評価するための目標ポリシーの実行が実際は最適ではないため、効率的とは程遠い。
本稿では,これらの2つの弱点に対処し,対象とするすべての政策における推定値のばらつきを低減するために,調整された行動ポリシーを設計する。
理論的には、この行動方針を多倍のサンプルで実行することは、特徴条件下での全ての目標政策において、政治上の評価よりも優れていることを証明している。
実験により, 従来手法と比較して, 推定器のばらつきは著しく低く, 幅広い環境下での最先端性能を実現していることがわかった。
To unbiasedly evaluate multiple target policies, the dominant approach among RL practitioners is to run and evaluate each target policy separately. However, this evaluation method is far from efficient because samples are not shared across policies, and running target policies to evaluate themselves is actually not optimal. In this paper, we address these two weaknesses by designing a tailored behavior policy to reduce the variance of estimators across all target policies. Theoretically, we prove that executing this behavior policy with manyfold fewer samples outperforms on-policy evaluation on every target policy under characterized conditions. Empirically, we show our estimator has a substantially lower variance compared with previous best methods and achieves state-of-the-art performance in a broad range of environments. | 翻訳日:2024-08-19 15:35:21 公開日:2024-08-16 |
# 大規模言語モデルに基づくビーム予測
Beam Prediction based on Large Language Models ( http://arxiv.org/abs/2408.08707v1 ) ライセンス: Link先を確認 | Yucheng Sheng, Kai Huang, Le Liang, Peng Liu, Shi Jin, Geoffrey Ye Li, | (参考訳) ミリ波通信は次世代無線ネットワークに期待できるが、大きな経路損失を被り、広範囲のアンテナアレイと頻繁なビーム訓練を必要とする。
長短期記憶(LSTM)のような従来のディープラーニングモデルでは、ビーム追跡精度が向上するが、ロバスト性や一般化が不足している。
本稿では,大規模言語モデル(LLM)を用いて,ビーム予測の堅牢性を向上させる。
時系列データをテキストベース表現に変換し,文脈豊か化のためのPrompt-as-Prefix(PaP)技術を用いることで,時系列予測のためのLLMの強度を解放する。
シミュレーションの結果,LSTMモデルに比べ,LLM法はロバスト性および一般化性に優れ,無線通信におけるLLMの可能性を示している。
Millimeter-wave (mmWave) communication is promising for next-generation wireless networks but suffers from significant path loss, requiring extensive antenna arrays and frequent beam training. Traditional deep learning models, such as long short-term memory (LSTM), enhance beam tracking accuracy however are limited by poor robustness and generalization. In this letter, we use large language models (LLMs) to improve the robustness of beam prediction. By converting time series data into text-based representations and employing the Prompt-as-Prefix (PaP) technique for contextual enrichment, our approach unleashes the strength of LLMs for time series forecasting. Simulation results demonstrate that our LLM-based method offers superior robustness and generalization compared to LSTM-based models, showcasing the potential of LLMs in wireless communications. | 翻訳日:2024-08-19 15:35:21 公開日:2024-08-16 |
# マルチモーダル脳腫瘍切除におけるEgoおよび他のモダリティの非結合的特徴表現
Decoupling Feature Representations of Ego and Other Modalities for Incomplete Multi-modal Brain Tumor Segmentation ( http://arxiv.org/abs/2408.08708v1 ) ライセンス: Link先を確認 | Kaixiang Yang, Wenqi Shan, Xudong Li, Xuan Wang, Xikai Yang, Xi Wang, Pheng-Ann Heng, Qiang Li, Zhiwei Wang, | (参考訳) マルチモーダル脳腫瘍セグメンテーションは一般的に4つのMRIモダリティを含むが、不完全なモダリティは性能を著しく低下させる。
既存のソリューションでは、明示的あるいは暗黙的なモダリティ適応、モダリティを越えた特徴の整列、あるいはモダリティの不完全性に頑健な融合特徴の学習が採用されている。
彼らは、それぞれのモダリティに自身と他の両方を表現するよう奨励する共通の目標を共有しています。
しかし、この2つの表現能力は、全体としてシームレスな特徴空間に絡み合っており、結果として禁止的な学習負担が生じる。
本稿では,エゴや他のモダリティを表現するタスクを,頑健な不完全なマルチモーダルセグメンテーションのためにデカップリングすることで,モダリティ適応を向上するDeMoSegを提案する。
分離は2つの畳み込みを使い、各モダリティを4つの特徴部分空間にマッピングすることで超軽量である。
最初の部分空間は自身 (Self-feature) を表現し、残りの部分空間は他のモジュラリティ (Mutual-features) を代用する。
Sparse Self-Attention (CSSA)により、自己と相互の特徴が相互に相互にガイドされる。
その後、RCR(Radioologist-mimic Cross-modality Expression Relations)が導入され、臨床の事前知識を利用して、自己機能を提供し、その相互機能に補うことができる。
BraTS2020、BraTS2018、BraTS2015のベンチマーク結果は、緩和されたモダリティ適応困難のため、DeMoSegの優位性を検証する。
具体的には、BraTS2020では、DeMoSegは他の最先端と比較して、腫瘍全体、腫瘍コア、強化腫瘍領域において、Diceを少なくとも0.92%、2.95%、および4.95%増加させる。
コードはhttps://github.com/kk42yy/DeMoSegにある。
Multi-modal brain tumor segmentation typically involves four magnetic resonance imaging (MRI) modalities, while incomplete modalities significantly degrade performance. Existing solutions employ explicit or implicit modality adaptation, aligning features across modalities or learning a fused feature robust to modality incompleteness. They share a common goal of encouraging each modality to express both itself and the others. However, the two expression abilities are entangled as a whole in a seamless feature space, resulting in prohibitive learning burdens. In this paper, we propose DeMoSeg to enhance the modality adaptation by Decoupling the task of representing the ego and other Modalities for robust incomplete multi-modal Segmentation. The decoupling is super lightweight by simply using two convolutions to map each modality onto four feature sub-spaces. The first sub-space expresses itself (Self-feature), while the remaining sub-spaces substitute for other modalities (Mutual-features). The Self- and Mutual-features interactively guide each other through a carefully-designed Channel-wised Sparse Self-Attention (CSSA). After that, a Radiologist-mimic Cross-modality expression Relationships (RCR) is introduced to have available modalities provide Self-feature and also `lend' their Mutual-features to compensate for the absent ones by exploiting the clinical prior knowledge. The benchmark results on BraTS2020, BraTS2018 and BraTS2015 verify the DeMoSeg's superiority thanks to the alleviated modality adaptation difficulty. Concretely, for BraTS2020, DeMoSeg increases Dice by at least 0.92%, 2.95% and 4.95% on whole tumor, tumor core and enhanced tumor regions, respectively, compared to other state-of-the-arts. Codes are at https://github.com/kk42yy/DeMoSeg | 翻訳日:2024-08-19 15:24:50 公開日:2024-08-16 |
# Beyond Kan: CTR予測における適応的高次特徴相互作用モデリングのためのKarSeinの導入
Beyond KAN: Introducing KarSein for Adaptive High-Order Feature Interaction Modeling in CTR Prediction ( http://arxiv.org/abs/2408.08713v1 ) ライセンス: Link先を確認 | Yunxiao Shi, Wujiang Wu, Mingyu Jin, Haimin Zhang, Qiang Wu, Yongfeng Zhang, Min Xu, | (参考訳) 特徴的相互作用のモデル化はクリックスルー率(CTR)予測に不可欠である。
従来の手法は、しばしば、事前知識に大きく依存し、モデルの有効性を制限できる最大限の相互作用順序を事前に定義するため、このタスクに苦労する。
さらに、高次相互作用のモデリングは一般的に計算コストの増大につながる。
したがって、効率を保ちながら高次特徴相互作用を適応的にモデル化することが課題である。
この問題に対処するために,予測精度と計算効率の両方を最適化するために設計されたKarSein(Kolmogorov-Arnold Represented Sparse Efficient Interaction Network)を導入する。
まず,CTRにKANを直接適用することの限界を特定し,これらの問題を克服するためにKarSeinを導入する。
これはkanの計算コストを削減し、特徴入力として埋め込みベクトルをサポートする新しいアーキテクチャである。
さらに、KarSeinは、自然に乗法関係を学習するカンの課題に対処するために、ガイド付き記号レグレッションを採用している。
大規模な実験はKarlSeinの優れた性能を示し、計算オーバーヘッドを最小限に抑えて予測精度を著しく向上させる。
さらに、KarSeinは、冗長な機能の削除を可能にしながら、強力なグローバルな説明可能性を維持し、その結果、疎結合なネットワーク構造となる。
これらの利点は、KarSeinを効率的な推論の有望な方法として位置づけている。
Modeling feature interactions is crucial for click-through rate (CTR) prediction, particularly when it comes to high-order explicit interactions. Traditional methods struggle with this task because they often predefine a maximum interaction order, which relies heavily on prior knowledge and can limit the model's effectiveness. Additionally, modeling high-order interactions typically leads to increased computational costs. Therefore, the challenge lies in adaptively modeling high-order feature interactions while maintaining efficiency. To address this issue, we introduce Kolmogorov-Arnold Represented Sparse Efficient Interaction Network (KarSein), designed to optimize both predictive accuracy and computational efficiency. We firstly identify limitations of directly applying Kolmogorov-Arnold Networks (KAN) to CTR and then introduce KarSein to overcome these issues. It features a novel architecture that reduces the computational costs of KAN and supports embedding vectors as feature inputs. Additionally, KarSein employs guided symbolic regression to address the challenge of KAN in spontaneously learning multiplicative relationships. Extensive experiments demonstrate KarSein's superior performance, achieving significant predictive accuracy with minimal computational overhead. Furthermore, KarSein maintains strong global explainability while enabling the removal of redundant features, resulting in a sparse network structure. These advantages also position KarSein as a promising method for efficient inference. | 翻訳日:2024-08-19 15:24:50 公開日:2024-08-16 |
# IIoTにおけるプライバシ駆動型異常検出のためのバッファリングフェデレーション学習フレームワーク
A Novel Buffered Federated Learning Framework for Privacy-Driven Anomaly Detection in IIoT ( http://arxiv.org/abs/2408.08722v1 ) ライセンス: Link先を確認 | Samira Kamali Poorazad, Chafika Benzaid, Tarik Taleb, | (参考訳) 産業用IoT(Industrial Internet of Things)は、データプライバシとサイバーセキュリティの脅威に非常に敏感である。
フェデレートラーニング(FL)は、プライバシ保護のためのソリューションとして登場し、プライベートデータをローカルIIoTクライアントに保持するとともに、協調トレーニングモデルによるネットワーク異常の検出を可能にしている。
しかし、同期と非同期両方のFLアーキテクチャは、特にデータの不均一性やリソースの制約により、クライアントを様々な速度で処理する場合に制限がある。
同期アーキテクチャはストラグラー効果に悩まされ、非同期メソッドは通信ボトルネックに遭遇する。
さらに、FLモデルは、プライベートトレーニングデータを開示する目的で、敵の推論攻撃をしがちである。
これらの課題に対処するために、異種IIoT環境における異常検出のための同相暗号によって強化されたバッファ付きFL(BFL)フレームワークを提案する。
BFLは、トラグラー効果と通信ボトルネックを緩和し、バッファベースのサーバとの協調を通じて、処理速度の異なるクライアント間の公平性を確保するために、新しい重み付き平均時間アプローチを利用する。
2つのデータセットから得られた性能結果は、最先端のFL法と比較してBFLの優位性を示し、プライバシー保護を向上しながら精度と収束速度を改善した。
Industrial Internet of Things (IIoT) is highly sensitive to data privacy and cybersecurity threats. Federated Learning (FL) has emerged as a solution for preserving privacy, enabling private data to remain on local IIoT clients while cooperatively training models to detect network anomalies. However, both synchronous and asynchronous FL architectures exhibit limitations, particularly when dealing with clients with varying speeds due to data heterogeneity and resource constraints. Synchronous architecture suffers from straggler effects, while asynchronous methods encounter communication bottlenecks. Additionally, FL models are prone to adversarial inference attacks aimed at disclosing private training data. To address these challenges, we propose a Buffered FL (BFL) framework empowered by homomorphic encryption for anomaly detection in heterogeneous IIoT environments. BFL utilizes a novel weighted average time approach to mitigate both straggler effects and communication bottlenecks, ensuring fairness between clients with varying processing speeds through collaboration with a buffer-based server. The performance results, derived from two datasets, show the superiority of BFL compared to state-of-the-art FL methods, demonstrating improved accuracy and convergence speed while enhancing privacy preservation. | 翻訳日:2024-08-19 15:24:50 公開日:2024-08-16 |
# NVS用対応型SfMフリー3次元ガウス平板
Correspondence-Guided SfM-Free 3D Gaussian Splatting for NVS ( http://arxiv.org/abs/2408.08723v1 ) ライセンス: Link先を確認 | Wei Sun, Xiaosong Zhang, Fang Wan, Yanzhao Zhou, Yuan Li, Qixiang Ye, Jianbin Jiao, | (参考訳) SfM (Structure-from-Motion) (SfM) 事前処理されたカメラのポーズのない新しいビュー合成 (NVS) は、迅速な応答能力の向上と可変動作条件に対する堅牢性の向上に不可欠である。
最近のSfMフリー手法は、ポーズ最適化を統合し、共同カメラのポーズ推定とNVSのためのエンドツーエンドフレームワークを設計している。
しかし、既存の作業の多くは、L2損失のようなピクセル単位の画像損失関数に依存している。
SfMフリーの手法では、不正確な初期ポーズは、画素ごとの画像損失関数の制約の下で過度な勾配を生じ、不安定な最適化とNVSの収束不良を引き起こす、誤調整問題を引き起こす。
本研究では,NVSのためのSfMフリー3次元ガウススプラッティングを提案する。
ターゲットとレンダリングされた結果との対応を利用して、フレーム間の相対的なポーズの最適化を容易にし、より優れた画素アライメントを実現する。
次に、学習したポーズを適用して、シーン全体を最適化します。
それぞれの2Dスクリーン空間ピクセルは、その対応する3Dガウシアンと近似された表面レンダリングによって関連付けられ、勾配のバック伝搬を容易にする。
実験結果は,最先端のベースラインと比較して,提案手法の優れた性能と時間効率を裏付けるものである。
Novel View Synthesis (NVS) without Structure-from-Motion (SfM) pre-processed camera poses--referred to as SfM-free methods--is crucial for promoting rapid response capabilities and enhancing robustness against variable operating conditions. Recent SfM-free methods have integrated pose optimization, designing end-to-end frameworks for joint camera pose estimation and NVS. However, most existing works rely on per-pixel image loss functions, such as L2 loss. In SfM-free methods, inaccurate initial poses lead to misalignment issue, which, under the constraints of per-pixel image loss functions, results in excessive gradients, causing unstable optimization and poor convergence for NVS. In this study, we propose a correspondence-guided SfM-free 3D Gaussian splatting for NVS. We use correspondences between the target and the rendered result to achieve better pixel alignment, facilitating the optimization of relative poses between frames. We then apply the learned poses to optimize the entire scene. Each 2D screen-space pixel is associated with its corresponding 3D Gaussians through approximated surface rendering to facilitate gradient back propagation. Experimental results underline the superior performance and time efficiency of the proposed approach compared to the state-of-the-art baselines. | 翻訳日:2024-08-19 15:24:50 公開日:2024-08-16 |
# ChatZero:擬似ターゲット言語によるゼロショット対話生成
ChatZero:Zero-shot Cross-Lingual Dialogue Generation via Pseudo-Target Language ( http://arxiv.org/abs/2408.08724v1 ) ライセンス: Link先を確認 | Yongkang Liu, Feng Shi, Daling Wang, Yifei Zhang, Hinrich Schütze, | (参考訳) 大規模言語モデル(LLM)は驚くべき機能を示しているが、LLMで発見された様々なエキサイティングなアプリケーションは、他の低リソース言語では不足している。
さらに、既存のほとんどの手法は大規模対話コーパスに依存しており、ゼロショットシナリオでの対話生成システムを構築することは大きな課題である。
この課題に対処するために,言語間コードスイッチング法に基づく,エンドツーエンドのゼロショット対話生成モデルChatZeroを提案する。
まず,プレースホルダーを用いたコードスイッチング言語と擬似ターゲット言語を構築する。
そして、言語間セマンティックトランスファーにおいて、高次元セマンティック空間における相互正の例であるソースコード、コードスイッチング言語、擬似ターゲット言語のセマンティックスギャップを最小限に抑えるために、教師なしのコントラスト学習を用いる。
多言語DailyDialogとDSTC7-AVSDデータセットの実験により、ChatZeroは教師付き学習と比較してゼロショットケースで90%以上のパフォーマンスを達成でき、他のベースラインと比較して最先端のパフォーマンスを達成できることが示された。
Although large language models(LLMs) show amazing capabilities, among various exciting applications discovered for LLMs fall short in other low-resource languages. Besides, most existing methods depend on large-scale dialogue corpora and thus building systems for dialogue generation in a zero-shot scenario remains a considerable challenge. To address this challenge, we propose a novel end-to-end zero-shot dialogue generation model ChatZero based on cross-lingual code-switching method. First, we construct code-switching language and pseudo-target language with placeholders. Then for cross-lingual semantic transfer, we employ unsupervised contrastive learning to minimize the semantics gap of the source language, code-switching language, and pseudo-target language that are mutually positive examples in the high dimensional semantic space. Experiments on the multilingual DailyDialog and DSTC7-AVSD datasets demonstrate that ChatZero can achieve more than 90\% of the original performance under the zero-shot case compared to supervised learning, and achieve state-of-the-art performance compared with other baselines. | 翻訳日:2024-08-19 15:24:50 公開日:2024-08-16 |
# ConcateNet:局所的特徴結合とグローバル的特徴結合を用いた対話分離
ConcateNet: Dialogue Separation Using Local And Global Feature Concatenation ( http://arxiv.org/abs/2408.08729v1 ) ライセンス: Link先を確認 | Mhd Modar Halimeh, Matteo Torcoli, Emanuël Habets, | (参考訳) 対話分離は、映画やテレビ番組などの混合物から対話信号を分離することを含む。
これは、ブロードキャスト関連アプリケーションのための対話強化を可能にするために必要なステップである。
本稿では,対話分離のための ConcateNet を提案し,ドメイン外信号の一般化を目的とした局所的・グローバル的特徴の処理手法を提案する。
ConcateNetは、ノイズリダクションにフォーカスし、公開可能なデータセットを使用してトレーニングされ、ConcateNetの競合性能を示す2つのノイズリダクション指向データセット(ドメイン内)と、提案したアーキテクチャに対して、最先端のノイズリダクション手法よりも優れた一般化パフォーマンスを検証するブロードキャスト指向データセット(ドメイン外)の3つのデータセットを使用して評価される。
Dialogue separation involves isolating a dialogue signal from a mixture, such as a movie or a TV program. This can be a necessary step to enable dialogue enhancement for broadcast-related applications. In this paper, ConcateNet for dialogue separation is proposed, which is based on a novel approach for processing local and global features aimed at better generalization for out-of-domain signals. ConcateNet is trained using a noise reduction-focused, publicly available dataset and evaluated using three datasets: two noise reduction-focused datasets (in-domain), which show competitive performance for ConcateNet, and a broadcast-focused dataset (out-of-domain), which verifies the better generalization performance for the proposed architecture compared to considered state-of-the-art noise-reduction methods. | 翻訳日:2024-08-19 15:24:50 公開日:2024-08-16 |
# 製造シミュレーションにおける量子コンピューティングの可能性評価のための方法論的アプローチ
A methodical approach to evaluate the potential of Quantum Computing for Manufacturing Simulations ( http://arxiv.org/abs/2408.08730v1 ) ライセンス: Link先を確認 | Stefan Schröder, João Felipe, Sven Danz, Pascal Kienast, Alessandro Ciani, Philipp Ganser, Thomas Bergs, | (参考訳) 本稿では, 薄肉航空宇宙部品の多軸ミル加工例を用いて, 製造シミュレーションにおける量子コンピューティングの可能性を評価する手法について述べる。
製造シミュレーションにおけるボトルネックを特定するための,量子コンピューティングの適用により,高速化や精度の向上が期待できる手法が提案されている。
さらに、製造シミュレーションボトルネックが量子コンピューティングアプリケーションに適しているかどうかを識別する目的で、量子コンピューティングの適合性と実現可能性の指標を定義する。
量子マシン上でのミリング力学シミュレーションの応用手法としてハイブリッドルーチンを試験した結果について述べる。
In this paper, a methodical approach to evaluate the potential of quantum computing for manufacturing simulation, using the example of multi-axis milling of thin-walled aerospace components, is discussed. A developed approach for identifying bottlenecks in manufacturing simulations, for which the application of quantum computing potentially provides a speed-up or increase in accuracy, is presented. Moreover, indicators of quantum computing suitability and feasibility are defined with the main objective of identifying whether a manufacturing simulation bottleneck is suitable for quantum computing applications. First results of testing a hybrid routine as an application approach for the milling dynamics simulation on quantum machines are presented. | 翻訳日:2024-08-19 15:24:50 公開日:2024-08-16 |
# 確率的解集合プログラミングにおける記号的パラメータ学習
Symbolic Parameter Learning in Probabilistic Answer Set Programming ( http://arxiv.org/abs/2408.08732v1 ) ライセンス: Link先を確認 | Damiano Azzolini, Elisabetta Gentili, Fabrizio Riguzzi, | (参考訳) パラメータ学習は統計的関係人工知能の分野において重要な課題である:確率論的論理プログラムと解釈の形で観察された一連の集合が与えられた場合、その目標は、解釈の確率が最大になるようにプログラム内の事実の確率を学習することである。
本稿では,確率的Answer Set Programmingの定式化の中で,解釈の確率を表す記号方程式の抽出に基づいて,そのような課題を解決するための2つのアルゴリズムを提案する。
1つ目は、既製の制約付き最適化解法を用いてタスクを解き、もう1つは期待最大化アルゴリズムの実装に基づいている。
実験の結果,提案手法はソリューションの品質や実行時間の観点から,予測された回答セット列挙に基づく既存手法よりも優れていることがわかった。
この論文はICLP2024カンファレンスで受け入れられており、論理プログラミングの理論と実践(TPLP)において検討中である。
Parameter learning is a crucial task in the field of Statistical Relational Artificial Intelligence: given a probabilistic logic program and a set of observations in the form of interpretations, the goal is to learn the probabilities of the facts in the program such that the probabilities of the interpretations are maximized. In this paper, we propose two algorithms to solve such a task within the formalism of Probabilistic Answer Set Programming, both based on the extraction of symbolic equations representing the probabilities of the interpretations. The first solves the task using an off-the-shelf constrained optimization solver while the second is based on an implementation of the Expectation Maximization algorithm. Empirical results show that our proposals often outperform existing approaches based on projected answer set enumeration in terms of quality of the solution and in terms of execution time. The paper has been accepted at the ICLP2024 conference and is under consideration in Theory and Practice of Logic Programming (TPLP). | 翻訳日:2024-08-19 15:24:50 公開日:2024-08-16 |
# Knowledge Islands: 開発者の知識集中を可視化する
Knowledge Islands: Visualizing Developers Knowledge Concentration ( http://arxiv.org/abs/2408.08733v1 ) ライセンス: Link先を確認 | Otávio Cury, Guilherme Avelino, | (参考訳) 現在のソフトウェア開発は、しばしば協力的な活動であり、そこでは、プロジェクトの存在を危険にさらすさまざまな状況が発生します。
ソフトウェアエンジニアリングの文献でよく研究されている問題の1つは、チーム内の少数の開発者にソースコードに関するかなりの知識が集中していることである。
このシナリオでは、これらの主要な開発者の1つが離脱することで、プロジェクトの継続が不可能になる可能性がある。
この研究は、最先端の知識モデルを使用してソフトウェアリポジトリ内の知識の集中を可視化するツールであるKnowledge Islandsを提示する。
Knowledge Islandsの主な特徴は、ユーザ認証、クローニング、ユーザリポジトリの非同期分析、チームの開発者の専門知識の識別、すべてのフォルダとソースコードファイルのTruck Factorの計算、主要な開発者とリポジトリファイルの識別である。
このオープンソースツールは、実践者がGitHubプロジェクトを分析し、開発チーム内で知識がどこに集中しているかを判断し、プロジェクトの健全性を維持するための手段を実装することを可能にする。
Knowledge Islandsのソースコードはパブリックリポジトリで公開されている。
Current software development is often a cooperative activity, where different situations can arise that put the existence of a project at risk. One common and extensively studied issue in the software engineering literature is the concentration of a significant portion of knowledge about the source code in a few developers on a team. In this scenario, the departure of one of these key developers could make it impossible to continue the project. This work presents Knowledge Islands, a tool that visualizes the concentration of knowledge in a software repository using a state-of-the-art knowledge model. Key features of Knowledge Islands include user authentication, cloning, and asynchronous analysis of user repositories, identification of the expertise of the team's developers, calculation of the Truck Factor for all folders and source code files, and identification of the main developers and repository files. This open-source tool enables practitioners to analyze GitHub projects, determine where knowledge is concentrated within the development team, and implement measures to maintain project health. The source code of Knowledge Islands is available in a public repository, and there is a presentation about the tool in video. | 翻訳日:2024-08-19 15:24:50 公開日:2024-08-16 |
# 効率的な任意スケール画像超解像のためのタスク対応動的変換器
Task-Aware Dynamic Transformer for Efficient Arbitrary-Scale Image Super-Resolution ( http://arxiv.org/abs/2408.08736v1 ) ライセンス: Link先を確認 | Tianyi Xu, Yiji Zhou, Xiaotao Hu, Kai Zhang, Anran Zhang, Xingye Qiu, Jun Xu, | (参考訳) Arbitrary-scale Super- resolution (ASSR) は、任意の拡大スケールで画像超解像の1つのモデルを学ぶことを目的としている。
既存のASSRネットワークは、通常、既製のスケール非依存の特徴抽出器と任意のスケールアップサンプラーから構成される。
これらの特徴抽出器は、しばしば固定ネットワークアーキテクチャを用いて異なるASSR推論タスクに対処し、それぞれが入力画像とアップサンプリングスケールによって特徴付けられる。
しかし、これは、単純な画像や小さなSRスケールが難しい画像や大きなSRスケールよりも少ない計算労力で解決できるような、異なる推論シナリオにおける超解像の難解さを、見落としている。
本稿では,この難易度に対処するため,効率的な画像ASSRのための入力適応型特徴抽出器として,タスク認識動的変換器(TADT)を提案する。
我々のTADTは、マルチスケールトランスフォーマーブロック(MSTB)とタスク認識ルーティングコントローラ(TARC)からなるマルチスケール機能抽出バックボーンで構成されています。
TARCは特徴抽出バックボーン内の推論経路を予測し、特に入力画像とSRスケールに基づいてMSTBを選択する。
推論経路の予測は、SR精度と効率をトレードオフする新しい損失関数によって導かれる。
実験により,3つの一般的な任意のスケールアップサンプラーで作業する場合,TADTは主流の特徴抽出器と比較して最先端のASSR性能を実現するが,計算コストは比較的少ないことがわかった。
コードは公開されます。
Arbitrary-scale super-resolution (ASSR) aims to learn a single model for image super-resolution at arbitrary magnifying scales. Existing ASSR networks typically comprise an off-the-shelf scale-agnostic feature extractor and an arbitrary scale upsampler. These feature extractors often use fixed network architectures to address different ASSR inference tasks, each of which is characterized by an input image and an upsampling scale. However, this overlooks the difficulty variance of super-resolution on different inference scenarios, where simple images or small SR scales could be resolved with less computational effort than difficult images or large SR scales. To tackle this difficulty variability, in this paper, we propose a Task-Aware Dynamic Transformer (TADT) as an input-adaptive feature extractor for efficient image ASSR. Our TADT consists of a multi-scale feature extraction backbone built upon groups of Multi-Scale Transformer Blocks (MSTBs) and a Task-Aware Routing Controller (TARC). The TARC predicts the inference paths within feature extraction backbone, specifically selecting MSTBs based on the input images and SR scales. The prediction of inference path is guided by a new loss function to trade-off the SR accuracy and efficiency. Experiments demonstrate that, when working with three popular arbitrary-scale upsamplers, our TADT achieves state-of-the-art ASSR performance when compared with mainstream feature extractors, but with relatively fewer computational costs. The code will be publicly released. | 翻訳日:2024-08-19 15:24:50 公開日:2024-08-16 |
# ASVspoof 5: クラウドソーシングによる音声データ、ディープフェイク、大規模攻撃
ASVspoof 5: Crowdsourced Speech Data, Deepfakes, and Adversarial Attacks at Scale ( http://arxiv.org/abs/2408.08739v1 ) ライセンス: Link先を確認 | Xin Wang, Hector Delgado, Hemlata Tak, Jee-weon Jung, Hye-jin Shim, Massimiliano Todisco, Ivan Kukanov, Xuechen Liu, Md Sahidullah, Tomi Kinnunen, Nicholas Evans, Kong Aik Lee, Junichi Yamagishi, | (参考訳) ASVspoof 5は、音声スプーフとディープフェイク攻撃の研究、および検出ソリューションの設計を促進する一連の課題の5番目の版である。
従来の課題と比較して、ASVspoof 5データベースは、様々な音響条件下で非常に多くの話者から収集されたクラウドソーシングデータから構築されている。
攻撃はクラウドソースでも発生し、代理検出モデルを使用してテストされる。
Spoofing-robust Automatic Speaker Validation (SASV) の評価およびスタンドアローン検出ソリューション、すなわち ASV のない対策を支援する新しい指標である。
本稿では,2つの課題トラック,新しいデータベース,評価指標,ベースライン,評価プラットフォームについて述べる。
攻撃はベースラインシステムを著しく損なう一方、提出は大幅な改善をもたらす。
ASVspoof 5 is the fifth edition in a series of challenges that promote the study of speech spoofing and deepfake attacks, and the design of detection solutions. Compared to previous challenges, the ASVspoof 5 database is built from crowdsourced data collected from a vastly greater number of speakers in diverse acoustic conditions. Attacks, also crowdsourced, are generated and tested using surrogate detection models, while adversarial attacks are incorporated for the first time. New metrics support the evaluation of spoofing-robust automatic speaker verification (SASV) as well as stand-alone detection solutions, i.e., countermeasures without ASV. We describe the two challenge tracks, the new database, the evaluation metrics, baselines, and the evaluation platform, and present a summary of the results. Attacks significantly compromise the baseline systems, while submissions bring substantial improvements. | 翻訳日:2024-08-19 15:24:50 公開日:2024-08-16 |
# 開放型近位ニューラルネットワークガウスデノイザーのトレーニングのためのリフトト・ブレグマン戦略
A lifted Bregman strategy for training unfolded proximal neural network Gaussian denoisers ( http://arxiv.org/abs/2408.08742v1 ) ライセンス: Link先を確認 | Xiaoyu Wang, Martin Benning, Audrey Repetti, | (参考訳) 屈曲した近位ニューラルネットワーク(PNN)は、深層学習と近位最適化のアプローチを組み合わせた一連の手法である。
それらは、特定のタスクのためのニューラルネットワークを設計し、一定の回数の反復に対して近位アルゴリズムをアンロールすることで、事前のトレーニング手順から線形性を学ぶことができる。
PNNは、特に計算画像において、従来のディープラーニングアプローチよりも堅牢でありながら、少なくとも優れたパフォーマンスを達成している。
しかしながら、PNNのトレーニングは、利用可能なトレーニングアルゴリズムの効率に依存する。
本研究では,展開したPNNに対するBregman距離に基づく揚力トレーニングの定式化を提案する。
決定論的ミニバッチ・ブロック・コーディネート・フォワード・バックワード法を応用し,従来のバックプロパゲーション法を超越して,学習問題の解法を効率的に設計する。
本稿では,2つの近位次反復に基づくPNNの構成を考慮し,画像復調に関する数値シミュレーションによるPNNのトレーニング手法の挙動を評価する。
Unfolded proximal neural networks (PNNs) form a family of methods that combines deep learning and proximal optimization approaches. They consist in designing a neural network for a specific task by unrolling a proximal algorithm for a fixed number of iterations, where linearities can be learned from prior training procedure. PNNs have shown to be more robust than traditional deep learning approaches while reaching at least as good performances, in particular in computational imaging. However, training PNNs still depends on the efficiency of available training algorithms. In this work, we propose a lifted training formulation based on Bregman distances for unfolded PNNs. Leveraging the deterministic mini-batch block-coordinate forward-backward method, we design a bespoke computational strategy beyond traditional back-propagation methods for solving the resulting learning problem efficiently. We assess the behaviour of the proposed training approach for PNNs through numerical simulations on image denoising, considering a denoising PNN whose structure is based on dual proximal-gradient iterations. | 翻訳日:2024-08-19 15:24:50 公開日:2024-08-16 |
# MicroSSIM:顕微鏡データの比較における構造類似性の改善
MicroSSIM: Improved Structural Similarity for Comparing Microscopy Data ( http://arxiv.org/abs/2408.08747v1 ) ライセンス: Link先を確認 | Ashesh Ashesh, Joran Deschamps, Florian Jug, | (参考訳) 顕微鏡は、生物の興味ある構造を画像化するために日常的に用いられる。
画像の制約のため、取得した画像は通常低SNRでノイズを含む。
ここ数年、教師なしの denoising や splitting のような回帰ベースのタスクは、このようなノイズの多いマイクログラフを扱うのに有用であることがわかった。
評価において、SSIM(Structure similarity)はこの分野で最もよく使われる尺度の1つである。
このような課題に対して、顕微鏡から直接低SNRノイズ像とそれに対応する高SNRクリーン像を得る場合が最もよい評価となる。
しかし、以下の3つの顕微鏡データの特徴から、SSIMはこのデータ構造に適していないことが分かる。
(a)高SNRマイクログラフは低SNRマイクログラフに比べて高強度画素を有する。
(b)高SNRマイクログラフは、自然画像、SSIMが開発された画像、及び、より高強度の画素を有する。
(c)顕微鏡内に存在する検出器によってデジタル構成可能なオフセットを付加する。
我々は,低SNR入力から発生する予測を対応する高SNRデータと比較した場合,SSIM成分が予期せず振る舞うことを示す。
本稿では,SSIM成分の値が画像間の相似性に敏感になるような飽和現象を導入することで,この挙動を説明する。
SSIMの派生版であるmicroSSIMを導入し、上記の問題を克服する。
理論的および経験的議論を用いてマイクロSSIMの音質と有用性を正当化し, 教師なし復調と教師なし復調を伴う共同画像分割という2つの課題におけるマイクロSSIMの有用性を示す。
我々の定式化は、SSIMに基づく幅広い尺度に応用できるので、顕微鏡特有のMS-SSIMの変種であるMicroMS3IMも導入する。
ソースコードとpythonパッケージはhttps://github.com/juglab/MicroSSIMで入手できる。
Microscopy is routinely used to image biological structures of interest. Due to imaging constraints, acquired images are typically low-SNR and contain noise. Over the last few years, regression-based tasks like unsupervised denoising and splitting have found utility in working with such noisy micrographs. For evaluation, Structural Similarity (SSIM) is one of the most popular measures used in the field. For such tasks, the best evaluation would be when both low-SNR noisy images and corresponding high-SNR clean images are obtained directly from a microscope. However, due to the following three peculiar properties of the microscopy data, we observe that SSIM is not well suited to this data regime: (a) high-SNR micrographs have higher intensity pixels as compared to low SNR micrographs, (b) high-SNR micrographs have higher intensity pixels than found in natural images, images for which SSIM was developed, and (c) a digitally configurable offset is added by the detector present inside the microscope. We show that SSIM components behave unexpectedly when the prediction generated from low-SNR input is compared with the corresponding high-SNR data. We explain this behavior by introducing the phenomenon of saturation, where the value of SSIM components becomes less sensitive to (dis)similarity between the images. We introduce microSSIM, a variant of SSIM, which overcomes the above-discussed issues. We justify the soundness and utility of microSSIM using theoretical and empirical arguments and show the utility of microSSIM on two tasks: unsupervised denoising and joint image splitting with unsupervised denoising. Since our formulation can be applied to a broad family of SSIM-based measures, we also introduce MicroMS3IM, a microscopy-specific variation of MS-SSIM. The source code and python package is available at https://github.com/juglab/MicroSSIM. | 翻訳日:2024-08-19 15:24:50 公開日:2024-08-16 |
# Ethereumにおける悪意トランザクションのMLによる研究
ML Study of MaliciousTransactions in Ethereum ( http://arxiv.org/abs/2408.08749v1 ) ライセンス: Link先を確認 | Natan Katz, | (参考訳) スマートコントラクトはEthereumトランザクションの主要なツールです。
そのためハッカーは、ソースにコード脆弱性を追加し、悪意のあるトランザクションを実行するためにこれらの脆弱性を使用することで、それらを悪用することができる。
本稿では,悪意のあるコントラクトを検出するための2つのアプローチを提案する。一方はOpcodeを使用し,他方はGPT2に依存し,他方はSolidityソースとLORA微調整のCodeLlamaを使用する。
最後に,ガス特性とHexa-decimalシグネチャを組み合わせたXGBOOSTモデルを提案する。
このアプローチは、コントラクトの関数の一般的でない使用と、トランザクションの追求による悪意の顕在化という、初期の仮定に依存します。
Smart contracts are a major tool in Ethereum transactions. Therefore hackers can exploit them by adding code vulnerabilities to their sources and using these vulnerabilities for performing malicious transactions. This paper presents two successful approaches for detecting malicious contracts: one uses opcode and relies on GPT2 and the other uses the Solidity source and a LORA fine-tuned CodeLlama. Finally, we present an XGBOOST model that combines gas properties and Hexa-decimal signatures for detecting malicious transactions. This approach relies on early assumptions that maliciousness is manifested by the uncommon usage of the contracts' functions and the effort to pursue the transaction. | 翻訳日:2024-08-19 15:24:50 公開日:2024-08-16 |
# 欠陥工学によるトポロジカルインタフェースにおける非線形量子光学
Nonlinear Quantum Optics at a Topological Interface Enabled by Defect Engineering ( http://arxiv.org/abs/2408.08750v1 ) ライセンス: Link先を確認 | L. Hallacy, N. J. Martin, M. Jalali Mehrabad, D. Hallett, X. Chen, R. Dost, A. Foster, L. Brunswick, A. Fenzl, E. Clarke, P. K. Patil, M. Hafezi, A. M Fox, M. S. Skolnick, L. R. Wilson, | (参考訳) トポロジーのフォトニクスへの統合は、従来のフォトニクスデバイスでは実現不可能な、堅牢で一方向の導波路を構築するための新しい設計枠組みを生み出した。
ここでは、量子ドット(QD)などの量子エミッタをバレー・ハル(VH)トポロジカル導波路に統合することに成功した際の現在の障壁を克服し、トポロジカル界面におけるフォトニック欠陥を利用して局所電荷環境を安定化し、効率的なトポロジカル・コンベンショナル・モード変換のための逆設計を行う。
VH-フォトニック結晶の欠陥にQDを組み込むことで、トポロジカル導波路界面における単一光子共鳴蛍光と量子エミッタの共鳴透過分光の最初の例を示す。
この結果は、トポロジカル・フォトニクスと光非線形効果を単一光子レベルで結合させ、トポロジカル・非線形系と量子非線形系の相互作用を研究するための新たな道を提供する。
The integration of topology into photonics has generated a new design framework for constructing robust and unidirectional waveguides, which are not feasible with traditional photonic devices. Here, we overcome current barriers to the successful integration of quantum emitters such as quantum dots (QDs) into valley-Hall (VH) topological waveguides, utilising photonic defects at the topological interface to stabilise the local charge environment and inverse design for efficient topological-conventional mode conversion. By incorporating QDs within defects of VH-photonic crystals, we demonstrate the first instances of single-photon resonant fluorescence and resonant transmission spectroscopy of a quantum emitter at a topological waveguide interface. Our results bring together topological photonics with optical nonlinear effects at the single-photon level, offering a new avenue to investigate the interaction between topology and quantum nonlinear systems. | 翻訳日:2024-08-19 15:24:50 公開日:2024-08-16 |
# 生成モデルの比較分析:VAE、GAN、安定拡散による画像合成の強化
Comparative Analysis of Generative Models: Enhancing Image Synthesis with VAEs, GANs, and Stable Diffusion ( http://arxiv.org/abs/2408.08751v1 ) ライセンス: Link先を確認 | Sanchayan Vivekananthan, | (参考訳) 本稿では,変分オートエンコーダ(VAE),GAN(Generative Adversarial Networks),安定拡散モデルという,3つの主要な生成モデルフレームワークについて検討する。
VAEは潜在表現を学習するのに有効であるが、しばしばぼやけた結果が得られる。
GANはリアルなイメージを生成することができるが、モード崩壊などの問題に直面している。
安定拡散モデルは、強いセマンティックコヒーレンスを持つ高品質な画像を生成する一方で、計算資源の観点から要求されている。
さらに, グラウンディングDINOとグラウンドドSAMを安定拡散に組み込むことによって, 高度なセグメンテーションとインペイント技術を用いて, 画像の精度を向上させる方法について検討した。
分析は様々な応用に適したモデルの選択をガイドし、さらなる研究のための領域をハイライトする。
This paper examines three major generative modelling frameworks: Variational Autoencoders (VAEs), Generative Adversarial Networks (GANs), and Stable Diffusion models. VAEs are effective at learning latent representations but frequently yield blurry results. GANs can generate realistic images but face issues such as mode collapse. Stable Diffusion models, while producing high-quality images with strong semantic coherence, are demanding in terms of computational resources. Additionally, the paper explores how incorporating Grounding DINO and Grounded SAM with Stable Diffusion improves image accuracy by utilising sophisticated segmentation and inpainting techniques. The analysis guides on selecting suitable models for various applications and highlights areas for further research. | 翻訳日:2024-08-19 15:14:04 公開日:2024-08-16 |
# PCP-MAE:ポイントメイクオートエンコーダのセンター予測学習
PCP-MAE: Learning to Predict Centers for Point Masked Autoencoders ( http://arxiv.org/abs/2408.08753v1 ) ライセンス: Link先を確認 | Xiangdong Zhang, Shaofeng Zhang, Junchi Yan, | (参考訳) マスクオートエンコーダは、ポイントクラウドの自己教師型学習において広く研究されており、ポイントクラウドは一般的に可視部とマスク部に分けられている。
これらの方法は通常、可視パッチ(正規化)と対応するパッチセンター(配置)を入力として受け入れるエンコーダを含み、デコーダはエンコーダの出力とマスクされた部分の中心(配置)を受け入れて、マスクされたパッチの各点を再構築する。
次に、トレーニング済みのエンコーダが下流タスクに使用される。
本稿では,マスクされたパッチの中央をエンコーダからの情報無しでデコーダに直接送る場合,それでもよく再構成できるという,モチベーションのある実証結果を示す。
言い換えれば、パッチの中心は重要であり、再構築の対象はエンコーダの表現に必ずしも依存していないため、エンコーダが意味表現を学習するのを防ぐことができる。
このキーとなる観察に基づいて、本研究では、重要なセンターを予測し、予測されたセンターを用いて直接提供されたセンターを置き換えることを学ぶための、単純な、効果的な方法、すなわち、ポイントマスクオートエンコーダの予測センター(PCP-MAE)の学習を提案する。
具体的には,予測センターモジュール (PCM) を提案する。
ScanObjectNNの3種類の変種では,特に5.50%,6.03%,5.17%の高速化を実現している。
コードは公開されます。
Masked autoencoder has been widely explored in point cloud self-supervised learning, whereby the point cloud is generally divided into visible and masked parts. These methods typically include an encoder accepting visible patches (normalized) and corresponding patch centers (position) as input, with the decoder accepting the output of the encoder and the centers (position) of the masked parts to reconstruct each point in the masked patches. Then, the pre-trained encoders are used for downstream tasks. In this paper, we show a motivating empirical result that when directly feeding the centers of masked patches to the decoder without information from the encoder, it still reconstructs well. In other words, the centers of patches are important and the reconstruction objective does not necessarily rely on representations of the encoder, thus preventing the encoder from learning semantic representations. Based on this key observation, we propose a simple yet effective method, i.e., learning to Predict Centers for Point Masked AutoEncoders (PCP-MAE) which guides the model to learn to predict the significant centers and use the predicted centers to replace the directly provided centers. Specifically, we propose a Predicting Center Module (PCM) that shares parameters with the original encoder with extra cross-attention to predict centers. Our method is of high pre-training efficiency compared to other alternatives and achieves great improvement over Point-MAE, particularly outperforming it by 5.50%, 6.03%, and 5.17% on three variants of ScanObjectNN. The code will be made publicly available. | 翻訳日:2024-08-19 15:14:04 公開日:2024-08-16 |
# SE-SGformer: リンクサイン予測のための自己説明可能なグラフ変換器
SE-SGformer: A Self-Explainable Signed Graph Transformer for Link Sign Prediction ( http://arxiv.org/abs/2408.08754v1 ) ライセンス: Link先を確認 | Lu Li, Jiale Liu, Xingyu Ji, Maojun Wang, Zeyu Zhang, | (参考訳) 符号付きグラフニューラルネットワーク(SGNN)は、正と負のリンクが共存する現実の状況において、複雑なパターンを分析するのに有効であることが示されている。
しかし、SGNNモデルは説明可能性の低さに悩まされ、予測の背後にある理論的根拠を理解する必要のある重要なシナリオへの導入を制限する。
我々の知る限りでは、現在SGNNモデルの説明可能性に関する研究は行われていない。
我々のゴールは、符号付きグラフニューラルネットワークに特有のリンクサイン予測の下流タスクにおける意思決定の説明可能性に対処することである。
ポストホックな説明はモデルから直接導出されないので、それらはバイアスを受け、真の説明を誤って表現することができる。
そこで本稿では,高い予測精度を確保しつつ,説明可能な情報のみを出力できるSelf-Explainable Signed Graph Transformer(SE-SGformer)フレームワークを提案する。
具体的には、署名されたグラフのための新しいトランスフォーマーアーキテクチャを提案し、署名されたランダムウォークに基づく位置符号化の使用は、現在のSGNN法や他の位置符号化グラフトランスフォーマーベースのアプローチよりも表現力が高いことを理論的に実証する。
我々は,ニューラルネットワークベースのデコーダを置き換えてエッジサインを予測するために,ノードのK$-nearest(Farthest)正の(負の)隣人を発見することによって,説明可能な新たな意思決定プロセスを構築した。
これらのK$正の(負の)隣人は、ノード間の正の(負の)エッジの形成に関する重要な情報であり、意思決定プロセスにおいて重要な説明情報として機能する。
我々は,SE-SGformerの有効性を検証するために,複数の実世界のデータセットを用いて実験を行った。これは,2.2\%の予測精度と73.1\%の説明精度を向上させることにより,最先端の手法よりも優れている。
Signed Graph Neural Networks (SGNNs) have been shown to be effective in analyzing complex patterns in real-world situations where positive and negative links coexist. However, SGNN models suffer from poor explainability, which limit their adoptions in critical scenarios that require understanding the rationale behind predictions. To the best of our knowledge, there is currently no research work on the explainability of the SGNN models. Our goal is to address the explainability of decision-making for the downstream task of link sign prediction specific to signed graph neural networks. Since post-hoc explanations are not derived directly from the models, they may be biased and misrepresent the true explanations. Therefore, in this paper we introduce a Self-Explainable Signed Graph transformer (SE-SGformer) framework, which can not only outputs explainable information while ensuring high prediction accuracy. Specifically, We propose a new Transformer architecture for signed graphs and theoretically demonstrate that using positional encoding based on signed random walks has greater expressive power than current SGNN methods and other positional encoding graph Transformer-based approaches. We constructs a novel explainable decision process by discovering the $K$-nearest (farthest) positive (negative) neighbors of a node to replace the neural network-based decoder for predicting edge signs. These $K$ positive (negative) neighbors represent crucial information about the formation of positive (negative) edges between nodes and thus can serve as important explanatory information in the decision-making process. We conducted experiments on several real-world datasets to validate the effectiveness of SE-SGformer, which outperforms the state-of-the-art methods by improving 2.2\% prediction accuracy and 73.1\% explainablity accuracy in the best-case scenario. | 翻訳日:2024-08-19 15:14:04 公開日:2024-08-16 |
# SYMPOL:シンボリックツリーに基づくオンライン強化学習
SYMPOL: Symbolic Tree-Based On-Policy Reinforcement Learning ( http://arxiv.org/abs/2408.08761v1 ) ライセンス: Link先を確認 | Sascha Marton, Tim Grams, Florian Vogt, Stefan Lüdtke, Christian Bartelt, Heiner Stuckenschmidt, | (参考訳) 強化学習(RL)は、様々な領域で大きな成功を収めてきたが、ニューラルネットワークポリシーのブラックボックスの性質によって採用が制限されることが多く、解釈が困難である。
対照的に、象徴的な政策は、コンパクトで解釈可能な方法で意思決定戦略を表現することができる。
しかし、政治上の方法から直接象徴的な政策を学ぶことは依然として困難である。
本稿では,SYMbolic tree-based on-POLicy RLの新しい手法であるSYMPOLを紹介する。
SYMPOLは、ポリシー勾配法と統合されたツリーベースのモデルを採用しており、エージェントは高いレベルの解釈可能性を維持しながら、その動作を学習し、適応することができる。
我々は、SYMPOLを一連のベンチマークRLタスクで評価し、その性能と解釈可能性の観点から、代替木ベースのRLアプローチよりも優れていることを示す。
我々の知る限りでは、これは最初の方法であり、政治上の解釈可能な軸整列決定木を勾配に基づくエンドツーエンドの学習を可能にする。
したがって、SYMPOLは決定木に基づく新しい解釈可能なRLの基盤となることができる。
実装は以下の通りである。 https://github.com/s-marton/SYMPOL
Reinforcement learning (RL) has seen significant success across various domains, but its adoption is often limited by the black-box nature of neural network policies, making them difficult to interpret. In contrast, symbolic policies allow representing decision-making strategies in a compact and interpretable way. However, learning symbolic policies directly within on-policy methods remains challenging. In this paper, we introduce SYMPOL, a novel method for SYMbolic tree-based on-POLicy RL. SYMPOL employs a tree-based model integrated with a policy gradient method, enabling the agent to learn and adapt its actions while maintaining a high level of interpretability. We evaluate SYMPOL on a set of benchmark RL tasks, demonstrating its superiority over alternative tree-based RL approaches in terms of performance and interpretability. To the best of our knowledge, this is the first method, that allows a gradient-based end-to-end learning of interpretable, axis-aligned decision trees on-policy. Therefore, SYMPOL can become the foundation for a new class of interpretable RL based on decision trees. Our implementation is available under: https://github.com/s-marton/SYMPOL | 翻訳日:2024-08-19 15:14:04 公開日:2024-08-16 |
# VF-NeRF:屋内シーン再構築のためのニューラルベクトル場学習
VF-NeRF: Learning Neural Vector Fields for Indoor Scene Reconstruction ( http://arxiv.org/abs/2408.08766v1 ) ライセンス: Link先を確認 | Albert Gassol Puigjaner, Edoardo Mello Rella, Erik Sandström, Ajad Chhatkuli, Luc Van Gool, | (参考訳) 神経放射場(NeRF)を介する入射面は、表面再構成において驚くべき精度を示している。
リッチなテクスチャ面の再構築に成功したにもかかわらず、既存の手法は、室内のシーンの大半を占める弱いテクスチャを持つ平面領域と戦っている。
本稿では,最近提案されたベクトル場(VF)を暗黙の表現として使用するために,NeRFの重要面を再考することで屋内の高密度表面を再構築する手法を提案する。
VFは、最も近い表面点に向けられた単位ベクトルによって定義される。
したがって、表面の向きを反転させ、表面の正規値と等しい。
このフリップを除いて、VF は平面面に沿って一定であり、平面面を表す強い帰納バイアスを与える。
具体的には、新しい密度-VF関係と、ボリュームレンダリングによるVFの学習を可能にするトレーニングスキームを開発し、VF-NeRFは、大きな平面面と鋭い角を正確にモデル化することができる。
本研究では,奥行きの手がかりが得られれば,室内のシーンを再構築し,新しいビューを描画する手法をさらに改良し,最先端の成果が得られることを示す。
室内データセット上でVF-NeRFを広範囲に評価し,その成分のアブレーションを実行する。
Implicit surfaces via neural radiance fields (NeRF) have shown surprising accuracy in surface reconstruction. Despite their success in reconstructing richly textured surfaces, existing methods struggle with planar regions with weak textures, which account for the majority of indoor scenes. In this paper, we address indoor dense surface reconstruction by revisiting key aspects of NeRF in order to use the recently proposed Vector Field (VF) as the implicit representation. VF is defined by the unit vector directed to the nearest surface point. It therefore flips direction at the surface and equals to the explicit surface normals. Except for this flip, VF remains constant along planar surfaces and provides a strong inductive bias in representing planar surfaces. Concretely, we develop a novel density-VF relationship and a training scheme that allows us to learn VF via volume rendering By doing this, VF-NeRF can model large planar surfaces and sharp corners accurately. We show that, when depth cues are available, our method further improves and achieves state-of-the-art results in reconstructing indoor scenes and rendering novel views. We extensively evaluate VF-NeRF on indoor datasets and run ablations of its components. | 翻訳日:2024-08-19 15:14:04 公開日:2024-08-16 |
# Lindbladマスター方程式を用いた分子スピン系の低温デコヒーレンスダイナミクス
Low temperature decoherence dynamics in molecular spin systems using the Lindblad master equation ( http://arxiv.org/abs/2408.08768v1 ) ライセンス: Link先を確認 | Timothy J. Krogmeier, Anthony W. Schlimgen, Kade Head-Marsden, | (参考訳) 低温環境でのスピンダイナミクスの理解は、新興量子技術に使用される分子スピン系の設計と最適化に不可欠である。
低温では、電子核スピン相互作用によって促進されるアンサンブルダイナミクスによって不可逆的な損失が発生する。
分子スピンアンサンブルの緩和速度の傾向を予測できるオープン量子システムと電子構造理論を組み合わせる。
ゴリーニ-コサコフスキー-スダルシャン-リンドブラッドマスター方程式を用い、デコヒーレンスチャネルに電子構造情報を明示的に含んでいる。
この理論を現代の量子技術に関連するいくつかの分子系に適用する。
我々の理論は、スピンスピン緩和に支配される量子情報科学、量子センシング、分子スピントロニクス、その他のスピン系に応用された分子スピン系の不可逆緩和効果を記述するための枠組みを提供する。
Understanding the spin dynamics in low-temperature settings is crucial to designing and optimizing molecular spin systems for use in emerging quantum technologies. At low temperatures, irreversible loss occurs due to ensemble dynamics facilitated by electronic-nuclear spin interactions. We develop a combined open quantum systems and electronic structure theory capable of predicting trends in relaxation rates in molecular spin ensembles. We use the Gorini-Kossakowski-Sudarshan-Lindblad master equation and explicitly include electronic structure information in the decoherence channels. We apply this theory to several molecular systems pertinent to contemporary quantum technologies. Our theory provides a framework to describe irreversible relaxation effects in molecular spin systems with applications in quantum information science, quantum sensing, molecular spintronics, and other spin systems dominated by spin-spin relaxation. | 翻訳日:2024-08-19 15:14:04 公開日:2024-08-16 |
# 低層物質:真さに焦点を絞った多層核融合コントラストデコーディングによる幻覚の緩和
Lower Layer Matters: Alleviating Hallucination via Multi-Layer Fusion Contrastive Decoding with Truthfulness Refocused ( http://arxiv.org/abs/2408.08769v1 ) ライセンス: Link先を確認 | Dingwei Chen, Feiteng Fang, Shiwen Ni, Feng Liang, Ruifeng Xu, Min Yang, Chengming Li, | (参考訳) 大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて例外的な性能を示してきたが、期待される出力と事実的に不正確な、あるいは不一致なコンテンツを生成する傾向があり、これは実証的に「ハロシン化」と呼ばれる現象である。
この問題に対処するため,近年の研究では,幻覚を誘発したオリジナルのモデルとアマチュアモデルとの対比的復号化について検討し,有望な結果を示した。
それにもかかわらず、この手法は、粗いコントラストと簡素な減算演算に起因する元のLLMの出力分布を損なう可能性があり、ある場合にはエラーにつながる可能性がある。
本稿では,LOL(Lower Layer Matters)と呼ばれる新しいコントラストデコーディングフレームワークを紹介する。
提案手法では, 初期モデルとアマチュアモデルとの最終層と下位層の両層を対比的に復号化することで, 幻覚の緩和に寄与する多層融合を実現する。
さらに,コントラスト的復号化において,実写符号化の強化にコンテキストガイダンスを活用する真理性再焦点モジュールを組み込んだ。
2つの公開データセットで実施された大規模な実験により、提案したOLLフレームワークは、ほとんどの場合、既存のベースラインを超えながら、幻覚を著しく軽減できることが示された。
最高のベースラインと比較すると、TrathfulQAのすべての指標で平均4.5ポイント改善しています。
ソースコードは近く公開される。
Large Language Models (LLMs) have demonstrated exceptional performance across various natural language processing tasks, yet they occasionally tend to yield content that factually inaccurate or discordant with the expected output, a phenomenon empirically referred to as "hallucination". To tackle this issue, recent works have investigated contrastive decoding between the original model and an amateur model with induced hallucination, which has shown promising results. Nonetheless, this method may undermine the output distribution of the original LLM caused by its coarse contrast and simplistic subtraction operation, potentially leading to errors in certain cases. In this paper, we introduce a novel contrastive decoding framework termed LOL (LOwer Layer Matters). Our approach involves concatenating the contrastive decoding of both the final and lower layers between the original model and the amateur model, thereby achieving multi-layer fusion to aid in the mitigation of hallucination. Additionally, we incorporate a truthfulness refocused module that leverages contextual guidance to enhance factual encoding, further capturing truthfulness during contrastive decoding. Extensive experiments conducted on two publicly available datasets illustrate that our proposed LOL framework can substantially alleviate hallucination while surpassing existing baselines in most cases. Compared with the best baseline, we improve by average 4.5 points on all metrics of TruthfulQA. The source code is coming soon. | 翻訳日:2024-08-19 15:14:04 公開日:2024-08-16 |
# ロバストPOMDPの悲観的反復計画
Pessimistic Iterative Planning for Robust POMDPs ( http://arxiv.org/abs/2408.08770v1 ) ライセンス: Link先を確認 | Maris F. L. Galesloot, Marnix Suilen, Thiago D. Simão, Steven Carr, Matthijs T. J. Spaan, Ufuk Topcu, Nils Jansen, | (参考訳) ロバストな部分的に観測可能なマルコフ決定過程 (robust POMDPs) は古典的なPOMDPを拡張して、いわゆる不確実性集合による遷移と観測確率に関するさらなる不確実性を扱う。
堅牢なPOMDPのポリシーは、部分的な可観測性を考慮するためにメモリベースであるだけでなく、不確実性セットから最悪のケースを考慮に入れるために、モデルの不確実性に対して堅牢である必要がある。
我々は,堅牢なPOMDPに対して,堅牢なメモリベースのポリシーを見出すための悲観的反復計画(PIP)フレームワークを提案する。
PIPは、(1)不確実性集合から最悪のケースの確率インスタンスを介して逆(非ローバスト)のPOMDPを選択すること、(2)この逆のPOMDPに対して有限状態コントローラ(FSC)を計算すること、の2つの主要なステップを交互に行う。
元の頑健なPOMDPに対して,このFCCの性能を評価し,ステップ(1)で次の逆POMDPを選択する。
PIP内ではrFSCNetアルゴリズムを提案する。
各イテレーションにおいて、rFSCNetは、敵POMDPに最適化された監督ポリシーを使用してトレーニングされたリカレントニューラルネットワークを介して、FSCを見つける。
4つのベンチマーク環境における実験的な評価は, 最先端の頑健なPOMDPソルバと比較して, アブレーション試験におけるベースライン法に対するロバスト性の向上と競争性能を実証している。
Robust partially observable Markov decision processes (robust POMDPs) extend classical POMDPs to handle additional uncertainty on the transition and observation probabilities via so-called uncertainty sets. Policies for robust POMDPs must not only be memory-based to account for partial observability but also robust against model uncertainty to account for the worst-case instances from the uncertainty sets. We propose the pessimistic iterative planning (PIP) framework, which finds robust memory-based policies for robust POMDPs. PIP alternates between two main steps: (1) selecting an adversarial (non-robust) POMDP via worst-case probability instances from the uncertainty sets; and (2) computing a finite-state controller (FSC) for this adversarial POMDP. We evaluate the performance of this FSC on the original robust POMDP and use this evaluation in step (1) to select the next adversarial POMDP. Within PIP, we propose the rFSCNet algorithm. In each iteration, rFSCNet finds an FSC through a recurrent neural network trained using supervision policies optimized for the adversarial POMDP. The empirical evaluation in four benchmark environments showcases improved robustness against a baseline method in an ablation study and competitive performance compared to a state-of-the-art robust POMDP solver. | 翻訳日:2024-08-19 15:14:04 公開日:2024-08-16 |
# Vital: タイプアンセーフポインタ誘導モンテカルロ木探索による脆弱性指向型シンボリック実行
Vital: Vulnerability-Oriented Symbolic Execution via Type-Unsafe Pointer-Guided Monte Carlo Tree Search ( http://arxiv.org/abs/2408.08772v1 ) ライセンス: Link先を確認 | Haoxin Tu, Lingxiao Jiang, Marcel Böhme, | (参考訳) パスの爆発に苦しむシンボリック実行ツリーをナビゲートする際に、メモリ安全性のバグを効率的に見つけるには?
既存のソリューションでは、パス探索において、カバレッジ率を最大化するためにパス探索ヒューリスティックを採用するか、興味のないコード(すなわち、手動で脆弱性とは無関係)をスキップするためにシンボリック実行を切断する。
しかし、既存の検索ヒューリスティックのほとんどは脆弱性指向ではなく、無関係なコード・トゥ・ザ・スクリップのマニュアルラベリングは以前の専門家の知識に大きく依存しているため、実際に脆弱性を効果的に検出することは困難である。
本稿では,タイプアンセーフポインタ誘導モンテカルロ木探索(MCTS)による新たな脆弱性指向のシンボル実行であるVitalを提案する。
型安全でないポインタは、メモリの破損なしに安全に参照できないことを静的に証明することはできない。
私たちのキーとなる仮説は、より型が安全でないポインタを持つパスが脆弱性を含んでいる可能性が高いということです。
Vitalは、ガイド付きMCTSを駆動して、多数の安全でないポインタを含むシンボル実行ツリーのパスを優先順位付けし、探索と探索のトレードオフを効果的にナビゲートする。
私たちはKLEE上にVitalを構築し、既存の検索戦略と比較し、シンボリックな実行をしました。
前者では、Vitalは最大90.03%の安全でないポインタをカバーし、最大37.50%のメモリエラーを検出できることを示した。
後者では、Vitalは、専門知識のない既知の脆弱性を自動的に検出する上で、実行時間を最大30倍にし、メモリ消費を最大20倍に削減できることを示した。
How to find memory safety bugs efficiently when navigating a symbolic execution tree that suffers from path explosion? Existing solutions either adopt path search heuristics to maximize coverage rate or chopped symbolic execution to skip uninteresting code (i.e., manually labeled as vulnerability-unrelated) during path exploration. However, most existing search heuristics are not vulnerability-oriented, and manual labeling of irrelevant code-to-be-skipped relies heavily on prior expert knowledge, making it hard to detect vulnerabilities effectively in practice. This paper proposes Vital, a new vulnerability-oriented symbolic execution via type-unsafe pointer-guided Monte Carlo Tree Search (MCTS). A pointer that is type unsafe cannot be statically proven to be safely dereferenced without memory corruption. Our key hypothesis is that a path with more type unsafe pointers is more likely to contain vulnerabilities. Vital drives a guided MCTS to prioritize paths in the symbolic execution tree that contain a larger number of unsafe pointers and to effectively navigate the exploration-exploitation trade-off. We built Vital on top of KLEE and compared it with existing search strategies and chopped symbolic execution. In the former, the results demonstrate that Vital could cover up to 90.03% more unsafe pointers and detect up to 37.50% more unique memory errors. In the latter, the results show that Vital could achieve a speedup of up to 30x execution time and a reduction of up to 20x memory consumption on automatically detecting known vulnerabilities without prior expert knowledge. | 翻訳日:2024-08-19 15:14:04 公開日:2024-08-16 |
# 合成開口レーダ(SAR)空間データのスペックルノイズ解析
Speckle Noise Analysis for Synthetic Aperture Radar (SAR) Space Data ( http://arxiv.org/abs/2408.08774v1 ) ライセンス: Link先を確認 | Sanjjushri Varshini R, Rohith Mahadevan, Bagiya Lakshmi S, Mathivanan Periasamy, Raja CSP Raman, Lokesh M, | (参考訳) 本研究では,合成開口レーダ(SAR)空間データにおけるスペックルノイズの課題に対処する。
この研究では,Lee Filtering, Frost Filtering, Kuan Filtering, Gaussian Filtering, Median Filtering, Bilateral Filteringの6つの異なるスペックルノイズ低減手法の比較分析を行った。
これらの手法は,アラスカ・サテライト・ファシリティ(ASF)から得られたSARデータセットに適用された。
各手法の性能は、ピーク信号対雑音比(PSNR)、平均正方形誤差(MSE)、構造類似度指数(SSIM)、等価ルック数(ENL)、スペックル抑圧指数(SSI)などの総合的な指標を用いて評価した。
この研究は、LeeフィルタとKuanフィルタの両方が有効であり、フィルタの選択は、画像品質とノイズ抑制の特定の応用要件に依存すると結論付けている。
この研究は、リモートセンシング、環境モニタリング、地質調査に重要な意味を持つ、SAR画像処理の最適化に関する貴重な洞察を提供する。
This research tackles the challenge of speckle noise in Synthetic Aperture Radar (SAR) space data, a prevalent issue that hampers the clarity and utility of SAR images. The study presents a comparative analysis of six distinct speckle noise reduction techniques: Lee Filtering, Frost Filtering, Kuan Filtering, Gaussian Filtering, Median Filtering, and Bilateral Filtering. These methods, selected for their unique approaches to noise reduction and image preservation, were applied to SAR datasets sourced from the Alaska Satellite Facility (ASF). The performance of each technique was evaluated using a comprehensive set of metrics, including Peak Signal-to-Noise Ratio (PSNR), Mean Squared Error (MSE), Structural Similarity Index (SSIM), Equivalent Number of Looks (ENL), and Speckle Suppression Index (SSI). The study concludes that both the Lee and Kuan Filters are effective, with the choice of filter depending on the specific application requirements for image quality and noise suppression. This work provides valuable insights into optimizing SAR image processing, with significant implications for remote sensing, environmental monitoring, and geological surveying. | 翻訳日:2024-08-19 15:14:04 公開日:2024-08-16 |
# NEAR: 機械学習モデルパフォーマンスのトレーニング不要事前評価
NEAR: A Training-Free Pre-Estimator of Machine Learning Model Performance ( http://arxiv.org/abs/2408.08776v1 ) ライセンス: Link先を確認 | Raphael T. Husistein, Markus Reiher, Marco Eckhoff, | (参考訳) ニューラルネットワークは、自然言語処理や画像認識など、さまざまなアプリケーションにおいて最先端の機械学習モデルであることが示されている。
しかし、パフォーマンスニューラルネットワークの構築は、面倒な作業であり、かなりの計算能力を必要とする。
ニューラルネットワーク探索(NAS)は、潜在的な候補の集合から最適なネットワークを自動的に選択することでこの問題に対処する。
多くのNASメソッドは、まだ(一部)ニューラルネットワークのトレーニングを必要とするが、ゼロコストプロキシは、トレーニングなしで最適なネットワークを特定することを約束する。
本研究では,アクティベーションランク(NEAR)によるネットワーク表現のゼロコスト化を提案する。
これは、前および後活性化行列の有効ランク、すなわち、その活性化関数を適用した前後のニューラルネットワーク層の値に基づいている。
このネットワークスコアとNAS-Bench-101とNATS-Bench-SSS/TSSのモデル精度の最先端相関を実証した。
さらに,多層パーセプトロンの最適層サイズを簡易に推定する手法を提案する。
さらに、このスコアを用いて、活性化関数やニューラルネットワーク重み初期化スキームなどのハイパーパラメータを選択できることを示す。
Artificial neural networks have been shown to be state-of-the-art machine learning models in a wide variety of applications, including natural language processing and image recognition. However, building a performant neural network is a laborious task and requires substantial computing power. Neural Architecture Search (NAS) addresses this issue by an automatic selection of the optimal network from a set of potential candidates. While many NAS methods still require training of (some) neural networks, zero-cost proxies promise to identify the optimal network without training. In this work, we propose the zero-cost proxy Network Expressivity by Activation Rank (NEAR). It is based on the effective rank of the pre- and post-activation matrix, i.e., the values of a neural network layer before and after applying its activation function. We demonstrate the cutting-edge correlation between this network score and the model accuracy on NAS-Bench-101 and NATS-Bench-SSS/TSS. In addition, we present a simple approach to estimate the optimal layer sizes in multi-layer perceptrons. Furthermore, we show that this score can be utilized to select hyperparameters such as the activation function and the neural network weight initialization scheme. | 翻訳日:2024-08-19 15:14:04 公開日:2024-08-16 |
# ジェネレーティブAIハイプバブルのデフォルメ
Watching the Generative AI Hype Bubble Deflate ( http://arxiv.org/abs/2408.08778v1 ) ライセンス: Link先を確認 | David Gray Widder, Mar Hicks, | (参考訳) ほんの数か月前、Generative AIは、AI企業、彼らとパートナーした企業、そしてベンチャーキャピタリストのリーダーシップによって、避けられないほど売られた。
メディアの特定の要素がこれらの主張を宣伝し、増幅するにつれて、オンラインの公開談話は、新しいベータリリースごとに、いくつかの簡単なプロンプトでできることに波及した。
AIがバイラルなセンセーションになったため、すべてのビジネスがAIビジネスになろうとした。
株の値上げに「AI」を加えた企業もあり、決算会見で「AI」を語る企業も増加傾向にあった。
Generative AIの誇大広告バブルは徐々に縮まりつつあるが、その有害な効果は続くだろう。
Only a few short months ago, Generative AI was sold to us as inevitable by the leadership of AI companies, those who partnered with them, and venture capitalists. As certain elements of the media promoted and amplified these claims, public discourse online buzzed with what each new beta release could be made to do with a few simple prompts. As AI became a viral sensation, every business tried to become an AI business. Some businesses added "AI" to their names to juice their stock prices, and companies talking about "AI" on their earnings calls saw similar increases. While the Generative AI hype bubble is now slowly deflating, its harmful effects will last. | 翻訳日:2024-08-19 15:14:04 公開日:2024-08-16 |
# DAC: テキストからSQLへの自動修正の分解
DAC: Decomposed Automation Correction for Text-to-SQL ( http://arxiv.org/abs/2408.08779v1 ) ライセンス: Link先を確認 | Dingzirui Wang, Longxu Dou, Xuanliang Zhang, Qingfu Zhu, Wanxiang Che, | (参考訳) Text-to-SQLは、SQLクエリを自動的に生成することで、データベースから情報を取得するのに役立つ重要なタスクである。
優れたパフォーマンスを考えると、Large Language Models(LLM)に基づくアプローチが、テキストからSQLへの主流となっている。
これらの手法のうち、自動補正は、生成された結果の誤りを修正することによって、パフォーマンスをさらに向上する効果的な手法である。
既存の修正手法では、LLMが生成したSQLを直接修正する必要があるが、以前の研究では、LLMはミスを検出する方法を知らないことが示されており、性能が低下している。
そこで本研究では,テキストからSQLへの変換性能を向上させるために,分割補正を用いることを提案する。
まず,分解されたサブタスクの結果がSQLよりも容易であることから,分解されたサブタスクの誤りの検出と修正が直接修正より優れていることを示す。
この分析に基づいて、テキストからSQLへの分解をエンティティリンクとスケルトン解析に分解することでSQLを修正するDecomposed Automation Correction (DAC)を導入する。
DACはまず、質問に対応するエンティティとスケルトンを生成し、最初のSQLと生成されたエンティティとスケルトンの違いを修正のためのフィードバックとして比較する。
実験結果から,本手法はベースライン法と比較して,スパイダー,バード,カグルDBQAの平均値が3.7 % 向上し,DACの有効性が示された。
Text-to-SQL is an important task that helps people obtain information from databases by automatically generating SQL queries. Considering the brilliant performance, approaches based on Large Language Models (LLMs) become the mainstream for text-to-SQL. Among these approaches, automated correction is an effective approach that further enhances performance by correcting the mistakes in the generated results. The existing correction methods require LLMs to directly correct with generated SQL, while previous research shows that LLMs do not know how to detect mistakes, leading to poor performance. Therefore, in this paper, we propose to employ the decomposed correction to enhance text-to-SQL performance. We first demonstrate that decomposed correction outperforms direct correction since detecting and fixing mistakes with the results of the decomposed sub-tasks is easier than with SQL. Based on this analysis, we introduce Decomposed Automation Correction (DAC), which corrects SQL by decomposing text-to-SQL into entity linking and skeleton parsing. DAC first generates the entity and skeleton corresponding to the question and then compares the differences between the initial SQL and the generated entities and skeleton as feedback for correction. Experimental results show that our method improves performance by $3.7\%$ on average of Spider, Bird, and KaggleDBQA compared with the baseline method, demonstrating the effectiveness of DAC. | 翻訳日:2024-08-19 15:14:04 公開日:2024-08-16 |
# 大型の言語モデルは、あなたが言っていることを気にしていないかもしれない: Prompt Formatが説明を破る
Large Language Models Might Not Care What You Are Saying: Prompt Format Beats Descriptions ( http://arxiv.org/abs/2408.08780v1 ) ライセンス: Link先を確認 | Chenming Tang, Zhixiang Wang, Yunfang Wu, | (参考訳) In-context Learning (ICL) の助けを借りて、大規模言語モデル (LLM) は様々なタスクで優れたパフォーマンスを実現している。
しかし、ICLにおける記述的命令の機能はいまだ解明されていない。
本研究では,複数のテキスト中のサンプルの選択基準を記述するためのアンサンブルプロンプトフレームワークを提案する。
しかし驚いたことに、LLMは必ずしも記述が実際に何を言っているかを気にせず、パフォーマンスの向上は主にアンサンブルフォーマットによって引き起こされる。
さらに、この新たなアンサンブルプロンプトを、3つの LLM を用いたコモンセンス、数学、論理的推論、幻覚タスクに適用し、有望な結果を得る。
この論文が公開されたら、私たちのコードは公開されます。
With the help of in-context learning (ICL), large language models (LLMs) have achieved impressive performance across various tasks. However, the function of descriptive instructions during ICL remains under-explored. In this work, we propose an ensemble prompt framework to describe the selection criteria of multiple in-context examples, and preliminary experiments on machine translation (MT) across six translation directions confirm that this framework boosts ICL perfromance. But to our surprise, LLMs might not necessarily care what the descriptions actually say, and the performance gain is primarily caused by the ensemble format, since the framework could lead to improvement even with random descriptive nouns. We further apply this new ensemble prompt on a range of commonsense, math, logical reasoning and hallucination tasks with three LLMs and achieve promising results, suggesting again that designing a proper prompt format would be much more effective and efficient than paying effort into specific descriptions. Our code will be publicly available once this paper is published. | 翻訳日:2024-08-19 15:14:04 公開日:2024-08-16 |
# 評価器の評価:タスク評価指導におけるLLMの整合性の測定
Evaluating the Evaluator: Measuring LLMs' Adherence to Task Evaluation Instructions ( http://arxiv.org/abs/2408.08781v1 ) ライセンス: Link先を確認 | Bhuvanashree Murugadoss, Christian Poelitz, Ian Drosos, Vu Le, Nick McKenna, Carina Suzana Negreanu, Chris Parnin, Advait Sarkar, | (参考訳) LLMs-as-a-judge はタスク評価における人的判断(Zheng et al 2024)を LLM を用いた自動評価に置き換える手法として最近普及した。
RLHF(Reinforcement Learning from Human Feedback)の普及により、GPT4やLlama3のような最先端のLLMは、テキストのコヒーレンスのような品質判断を促されたときに、人間の好みと強く一致することが期待されている。
これは有益と思われるが、LCM-as-a-judgeによる評価がプロンプトの指示に基づく評価のみを構成するのか、あるいはその微調整データに類似した高品質なデータを好むのかは明らかではない。
LLMs-as-a-judgeがAI判断と人間の判断の整合性にどの程度の影響を及ぼすかを調べるため、いくつかのLSMs-as-a-judgeに対して、評価の目標品質に関する指示のレベルが増加するにつれてプロンプトを解析する。
さらに,モデルパープレキシティを品質指標として用いたプロンプトフリー手法との比較を行った。
我々は、LLMによる最先端評価で一般的に使用される品質基準の分類を集約し、それを審査員として厳密なモデルベンチマークとして提供する。
全体として, LLMs-as-a-judge はプロンプトにおける高精度な指示からはほとんど利益を得られず,特にテキスト品質において, パープレクティビティは人間の判断とよく一致していることが示された。
LLMs-as-a-judge is a recently popularized method which replaces human judgements in task evaluation (Zheng et al. 2024) with automatic evaluation using LLMs. Due to widespread use of RLHF (Reinforcement Learning from Human Feedback), state-of-the-art LLMs like GPT4 and Llama3 are expected to have strong alignment with human preferences when prompted for a quality judgement, such as the coherence of a text. While this seems beneficial, it is not clear whether the assessments by an LLM-as-a-judge constitute only an evaluation based on the instructions in the prompts, or reflect its preference for high-quality data similar to its fine-tune data. To investigate how much influence prompting the LLMs-as-a-judge has on the alignment of AI judgements to human judgements, we analyze prompts with increasing levels of instructions about the target quality of an evaluation, for several LLMs-as-a-judge. Further, we compare to a prompt-free method using model perplexity as a quality measure instead. We aggregate a taxonomy of quality criteria commonly used across state-of-the-art evaluations with LLMs and provide this as a rigorous benchmark of models as judges. Overall, we show that the LLMs-as-a-judge benefit only little from highly detailed instructions in prompts and that perplexity can sometimes align better with human judgements than prompting, especially on textual quality. | 翻訳日:2024-08-19 15:14:04 公開日:2024-08-16 |
# EmoDynamiX:混合感情と談話ダイナミクスをモデル化した感情支援対話戦略予測
EmoDynamiX: Emotional Support Dialogue Strategy Prediction by Modelling MiXed Emotions and Discourse Dynamics ( http://arxiv.org/abs/2408.08782v1 ) ライセンス: Link先を確認 | Chenwei Wan, Matthieu Labeau, Chloé Clavel, | (参考訳) 苦痛を経験する人々に快適さとアドバイスを提供するために、感情的にインテリジェントな会話システムを設計することは、魅力的な研究分野である。
従来の取り組みは、社会情緒戦略予測を補助タスクとして扱い、カスタマイズされたデコーダで戦略条件付き応答を生成するモジュール型対話システムの開発に重点を置いてきた。
近年,大規模言語モデル (LLMs) の進歩に伴い,社会・情緒的戦略予測ステップを含まない対話エージェントが普及している。
しかし、言語生成に長けているにもかかわらず、最近の研究では、特定の社会的感情戦略に対するLLMs固有の嗜好バイアスが、高品質な感情支援の提供を妨げることが示されている。
この課題に対処するために、言語生成から分離戦略予測を提案し、異種グラフを用いたユーザ感情とシステム戦略の談話ダイナミクスをモデル化した対話戦略予測器EmoDynamiXを提案する。
さらに,Emotion Recognition in Conversations (ERC)タスクを利用して,ユーザの微粒な感情状態を取得するためのフレキシブルな混合感情モジュールを設計する。
2つのESCデータセットの実験結果から、EmoDynamiXは従来の最先端の手法よりも優れたマージンを持つことが示された。
Designing emotionally intelligent conversational systems to provide comfort and advice to people experiencing distress is a compelling area of research. Previous efforts have focused on developing modular dialogue systems that treat socio-emotional strategy prediction as an auxiliary task and generate strategy-conditioned responses with customized decoders. Recently, with advancements in large language models (LLMs), end-to-end dialogue agents without explicit socio-emotional strategy prediction steps have become prevalent. However, despite their excellence in language generation, recent studies show that LLMs' inherent preference bias towards certain socio-emotional strategies hinders the delivery of high-quality emotional support. To address this challenge, we propose decoupling strategy prediction from language generation, and introduce a novel dialogue strategy predictor, EmoDynamiX, which models the discourse dynamics between user emotions and system strategies using a heterogeneous graph. Additionally, we make use of the Emotion Recognition in Conversations (ERC) task and design a flexible mixed-emotion module to capture fine-grained emotional states of the user. Experimental results on two ESC datasets show EmoDynamiX outperforms previous state-of-the-art methods with a significant margin. | 翻訳日:2024-08-19 15:03:59 公開日:2024-08-16 |
# 多発性タスク学習による頭蓋内出血予後の検討
Multi-task Learning Approach for Intracranial Hemorrhage Prognosis ( http://arxiv.org/abs/2408.08784v1 ) ライセンス: Link先を確認 | Miriam Cobo, Amaia Pérez del Barrio, Pablo Menéndez Fernández-Miranda, Pablo Sanz Bellón, Lara Lloret Iglesias, Wilson Silva, | (参考訳) 頭蓋内出血(ICH)後の予後は,画像と表層データとの複雑な相互作用によって左右される。
迅速かつ信頼性の高い予後は、効果的な患者層化と情報的治療決定に不可欠である。
本研究は,画像に基づく予後の向上を目的として,予後と臨床および人口統計学の最も高い相関関係を示す頑健な特徴表現を学習することを目的とする。
本手法は,画像に埋め込まれた有意な予後データを学習するためにモデルを補強することにより,臨床上の意思決定を模倣する。
本稿では,Glasgow Coma Scale と Age の3次元マルチタスク画像モデルを提案する。
提案手法は現状のベースライン画像モデルより優れており,CTスキャンのみを入力として用いた4名の脳神経科医と比較してICH予後に優れていた。
さらに、解釈可能性の正当性マップを用いて、我々のモデルを検証した。
コードはhttps://github.com/MiriamCobo/MultitaskLearning_ICH_Prognosis.gitで公開されている。
Prognosis after intracranial hemorrhage (ICH) is influenced by a complex interplay between imaging and tabular data. Rapid and reliable prognosis are crucial for effective patient stratification and informed treatment decision-making. In this study, we aim to enhance image-based prognosis by learning a robust feature representation shared between prognosis and the clinical and demographic variables most highly correlated with it. Our approach mimics clinical decision-making by reinforcing the model to learn valuable prognostic data embedded in the image. We propose a 3D multi-task image model to predict prognosis, Glasgow Coma Scale and age, improving accuracy and interpretability. Our method outperforms current state-of-the-art baseline image models, and demonstrates superior performance in ICH prognosis compared to four board-certified neuroradiologists using only CT scans as input. We further validate our model with interpretability saliency maps. Code is available at https://github.com/MiriamCobo/MultitaskLearning_ICH_Prognosis.git. | 翻訳日:2024-08-19 15:03:59 公開日:2024-08-16 |
# 透明性パラドックス : 説明特異性と自動運転車の知覚不正確性が乗客に与える影響について
A Transparency Paradox? Investigating the Impact of Explanation Specificity and Autonomous Vehicle Perceptual Inaccuracies on Passengers ( http://arxiv.org/abs/2408.08785v1 ) ライセンス: Link先を確認 | Daniel Omeiza, Raunak Bhattacharyya, Marina Jirotka, Nick Hawes, Lars Kunze, | (参考訳) 自動システムの透明性は、理解不能な説明を提供することによって得られる。
透明性は望ましいが、(不安など)破滅的な結果をもたらすかもしれない。
説明の特異性(透明性のレベル)が、特に自律運転(AD)において、受信者にどのように影響するかは、かなり不明確です。
本研究は,ADにおける説明特異性のレベルによって媒介される透明性の効果について検討した。
まず、ADに説明生成のためのルールベースのオプションを追加することで、データ駆動の説明モデルを拡張し、次いで、39人の被験者とともに、没入型運転シミュレーターで実験室内で実験を行い、結果の説明の効果について検討した。
具体的には,(1)車両の認識システムが誤った予測を行う場合に,車両の安全,不安,意思にどう影響するか,(2)自律運転中の乗客の行動習慣と感情との関係について検討した。
その結果、車両の認識システムに最小限の誤差がある場合、乗客は特定の説明でより安全であると感じ、一方、認識エラーを隠した抽象的な説明は安全性の感覚を低下させることがわかった。
特定の説明が知覚システムエラー(高い透明性)を明らかにすると不安レベルが上昇した。
乗客の視覚パターンと不安レベルとの間に有意な相関は認められなかった。
本研究は,自律走行車(AV)が最適知覚精度を持つ場合,乗客は明確で特異な説明(高い透明性)を好むことを示唆する。
Transparency in automated systems could be afforded through the provision of intelligible explanations. While transparency is desirable, might it lead to catastrophic outcomes (such as anxiety), that could outweigh its benefits? It's quite unclear how the specificity of explanations (level of transparency) influences recipients, especially in autonomous driving (AD). In this work, we examined the effects of transparency mediated through varying levels of explanation specificity in AD. We first extended a data-driven explainer model by adding a rule-based option for explanation generation in AD, and then conducted a within-subject lab study with 39 participants in an immersive driving simulator to study the effect of the resulting explanations. Specifically, our investigation focused on: (1) how different types of explanations (specific vs. abstract) affect passengers' perceived safety, anxiety, and willingness to take control of the vehicle when the vehicle perception system makes erroneous predictions; and (2) the relationship between passengers' behavioural cues and their feelings during the autonomous drives. Our findings showed that passengers felt safer with specific explanations when the vehicle's perception system had minimal errors, while abstract explanations that hid perception errors led to lower feelings of safety. Anxiety levels increased when specific explanations revealed perception system errors (high transparency). We found no significant link between passengers' visual patterns and their anxiety levels. Our study suggests that passengers prefer clear and specific explanations (high transparency) when they originate from autonomous vehicles (AVs) with optimal perceptual accuracy. | 翻訳日:2024-08-19 15:03:59 公開日:2024-08-16 |
# 量子記憶における相関誤差の影響
Effect of Correlated Errors on Quantum Memory ( http://arxiv.org/abs/2408.08786v1 ) ライセンス: Link先を確認 | Smita Bagewadi, Avhishek Chatterjee, | (参考訳) LDPCコードに基づくメモリのフォールトトレランス、すなわちエラーに対するフォールトトレランスの最近の改善は、長距離相関を持つエラーに対するフォールトトレランスの問題に自然に繋がる。
このような誤りをモデル化するための隠れ乱数場に基づく古典的相関モデルを提案する。
このモデルでは, 結合(システムと入浴)ハミルトンモデルによって捕捉されないある種の相関パターンを, ペア項で捉えることができることを示す。
そこで,提案したクラスから得られた誤差分布の存在下での保持時間に対する逆結果から,2次的に小さな相関関係を示す。
一方,提案したモデル内のエラー分布の幅広いサブクラスでは,エラー率が十分に低い場合に,タナー符号が指数的保持時間を確保することができることを示す。
提案したモデルは、豊富な確率文献が存在するため解析的に抽出可能であり、したがって、ペア項の合同ハミルトンモデルに相補的な洞察を与えることができる。
Recent improvements in LDPC code based fault-tolerance for memory against i.i.d. errors naturally lead to the question of fault-tolerance against errors with long-range correlations. We introduce a classical correlation model based on hidden random fields for modeling such errors. We show that this proposed model can capture certain correlation patterns not captured by the joint (system and bath) Hamiltonian model with pairwise terms. Towards that, we derive a converse result for retention time in the presence of an error distribution, which is from the proposed class and exhibits quadratically small correlations. On the other hand, we show that for a broad subclass of error distributions within the proposed model, Tanner codes can ensure exponential retention time when the error rate is sufficiently low. The proposed model is analytically tractable due to the existence of a rich probability literature and thus, can offer insights complementary to the joint Hamiltonian model with pairwise terms. | 翻訳日:2024-08-19 15:03:59 公開日:2024-08-16 |
# Neighbor Overlay-induced Graph Attention Network
Neighbor Overlay-Induced Graph Attention Network ( http://arxiv.org/abs/2408.08788v1 ) ライセンス: Link先を確認 | Tiqiao Wei, Ye Yuan, | (参考訳) グラフニューラルネットワーク(GNN)は、グラフデータを表現できることから、大きな注目を集めている。
GNNの様々な変種の中で、異なるノードの重要性を動的に学習できるため、グラフアテンションネットワーク(GAT)は際立っている。
しかし、現在のGATは、グラフ構造情報よりも注意係数を得るためにスムーズなノード特徴に強く依存しており、ノード表現にとって重要な文脈的手がかりを提供していない。
この問題に対処するために,本研究では,次の2つの考え方を持つ隣接オーバレイ誘発グラフアテンションネットワーク(NO-GAT)を提案する。
a) 隣接行列からのノード特徴伝播プロセスの外にある、有利な構造情報、すなわち、隣人のオーバーレイド
ロ 隣人の情報をノード特徴伝播プロセスに注入して、注意係数を共同計算すること。
グラフベンチマークデータセットに関する実証研究は、提案されたNO-GATが最先端モデルより一貫して優れていることを示している。
Graph neural networks (GNNs) have garnered significant attention due to their ability to represent graph data. Among various GNN variants, graph attention network (GAT) stands out since it is able to dynamically learn the importance of different nodes. However, present GATs heavily rely on the smoothed node features to obtain the attention coefficients rather than graph structural information, which fails to provide crucial contextual cues for node representations. To address this issue, this study proposes a neighbor overlay-induced graph attention network (NO-GAT) with the following two-fold ideas: a) learning favorable structural information, i.e., overlaid neighbors, outside the node feature propagation process from an adjacency matrix; b) injecting the information of overlaid neighbors into the node feature propagation process to compute the attention coefficient jointly. Empirical studies on graph benchmark datasets indicate that the proposed NO-GAT consistently outperforms state-of-the-art models. | 翻訳日:2024-08-19 15:03:59 公開日:2024-08-16 |
# 100万枚以上のファウンダス画像を用いた疾患特異的基礎モデル:下流課題における異常・多変量分類のリリースと検証
A Disease-Specific Foundation Model Using Over 100K Fundus Images: Release and Validation for Abnormality and Multi-Disease Classification on Downstream Tasks ( http://arxiv.org/abs/2408.08790v1 ) ライセンス: Link先を確認 | Boa Jang, Youngbin Ahn, Eun Kyung Choe, Chang Ki Yoon, Hyuk Jin Choi, Young-Gon Kim, | (参考訳) 網膜画像に応用された人工知能は、網膜状態の徴候や症状を認識し、眼疾患や全身疾患の診断を迅速化するための重要な可能性を秘めている。
しかし、医学データのための汎用人工知能モデルを開発するには、様々な病気の兆候を表すラベル付き画像が多数必要であり、ほとんどのモデルは、主要な網膜疾患に焦点を当てたタスク固有である。
本研究では,基礎画像の異常を検出するための教師付き人工知能モデルであるFundus-Specific Pretrained Model(Image+Fundus)を開発した。
57,803枚の画像を用いて事前学習モデルを構築し,様々な下流タスクにおいて優れた性能を達成し,提案モデルが他の一般的な手法よりも優れていることを示す。
当社のImage+Fundusモデルは,ラベル付きデータセットの数を削減しつつ,モデル性能を改善するための汎用的なアプローチを提供する。
さらに、私たちのモデルが生成した視覚化により、根底画像に対するより病特異的な洞察を提供する。
これらの疾患特異的基盤モデルは、基礎画像の分野でのディープラーニングモデルの性能と効率を高める上で非常に有用である。
Artificial intelligence applied to retinal images offers significant potential for recognizing signs and symptoms of retinal conditions and expediting the diagnosis of eye diseases and systemic disorders. However, developing generalized artificial intelligence models for medical data often requires a large number of labeled images representing various disease signs, and most models are typically task-specific, focusing on major retinal diseases. In this study, we developed a Fundus-Specific Pretrained Model (Image+Fundus), a supervised artificial intelligence model trained to detect abnormalities in fundus images. A total of 57,803 images were used to develop this pretrained model, which achieved superior performance across various downstream tasks, indicating that our proposed model outperforms other general methods. Our Image+Fundus model offers a generalized approach to improve model performance while reducing the number of labeled datasets required. Additionally, it provides more disease-specific insights into fundus images, with visualizations generated by our model. These disease-specific foundation models are invaluable in enhancing the performance and efficiency of deep learning models in the field of fundus imaging. | 翻訳日:2024-08-19 15:03:59 公開日:2024-08-16 |
# 薄い血液スミアを用いたマラリア診断モデルの一般化能力の評価
Assessing Generalization Capabilities of Malaria Diagnostic Models from Thin Blood Smears ( http://arxiv.org/abs/2408.08792v1 ) ライセンス: Link先を確認 | Louise Guillon, Soheib Biga, Axel Puyo, Grégoire Pasquier, Valentin Foucher, Yendoubé E. Kantchire, Stéphane E. Sossou, Ameyo M. Dorkenoo, Laurent Bonnardot, Marc Thellier, Laurence Lachaud, Renaud Piarroux, | (参考訳) マラリアは依然として重要な世界的な健康問題であり、迅速かつ正確な診断方法を必要とする。
深層学習を利用したコンピュータ支援診断(CAD)ツールは有望であるが, 多様な臨床環境への一般化はいまだに不十分である。
本研究は,4つの部位にわたる細い血液スミア画像からマラリア診断のためのCADモデルの一般化能力について検討した。
我々は、微調整や漸進的な学習を含む一般化を強化する戦略を探求する。
以上の結果から, サイト固有のデータの導入により, モデルの性能が著しく向上し, より広範な臨床応用への道が開けることが示唆された。
Malaria remains a significant global health challenge, necessitating rapid and accurate diagnostic methods. While computer-aided diagnosis (CAD) tools utilizing deep learning have shown promise, their generalization to diverse clinical settings remains poorly assessed. This study evaluates the generalization capabilities of a CAD model for malaria diagnosis from thin blood smear images across four sites. We explore strategies to enhance generalization, including fine-tuning and incremental learning. Our results demonstrate that incorporating site-specific data significantly improves model performance, paving the way for broader clinical application. | 翻訳日:2024-08-19 15:03:59 公開日:2024-08-16 |
# 直交変換層による後方対応型アライメント
Backward-Compatible Aligned Representations via an Orthogonal Transformation Layer ( http://arxiv.org/abs/2408.08793v1 ) ライセンス: Link先を確認 | Simone Ricci, Niccolò Biondi, Federico Pernici, Alberto Del Bimbo, | (参考訳) 画像検索システムは、古い表現と新しい表現のミスアライメントにより、表現を改善したモデルを更新する際、重大な課題に直面している。
コストが高くリソース集約的なバックフィルプロセスでは、新しいモデルが導入されるたびにギャラリー内の画像の特徴ベクトルを再計算する。
これを解決するために、従来の研究では、バックフィルなしで新しい表現と古い表現を直接比較できる後方互換性のあるトレーニング方法を模索してきた。
これらの進歩にもかかわらず、後方互換性と独立に訓練されたモデルの性能のバランスをとることは未解決の問題である。
本稿では,表現空間を付加次元で拡張し,旧モデルとの整合性を達成するために直交変換を学習し,同時に新たな情報を統合することで,この問題に対処する。
この変換は、元の特徴空間の幾何学を保ち、我々のモデルは、新しいデータを学習しながら、以前のバージョンと整合することを保証する。
我々のOrthogonal Compatible Aligned (OCA)アプローチは、モデル更新中に再インデックスを行う必要をなくし、追加のマッピング機能なしで、さまざまなモデル更新間で機能を直接比較できるようにします。
CIFAR-100 と ImageNet-1k の実験結果から,本手法は従来のモデルとの互換性を保ちつつ,最先端の精度を達成し,既存手法よりも優れていることが示された。
Visual retrieval systems face significant challenges when updating models with improved representations due to misalignment between the old and new representations. The costly and resource-intensive backfilling process involves recalculating feature vectors for images in the gallery set whenever a new model is introduced. To address this, prior research has explored backward-compatible training methods that enable direct comparisons between new and old representations without backfilling. Despite these advancements, achieving a balance between backward compatibility and the performance of independently trained models remains an open problem. In this paper, we address it by expanding the representation space with additional dimensions and learning an orthogonal transformation to achieve compatibility with old models and, at the same time, integrate new information. This transformation preserves the original feature space's geometry, ensuring that our model aligns with previous versions while also learning new data. Our Orthogonal Compatible Aligned (OCA) approach eliminates the need for re-indexing during model updates and ensures that features can be compared directly across different model updates without additional mapping functions. Experimental results on CIFAR-100 and ImageNet-1k demonstrate that our method not only maintains compatibility with previous models but also achieves state-of-the-art accuracy, outperforming several existing methods. | 翻訳日:2024-08-19 15:03:59 公開日:2024-08-16 |
# RollingCache: キャッシュサイドチャネルアタックに対して実行時動作を使用する
RollingCache: Using Runtime Behavior to Defend Against Cache Side Channel Attacks ( http://arxiv.org/abs/2408.08795v1 ) ライセンス: Link先を確認 | Divya Ojha, Sandhya Dwarkadas, | (参考訳) 共有キャッシュは、キャッシュセット内の競合を通じてサイドチャネル攻撃に対して脆弱である。
情報漏洩の単純な情報源であるだけでなく、これらのサイドチャネルは、共有システムのセキュリティを侵害するより高度な攻撃のための有用なガジェットを形成する。
競合攻撃が悪用する基本的な設計側面は、キャッシュセットに競合するアドレスの集合の決定論的性質である。
本稿では,キャッシュセットに競合するアドレスの集合を動的に変更することで競合攻撃を防ぐキャッシュ設計であるRollingCacheを提案する。
以前のディフェンスとは異なり、RollingCacheはアドレスの暗号化/復号化、データ再配置、キャッシュパーティショニングに依存していない。
キャッシュ全体の動作によって制御される動的マッピングを実装するために、あるレベルの間接性を使用します。
私たちのソリューションは、定義されたセキュリティドメインに依存せず、同じまたは他のコア上で実行されている攻撃者に対して防御することができます。
我々はSPEC-2017ベンチマークスイートを用いてChampSim上でのRollingCacheを評価する。
我々のセキュリティ評価は、動的マッピングが競合の原因を特定する決定論的能力を排除していることを示している。
パフォーマンス評価は、ワークロードの混合に対する1.67\%の影響と対応する結果を示している。
Shared caches are vulnerable to side channel attacks through contention in cache sets. Besides being a simple source of information leak, these side channels form useful gadgets for more sophisticated attacks that compromise the security of shared systems. The fundamental design aspect that contention attacks exploit is the deterministic nature of the set of addresses contending for a cache set. In this paper, we present RollingCache, a cache design that defends against contention attacks by dynamically changing the set of addresses contending for cache sets. Unlike prior defenses, RollingCache does not rely on address encryption/decryption, data relocation, or cache partitioning. We use one level of indirection to implement dynamic mapping controlled by the whole-cache runtime behavior. Our solution does not depend on having defined security domains, and can defend against an attacker running on the same or another core. We evaluate RollingCache on ChampSim using the SPEC-2017 benchmark suite. Our security evaluation shows that our dynamic mapping removes the deterministic ability to identify the source of contention. The performance evaluation shows an impact of 1.67\% over a mix of workloads, with a corresponding | 翻訳日:2024-08-19 15:03:59 公開日:2024-08-16 |
# 交換対称性が集合量子熱エンジンの性能に与える影響
How exchange symmetry impacts performance of collective quantum heat engines ( http://arxiv.org/abs/2408.08797v1 ) ライセンス: Link先を確認 | Julia Boeyens, Benjamin Yadin, Stefan Nimmrichter, | (参考訳) 近年, 熱機関や冷凍機のような多層結合型量子機械は, 超輝度に類似した性能向上が認められた。
これまでのところ、集合量子マシンの性能の研究は、特に多数の粒子に対して、ボゾン交換対称性を持つ粒子に動力学をかなり制限してきた。
しかし、不明瞭だが基本的に同一ではない粒子の集まりは、より一般的な交換対称性またはそれらの組み合わせの量子状態を仮定する可能性があり、ヒルベルト空間全体を探索できる力学の集合的利点を観測できるかどうかという疑問が提起される。
ここでは、より一般的な交換対称性の形式を認めながら、単粒子三層メーザーの集合とそれらの集合結合の集合を比較する。
本研究では, エルゴトロピーと出力パワーを実測値として検討し, 一つの三段エンジンに適用可能な既知結果のどれが, 集合的なアンサンブルからなるエンジンに受け継がれるかを示す。
このことは表現論の結果を用いてヒルベルト空間の全基底を特徴づけ、そのような系の力学を記述するための一般的なツールを提供する。
集合的作業抽出は3レベルラシングの温度窓を超えて拡張可能であるのに対して,ラシング体制においては,個々の作業が集団的作業より優れていることが判明した。
さらに、ワークライクなエネルギー出力の最適パラメータ構造は、異なる対称性のタイプによって異なる。
この結果から, ボソニック対称性が必ずしも最適ではなく, 個々の粒子が最適に振る舞うことが示唆された。
Recently, multilevel collectively coupled quantum machines like heat engines and refrigerators have been shown to admit performance enhancements in analogy to superradiance. Thus far, investigations of the performance of collective quantum machines have largely restricted the dynamics to particles with bosonic exchange symmetry, especially for large numbers of particles. However, collections of indistiguishable but not fundamentally identical particles may assume quantum states of more general exchange symmetry or combinations thereof, raising the question of whether collective advantages can be observed for dynamics that allow the full Hilbert space to be explored. Here, we compare a collection of single-particle three-level masers with their collectively coupled counterpart, while admitting more general forms of exchange symmetry. We study ergotropy and emitted power as the figures of merit and show which of the known results applicable to a single three-level engine carry over to an engine made up of a collectively coupled ensemble. We do this using results from representation theory to characterise the full basis of the Hilbert space and provide general tools for the description of the dynamics of such systems. We find that collective work extraction can extend beyond the temperature window of three-level lasing, whereas in the lasing regime, individual may outperform collective operation. In addition, the optimal parameter regime for work-like energy output varies for different symmetry types. Our results show a rich picture in which bosonic symmetry is not always optimal and sometimes individual particles may even perform best. | 翻訳日:2024-08-19 15:03:59 公開日:2024-08-16 |
# 幾何学的木の表現学習
Representation Learning of Geometric Trees ( http://arxiv.org/abs/2408.08799v1 ) ライセンス: Link先を確認 | Zheng Zhang, Allen Zhang, Ruth Nelson, Giorgio Ascoli, Liang Zhao, | (参考訳) 幾何学的木は、木の構造的レイアウトと空間的に制約されたノードとエッジによって特徴づけられ、そのトポロジカルな特性に大きな影響を及ぼす。
この固有階層構造は、ニューロン形態学や河川地形学のような領域において重要な役割を担っているが、伝統的なグラフ表現法はしばしばこれらの木構造の特徴を見落としている。
そこで我々は,幾何学木に適した表現学習フレームワークを提案する。
最初はユニークなメッセージパッシングニューラルネットワークを備えており、これは幾何的構造を復元可能であり、回転変換不変である。
データラベルの不足問題に対処するため,これらの幾何学的木の階層的順序付けと幾何学的構造を反映した2つの革新的なトレーニング目標も提案する。
これにより、明示的なラベルなしで完全に自己教師付き学習が可能になる。
提案手法の有効性を実世界の8つのデータセットで検証し,幾何学木を表現できることを実証した。
Geometric trees are characterized by their tree-structured layout and spatially constrained nodes and edges, which significantly impacts their topological attributes. This inherent hierarchical structure plays a crucial role in domains such as neuron morphology and river geomorphology, but traditional graph representation methods often overlook these specific characteristics of tree structures. To address this, we introduce a new representation learning framework tailored for geometric trees. It first features a unique message passing neural network, which is both provably geometrical structure-recoverable and rotation-translation invariant. To address the data label scarcity issue, our approach also includes two innovative training targets that reflect the hierarchical ordering and geometric structure of these geometric trees. This enables fully self-supervised learning without explicit labels. We validate our method's effectiveness on eight real-world datasets, demonstrating its capability to represent geometric trees. | 翻訳日:2024-08-19 15:03:59 公開日:2024-08-16 |
# スピン-1/2ハイゼンベルク反強磁性鎖の合成とスピノン検出への応用
Fabrication of Spin-1/2 Heisenberg Antiferromagnetic Chains via Combined On-surface Synthesis and Reduction for Spinon Detection ( http://arxiv.org/abs/2408.08801v1 ) ライセンス: Link先を確認 | Xuelei Su, Zhihao Ding, Ye Hong, Nan Ke, KaKing Yan, Can Li, Yifan Jiang, Ping Yu, | (参考訳) スピン-1/2 ハイゼンベルク反強磁性鎖は量子磁気状態と準粒子分極の探索に優れた1次元のプラットフォームである。
量子磁気学と準粒子励起を原子スケールで理解することは、量子スピン系の操作に不可欠である。
本稿では,スピン-1/2ハイゼンベルク鎖の合成とその場還元による製造について報告する。
閉殻ナノグラフェンがウルマンカップリングの前駆体として使われ、ラジカル拡散を避けることによりオリゴマー鎖を得る。
水素原子への曝露と先端操作の後、クローズドシェルポリマーはケトン基とその後の水素脱離を減らし、長さが制御されたスピン-1/2鎖に変換される。
スピン励起ギャップは鎖の長さが長くなるにつれてパワーローが減少し、そのギャップのない特徴が示唆される。
さらに興味深いことに、スピノン分散は非弾性分光スペクトルから抽出され、計算によく一致する。
本研究は, 地表面合成と還元を併用して, 所望の量子系を創り出す大きな可能性を示すものである。
Spin-1/2 Heisenberg antiferromagnetic chains are excellent one-dimensional platforms for exploring quantum magnetic states and quasiparticle fractionalization. Understanding its quantum magnetism and quasiparticle excitation at the atomic scale is crucial for manipulating the quantum spin systems. Here, we report the fabrication of spin-1/2 Heisenberg chains through on-surface synthesis and in-situ reduction. A closed-shell nanographene is employed as a precursor for Ullman coupling to avoid radical fusing, thus obtaining oligomer chains. Following exposure to atomic hydrogen and tip manipulation, closed-shell polymers are transformed into spin-1/2 chains with controlled lengths by reducing the ketone groups and subsequent hydrogen desorption. The spin excitation gaps are found to decrease in power-law as the chain lengths, suggesting its gapless feature. More interestingly, the spinon dispersion is extracted from the inelastic spectroscopic spectra, agreeing well with the calculations. Our results demonstrate the great potential of fabricating desired quantum systems through a combined on-surface synthesis and reduction approach. | 翻訳日:2024-08-19 15:03:59 公開日:2024-08-16 |
# PriorMapNet: オンラインベクタライズされたHDマップ構築をプリミティブで強化
PriorMapNet: Enhancing Online Vectorized HD Map Construction with Priors ( http://arxiv.org/abs/2408.08802v1 ) ライセンス: Link先を確認 | Rongxuan Wang, Xin Lu, Xiaoyang Liu, Xiaoyi Zou, Tongyi Cao, Ying Li, | (参考訳) オンラインベクトル化ハイディフィニション(HD)マップの構築は、自動運転におけるその後の予測と計画作業に不可欠である。
MapTRのパラダイムに従って、最近の研究は注目すべき成果を上げている。
しかし、参照ポイントは主流の手法でランダムに初期化され、予測と基底真理の不安定な一致につながる。
この問題に対処するため,オンラインベクター化HDマップ構築を事前で強化するために,PresideMapNetを導入する。
位置と構造を持つ参照ポイントを提供するPS-Decoderを提案する。
データセットのマップ要素から設定された事前参照ポイントは、学習困難を減らし、安定したマッチングを実現する。
さらに,BEV特徴量による画像からBEVへの変換を向上するPF-Encoderを提案する。
さらに,マルチスケールおよびマルチサンプルに沿って,それぞれクロスアテンションを分離して効率を向上するMDDクロスアテンションを提案する。
提案したPreferMapNetは,nuScenesおよびArgoverse2データセット上でのオンラインベクトル化HDマップ構築タスクにおいて,最先端のパフォーマンスを実現する。
コードはまもなく公開される予定だ。
Online vectorized High-Definition (HD) map construction is crucial for subsequent prediction and planning tasks in autonomous driving. Following MapTR paradigm, recent works have made noteworthy achievements. However, reference points are randomly initialized in mainstream methods, leading to unstable matching between predictions and ground truth. To address this issue, we introduce PriorMapNet to enhance online vectorized HD map construction with priors. We propose the PPS-Decoder, which provides reference points with position and structure priors. Fitted from the map elements in the dataset, prior reference points lower the learning difficulty and achieve stable matching. Furthermore, we propose the PF-Encoder to enhance the image-to-BEV transformation with BEV feature priors. Besides, we propose the DMD cross-attention, which decouples cross-attention along multi-scale and multi-sample respectively to achieve efficiency. Our proposed PriorMapNet achieves state-of-the-art performance in the online vectorized HD map construction task on nuScenes and Argoverse2 datasets. The code will be released publicly soon. | 翻訳日:2024-08-19 15:03:59 公開日:2024-08-16 |
# 事前学習変換器を用いたテキスト分類のためのFourierKAN分類ヘッドの活用
Leveraging FourierKAN Classification Head for Pre-Trained Transformer-based Text Classification ( http://arxiv.org/abs/2408.08803v1 ) ライセンス: Link先を確認 | Abdullah Al Imran, Md Farhan Ishmam, | (参考訳) 長年にわたり、多層パーセプトロン(MLP)ヘッドを用いたトランスフォーマーベースの事前訓練モデルがテキスト分類タスクの標準となっている。
しかし、MLPが採用する固定された非線形関数は、事前訓練されたエンコーダによって生成された文脈的埋め込みの複雑さを捉えるには不十分であることが多い。
さらに、MLPは通常、かなりの数のトレーニングパラメータを必要とし、計算コストがかかる。
本稿では,トランスフォーマーをベースとしたエンコーダの分類ヘッドとして,KAN(Kolmogorov-Arnold Networks)と呼ばれる,有望なMLP代替品の変種であるFourierKAN(FR-KAN)を紹介する。
従来のMLPヘッドの代わりにFR-KANヘッドを組み込んだ場合,F1スコアの精度は平均10%向上し,F1スコアは11%向上した。
モデル精度の改善に加えて、FR-KANヘッドはより速くトレーニングし、より少ないパラメータを必要とする。
本研究は,いくつかの自然言語処理(NLP)タスクにまたがって,kanの幅広い応用のための新たな基盤を開く。
For many years, transformer-based pre-trained models with Multi-layer Perceptron (MLP) heads have been the standard for text classification tasks. However, the fixed non-linear functions employed by MLPs often fall short of capturing the intricacies of the contextualized embeddings produced by pre-trained encoders. Furthermore, MLPs usually require a significant number of training parameters, which can be computationally expensive. In this work, we introduce FourierKAN (FR-KAN), a variant of the promising MLP alternative called Kolmogorov-Arnold Networks (KANs), as classification heads for transformer-based encoders. Our studies reveal an average increase of 10% in accuracy and 11% in F1-score when incorporating FR-KAN heads instead of traditional MLP heads for several transformer-based pre-trained models across multiple text classification tasks. Beyond improving model accuracy, FR-KAN heads train faster and require fewer parameters. Our research opens new grounds for broader applications of KAN across several Natural Language Processing (NLP) tasks. | 翻訳日:2024-08-19 15:03:59 公開日:2024-08-16 |
# CIKMar:教育対話システムにおけるプロンプトに基づく再ランク付けのためのデュアルエンコーダアプローチ
CIKMar: A Dual-Encoder Approach to Prompt-Based Reranking in Educational Dialogue Systems ( http://arxiv.org/abs/2408.08805v1 ) ライセンス: Link先を確認 | Joanito Agili Lopo, Marina Indah Prasasti, Alma Permatasari, | (参考訳) 本研究では,Gemma言語モデルを用いた教育対話システムに対する効果的なアプローチであるCIKMarを紹介する。
BERTモデルとSBERTモデルの両方を組み込んだDual-Encoderランキングシステムを利用して、より小さな言語モデルサイズの制約があっても、高い関連性と正確な応答を提供するCIKMarを設計した。
BERTScoreメトリクスを用いて,CIKMarが堅牢なリコールを実現し,F1スコアが0.70となった。
しかし、我々は重要な課題を特定した。デュアルエンコーダは実際よりも理論的な応答を優先する傾向がある。
これらの発見は、高度な教育AIシステムへのアクセスを民主化し、効果的で文脈的に適切な応答を確実にするGemmaのようなコンパクトで効率的なモデルの可能性を強調している。
In this study, we introduce CIKMar, an efficient approach to educational dialogue systems powered by the Gemma Language model. By leveraging a Dual-Encoder ranking system that incorporates both BERT and SBERT model, we have designed CIKMar to deliver highly relevant and accurate responses, even with the constraints of a smaller language model size. Our evaluation reveals that CIKMar achieves a robust recall and F1-score of 0.70 using BERTScore metrics. However, we have identified a significant challenge: the Dual-Encoder tends to prioritize theoretical responses over practical ones. These findings underscore the potential of compact and efficient models like Gemma in democratizing access to advanced educational AI systems, ensuring effective and contextually appropriate responses. | 翻訳日:2024-08-19 15:03:59 公開日:2024-08-16 |
# LLM-as-a-judgeのためのドメイン特化評価セットの構築
Constructing Domain-Specific Evaluation Sets for LLM-as-a-judge ( http://arxiv.org/abs/2408.08808v1 ) ライセンス: Link先を確認 | Ravi Raju, Swayambhoo Jain, Bo Li, Jonathan Li, Urmish Thakkar, | (参考訳) 大規模言語モデル(LLM)は機械学習のランドスケープに革命をもたらしたが、現在のベンチマークは現実世界のアプリケーションでこれらのモデルの多様な振る舞いを捉えるのに不足していることが多い。
ベンチマークの有用性は、様々な能力(分離性)のモデルを明確に区別し、人間の好みと密接に一致させることによって決定される。
Alpaca-Eval 2.0 LC \cite{dubois2024length controlledalpacaevalsimpleway} や Arena-Hard v0.1 \cite{li2024crowdsourced} のような既存のフレームワークは、汎用的なクエリと法、医学、多言語コンテキストといったドメイン間の多様性の欠如によって制限されている。
本稿では,LLM-as-a-Judgeフレームワークに適した多種多様なドメイン固有の評価セットをキュレートする新しいデータパイプラインを導入することで,これらの制約に対処する。
提案手法では,手動キュレーション,半教師付き学習,クラスタ生成,階層化サンプリングを組み合わせることで,幅広いドメインや言語にまたがるバランスの取れた表現を確保する。
その結果、14のカテゴリにまたがる1573のサンプルを含む評価セットは、10の上位モデルに対して高い分離性 (84 %) を示し、Chatbot Arena と (0.915) スピアマン相関との一致 (84 %) を示す。
合意値は、AlpacaEval 2.0 LCより9倍、AlpacaEval 2.0 LCより20倍、Spearman係数は次のベストベンチマークより0.7倍、ベンチマークの有用性が大幅に向上したことを示している。
さらに、ユーザ定義カテゴリ間のモデルパフォーマンスのきめ細かい分析を可能にするオープンソースの評価ツールを提供し、実践者にとって貴重な洞察を提供する。
本研究は, LLM評価手法の透明性, 多様性, 有効性の向上に寄与する。
Large Language Models (LLMs) have revolutionized the landscape of machine learning, yet current benchmarks often fall short in capturing the diverse behavior of these models in real-world applications. A benchmark's usefulness is determined by its ability to clearly differentiate between models of varying capabilities (separability) and closely align with human preferences. Existing frameworks like Alpaca-Eval 2.0 LC \cite{dubois2024lengthcontrolledalpacaevalsimpleway} and Arena-Hard v0.1 \cite{li2024crowdsourced} are limited by their focus on general-purpose queries and lack of diversity across domains such as law, medicine, and multilingual contexts. In this paper, we address these limitations by introducing a novel data pipeline that curates diverse, domain-specific evaluation sets tailored for LLM-as-a-Judge frameworks. Our approach leverages a combination of manual curation, semi-supervised learning to generate clusters, and stratified sampling to ensure balanced representation across a wide range of domains and languages. The resulting evaluation set, which includes 1573 samples across 14 categories, demonstrates high separability (84\%) across ten top-ranked models, and agreement (84\%) with Chatbot Arena and (0.915) Spearman correlation. The agreement values are 9\% better than Arena Hard and 20\% better than AlpacaEval 2.0 LC, while the Spearman coefficient is 0.7 more than the next best benchmark, showcasing a significant improvement in the usefulness of the benchmark. We further provide an open-source evaluation tool that enables fine-grained analysis of model performance across user-defined categories, offering valuable insights for practitioners. This work contributes to the ongoing effort to enhance the transparency, diversity, and effectiveness of LLM evaluation methodologies. | 翻訳日:2024-08-19 14:53:53 公開日:2024-08-16 |
# 人工知能と戦略決定--起業家と投資家の証拠
Artificial Intelligence and Strategic Decision-Making: Evidence from Entrepreneurs and Investors ( http://arxiv.org/abs/2408.08811v1 ) ライセンス: Link先を確認 | Felipe A. Csaszar, Harsh Ketkar, Hyunjin Kim, | (参考訳) 本稿では、企業における戦略的意思決定(SDM)プロセスに人工知能(AI)がどのような影響を与えるかを検討する。
AIが既存のSDMツールを強化し、先進的なアクセラレータープログラムとスタートアップの競争から実証的な証拠を提供する方法を説明し、現在のLarge Language Models(LLMs)が起業家や投資家に匹敵するレベルで戦略を生成および評価することができることを説明した。
次に、SDMの根底にある重要な認知過程である探索、表現、集約について考察する。
我々の分析は、AIが戦略的分析のスピード、品質、スケールを高める可能性があり、同時に仮想戦略シミュレーションのような新しいアプローチを可能にすることを示唆している。
しかし、ファームパフォーマンスに対する究極の影響は、AI能力の進歩に伴って、競争力にかかっている。
我々は,SDMにおけるAI活用を確固たる結果に結びつける枠組みを提案し,AIが競争優位の源泉をいかに作り直すかについて議論する。
我々は、AIが戦略理論に基づく視点のコアテットをどのようにサポートし、挑戦できるかを考えることで結論付けた。
全体的に、私たちの研究はAIと戦略の交差点における新たな研究フロンティアを図示しています。
This paper explores how artificial intelligence (AI) may impact the strategic decision-making (SDM) process in firms. We illustrate how AI could augment existing SDM tools and provide empirical evidence from a leading accelerator program and a startup competition that current Large Language Models (LLMs) can generate and evaluate strategies at a level comparable to entrepreneurs and investors. We then examine implications for key cognitive processes underlying SDM -- search, representation, and aggregation. Our analysis suggests AI has the potential to enhance the speed, quality, and scale of strategic analysis, while also enabling new approaches like virtual strategy simulations. However, the ultimate impact on firm performance will depend on competitive dynamics as AI capabilities progress. We propose a framework connecting AI use in SDM to firm outcomes and discuss how AI may reshape sources of competitive advantage. We conclude by considering how AI could both support and challenge core tenets of the theory-based view of strategy. Overall, our work maps out an emerging research frontier at the intersection of AI and strategy. | 翻訳日:2024-08-19 14:53:53 公開日:2024-08-16 |
# CAT:分散リスクによる強化学習における注意力の伝達
CAT: Caution Aware Transfer in Reinforcement Learning via Distributional Risk ( http://arxiv.org/abs/2408.08812v1 ) ライセンス: Link先を確認 | Mohamad Fares El Hajj Chehade, Amrit Singh Bedi, Amy Zhang, Hao Zhu, | (参考訳) 強化学習(RL)における伝達学習は、それまでの学習課題からの知識を活用して、新しい目に見えないタスクにおけるデータ効率を改善するための重要な戦略となっている。
このアプローチは、計算リソースが制約され、エージェントが新しい環境に迅速に適応しなければならない実世界のデプロイメントシナリオで特に有用である。
しかしながら、現在の最先端の手法は、特に予期せぬリスクがデプロイメントフェーズに出現した場合に、転送プロセス中の安全性を確保するために不足することが多い。
本稿では,CAT(Caution-Aware Transfer Learning)フレームワークを導入することで,これらの制約に対処する。
リスク考慮を平均分散に限定する従来のアプローチとは異なり、我々は「注意」をより一般化され包括的なリスクの概念として定義する。
当社の中核的なイノベーションは、トランスファープロセス中における国家行動占有度に基づく報酬リターンと注意の重み付けの合計を最適化することであり、多様なリスク要因の豊かな表現を可能にします。
我々の知る限りでは、転送RLの文脈内でそのような一般化されたリスク概念の最適化を探求する最初の研究である。
1)テスト環境内のソースポリシを評価し,報酬の最大化と警告のバランスをとるための新たなポリシを構築する,Caution-Aware Transfer(CAT)フレームワークを提案する。
2) 本手法の理論的準最適境界を導出し, その有効性について厳密な保証を与える。
3) CATを実証的に検証し, テストタスクにおいて, リスク条件の異なる安全政策を提供することにより, 既存の手法を一貫して上回っていることを示す。
Transfer learning in reinforcement learning (RL) has become a pivotal strategy for improving data efficiency in new, unseen tasks by utilizing knowledge from previously learned tasks. This approach is especially beneficial in real-world deployment scenarios where computational resources are constrained and agents must adapt rapidly to novel environments. However, current state-of-the-art methods often fall short in ensuring safety during the transfer process, particularly when unforeseen risks emerge in the deployment phase. In this work, we address these limitations by introducing a novel Caution-Aware Transfer Learning (CAT) framework. Unlike traditional approaches that limit risk considerations to mean-variance, we define "caution" as a more generalized and comprehensive notion of risk. Our core innovation lies in optimizing a weighted sum of reward return and caution-based on state-action occupancy measures-during the transfer process, allowing for a rich representation of diverse risk factors. To the best of our knowledge, this is the first work to explore the optimization of such a generalized risk notion within the context of transfer RL. Our contributions are threefold: (1) We propose a Caution-Aware Transfer (CAT) framework that evaluates source policies within the test environment and constructs a new policy that balances reward maximization and caution. (2) We derive theoretical sub-optimality bounds for our method, providing rigorous guarantees of its efficacy. (3) We empirically validate CAT, demonstrating that it consistently outperforms existing methods by delivering safer policies under varying risk conditions in the test tasks. | 翻訳日:2024-08-19 14:53:53 公開日:2024-08-16 |
# 基礎モデルを用いた検索機能付Few-shot画像分割
Retrieval-augmented Few-shot Medical Image Segmentation with Foundation Models ( http://arxiv.org/abs/2408.08813v1 ) ライセンス: Link先を確認 | Lin Zhao, Xiao Chen, Eric Z. Chen, Yikang Liu, Terrence Chen, Shanhui Sun, | (参考訳) 臨床診断には医用画像のセグメンテーションが不可欠であるが,注記データの不足は重大な課題である。
FSS(Few-shot segmentation)メソッドは、promiseを示すが、ターゲットドメインの再トレーニングや、さまざまなモダリティの一般化に苦労することが多い。
同様に、医療画像に対するSegment Anything Model (SAM)のような基礎モデルへの適応には、微調整やドメイン固有の適応といった制限がある。
これらの課題に対処するために,DINOv2 と Segment Anything Model 2 (SAM2) を併用して,画像の検索を補助する手法を提案する。
我々のアプローチでは、DINOv2の機能をクエリとして使用し、制限付きアノテートデータから類似したサンプルを検索し、それをメモリバンクにエンコードする。
SAM 2のメモリアテンション機構により、モデルはこれらのメモリを条件として利用し、ターゲット画像の正確なセグメンテーションを生成する。
我々は,3つの医用画像分割作業の枠組みを評価し,再トレーニングや微調整を必要とせず,様々なモダリティに対して優れた性能と一般化性を示した。
本手法は, 臨床応用において有用なアノテーションツールとして有意な可能性を秘めている。
Medical image segmentation is crucial for clinical decision-making, but the scarcity of annotated data presents significant challenges. Few-shot segmentation (FSS) methods show promise but often require retraining on the target domain and struggle to generalize across different modalities. Similarly, adapting foundation models like the Segment Anything Model (SAM) for medical imaging has limitations, including the need for finetuning and domain-specific adaptation. To address these issues, we propose a novel method that adapts DINOv2 and Segment Anything Model 2 (SAM 2) for retrieval-augmented few-shot medical image segmentation. Our approach uses DINOv2's feature as query to retrieve similar samples from limited annotated data, which are then encoded as memories and stored in memory bank. With the memory attention mechanism of SAM 2, the model leverages these memories as conditions to generate accurate segmentation of the target image. We evaluated our framework on three medical image segmentation tasks, demonstrating superior performance and generalizability across various modalities without the need for any retraining or finetuning. Overall, this method offers a practical and effective solution for few-shot medical image segmentation and holds significant potential as a valuable annotation tool in clinical applications. | 翻訳日:2024-08-19 14:53:53 公開日:2024-08-16 |
# 遺伝子制御ネットワークにおける効率的なトラクタ探索のための新しい量子アルゴリズム
A Novel Quantum Algorithm for Efficient Attractor Search in Gene Regulatory Networks ( http://arxiv.org/abs/2408.08814v1 ) ライセンス: Link先を確認 | Mirko Rossini, Felix M. Weidner, Joachim Ankerhold, Hans A. Kestler, | (参考訳) 細胞環境において常に起こる遺伝子相互作用の記述は、膨大な数の自由度と微視的詳細に関する不完全な知識のために非常に難しい課題である。
したがって、そのような力学の粗いモデリングはBoolean Networks (BN) によって提供される。
BNはブールエージェントと、時間とともに起こりうる相互作用の記録からなる力学系である。
これらの系の安定な状態は、生物学的表現型の細胞性発現と密接に関連しているアトラクターと呼ばれる。
誘引者の完全な集合を同定することは、従って、実質的な生物学的な関心事である。
しかし、従来の高性能コンピューティングでは、この問題は動的状態空間の指数的な成長に悩まされている。
本稿では、Groverのアルゴリズムにインスパイアされた新しい量子探索アルゴリズムを量子コンピューティングプラットフォーム上で実装する。
このアルゴリズムは、以前に発見されたアトラクションの盆地に属する状態を均一な重ね合わせから反復的に抑制することで、未知のアトラクションの盆地における状態の振幅を増大させる。
このアプローチは、新しいアトラクタ状態がアルゴリズムの各イテレーションで測定されることを保証する。
ノイズに対する耐性試験は、現在のノイズ中間スケール量子コンピューティング(NISQ)時代のデバイスでも有望な性能を示している。
The description of gene interactions that constantly occur in the cellular environment is an extremely challenging task due to an immense number of degrees of freedom and incomplete knowledge about microscopic details. Hence, a coarse-grained and rather powerful modeling of such dynamics is provided by Boolean Networks (BNs). BNs are dynamical systems composed of Boolean agents and a record of their possible interactions over time. Stable states in these systems are called attractors which are closely related to the cellular expression of biological phenotypes. Identifying the full set of attractors is, therefore, of substantial biological interest. However, for conventional high-performance computing, this problem is plagued by an exponential growth of the dynamic state space. Here, we demonstrate a novel quantum search algorithm inspired by Grover's algorithm to be implemented on quantum computing platforms. The algorithm performs an iterative suppression of states belonging to basins of previously discovered attractors from a uniform superposition, thus increasing the amplitudes of states in basins of yet unknown attractors. This approach guarantees that a new attractor state is measured with each iteration of the algorithm, an optimization not currently achieved by any other algorithm in the literature. Tests of its resistance to noise have also shown promising performance on devices from the current Noise Intermediate Scale Quantum Computing (NISQ) era. | 翻訳日:2024-08-19 14:53:53 公開日:2024-08-16 |
# 時系列の非現実的推定のためのバランシング戦略の実証検討
An Empirical Examination of Balancing Strategy for Counterfactual Estimation on Time Series ( http://arxiv.org/abs/2408.08815v1 ) ライセンス: Link先を確認 | Qiang Huang, Chuizheng Meng, Defu Cao, Biwei Huang, Yi Chang, Yan Liu, | (参考訳) 医療やファイナンスなど多くの応用分野において、観察からの評価は重要な取り組みであり、主な課題は治療バイアスの緩和である。
異なる治療群間の共変量格差を減らすことを目的としたバランス戦略は、普遍的な解決法である。
しかし、時系列データに関しては、バランス戦略の有効性は未解決のままであり、バランス戦略の堅牢性と適用性については、まだ十分に分析されていない。
本稿では,時間的条件下での対実推定を再考し,近年のバランス戦略の進展について概観する。
さらに重要なことは、複数のデータセット上の様々な設定における時間的対実推定の領域におけるバランス戦略の有効性について、批判的な実証的な検証を行うことである。
この知見は,研究者や実践者にとって重要な関心事であり,時系列設定におけるバランス戦略の再検討を求めるものである。
Counterfactual estimation from observations represents a critical endeavor in numerous application fields, such as healthcare and finance, with the primary challenge being the mitigation of treatment bias. The balancing strategy aimed at reducing covariate disparities between different treatment groups serves as a universal solution. However, when it comes to the time series data, the effectiveness of balancing strategies remains an open question, with a thorough analysis of the robustness and applicability of balancing strategies still lacking. This paper revisits counterfactual estimation in the temporal setting and provides a brief overview of recent advancements in balancing strategies. More importantly, we conduct a critical empirical examination for the effectiveness of the balancing strategies within the realm of temporal counterfactual estimation in various settings on multiple datasets. Our findings could be of significant interest to researchers and practitioners and call for a reexamination of the balancing strategy in time series settings. | 翻訳日:2024-08-19 14:53:53 公開日:2024-08-16 |
# EasyRec: 勧告のためのシンプルで効果的な言語モデル
EasyRec: Simple yet Effective Language Models for Recommendation ( http://arxiv.org/abs/2408.08821v1 ) ライセンス: Link先を確認 | Xubin Ren, Chao Huang, | (参考訳) ディープニューラルネットワークは、リコメンダシステムのためのコラボレーティブフィルタリング(CF)において、ユーザとイテムのインタラクションデータから表現を学ぶための強力な技術になっている。
しかし、既存の多くのメソッドは、ユニークなユーザIDとアイテムIDに大きく依存しており、十分なトレーニングデータが利用できないような現実的なゼロショット学習シナリオにおいて、うまく機能する能力を制限する。
言語モデル(LM)の成功と、その強力な一般化能力に触発されて、重要な疑問が浮かび上がっている。
本研究では,テキストに基づく意味理解を協調的な信号とシームレスに統合する,効果的で使いやすいアプローチであるEasyRecを提案する。
EasyRecは、コントラスト学習と協調言語モデルチューニングを組み合わせたテキストビヘイビアアライメントフレームワークを使用して、テキスト強化セマンティックスペースと協調行動情報との強いアライメントを保証する。
さまざまな実世界のデータセットにわたる大規模な経験的評価は、特にテキストベースのゼロショットレコメンデーションシナリオにおいて、最先端の代替モデルと比較して、EasyRecの優れたパフォーマンスを示している。
さらに、この研究は、プラグイン・アンド・プレイコンポーネントとしてEasyRecをテキスト強化協調フィルタリングフレームワークにシームレスに統合する可能性を強調し、既存のレコメンデーションシステムにより、推奨性能を高め、動的環境における進化するユーザの好みに適応することが可能になる。
我々のEasyRecフレームワークの再現性を改善するために、モデル実装の詳細、ソースコード、データセットはリンクで利用可能である。
Deep neural networks have become a powerful technique for learning representations from user-item interaction data in collaborative filtering (CF) for recommender systems. However, many existing methods heavily rely on unique user and item IDs, which limits their ability to perform well in practical zero-shot learning scenarios where sufficient training data may be unavailable. Inspired by the success of language models (LMs) and their strong generalization capabilities, a crucial question arises: How can we harness the potential of language models to empower recommender systems and elevate its generalization capabilities to new heights? In this study, we propose EasyRec - an effective and easy-to-use approach that seamlessly integrates text-based semantic understanding with collaborative signals. EasyRec employs a text-behavior alignment framework, which combines contrastive learning with collaborative language model tuning, to ensure a strong alignment between the text-enhanced semantic space and the collaborative behavior information. Extensive empirical evaluations across diverse real-world datasets demonstrate the superior performance of EasyRec compared to state-of-the-art alternative models, particularly in the challenging text-based zero-shot recommendation scenarios. Furthermore, the study highlights the potential of seamlessly integrating EasyRec as a plug-and-play component into text-enhanced collaborative filtering frameworks, thereby empowering existing recommender systems to elevate their recommendation performance and adapt to the evolving user preferences in dynamic environments. For better result reproducibility of our EasyRec framework, the model implementation details, source code, and datasets are available at the link: https://github.com/HKUDS/EasyRec. | 翻訳日:2024-08-19 14:53:53 公開日:2024-08-16 |
# PFDiff:過去と未来のグラディエント誘導による拡散モデルの訓練不要加速
PFDiff: Training-free Acceleration of Diffusion Models through the Gradient Guidance of Past and Future ( http://arxiv.org/abs/2408.08822v1 ) ライセンス: Link先を確認 | Guangyi Wang, Yuren Cai, Lijiang Li, Wei Peng, Songzhi Su, | (参考訳) 拡散確率モデル (DPM) は画像生成において顕著な可能性を示しているが, サンプリング効率は多数のデノナイジングステップの必要性によって妨げられている。
既存のほとんどのソリューションは、高速ODEソルバを提案することでサンプリングプロセスを加速する。
しかし、機能評価(NFE)の回数が少ない場合には、ODEソルバの不可避な離散化誤差が大幅に増大する。
本研究では、既存の高速ODEソルバを少ないNFEで動作させる新しいトレーニングフリーで直交時間ステップスキッピング戦略であるPFDiffを提案する。
2つの重要な観測に基づいて、既存のODEソルバの復調過程において過度に大きくない時間ステップサイズにおけるモデル出力の顕著な類似性と、復調過程とSGDとの高い類似性がある。
PFDiffは、過去のステップからの勾配の置き換えと、Nesterov運動量にインスパイアされた前兆更新を利用して、中間状態を迅速に更新することで、一階ODEソルバに固有の離散化エラーを補正しながら、不要なNFEを削減する。
実験の結果, PFDiffは, 各種訓練済みDPM, 特に条件付きDPMに優れ, 従来の最先端のトレーニングフリー手法を超越したフレキシブルな適用性を示した。
例えば, DDIMをベースラインとして用いた場合, ImageNet 64x64 で DDIM が 138.81 FID で DDIM が 16.46 FID (4 NFE) で, 7.5 で 安定拡散で 13.06 FID (10 NFE) を達成できた。
Diffusion Probabilistic Models (DPMs) have shown remarkable potential in image generation, but their sampling efficiency is hindered by the need for numerous denoising steps. Most existing solutions accelerate the sampling process by proposing fast ODE solvers. However, the inevitable discretization errors of the ODE solvers are significantly magnified when the number of function evaluations (NFE) is fewer. In this work, we propose PFDiff, a novel training-free and orthogonal timestep-skipping strategy, which enables existing fast ODE solvers to operate with fewer NFE. Based on two key observations: a significant similarity in the model's outputs at time step size that is not excessively large during the denoising process of existing ODE solvers, and a high resemblance between the denoising process and SGD. PFDiff, by employing gradient replacement from past time steps and foresight updates inspired by Nesterov momentum, rapidly updates intermediate states, thereby reducing unnecessary NFE while correcting for discretization errors inherent in first-order ODE solvers. Experimental results demonstrate that PFDiff exhibits flexible applicability across various pre-trained DPMs, particularly excelling in conditional DPMs and surpassing previous state-of-the-art training-free methods. For instance, using DDIM as a baseline, we achieved 16.46 FID (4 NFE) compared to 138.81 FID with DDIM on ImageNet 64x64 with classifier guidance, and 13.06 FID (10 NFE) on Stable Diffusion with 7.5 guidance scale. | 翻訳日:2024-08-19 14:53:53 公開日:2024-08-16 |
# 二項分類における最適対称性
Optimal Symmetries in Binary Classification ( http://arxiv.org/abs/2408.08823v1 ) ライセンス: Link先を確認 | Vishal S. Ngairangbam, Michael Spannowsky, | (参考訳) 我々は二項分類タスクにおける群対称性の役割を探求し、ナイマン・ピアソン最適性の原理を生かした新しい枠組みを提案する。
より大きな対称性群が分類性能の向上につながるという一般的な直観とは対照的に, 適切な群対称性を選択することは, 一般化と標本効率の最適化に不可欠であることを示す。
我々は,群同変ニューラルネットワークを設計するための理論的基盤を構築し,対称性の選択をデータの基本となる確率分布と整合させる。
提案手法は,対称性群を問題の特徴に合わせて慎重に調整することにより,広範囲のアプリケーションにまたがる分類精度を向上させる統一的な手法を提供する。
理論的解析と実験結果から、最適分類性能は、必ずしもドメイン内で可能な最大の同変群と関係しているわけではないことが示される。
この研究は、多様な機械学習コンテキストにおいてより効果的なグループ同変アーキテクチャを構築するための洞察と実践的なガイドラインを提供する。
We explore the role of group symmetries in binary classification tasks, presenting a novel framework that leverages the principles of Neyman-Pearson optimality. Contrary to the common intuition that larger symmetry groups lead to improved classification performance, our findings show that selecting the appropriate group symmetries is crucial for optimising generalisation and sample efficiency. We develop a theoretical foundation for designing group equivariant neural networks that align the choice of symmetries with the underlying probability distributions of the data. Our approach provides a unified methodology for improving classification accuracy across a broad range of applications by carefully tailoring the symmetry group to the specific characteristics of the problem. Theoretical analysis and experimental results demonstrate that optimal classification performance is not always associated with the largest equivariant groups possible in the domain, even when the likelihood ratio is invariant under one of its proper subgroups, but rather with those subgroups themselves. This work offers insights and practical guidelines for constructing more effective group equivariant architectures in diverse machine-learning contexts. | 翻訳日:2024-08-19 14:53:53 公開日:2024-08-16 |
# LEVIS: ニューラルネットワークのための大規模な検証可能な入力空間
LEVIS: Large Exact Verifiable Input Spaces for Neural Networks ( http://arxiv.org/abs/2408.08824v1 ) ライセンス: Link先を確認 | Mohamad Fares El Hajj Chehade, Brian Wesley Bell, Russell Bent, Hao Zhu, Wenting Li, | (参考訳) ニューラルネットワークの堅牢性は、安全クリティカルな応用において最重要である。
現在のロバスト性検証手法の多くは、入力空間が知られているという仮定の下で最悪の場合の出力を評価するが、検証可能な入力空間 $\mathcal{C}$ を同定することは、効果的なモデル選択、ロバスト性評価、信頼性の高い制御戦略の開発に不可欠である。
この課題に対処するために、$\texttt{LEVIS}$-$\alpha$と$\texttt{LEVIS}$-$\beta$からなる新しいフレームワークである$\texttt{LEVIS}$を紹介します。
$\texttt{LEVIS}$-$\alpha$は、少なくとも2つの境界を交差する$\mathcal{C}$の中心領域内の最大の検証可能な球を見つける。
対照的に、$\texttt{LEVIS}$-$\beta$ は複数の検証可能な球を統合して、検証可能な空間全体を包括的にカプセル化する。
1) 最大検証可能な球と最も近い逆点を直交方向または直交方向に沿って識別する3つの先駆的手法を備えた$\texttt{LEVIS}$を提案する。
2) 検証可能な球の性質を$\texttt{LEVIS}$-$\alpha$と$\texttt{LEVIS}$-$\beta$で決定する理論的解析を行う。
3) 電力フローの回帰, 画像分類, 性能向上, 探索特性の可視化など, 多様な応用にまたがる方法論を検証した。
The robustness of neural networks is paramount in safety-critical applications. While most current robustness verification methods assess the worst-case output under the assumption that the input space is known, identifying a verifiable input space $\mathcal{C}$, where no adversarial examples exist, is crucial for effective model selection, robustness evaluation, and the development of reliable control strategies. To address this challenge, we introduce a novel framework, $\texttt{LEVIS}$, comprising $\texttt{LEVIS}$-$\alpha$ and $\texttt{LEVIS}$-$\beta$. $\texttt{LEVIS}$-$\alpha$ locates the largest possible verifiable ball within the central region of $\mathcal{C}$ that intersects at least two boundaries. In contrast, $\texttt{LEVIS}$-$\beta$ integrates multiple verifiable balls to encapsulate the entirety of the verifiable space comprehensively. Our contributions are threefold: (1) We propose $\texttt{LEVIS}$ equipped with three pioneering techniques that identify the maximum verifiable ball and the nearest adversarial point along collinear or orthogonal directions. (2) We offer a theoretical analysis elucidating the properties of the verifiable balls acquired through $\texttt{LEVIS}$-$\alpha$ and $\texttt{LEVIS}$-$\beta$. (3) We validate our methodology across diverse applications, including electrical power flow regression and image classification, showcasing performance enhancements and visualizations of the searching characteristics. | 翻訳日:2024-08-19 14:53:53 公開日:2024-08-16 |
# プログレッシブ・フュージョン・マンバを用いた全層多モード相互作用によるRGBT追跡
RGBT Tracking via All-layer Multimodal Interactions with Progressive Fusion Mamba ( http://arxiv.org/abs/2408.08827v1 ) ライセンス: Link先を確認 | Andong Lu, Wanyu Wang, Chenglong Li, Jin Tang, Bin Luo, | (参考訳) 既存のRGBT追跡手法は、各層を相互に融合させる様々な相互作用モデルを設計することが多いが、計算負荷が大きいため、頑健なマルチモーダル表現において重要な役割を果たす全ての層間の特徴的相互作用は実行できない。
そこで本論文では, プログレッシブ・フュージョン・マンバにおける全モダリティとレイヤ間の効率的な機能相互作用を, 堅牢なRGBTトラッキングのために実現した, AINet という新しいマルチモーダル・インタラクション・ネットワークを提案する。
異なるレイヤのモダリティ機能は異なるキューを含むことが知られているが、インタラクション機能と効率のバランスをとるのに苦労するため、各レイヤでマルチモーダルなインタラクションを構築することは常に困難である。
一方,RGBと熱モダリティ間の特徴差が相補的な情報をある程度反映していることを考えると,差分に基づくフュージョン・マンバ (DFM) を設計して,異なるモダリティを線形複雑に融合させる。
全ての層の特徴と相互作用する場合、膨大な数のトークンシーケンス(この作業では3840のトークン)が関与し、計算負荷が大きい。
そこで本研究では,各層の走査順序を動的に調整することにより,すべての層間の効率的な効率的な特徴相互作用を実現するために,オーダー・ダイナミック・フュージョン・マンバ (OFM) を設計する。
4つの公開RGBT追跡データセットに対する大規模な実験は、AINetが既存の最先端の手法に対して主要なパフォーマンスを達成することを示している。
Existing RGBT tracking methods often design various interaction models to perform cross-modal fusion of each layer, but can not execute the feature interactions among all layers, which plays a critical role in robust multimodal representation, due to large computational burden. To address this issue, this paper presents a novel All-layer multimodal Interaction Network, named AINet, which performs efficient and effective feature interactions of all modalities and layers in a progressive fusion Mamba, for robust RGBT tracking. Even though modality features in different layers are known to contain different cues, it is always challenging to build multimodal interactions in each layer due to struggling in balancing interaction capabilities and efficiency. Meanwhile, considering that the feature discrepancy between RGB and thermal modalities reflects their complementary information to some extent, we design a Difference-based Fusion Mamba (DFM) to achieve enhanced fusion of different modalities with linear complexity. When interacting with features from all layers, a huge number of token sequences (3840 tokens in this work) are involved and the computational burden is thus large. To handle this problem, we design an Order-dynamic Fusion Mamba (OFM) to execute efficient and effective feature interactions of all layers by dynamically adjusting the scan order of different layers in Mamba. Extensive experiments on four public RGBT tracking datasets show that AINet achieves leading performance against existing state-of-the-art methods. | 翻訳日:2024-08-19 14:53:53 公開日:2024-08-16 |
# 反応座標マッピングによる非マルコフ量子熱統計
Non-Markovian Quantum Heat Statistics with the Reaction Coordinate Mapping ( http://arxiv.org/abs/2408.08829v1 ) ライセンス: Link先を確認 | Mike Shubrook, Jake Iles-Smith, Ahsan Nazir, | (参考訳) 量子力学における熱の定義は曖昧である。
特に、量子系と環境の結合が無視できないとき、両者の境界が曖昧になり、システムと環境の区別が困難になる。
反応座標マッピングは、システムと環境の境界を再描画するために、そのようなレシエーションで使用することができる。
ここでは反応座標法を2点測定プロトコルと組み合わせ、全環境ハミルトニアンのエネルギー変化(マッピングに先行する)と残留環境ハミルトニアンのエネルギー変化(マッピング後の)の2つの異なる熱の定義を比較する。
後者の定義は,非マルコフ政権における熱環境に対するより期待された振る舞いを示す。
The definition of heat in quantum mechanics is ambiguous. Complications arise in particular when the coupling between a quantum system and an environment is non-negligible, as the boundary between the two becomes blurred, making the distinction between system and environment difficult to draw. The reaction coordinate mapping can be used in such regimes to redraw the boundary between the system and environment. Here we combine the reaction coordinate technique with a two-point measurement protocol to compare two different definitions of heat: energetic changes in the full environment Hamiltonian (prior to the mapping), and energetic changes in the residual environment Hamiltonian (after the mapping). We find that the latter definition displays behaviour more expected of a thermal environment in the highly non-Markovian regime considered. | 翻訳日:2024-08-19 14:53:53 公開日:2024-08-16 |
# Bee-yond the Plateau: SwarmアルゴリズムによるQNNのトレーニング
Bee-yond the Plateau: Training QNNs with Swarm Algorithms ( http://arxiv.org/abs/2408.08836v1 ) ライセンス: Link先を確認 | Rubén Darío Guerrero, | (参考訳) 量子コンピューティングのパワーを活用するために、量子ニューラルネットワーク(QNN)のトレーニングは、非常に困難な課題を提示します。
この研究は、ビーズ最適化アルゴリズム(BOA)を統合するという革新的なアプローチを導入し、不毛の高原を克服する。
様々な量子ビット数および回路深さにわたる実験は、Adamアルゴリズムと比較してBOAの優れた性能を示している。
特にBOAは、より高速な収束、より高精度な計算効率を実現する。
本研究では、複雑な量子計算におけるQNNの適用性を高めるBOAの可能性を確認する。
In the quest to harness the power of quantum computing, training quantum neural networks (QNNs) presents a formidable challenge. This study introduces an innovative approach, integrating the Bees Optimization Algorithm (BOA) to overcome one of the most significant hurdles -- barren plateaus. Our experiments across varying qubit counts and circuit depths demonstrate the BOA's superior performance compared to the Adam algorithm. Notably, BOA achieves faster convergence, higher accuracy, and greater computational efficiency. This study confirms BOA's potential in enhancing the applicability of QNNs in complex quantum computations. | 翻訳日:2024-08-19 14:53:53 公開日:2024-08-16 |
# 非順序データ構造のエントロピー符号化
Entropy Coding of Unordered Data Structures ( http://arxiv.org/abs/2408.08837v1 ) ライセンス: Link先を確認 | Julius Kunze, Daniel Severo, Giulio Zani, Jan-Willem van de Meent, James Townsend, | (参考訳) ビットバック符号を用いた非順序オブジェクト列の最適圧縮法であるシャッフル符号化を提案する。
シャッフルコーディングを使用して圧縮できるデータ構造には、マルチセット、グラフ、ハイパーグラフなどが含まれる。
我々は,異なるデータ型や統計モデルに容易に適応できる実装をリリースし,分子データを含む一連のグラフデータセット上で,最先端の圧縮速度を達成することを実証した。
We present shuffle coding, a general method for optimal compression of sequences of unordered objects using bits-back coding. Data structures that can be compressed using shuffle coding include multisets, graphs, hypergraphs, and others. We release an implementation that can easily be adapted to different data types and statistical models, and demonstrate that our implementation achieves state-of-the-art compression rates on a range of graph datasets including molecular data. | 翻訳日:2024-08-19 14:53:53 公開日:2024-08-16 |
# FLEXTAF: フレキシブルなタブラルフォーマットによるテーブル推論の強化
FLEXTAF: Enhancing Table Reasoning with Flexible Tabular Formats ( http://arxiv.org/abs/2408.08841v1 ) ライセンス: Link先を確認 | Xuanliang Zhang, Dingzirui Wang, Longxu Dou, Baoxin Wang, Dayong Wu, Qingfu Zhu, Wanxiang Che, | (参考訳) テーブル推論タスクは、与えられたテーブルに従って質問に答えることを目的としている。
現在、Large Language Models (LLMs) はテーブル推論の主要な手法である。
既存のほとんどのメソッドはテーブルを表現するために固定された表形式を採用しており、パフォーマンスを制限できる。
各インスタンスがさまざまな機能を必要とし、モデルがさまざまな能力を持っていることを考慮すれば、異なるインスタンスとモデルは異なる表形式に適合する、と私たちは主張する。
実験結果の定量的解析により, 様々な表形式を用いて, 異なるインスタンスやモデルで異なる性能を達成できることを示す。
本稿では,フレキシブルな表形式を用いてテーブル推論性能を向上させるためにFLEXTAF-SingleとFLEXTAF-Voteを提案する。
具体的には
i)FLEXTAF-Singleは、インスタンスとLLMに基づいて最も適切な表形式を予測するために分類器を訓練する。
(ii)FLEXTAF-Voteは、結果を異なるフォーマットで統合する。
WikiTableQuestions と TabFact に関する実験では,グリージーデコーディングと自己整合デコーディングによる固定表形式を用いて達成した最高のパフォーマンスと比較して,平均2.3%,4.8%向上した。
The table reasoning task aims to answer the question according to the given table. Currently, using Large Language Models (LLMs) is the predominant method for table reasoning. Most existing methods employ a fixed tabular format to represent the table, which could limit the performance. Given that each instance requires different capabilities and models possess varying abilities, we assert that different instances and models suit different tabular formats. We prove the aforementioned claim through quantitative analysis of experimental results, where different instances and models achieve different performances using various tabular formats. Building on this discussion, we propose FLEXTAF-Single and FLEXTAF-Vote to enhance table reasoning performance by employing flexible tabular formats. Specifically, (i) FLEXTAF-Single trains a classifier to predict the most suitable tabular format based on the instance and the LLM. (ii) FLEXTAF-Vote integrates the results across different formats. Our experiments on WikiTableQuestions and TabFact reveal significant improvements, with average gains of 2.3% and 4.8% compared to the best performance achieved using a fixed tabular format with greedy decoding and self-consistency decoding, thereby validating the effectiveness of our methods. | 翻訳日:2024-08-19 14:53:53 公開日:2024-08-16 |
# 強モデルにおけるShapley Marginal Surplus
Shapley Marginal Surplus for Strong Models ( http://arxiv.org/abs/2408.08845v1 ) ライセンス: Link先を確認 | Daniel de Marchi, Michael Kosorok, Scott de Marchi, | (参考訳) 共有値は、モデル予測を説明し、共変量の重要性を推定する方法として機械学習で広く利用されている。
正確なモデルの説明は、意思決定を助け、真のデータ生成プロセス(DGP)の特性を推測するために、現実世界のモデルでは不可欠である。
本稿では,モデルに基づくShapley値がモデル予測の正確な説明者であるのに対して,機械学習モデル自体が精度の高いモデルであっても,DGPの悪い説明者であることが多いことを実証する。
特に、関係変数やノイズ変数が存在する場合、高い予測的モデルの出力はこれらの関係を考慮できないかもしれない。
これは、訓練されたモデルの振舞いがDGPに意味のある洞察を与えるのに失敗する可能性を示唆している。
本稿では,新しい変数重要度アルゴリズム,Shapley Marginal Surplus for Strong Modelsを紹介する。
本手法を,シェープリーベースと非シェープリーベースの両方において他の特徴重要度評価法と比較し,他の手法と比較して,推論能力に優れた性能を示す。
Shapley values have seen widespread use in machine learning as a way to explain model predictions and estimate the importance of covariates. Accurately explaining models is critical in real-world models to both aid in decision making and to infer the properties of the true data-generating process (DGP). In this paper, we demonstrate that while model-based Shapley values might be accurate explainers of model predictions, machine learning models themselves are often poor explainers of the DGP even if the model is highly accurate. Particularly in the presence of interrelated or noisy variables, the output of a highly predictive model may fail to account for these relationships. This implies explanations of a trained model's behavior may fail to provide meaningful insight into the DGP. In this paper we introduce a novel variable importance algorithm, Shapley Marginal Surplus for Strong Models, that samples the space of possible models to come up with an inferential measure of feature importance. We compare this method to other popular feature importance methods, both Shapley-based and non-Shapley based, and demonstrate significant outperformance in inferential capabilities relative to other methods. | 翻訳日:2024-08-19 14:43:58 公開日:2024-08-16 |
# 信頼がゼロの時 - 疫病対策への自動化の脅威
When Trust is Zero Sum: Automation Threat to Epistemic Agency ( http://arxiv.org/abs/2408.08846v1 ) ライセンス: Link先を確認 | Emmie Malone, Saleh Afroogh, Jason DCruz, Kush R Varshney, | (参考訳) AI研究者や倫理学者は、自動化が人間の尊厳、自律性、そして仕事と結びつく個人的価値の感覚にもたらす脅威を長い間心配してきた。
通常、この問題に対する解決策は、自動化によって生じる失業数を減らす方法、失業した失業者を再訓練する方法、失業者の社会的影響を緩和する方法に焦点が当てられている。
しかし、労働者が仕事を維持している場合であっても、その内部の代理店は格段に格下げされる可能性がある。
例えば、人間の従業員はAIと一緒に働くかもしれませんが、意思決定は許されませんし、AIとの相談や合意なしに意思決定は許されません。
これは一種のてんかんの害(アイデンティティの偏見に基づいて配布されている場合の不正である可能性がある)である。
人事機関を減らし(人々が独立して行動する能力を制限する)、労働者の疫学機関を資格のある専門家として認識することができない。
この場合、労働者は自分に与えられる信頼を与えられません。
これは、誰もが仕事を続ける場合でも、人間の尊厳の問題が残ることを意味する。
さらに、人間の従業員と一緒に働くアルゴリズムを設計するなど、仕事の維持にフォーカスしたソリューションは、これらの害を和らげるだけである。
ここでは、従来のオートメーションの維持問題に対処する対人コラボレーションという代替設計ソリューションを提案し、また、職場でのAIと人間間の信頼の分配やてんかん害の大きな問題にも対処する。
AI researchers and ethicists have long worried about the threat that automation poses to human dignity, autonomy, and to the sense of personal value that is tied to work. Typically, proposed solutions to this problem focus on ways in which we can reduce the number of job losses which result from automation, ways to retrain those that lose their jobs, or ways to mitigate the social consequences of those job losses. However, even in cases where workers keep their jobs, their agency within them might be severely downgraded. For instance, human employees might work alongside AI but not be allowed to make decisions or not be allowed to make decisions without consulting with or coming to agreement with the AI. This is a kind of epistemic harm (which could be an injustice if it is distributed on the basis of identity prejudice). It diminishes human agency (in constraining people's ability to act independently), and it fails to recognize the workers' epistemic agency as qualified experts. Workers, in this case, aren't given the trust they are entitled to. This means that issues of human dignity remain even in cases where everyone keeps their job. Further, job retention focused solutions, such as designing an algorithm to work alongside the human employee, may only enable these harms. Here, we propose an alternative design solution, adversarial collaboration, which addresses the traditional retention problem of automation, but also addresses the larger underlying problem of epistemic harms and the distribution of trust between AI and humans in the workplace. | 翻訳日:2024-08-19 14:43:58 公開日:2024-08-16 |
# HistoGym: 病理画像解析のための強化学習環境
HistoGym: A Reinforcement Learning Environment for Histopathological Image Analysis ( http://arxiv.org/abs/2408.08847v1 ) ライセンス: Link先を確認 | Zhi-Bo Liu, Xiaobo Pang, Jizhao Wang, Shuai Liu, Chen Li, | (参考訳) 病理学研究,教育,臨床実践では,病理画像に基づく意思決定プロセスが重要である。
この重要性は、デジタル病理画像解析にまで拡張され、その妥当性は、正確ながん分類とグレーディングに必須である組織構造に含まれる広範な情報によって証明される。
さらに、アルゴリズムによって生成された結論の解釈可能性に関する固有の要件によって、その必要性が強調される。
人間の場合、腫瘍の種類とグレードを決定するには、通常、マルチスケールな分析が伴う。
従来のパッチベースの手法は複雑な構造をモデル化するには不十分であり、スライド画像全体に固有の複雑なマルチスケールの情報をキャプチャできない。
その結果、この複雑な分析プロセスを効率的に正確に複製できる高度なAI技術の必要性が高まっている。
この問題に対処するために,組織画像解析のためのオープンソースの強化学習環境HistoGymを紹介した。
OpenAI Gym APIに続いて、HistoGymは医師の実際の過程を模倣することによって、スライド画像全体の診断を促進することを目指している。
WSIsとOpenSlide APIのピラミッド機能を活用することで、HistoGymは、腫瘍の検出や分類など、さまざまな臨床タスクのための統一されたフレームワークを提供する。
病理画像解析領域に適した観察,行動,報酬の仕様を詳述し,臨床医と研究者の両方にオープンソースのPythonベースのインターフェースを提供する。
異なる臨床要件を満たすために,WSIおよび選択された地域シナリオを含む様々な臓器および癌に対して様々なシナリオを提供し,いくつかの注目すべき結果を示す。
In pathological research, education, and clinical practice, the decision-making process based on pathological images is critically important. This significance extends to digital pathology image analysis: its adequacy is demonstrated by the extensive information contained within tissue structures, which is essential for accurate cancer classification and grading. Additionally, its necessity is highlighted by the inherent requirement for interpretability in the conclusions generated by algorithms. For humans, determining tumor type and grade typically involves multi-scale analysis, which presents a significant challenge for AI algorithms. Traditional patch-based methods are inadequate for modeling such complex structures, as they fail to capture the intricate, multi-scale information inherent in whole slide images. Consequently, there is a pressing need for advanced AI techniques capable of efficiently and accurately replicating this complex analytical process. To address this issue, we introduce HistoGym, an open-source reinforcement learning environment for histopathological image analysis. Following OpenAI Gym APIs, HistoGym aims to foster whole slide image diagnosis by mimicking the real-life processes of doctors. Leveraging the pyramid feature of WSIs and the OpenSlide API, HistoGym provides a unified framework for various clinical tasks, including tumor detection and classification. We detail the observation, action, and reward specifications tailored for the histopathological image analysis domain and provide an open-source Python-based interface for both clinicians and researchers. To accommodate different clinical demands, we offer various scenarios for different organs and cancers, including both WSI-based and selected region-based scenarios, showcasing several noteworthy results. | 翻訳日:2024-08-19 14:43:58 公開日:2024-08-16 |
# PsychoLex: 大規模言語モデルの心理的マインドを明らかにする
PsychoLex: Unveiling the Psychological Mind of Large Language Models ( http://arxiv.org/abs/2408.08848v1 ) ライセンス: Link先を確認 | Mohammad Amin Abbasi, Farnaz Sadat Mirnezami, Hassan Naderi, | (参考訳) 本稿では,大規模言語モデル(LLM)の開発と評価を通じて,心理学と人工知能の交わりについて考察する。
我々は,ペルシャ語と英語の心理学的課題におけるLLMの熟練度を高めるために設計されたリソース群であるAcloLexを紹介した。
主なコントリビューションには、教育コンテンツのためのAcloLexQAデータセットと、複雑な心理学シナリオにおけるLLMの厳密な評価のためのAcloLexEvalデータセットがある。
さらに,心理学的応用に特化して最適化された心理LexLLaMAモデルを提案し,汎用モデルと比較して優れた性能を示す。
この発見は、心理学研究と応用の推進のための調整されたLLMの可能性を強調し、さらなる改善のための領域も強調した。
この研究は、LLMを専門的な心理学領域に統合するための基礎的なステップを提供する。
This paper explores the intersection of psychology and artificial intelligence through the development and evaluation of specialized Large Language Models (LLMs). We introduce PsychoLex, a suite of resources designed to enhance LLMs' proficiency in psychological tasks in both Persian and English. Key contributions include the PsychoLexQA dataset for instructional content and the PsychoLexEval dataset for rigorous evaluation of LLMs in complex psychological scenarios. Additionally, we present the PsychoLexLLaMA model, optimized specifically for psychological applications, demonstrating superior performance compared to general-purpose models. The findings underscore the potential of tailored LLMs for advancing psychological research and applications, while also highlighting areas for further refinement. This research offers a foundational step towards integrating LLMs into specialized psychological domains, with implications for future advancements in AI-driven psychological practice. | 翻訳日:2024-08-19 14:43:58 公開日:2024-08-16 |
# GeoTransformer:地理空間的アテンション機構による都市予測の強化
GeoTransformer: Enhancing Urban Forecasting with Geospatial Attention Mechanisms ( http://arxiv.org/abs/2408.08852v1 ) ライセンス: Link先を確認 | Yuhao Jia, Zile Wu, Shengao Yi, Yifei Sun, | (参考訳) 近年の進歩は、都市空間情報を高次元空間に符号化することに集中しており、社会デマグラフィーデータと衛星画像の統合に特化している。
これらの取り組みは、この分野の基盤モデルを確立した。
しかし,これらの空間表現の都市予測への応用は未検討のままである。
このギャップに対処するために,トランスフォーマーアーキテクチャと地理空間統計を相乗化する新しい構造であるGeoTransformerを導入する。
GeoTransformerは、広域都市情報と空間依存性を統合予測モデルに組み込む革新的な地理空間的アテンション機構を採用している。
具体的には、対象地域と周辺地域の地理空間重み付けされた注意スコアを計算し、統合都市情報を利用して予測を行う。
GDPおよび配車需要予測タスクに関する大規模な実験は、GeoTransformerが既存のベースラインモデルを大幅に上回っており、都市予測タスクを強化する可能性を示していることを示している。
Recent advancements have focused on encoding urban spatial information into high-dimensional spaces, with notable efforts dedicated to integrating sociodemographic data and satellite imagery. These efforts have established foundational models in this field. However, the effective utilization of these spatial representations for urban forecasting applications remains under-explored. To address this gap, we introduce GeoTransformer, a novel structure that synergizes the Transformer architecture with geospatial statistics prior. GeoTransformer employs an innovative geospatial attention mechanism to incorporate extensive urban information and spatial dependencies into a unified predictive model. Specifically, we compute geospatial weighted attention scores between the target region and surrounding regions and leverage the integrated urban information for predictions. Extensive experiments on GDP and ride-share demand prediction tasks demonstrate that GeoTransformer significantly outperforms existing baseline models, showcasing its potential to enhance urban forecasting tasks. | 翻訳日:2024-08-19 14:43:58 公開日:2024-08-16 |
# DPA:視覚言語モデルの教師なし適応のためのデュアルプロトタイプアライメント
DPA: Dual Prototypes Alignment for Unsupervised Adaptation of Vision-Language Models ( http://arxiv.org/abs/2408.08855v1 ) ライセンス: Link先を確認 | Eman Ali, Sathira Silva, Muhammad Haris Khan, | (参考訳) 視覚言語モデル(VLM)、例えばCLIPは、ゼロショット画像分類において顕著な可能性を示している。
しかし、ラベル付きデータが利用できないような教師なしの設定では、これらのモデルを新しいドメインに適応することは依然として困難である。
近年の研究では、CLIPをアンラベリングターゲットデータを用いて教師なしの方法で適用するための擬似ラベリング手法が提案されている。
それでもこれらの手法は、CLIPの視覚的表現とテキスト的表現のミスアライメントによるノイズの多い擬似ラベルのために苦労している。
本研究では,VLMの教師なし領域適応手法であるDPAを紹介する。
DPAは2つのプロトタイプの概念を導入し、異なる分類器として機能し、出力の凸結合を伴って、正確な擬似ラベルの構成をもたらす。
次に、特に早期訓練において、堅牢な自己訓練を促進するために擬似ラベルをランク付けする。
最後に,テキストプロトタイプを画像プロトタイプと整列させて,適応性能をさらに向上させることにより,視覚的・テキスト的ミスアライメントに対処する。
13の下流視覚タスクの実験では、DPAはゼロショットCLIPと最先端の教師なし適応ベースラインを大きく上回っている。
Vision-language models (VLMs), e.g., CLIP, have shown remarkable potential in zero-shot image classification. However, adapting these models to new domains remains challenging, especially in unsupervised settings where labelled data is unavailable. Recent research has proposed pseudo-labelling approaches to adapt CLIP in an unsupervised manner using unlabelled target data. Nonetheless, these methods struggle due to noisy pseudo-labels resulting from the misalignment between CLIP's visual and textual representations. This study introduces DPA, an unsupervised domain adaptation method for VLMs. DPA introduces the concept of dual prototypes, acting as distinct classifiers, along with the convex combination of their outputs, thereby leading to accurate pseudo-label construction. Next, it ranks pseudo-labels to facilitate robust self-training, particularly during early training. Finally, it addresses visual-textual misalignment by aligning textual prototypes with image prototypes to further improve the adaptation performance. Experiments on 13 downstream vision tasks demonstrate that DPA significantly outperforms zero-shot CLIP and the state-of-the-art unsupervised adaptation baselines. | 翻訳日:2024-08-19 14:43:58 公開日:2024-08-16 |
# 多項式による量子回路振幅と行列の接続
Connecting quantum circuit amplitudes and matrix permanents through polynomials ( http://arxiv.org/abs/2408.08857v1 ) ライセンス: Link先を確認 | Hugo Thomas, Pierre-Emmanuel Emeriau, Rawad Mezher, | (参考訳) 本稿では、量子ビットベースの量子回路とフォトニック量子計算との接続を強化する。
回路ベースの量子計算の枠組みの中で、量子確率振幅の和対パス解釈は指数多項式の和の出現につながる。
対照的に、行列の永続性は、線形光学計算の確率振幅を記述することによってフォトニクスにおいて重要な役割を果たす組合せ対象である。
この2つを結合するために、複素係数を持つ$\mathbb F_2$-valued polynomialをグラフに符号化する一般的な方法を導入し、結果として得られるグラフの隣接行列の永続性は、和オーバーパスフレームワークの多項式に付随する振幅と直接対応するようにした。
この接続により、量子ビットベースの回路から生じる量子振幅を永久的に表現することができ、これはフォトニック量子デバイスで自然に推定できる。
In this paper, we strengthen the connection between qubit-based quantum circuits and photonic quantum computation. Within the framework of circuit-based quantum computation, the sum-over-paths interpretation of quantum probability amplitudes leads to the emergence of sums of exponentiated polynomials. In contrast, the matrix permanent is a combinatorial object that plays a crucial role in photonic by describing the probability amplitudes of linear optical computations. To connect the two, we introduce a general method to encode an $\mathbb F_2$-valued polynomial with complex coefficients into a graph, such that the permanent of the resulting graph's adjacency matrix corresponds directly to the amplitude associated the polynomial in the sum-over-path framework. This connection allows one to express quantum amplitudes arising from qubit-based circuits as permanents, which can naturally be estimated on a photonic quantum device. | 翻訳日:2024-08-19 14:43:58 公開日:2024-08-16 |
# 確率的帯域幅は敵攻撃にロバスト
Stochastic Bandits Robust to Adversarial Attacks ( http://arxiv.org/abs/2408.08859v1 ) ライセンス: Link先を確認 | Xuchuang Wang, Jinhang Zuo, Xutong Liu, John C. S. Lui, Mohammad Hajiesmaili, | (参考訳) 本稿では,攻撃者がまず学習者の行動を観察し,その報奨の観察を変更する確率的マルチアームバンディットアルゴリズムについて検討する。
本モデルでは、実際の報酬と変更報酬の差の和の上限として定義された攻撃予算$C$の知識の有無にかかわらず、2つのケースについて検討する。
どちらの場合も、加法的あるいは乗法的な$C$依存項を持つ後悔境界を持つ2種類のアルゴリズムを考案する。
既知の攻撃予算の場合、我々のアルゴリズムが${O}((K/\Delta)\log T + KC)$と$\tilde{O}(\sqrt{KTC})$をそれぞれ加法的および乗法的な$C$の項で残すことを証明している。
未知の場合、加法および乗法的な$C$に対して、我々のアルゴリズムが $\tilde{O}(\sqrt{KT} + KC^2)$ と $\tilde{O}(KC\sqrt{T})$ の後悔境界を達成することを証明する。
これらの上界結果に加えて、境界の厳密さとアルゴリズムの最適性を示す下界もいくつか提供する。
これらの結果は,攻撃モデルと汚職モデルによる盗賊の本質的な分離を浮き彫りにする[Lykouris et al , 2018]。
This paper investigates stochastic multi-armed bandit algorithms that are robust to adversarial attacks, where an attacker can first observe the learner's action and {then} alter their reward observation. We study two cases of this model, with or without the knowledge of an attack budget $C$, defined as an upper bound of the summation of the difference between the actual and altered rewards. For both cases, we devise two types of algorithms with regret bounds having additive or multiplicative $C$ dependence terms. For the known attack budget case, we prove our algorithms achieve the regret bound of ${O}((K/\Delta)\log T + KC)$ and $\tilde{O}(\sqrt{KTC})$ for the additive and multiplicative $C$ terms, respectively, where $K$ is the number of arms, $T$ is the time horizon, $\Delta$ is the gap between the expected rewards of the optimal arm and the second-best arm, and $\tilde{O}$ hides the logarithmic factors. For the unknown case, we prove our algorithms achieve the regret bound of $\tilde{O}(\sqrt{KT} + KC^2)$ and $\tilde{O}(KC\sqrt{T})$ for the additive and multiplicative $C$ terms, respectively. In addition to these upper bound results, we provide several lower bounds showing the tightness of our bounds and the optimality of our algorithms. These results delineate an intrinsic separation between the bandits with attacks and corruption models [Lykouris et al., 2018]. | 翻訳日:2024-08-19 14:43:58 公開日:2024-08-16 |
# 高速でスローな思考者としてのビジュアルエージェント
Visual Agents as Fast and Slow Thinkers ( http://arxiv.org/abs/2408.08862v1 ) ライセンス: Link先を確認 | Guangyan Sun, Mingyu Jin, Zhenting Wang, Cheng-Long Wang, Siqi Ma, Qifan Wang, Ying Nian Wu, Yongfeng Zhang, Dongfang Liu, | (参考訳) 人間のレベルの知性を達成するには、システム1とシステム2の認知的区別を洗練する必要がある。
大規模な言語モデルによって駆動される現代のAIは、人間のような特性を示すが、真の認知には欠ける。
構造化ベンチマークから実世界のシナリオへの移行は、視覚エージェントの課題を示し、しばしば不正確で過度に自信を持った応答をもたらす。
この課題に対処するために,Fast and Slow Thinking 機構を視覚エージェントに組み込んだ FaST を導入する。
FaSTは、システム1/2モードを動的に選択するためにスイッチアダプタを使用し、異なるタスクの複雑さに対する問題解決アプローチを調整している。
モデルの信頼性を調整し、新しいコンテキストデータを統合することで、不確実で目に見えないオブジェクトに取り組む。
この斬新なデザインでは、フレキシブルなシステム、階層的推論能力、透明な意思決定パイプラインを提唱します。
実験の結果、FaSTは様々な既知のベースラインより優れており、視覚的質問応答のVQA^{v2}よりも80.8%、推論セグメンテーションのReasonSegより48.7%のGIoUスコアを達成し、FaSTの優れた性能を示している。
広範囲なテストは、AIシステムにおける認知視覚エージェントの開発を前進させる可能性を示し、FaSTのコアコンポーネントの有効性と堅牢性を検証する。
Achieving human-level intelligence requires refining cognitive distinctions between System 1 and System 2 thinking. While contemporary AI, driven by large language models, demonstrates human-like traits, it falls short of genuine cognition. Transitioning from structured benchmarks to real-world scenarios presents challenges for visual agents, often leading to inaccurate and overly confident responses. To address the challenge, we introduce FaST, which incorporates the Fast and Slow Thinking mechanism into visual agents. FaST employs a switch adapter to dynamically select between System 1/2 modes, tailoring the problem-solving approach to different task complexity. It tackles uncertain and unseen objects by adjusting model confidence and integrating new contextual data. With this novel design, we advocate a flexible system, hierarchical reasoning capabilities, and a transparent decision-making pipeline, all of which contribute to its ability to emulate human-like cognitive processes in visual intelligence. Empirical results demonstrate that FaST outperforms various well-known baselines, achieving 80.8% accuracy over VQA^{v2} for visual question answering and 48.7% GIoU score over ReasonSeg for reasoning segmentation, demonstrate FaST's superior performance. Extensive testing validates the efficacy and robustness of FaST's core components, showcasing its potential to advance the development of cognitive visual agents in AI systems. | 翻訳日:2024-08-19 14:43:58 公開日:2024-08-16 |
# QCCD量子コンピュータにおける4次元表面符号の実験
Experiments with the 4D Surface Code on a QCCD Quantum Computer ( http://arxiv.org/abs/2408.08865v1 ) ライセンス: Link先を確認 | Noah Berthusen, Joan Dreiling, Cameron Foltz, John P. Gaebler, Thomas M. Gatterman, Dan Gresh, Nathan Hewitt, Michael Mills, Steven A. Moses, Brian Neyenhuis, Peter Siegfried, David Hayes, | (参考訳) 単一ショット量子誤り訂正は、フォールトトレラントであるために複数の症候群抽出を不要にすることで、量子計算を高速化する可能性がある。
我々は,QuantinuumのH2トラップイオン量子コンピュータを用いて,[33,1,4]の4次元表面コードを実装し,裸のアンシラ量子ビットを用いた単一ショット量子誤り訂正実験を行った。
我々は,2次元および4次元表面符号の比較実験を行い,4次元表面符号は,4次元表面符号が耐故障性および単発性の両方において一致または優れることを示す。
Single-shot quantum error correction has the potential to speed up quantum computations by removing the need for multiple rounds of syndrome extraction in order to be fault-tolerant. Using Quantinuum's H2 trapped-ion quantum computer, we implement the [[33,1,4]] 4D surface code and perform the first experimental demonstration of single-shot quantum error correction with bare ancilla qubits. We conduct memory experiments comparing the 2D and 4D surface codes and find that despite differences in qubit use and syndrome extraction circuit depth, the 4D surface code matches or outperforms the 2D surface code in both the fault-tolerant and single-shot regimes. | 翻訳日:2024-08-19 14:43:58 公開日:2024-08-16 |
# 実践的私的学習のためのハードルフリーアルゴリズム:木集約を使わず,BLTを使う
A Hassle-free Algorithm for Private Learning in Practice: Don't Use Tree Aggregation, Use BLTs ( http://arxiv.org/abs/2408.08868v1 ) ライセンス: Link先を確認 | H. Brendan McMahan, Zheng Xu, Yanxiang Zhang, | (参考訳) モバイルキーボードアプリケーションのオンデバイス言語モデルをトレーニングするための最先端技術は、DP-Follow-the-Regularized-Leader (DP-FTRL)アルゴリズムを介して、フェデレーション学習(FL)と差分プライバシー(DP)を組み合わせることである。
DP-FTRLの2つの変種は、実際には木凝集と行列分解である。
しかし,木集約はプライバシー/ユーティリティのトレードオフに著しく悩まされる一方,行列機構では,重み付けによるパラメータ化に要するコストと,高実行時メモリコストが要求される。本稿では,最近導入されたバッファ付き線形Toeplitz(BLT)機構をマルチ参加シナリオに拡張する。
我々のBLT-DP-FTRLは、木集約の使いやすさを維持しつつ、実用性とプライバシの観点から行列の分解にほぼ一致する。
我々は,StackOverflowデータセット上でBLT-DP-FTRLを評価し,再現可能なシミュレーションベンチマークとして機能し,実運用FLシステムにおける4つのオンデバイス言語モデルタスクについて検討した。
我々の経験的結果は,BLT機構の利点を強調し,実世界のシナリオにおけるDPの実用性と有効性を高めるものである。
The state-of-the-art for training on-device language models for mobile keyboard applications combines federated learning (FL) with differential privacy (DP) via the DP-Follow-the-Regularized-Leader (DP-FTRL) algorithm. Two variants of DP-FTRL are used in practice, tree aggregation and matrix factorization. However, tree aggregation suffers from significantly suboptimal privacy/utility tradeoffs, while matrix mechanisms require expensive optimization parameterized by hard-to-estimate-in-advance constants, and high runtime memory costs.This paper extends the recently introduced Buffered Linear Toeplitz (BLT) mechanism to multi-participation scenarios. Our BLT-DP-FTRL maintains the ease-of-use advantages of tree aggregation, while essentially matching matrix factorization in terms of utility and privacy. We evaluate BLT-DP-FTRL on the StackOverflow dataset, serving as a re-producible simulation benchmark, and across four on-device language model tasks in a production FL system. Our empirical results highlight the advantages of the BLT mechanism and elevate the practicality and effectiveness of DP in real-world scenarios. | 翻訳日:2024-08-19 14:43:58 公開日:2024-08-16 |
# PEDAL: 異なる例を用いた大規模言語モデルによるグレディデコーディングの強化
PEDAL: Enhancing Greedy Decoding with Large Language Models using Diverse Exemplars ( http://arxiv.org/abs/2408.08869v1 ) ライセンス: Link先を確認 | Sumanth Prabhu, | (参考訳) 自己整合性のような多様な推論経路を持つ自己認識技術は、Large Language Models (LLMs) の精度において顕著に向上している。
しかし、そのような手法は、複数の出力にまたがる正確な解答抽出プロセスの可用性に依存している。
さらに、比較的多くの出力トークンを生成するため、Greedy Decodingと比較して高い推論コストを取得する。
研究によると、自己整合性から得られる自由形式のテキスト出力は、LSMを用いて確実に集約し、最終的な出力を生成することができる。
さらに、近年のLSM推論の進歩により、プロンプトにおける多様な例の使用がLSM出力の多様性を誘導する能力を持っていることが示されている。
このような証明された技術は、テキスト生成において強化された結果を達成するために、自己組織化に基づくアプローチに容易に拡張できる。
本稿では,多種多様な模範的プロンプトの強みとLLMに基づくアグリゲーションを組み合わせたハイブリッドな自己認識手法であるPEDAL(Exemplar Diversity Aggregated using LLMs)を提案する。
一般公開されたSVAMPとARCデータセットから,PEDALは,自己整合性に基づくアプローチに比べて推論コストの低いGreedy Decodingベースの戦略よりも精度がよいことを示した。
Self-ensembling techniques with diverse reasoning paths such as Self-Consistency have demonstrated remarkable gains in accuracy for Large Language Models (LLMs). However, such techniques depend on the availability of an accurate answer extraction process to aggregate across multiple outputs. Moreover, they acquire higher inference cost, in comparison to Greedy Decoding, due to generation of relatively higher number of output tokens. Research has shown that the free form text outputs from Self-Consistency can be aggregated reliably using LLMs to produce the final output. Additionally, recent advancements in LLM inference have demonstrated that usage of diverse exemplars in prompts have the ability to induce diversity in the LLM outputs. Such proven techniques can be easily extended to self-ensembling based approaches to achieve enhanced results in text generation. In this paper, we introduce PEDAL (Prompts based on Exemplar Diversity Aggregated using LLMs), a hybrid self-ensembling approach, that combines the strengths of diverse exemplar based prompts and LLM based aggregation to achieve improvement in overall performance. On the publicly available SVAMP and ARC datasets, our experiments reveal that PEDAL can achieve better accuracy than Greedy Decoding based strategies with lower inference cost compared to Self Consistency based approaches. | 翻訳日:2024-08-19 14:43:58 公開日:2024-08-16 |
# SAM2-UNet:Segment Anything 2は、自然と医療の画像セグメンテーションのための強力なエンコーダ
SAM2-UNet: Segment Anything 2 Makes Strong Encoder for Natural and Medical Image Segmentation ( http://arxiv.org/abs/2408.08870v1 ) ライセンス: Link先を確認 | Xinyu Xiong, Zihuang Wu, Shuangyi Tan, Wenxue Li, Feilong Tang, Ying Chen, Siying Li, Jie Ma, Guanbin Li, | (参考訳) イメージセグメンテーションは視覚理解において重要な役割を担っている。
近年,新しいビジョン基盤モデルは様々なタスクにおいて優れた性能を連続的に達成している。
このような成功の後、本論文では、Segment Anything Model 2 (SAM2) がU字型セグメンテーションモデルの強力なエンコーダであることを示す。
本稿では, SAM2-UNet と呼ばれる, 汎用画像分割のための簡易かつ効果的なフレームワークを提案する。
具体的には、SAM2-UNetはSAM2のHieraバックボーンをエンコーダとして採用し、デコーダは古典的なU字型デザインを使用している。
さらに、アダプタをエンコーダに挿入してパラメータ効率の良い微調整を可能にする。
Camouflaged object detection, salient object detection, Marine animal segmentation, mirror detection, polyp segmentationなど、さまざまな下流タスクに関する予備的な実験は、SAM2-UNetがベルやホイッスルを使わずに既存の最先端の手法に打ち勝つことができることを示した。
プロジェクトページ: \url{https://github.com/WZH0120/SAM2-UNet}。
Image segmentation plays an important role in vision understanding. Recently, the emerging vision foundation models continuously achieved superior performance on various tasks. Following such success, in this paper, we prove that the Segment Anything Model 2 (SAM2) can be a strong encoder for U-shaped segmentation models. We propose a simple but effective framework, termed SAM2-UNet, for versatile image segmentation. Specifically, SAM2-UNet adopts the Hiera backbone of SAM2 as the encoder, while the decoder uses the classic U-shaped design. Additionally, adapters are inserted into the encoder to allow parameter-efficient fine-tuning. Preliminary experiments on various downstream tasks, such as camouflaged object detection, salient object detection, marine animal segmentation, mirror detection, and polyp segmentation, demonstrate that our SAM2-UNet can simply beat existing specialized state-of-the-art methods without bells and whistles. Project page: \url{https://github.com/WZH0120/SAM2-UNet}. | 翻訳日:2024-08-19 14:43:58 公開日:2024-08-16 |
# xGen-MM (BLIP-3):オープン大型マルチモーダルモデルのファミリー
xGen-MM (BLIP-3): A Family of Open Large Multimodal Models ( http://arxiv.org/abs/2408.08872v1 ) ライセンス: Link先を確認 | Le Xue, Manli Shu, Anas Awadalla, Jun Wang, An Yan, Senthil Purushwalkam, Honglu Zhou, Viraj Prabhu, Yutong Dai, Michael S Ryoo, Shrikant Kendre, Jieyu Zhang, Can Qin, Shu Zhang, Chia-Chih Chen, Ning Yu, Juntao Tan, Tulika Manoj Awalgaonkar, Shelby Heinecke, Huan Wang, Yejin Choi, Ludwig Schmidt, Zeyuan Chen, Silvio Savarese, Juan Carlos Niebles, Caiming Xiong, Ran Xu, | (参考訳) 本稿では,LMM(Large Multimodal Models)を開発するためのフレームワークであるxGen-MM(BLIP-3)を紹介する。
このフレームワークは、慎重にキュレートされたデータセット、トレーニングレシピ、モデルアーキテクチャ、結果のLMMスイートで構成されている。
xGen-MMはxGen-MultiModalの略で、基礎的なAIモデルに関するSalesforce xGenイニシアチブを拡張している。
私たちのモデルは、シングルイメージとマルチイメージのベンチマークを含む、さまざまなタスクにわたって厳格な評価を受けています。
事前学習されたベースモデルは、強い文脈内学習能力を示し、命令調整されたモデルは、類似のモデルサイズを持つオープンソースのLMM間の競合性能を示す。
さらに,幻覚などの有害な行動を緩和し,安全性を向上させることを目的としたDPOを用いた安全チューニングモデルを提案する。
我々は、LMM研究のさらなる進歩を促進するために、我々のモデルをオープンソース化し、大規模データセットをキュレートし、微調整のコードベースを作りました。
関連リソースは、上記のプロジェクトページで公開されます。
This report introduces xGen-MM (also known as BLIP-3), a framework for developing Large Multimodal Models (LMMs). The framework comprises meticulously curated datasets, a training recipe, model architectures, and a resulting suite of LMMs. xGen-MM, short for xGen-MultiModal, expands the Salesforce xGen initiative on foundation AI models. Our models undergo rigorous evaluation across a range of tasks, including both single and multi-image benchmarks. Our pre-trained base model exhibits strong in-context learning capabilities and the instruction-tuned model demonstrates competitive performance among open-source LMMs with similar model sizes. In addition, we introduce a safety-tuned model with DPO, aiming to mitigate harmful behaviors such as hallucinations and improve safety. We open-source our models, curated large-scale datasets, and our fine-tuning codebase to facilitate further advancements in LMM research. Associated resources will be available on our project page above. | 翻訳日:2024-08-19 14:43:58 公開日:2024-08-16 |
# 機械学習による巨大衝撃シミュレーションの高速化
Accelerating Giant Impact Simulations with Machine Learning ( http://arxiv.org/abs/2408.08873v1 ) ライセンス: Link先を確認 | Caleb Lammers, Miles Cranmer, Sam Hadden, Shirley Ho, Norman Murray, Daniel Tamayo, | (参考訳) 観測された太陽系外惑星の人口に基づく惑星形成モデルの制約は、計算的に禁忌である合成惑星系の大量のサンプルを生成する必要がある。
重要なボトルネックは、惑星の胚が重力的に進化して惑星を形成する巨大な衝突フェーズをシミュレートすることである。
巨大衝突シミュレーションを高速化するために,多惑星系における衝突結果を予測する機械学習(ML)手法を提案する。
3つの惑星系を50万ドル以上でシミュレーションし、衝突した惑星と衝突した惑星の状態を正確に予測できるMLモデルを開発した。
我々のモデルは、どの惑星が衝突を経験するかを正確に予測するのに苦労するダイナミクス理論のメトリクスに依存する非MLベースラインを大幅に改善する。
長期安定予測モデルと組み合わせることで,最大4桁の速度で巨大衝撃シミュレーションの結果を予測する,効率的なMLベースの巨大衝撃エミュレータを構築する。
我々のモデルは、他の方法では計算可能でない分析を可能にすることを期待している。
そのため、私たちは完全なトレーニングコードと、衝突結果モデルと巨大なインパクトエミュレータのための使いやすいAPIをリリースしています。
Constraining planet formation models based on the observed exoplanet population requires generating large samples of synthetic planetary systems, which can be computationally prohibitive. A significant bottleneck is simulating the giant impact phase, during which planetary embryos evolve gravitationally and combine to form planets, which may themselves experience later collisions. To accelerate giant impact simulations, we present a machine learning (ML) approach to predicting collisional outcomes in multiplanet systems. Trained on more than 500,000 $N$-body simulations of three-planet systems, we develop an ML model that can accurately predict which two planets will experience a collision, along with the state of the post-collision planets, from a short integration of the system's initial conditions. Our model greatly improves on non-ML baselines that rely on metrics from dynamics theory, which struggle to accurately predict which pair of planets will experience a collision. By combining with a model for predicting long-term stability, we create an efficient ML-based giant impact emulator, which can predict the outcomes of giant impact simulations with a speedup of up to four orders of magnitude. We expect our model to enable analyses that would not otherwise be computationally feasible. As such, we release our full training code, along with an easy-to-use API for our collision outcome model and giant impact emulator. | 翻訳日:2024-08-19 14:43:58 公開日:2024-08-16 |
# メタ強化学習に関する調査
A Survey of Meta-Reinforcement Learning ( http://arxiv.org/abs/2301.08028v3 ) ライセンス: Link先を確認 | Jacob Beck, Risto Vuorio, Evan Zheran Liu, Zheng Xiong, Luisa Zintgraf, Chelsea Finn, Shimon Whiteson, | (参考訳) ディープラーニング(Deep reinforcement learning, RL)は、機械学習におけるいくつかの顕著な成功を後押ししてきたが、多くの場合、データ効率の低下と、それが生み出すポリシーの限定的な一般化によって、より広く採用されることから、遠ざかっている。
これらの制限を緩和するための有望なアプローチは、メタRLと呼ばれるプロセスにおいて機械学習問題自体として、より良いRLアルゴリズムを開発することである。
メタRLは、タスクの分散が与えられた場合、可能な限り少ないデータでタスクの分散から新しいタスクに適応できるポリシーを学ぶことが目的である。
本稿では,メタRL問題と,その主なバリエーションについて詳述する。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,メタRL研究を高いレベルでクラスタ化する方法について論じる。
これらのクラスタを用いてメタRLアルゴリズムとアプリケーションを調査します。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
While deep reinforcement learning (RL) has fueled multiple high-profile successes in machine learning, it is held back from more widespread adoption by its often poor data efficiency and the limited generality of the policies it produces. A promising approach for alleviating these limitations is to cast the development of better RL algorithms as a machine learning problem itself in a process called meta-RL. Meta-RL is most commonly studied in a problem setting where, given a distribution of tasks, the goal is to learn a policy that is capable of adapting to any new task from the task distribution with as little data as possible. In this survey, we describe the meta-RL problem setting in detail as well as its major variations. We discuss how, at a high level, meta-RL research can be clustered based on the presence of a task distribution and the learning budget available for each individual task. Using these clusters, we then survey meta-RL algorithms and applications. We conclude by presenting the open problems on the path to making meta-RL part of the standard toolbox for a deep RL practitioner. | 翻訳日:2024-08-19 10:58:09 公開日:2024-08-16 |
# 自己回帰運動拡散モデルを用いた対話型文字制御
Interactive Character Control with Auto-Regressive Motion Diffusion Models ( http://arxiv.org/abs/2306.00416v4 ) ライセンス: Link先を確認 | Yi Shi, Jingbo Wang, Xuekun Jiang, Bingkun Lin, Bo Dai, Xue Bin Peng, | (参考訳) リアルタイムキャラクタ制御は、物理シミュレーション、ビデオゲーム、バーチャルリアリティーなど幅広い応用で、インタラクティブな体験に欠かせない要素である。
画像合成のための拡散モデルの成功により、これらのモデルが運動合成に使用されるようになった。
しかしながら、これらの動き拡散モデルの大部分は主にオフラインアプリケーション用に設計されており、空間時間モデルを使用してフレーム全体のシーケンスを予め指定された長さで同時に合成する。
A-MDM(Auto-Regressive Motion Diffusion Model)を提案する。
我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付き連続した動きフレームを自動回帰的に生成する。
単純なMLPを用いたネットワークアーキテクチャでは,多種多様で長い水平,高忠実な動き列を生成することができる。
さらに,タスク指向サンプリング,インペインティング,階層的強化学習など,インタラクティブな制御をA-MDMに組み込むための一連の技術を紹介した。
これらの技術により、事前訓練されたA-MDMは、様々な新しい下流タスクに効率的に適応できる。
我々は,A-MDMの有効性を実証するための総合的な実験を行い,その性能を最先端の自己回帰手法と比較した。
Real-time character control is an essential component for interactive experiences, with a broad range of applications, including physics simulations, video games, and virtual reality. The success of diffusion models for image synthesis has led to the use of these models for motion synthesis. However, the majority of these motion diffusion models are primarily designed for offline applications, where space-time models are used to synthesize an entire sequence of frames simultaneously with a pre-specified length. To enable real-time motion synthesis with diffusion model that allows time-varying controls, we propose A-MDM (Auto-regressive Motion Diffusion Model). Our conditional diffusion model takes an initial pose as input, and auto-regressively generates successive motion frames conditioned on the previous frame. Despite its streamlined network architecture, which uses simple MLPs, our framework is capable of generating diverse, long-horizon, and high-fidelity motion sequences. Furthermore, we introduce a suite of techniques for incorporating interactive controls into A-MDM, such as task-oriented sampling, in-painting, and hierarchical reinforcement learning. These techniques enable a pre-trained A-MDM to be efficiently adapted for a variety of new downstream tasks. We conduct a comprehensive suite of experiments to demonstrate the effectiveness of A-MDM, and compare its performance against state-of-the-art auto-regressive methods. | 翻訳日:2024-08-19 10:58:09 公開日:2024-08-16 |
# 切り換え可能なメカニズムによる暗黙の因果表現学習
Implicit Causal Representation Learning via Switchable Mechanisms ( http://arxiv.org/abs/2402.11124v4 ) ライセンス: Link先を確認 | Shayan Shirahmad Gale Bagi, Zahra Gharaee, Oliver Schulte, Mark Crowley, | (参考訳) 観測データと介入データからの因果表現の学習には,暗黙の潜伏因果表現学習が必要である。
因果的メカニズムの暗黙的な学習は通常、ハードとソフトの介入という2つの介入データを含む。
現実のシナリオでは、ソフトな介入はハードな介入よりも現実的であることが多い。
因果変化を直接強制するハード介入とは異なり、ソフト介入は因果機構に影響を与えることによって間接的に影響を与える。
しかし、ソフト介入の微妙さは因果モデルの学習にいくつかの課題を課している。
1つの課題は、親関係はそのままであり、ソフト介入の効果が曖昧であることである。
本稿では,ソフト介入を用いた因果モデル学習の課題に対処し,暗黙的モデリングを継続する。
ICLR-SMは,異なる因果メカニズム間を切り替えるように設計された因果メカニズムスイッチ変数を用いて,ソフト介入の効果をモデル化する。
実験では,ベースラインアプローチと比較して,同定可能な因果表現の学習の改善を一貫して観察した。
Learning causal representations from observational and interventional data in the absence of known ground-truth graph structures necessitates implicit latent causal representation learning. Implicit learning of causal mechanisms typically involves two categories of interventional data: hard and soft interventions. In real-world scenarios, soft interventions are often more realistic than hard interventions, as the latter require fully controlled environments. Unlike hard interventions, which directly force changes in a causal variable, soft interventions exert influence indirectly by affecting the causal mechanism. However, the subtlety of soft interventions impose several challenges for learning causal models. One challenge is that soft intervention's effects are ambiguous, since parental relations remain intact. In this paper, we tackle the challenges of learning causal models using soft interventions while retaining implicit modelling. We propose ICLR-SM, which models the effects of soft interventions by employing a causal mechanism switch variable designed to toggle between different causal mechanisms. In our experiments, we consistently observe improved learning of identifiable, causal representations, compared to baseline approaches. | 翻訳日:2024-08-19 10:58:09 公開日:2024-08-16 |
# 適応的思考を伴う大規模言語モデルからの蒸留推論能力
Distilling Reasoning Ability from Large Language Models with Adaptive Thinking ( http://arxiv.org/abs/2404.09170v5 ) ライセンス: Link先を確認 | Xiaoshu Chen, Sihang Zhou, Ke Liang, Xinwang Liu, | (参考訳) 思考微調整の連鎖 (cot-finetuning) は、単に答えを予測するだけでなく、大きな言語モデル(LLM)の推論手順を模倣することで、特定のタスクに対してパフォーマンスを改善する推論能力を持つ小さな言語モデル (SLM) を育むことを目的としている。
既存のコトファインタニング法の多くは事前に考えられたメカニズムを採用しており、SLMは答えを出す前に理性を生成することができる。
このメカニズムにより、SLMは複雑な質問を分析して考えることができるが、答えの正しさは論理的に小さな誤りに非常に敏感になる。
そこで本稿では,理性よりも先に回答を生成するための頑健なポスト思考機構を提案する。
この回答ファースト設定のおかげです。
1) 答は,理性上のミスによる悪影響から逃れることができる。
2 理性は、答の誤り増幅器として機能し、SLM は、ハードサンプルの学習に重点を置いている。
3)推論効率は、推論を行う際に回答が出力された直後に、ユーザが生成を停止できるので、設定の恩恵を受けることができる。
しかし、ポスト思考メカニズムは多くの利点をもたらし、特定のタスクにおけるSLMの全体的な性能を向上させるが、質問について考え、複雑な質問を事前思考メカニズムと比較して単純なサブクエストに分解する能力を失う可能性がある。
そこで,事前思考機構と後思考機構の利点を統合するためのソフト・プロンプト・チューニングによるプラグアンドプレイ適応思考機構を提案する。
提案手法の有効性を実証するため,12の推論課題と2つの代表言語モデルに対して大規模な実験を行った。
Chain of thought finetuning (cot-finetuning) aims to endow small language models (SLM) with reasoning ability to improve their performance towards specific tasks by allowing them to imitate the reasoning procedure of large language models (LLM) beyond simply predicting the answers. Most existing cot-finetuning methods adopt a pre-thinking mechanism, allowing the SLM to generate a rationale before providing an answer. This mechanism enables SLM to analyze and think about complex questions, but it also makes answer correctness highly sensitive to minor errors in rationale. Therefore, we propose a robust post-thinking mechanism to generate answers before rationale. Thanks to this answer-first setting, 1) the answer can escape from the adverse effects caused by minor errors in the rationale; 2) the rationale serves as an error amplifier to the answer, which makes the SLM focus on learning hard samples; 3) the inferring efficiency can also benefit from the setting since users can stop the generation right after answers are outputted when inference is conducted. However, although the post-thinking mechanism brings many advantages and improves the overall performance of SLM on specific tasks, it may lose the ability to think about the questions and decompose complex questions into simple sub-questions compared to pre-thinking mechanism. Therefore, a plug-and-play adaptive-thinking mechanism is proposed with the aid of the soft prompt tuning to integrate the merits of the pre-thinking mechanism and post-thinking mechanism, in which a perception module is introduced to adaptively prompt SLM answer or think first based on perceiving the complexity of the questions. Extensive experiments are conducted across 12 reasoning tasks and 2 representative language models to demonstrate the effectiveness of the proposed mechanism. | 翻訳日:2024-08-19 10:58:09 公開日:2024-08-16 |
# Themis: 強い故障検出機能を備えた自動かつ効率的なディープラーニングシステムテスト
Themis: Automatic and Efficient Deep Learning System Testing with Strong Fault Detection Capability ( http://arxiv.org/abs/2405.09314v4 ) ライセンス: Link先を確認 | Dong Huang, Tsz On Li, Xiaofei Xie, Heming Cui, | (参考訳) 深層学習システム(DLS)はオートパイロットのような安全クリティカルなタスクに広く応用されている。
しかし、摂動入力が推論のためにDLSに入力されると、DLSはしばしば誤った出力(すなわち障害)を持つ。
DLSテスト技術(例:DeepXplore)は、障害を引き起こすデータフローを探索するために摂動入力を生成することによって、そのような障害を検出する。
DLSは無限に多くのデータフローを持つことが多いため、既存の技術では、開発者は障害を引き起こすデータフローを探索するために、DLSのニューロンにアクティベーション値のセットを手動で指定する必要がある。
残念なことに、最近の研究では、このような手作業は面倒で、少数のフォールトインジェクションデータフローしか検出できないことが示されている。
本稿では,障害発生データフローのフルカバレッジを高い確率で確保することにより,強い障害検出能力を実現する,最初の自動DLSテストシステムであるThemisを提案する。
Themisは新しいワークフローを持ち、内部のニューロンの出力がわずかに乱れたときに大きく変化するデータフローを自動的に体系的に明らかにする。
Themisを10種類のDLSで評価したところ,テミスによって検出された断層の数は,4種類のDLS試験法より平均3.78倍多かった。
測定された全てのDLSを検出された断層で再訓練することで、テミスは全ての基準線よりも平均14.7倍高い精度でこれらのDLSの加速度を上昇させた(再確認)。
Deep Learning Systems (DLSs) have been widely applied in safety-critical tasks such as autopilot. However, when a perturbed input is fed into a DLS for inference, the DLS often has incorrect outputs (i.e., faults). DLS testing techniques (e.g., DeepXplore) detect such faults by generating perturbed inputs to explore data flows that induce faults. Since a DLS often has infinitely many data flows, existing techniques require developers to manually specify a set of activation values in a DLS's neurons for exploring fault-inducing data flows. Unfortunately, recent studies show that such manual effort is tedious and can detect only a tiny proportion of fault-inducing data flows. In this paper, we present Themis, the first automatic DLS testing system, which attains strong fault detection capability by ensuring a full coverage of fault-inducing data flows at a high probability. Themis carries a new workflow for automatically and systematically revealing data flows whose internal neurons' outputs vary substantially when the inputs are slightly perturbed, as these data flows are likely fault-inducing. We evaluated Themis on ten different DLSs and found that on average the number of faults detected by Themis was 3.78X more than four notable DLS testing techniques. By retraining all evaluated DLSs with the detected faults, Themis also increased (regained) these DLSs' accuracies on average 14.7X higher than all baselines. | 翻訳日:2024-08-19 10:58:09 公開日:2024-08-16 |
# DeepClair:効果的なポートフォリオ選択に市場予測を活用する
DeepClair: Utilizing Market Forecasts for Effective Portfolio Selection ( http://arxiv.org/abs/2407.13427v3 ) ライセンス: Link先を確認 | Donghee Choi, Jinkyu Kim, Mogan Gim, Jinho Lee, Jaewoo Kang, | (参考訳) 市場予測を活用することは、ポートフォリオ選択戦略の最適化において重要である。
ポートフォリオ選択のための新しいフレームワークであるDeepClairを紹介します。
DeepClairは、トランスフォーマーベースの時系列予測モデルを活用して、市場の動向を予測し、より情報があり、適応可能なポートフォリオ決定を促進する。
予測モデルを深層強化学習駆動型ポートフォリオ選択フレームワークに統合するために、まず、市場データ上で時系列モデルを事前学習し、続いてこのモデルを用いてポートフォリオ選択アーキテクチャを微調整する2段階の戦略を導入した。
さらに、投資シナリオの微調整のための事前学習予測モデルを強化するため、LoRA(Lo-Rank Adaptation)の最適化手法について検討した。
この作業は市場予測とポートフォリオ選択を橋渡しし、投資戦略の進展を促進する。
Utilizing market forecasts is pivotal in optimizing portfolio selection strategies. We introduce DeepClair, a novel framework for portfolio selection. DeepClair leverages a transformer-based time-series forecasting model to predict market trends, facilitating more informed and adaptable portfolio decisions. To integrate the forecasting model into a deep reinforcement learning-driven portfolio selection framework, we introduced a two-step strategy: first, pre-training the time-series model on market data, followed by fine-tuning the portfolio selection architecture using this model. Additionally, we investigated the optimization technique, Low-Rank Adaptation (LoRA), to enhance the pre-trained forecasting model for fine-tuning in investment scenarios. This work bridges market forecasting and portfolio selection, facilitating the advancement of investment strategies. | 翻訳日:2024-08-19 10:58:09 公開日:2024-08-16 |
# Peer-induced Fairness: アルゴリズムフェアネス監査のための因果的アプローチ
Peer-induced Fairness: A Causal Approach for Algorithmic Fairness Auditing ( http://arxiv.org/abs/2408.02558v3 ) ライセンス: Link先を確認 | Shiqi Fang, Zexun Chen, Jake Ansell, | (参考訳) 2024年8月1日からのEU AI Actの効果により、信用スコアリングのようなリスクの高いアプリケーションは、アルゴリズムの公正性評価を含む厳格な透明性と品質基準に従わなければならない。
その結果,アルゴリズムフェアネスを監査するツールの開発が重要となった。
アルゴリズムの公平性を科学的に監査するにはどうすればいいのか?
アルゴリズムによる差別や被写体固有の制限によって悪い決定がもたらされるかどうかを判断することが不可欠である。
本稿では,新たな監査フレームワークである‘peer-induced fairness’を導入し,信用承認システム内での対実的公正性と高度な因果推論技術を活用する。
提案手法は,特定のAI手法に依存しないピア比較により,個人レベルでの公平性を評価する。
データ不足や不均衡といった課題に効果的に対処する。
モデルに依存しないフレキシブルなフレームワークは、利害関係者のための自己監査ツールと規制当局のための外部監査ツールの両方として機能し、統合の容易さを提供する。
また、有害な決定が個人の能力や差別に起因するかどうかについて明確なフィードバックを提供することで、EU AI Actの透明性要件を満たしている。
41.51%のマイクロ企業が、非マイクロ企業に比べて顔の差別を肯定している。
これらの発見は、多様なAIアプリケーションに対するフレームワークの可能性を強調している。
With the EU AI Act effective from 1 August 2024, high-risk applications like credit scoring must adhere to stringent transparency and quality standards, including algorithmic fairness evaluations. Consequently, developing tools for auditing algorithmic fairness has become crucial. This paper addresses a key question: how can we scientifically audit algorithmic fairness? It is vital to determine whether adverse decisions result from algorithmic discrimination or the subjects' inherent limitations. We introduce a novel auditing framework, ``peer-induced fairness'', leveraging counterfactual fairness and advanced causal inference techniques within credit approval systems. Our approach assesses fairness at the individual level through peer comparisons, independent of specific AI methodologies. It effectively tackles challenges like data scarcity and imbalance, common in traditional models, particularly in credit approval. Model-agnostic and flexible, the framework functions as both a self-audit tool for stakeholders and an external audit tool for regulators, offering ease of integration. It also meets the EU AI Act's transparency requirements by providing clear feedback on whether adverse decisions stem from personal capabilities or discrimination. We demonstrate the framework's usefulness by applying it to SME credit approval, revealing significant bias: 41.51% of micro-firms face discrimination compared to non-micro firms. These findings highlight the framework's potential for diverse AI applications. | 翻訳日:2024-08-19 10:58:09 公開日:2024-08-16 |
# UCIデータセットを用いた集中型心疾患分類モデルとそのShapley-value Based Interpretability
Centralized and Federated Heart Disease Classification Models Using UCI Dataset and their Shapley-value Based Interpretability ( http://arxiv.org/abs/2408.06183v2 ) ライセンス: Link先を確認 | Mario Padilla Rodriguez, Mohamed Nafea, | (参考訳) 心臓血管疾患は世界中で死亡の第一の要因であり、正確な診断方法の必要性を浮き彫りにしている。
本研究は、米国、ハンガリー、スイスの4つの病院の患者記録を含むUCIデータセットを用いて、心臓病分類のための集中型および連合型機械学習アルゴリズムをベンチマークする。
本ベンチマークは,特徴の分類の重要性を定量化するために,Shapley-value Interpretability解析によって支援されている。
集中的な設定では、様々なバイナリ分類アルゴリズムがプールされたデータに基づいて訓練され、支持ベクトルマシン(SVM)が83.3\%の試験精度を達成し、78.7\%の確立されたベンチマークをロジスティック回帰で上回っている。
さらに、4つのクライアント(ホスピタル)を備えたフェデレーション学習アルゴリズムを探索し、データセットの自然なパーティションを活用して、精度を犠牲にすることなくプライバシを向上させる。
フェデレーションSVM(Federated SVM)は、文献で珍しいアプローチであり、トップテストの精度は73.8\%に達する。
我々の解釈可能性分析は、心臓病の指標に関する既存の医学的知識と一致している。
本研究は、患者のプライバシを維持しつつ、心臓病に対する効率的かつ解釈可能なプレスクリーニングツールのベンチマークを確立する。
この研究はhttps://github.com/padillma1/Heart-Disease-Classification-on-UCI-dataset-and-Shapley-Interpretabilit y-Analysisで公開されている。
Cardiovascular diseases are a leading cause of mortality worldwide, highlighting the need for accurate diagnostic methods. This study benchmarks centralized and federated machine learning algorithms for heart disease classification using the UCI dataset which includes 920 patient records from four hospitals in the USA, Hungary and Switzerland. Our benchmark is supported by Shapley-value interpretability analysis to quantify features' importance for classification. In the centralized setup, various binary classification algorithms are trained on pooled data, with a support vector machine (SVM) achieving the highest testing accuracy of 83.3\%, surpassing the established benchmark of 78.7\% with logistic regression. Additionally, federated learning algorithms with four clients (hospitals) are explored, leveraging the dataset's natural partition to enhance privacy without sacrificing accuracy. Federated SVM, an uncommon approach in the literature, achieves a top testing accuracy of 73.8\%. Our interpretability analysis aligns with existing medical knowledge of heart disease indicators. Overall, this study establishes a benchmark for efficient and interpretable pre-screening tools for heart disease while maintaining patients' privacy. This work is available at https://github.com/padillma1/Heart-Disease-Classification-on-UCI-dataset-and-Shapley-Interpretabilit y-Analysis. | 翻訳日:2024-08-19 10:58:09 公開日:2024-08-16 |
# カップラーによる光共振ナノ粒子間の可変双極子-双極子カップリング
Coupler enabled tunable dipole-dipole coupling between optically levitated nanoparticles ( http://arxiv.org/abs/2408.06256v2 ) ライセンス: Link先を確認 | Mian Wu, Nan Li, Han Cai, Huizhu Hu, | (参考訳) 真空中の複数の光学共振粒子は静電相互作用、光結合、非相互光誘起双極子-双極子相互作用を示し、メソスコピックな絡み合いや複雑な相互作用を探索する上で有望な基盤となる。
しかし、光トラップアレイでは、各トラップの位置と偏光を個別に制御することは困難であり、隣接する粒子間の相互作用の正確な調整が制限される。
この制約は複雑な相互作用系の研究を妨げる。
本研究では,2つの非相互作用ナノ粒子に対して,第3のナノ粒子をカップラとして導入し,第3のナノ粒子を介する可変双極子-双極子カップリングを実現する。
粒子の位相と位置が相互作用強度に及ぼす影響について検討し,その広いチューニング性を示した。
本手法により, 近接粒子同士の相互作用の精密制御が可能となり, ナノ粒子アレイのマクロ量子力学およびセンシングへの利用が促進される。
Multiple optically levitated particles in vacuum can exhibit electrostatic interactions, optical binding, and non-reciprocal light-induced dipole-dipole interactions, making them promising platforms for exploring mesoscopic entanglement and complex interactions. However, in optical trap arrays, individually controlling the position and polarization of each trap is challenging, limiting the precise tuning of interactions between adjacent particles. This constraint hinders the study of complex interaction systems. In this work, we introduce a third nanoparticle as a coupler to two initially non-interacting nanoparticles, achieving tunable dipole-dipole coupling mediated by the third one. We investigated the effect of the particles' phases and positions on the interaction strength and demonstrated its broad tunability. Our method allows for precise control of interactions between any pair of adjacent particles in multi-particle systems, facilitating the further use of levitated nanoparticle arrays in macroscopic quantum mechanics and sensing. | 翻訳日:2024-08-19 10:58:09 公開日:2024-08-16 |
# 分子生成のためのオープンソースの分子処理パイプライン
Open-Source Molecular Processing Pipeline for Generating Molecules ( http://arxiv.org/abs/2408.06261v2 ) ライセンス: Link先を確認 | V Shreyas, Jose Siguenza, Karan Bania, Bharath Ramsundar, | (参考訳) 分子の生成モデルは、計算化学での使用をかなり約束しているが、非専門家での使用は困難である。
このような理由から,我々は生成分子モデルを簡単に構築するためのオープンソース基盤を,堅牢で再利用可能な分子生成パイプラインの構築を目的として,広く使用されているDeepChem [Ramsundar et al , 2019]ライブラリに導入した。
特に、PyTorch [Paszke et al , 2019] の分子生成逆数ネットワーク (MolGAN) [Cao and Kipf, 2022] と正規化フロー [Papamakarios et al , 2021] の実装を高品質に追加する。
Kuznetsov と Polykovskiy, 2021, Cao と Kipf, 2022] に匹敵するパフォーマンスを示している。
Generative models for molecules have shown considerable promise for use in computational chemistry, but remain difficult to use for non-experts. For this reason, we introduce open-source infrastructure for easily building generative molecular models into the widely used DeepChem [Ramsundar et al., 2019] library with the aim of creating a robust and reusable molecular generation pipeline. In particular, we add high quality PyTorch [Paszke et al., 2019] implementations of the Molecular Generative Adversarial Networks (MolGAN) [Cao and Kipf, 2022] and Normalizing Flows [Papamakarios et al., 2021]. Our implementations show strong performance comparable with past work [Kuznetsov and Polykovskiy, 2021, Cao and Kipf, 2022]. | 翻訳日:2024-08-19 10:58:09 公開日:2024-08-16 |
# 繰り返し参照リファインメントを有するマルチマージンガルシュレーディンガー橋
Multi-marginal Schrödinger Bridges with Iterative Reference Refinement ( http://arxiv.org/abs/2408.06277v2 ) ライセンス: Link先を確認 | Yunyi Shen, Renato Berlinghieri, Tamara Broderick, | (参考訳) 実践者は、しばしば複数の時点のサンプルスナップショットを用いて、観測されていない人口軌道を推測することを目的としている。
例えば、単一細胞のシークエンシングでは、遺伝子発現が時間の経過とともにどのように進化するかを学びたい。
しかし、どの細胞もシークエンシングすることでその細胞は破壊される。
したがって、あらゆる細胞の完全な軌道にアクセスすることはできないが、多くの細胞からのスナップショットサンプルにアクセスすることができる。
確率微分方程式は、完全な個人軌道アクセスを持つ系を解析するために一般的に用いられるが、ここではサンプルスナップショットしか持たないため、これらの手法は適用できない。
ディープラーニングコミュニティは先頃、Schr\"odinger Bridges(SBs)とその拡張を使って、これらのダイナミクスを見積もっている。
しかしながら、これらの手法は(1) ちょうど2つの時間点の間を補間するか、または(2) SB 内の単一の固定された参照ダイナミクスを必要とする。
しかし、隣接する時間ポイントから断片的に学ぶことは、長期的な依存関係を捉えるのに失敗する可能性がある。
そして、実践者は一般的に参照のダイナミックなモデルクラスを指定できますが、その中のパラメータの正確な値ではありません。
そこで本研究では,(1)複数時点にわたるサンプルスナップショットから未観測軌跡を学習する手法を提案する。
特に、Schr\"odinger Bridges にインスパイアされた反復射影法を提案し、観測されていない軌道上の断片的 SB の学習と学習された SB を用いて参照クラス内のダイナミクスの最良の推算を洗練させることを交互に行う。
本手法の利点は,エコロジーからのシミュレーションパラメトリックモデル,システム生物学からのシミュレーションおよび実データ,実際のモーションキャプチャーデータを用いて実証する。
Practitioners frequently aim to infer an unobserved population trajectory using sample snapshots at multiple time points. For instance, in single-cell sequencing, scientists would like to learn how gene expression evolves over time. But sequencing any cell destroys that cell. So we cannot access any cell's full trajectory, but we can access snapshot samples from many cells. Stochastic differential equations are commonly used to analyze systems with full individual-trajectory access; since here we have only sample snapshots, these methods are inapplicable. The deep learning community has recently explored using Schr\"odinger bridges (SBs) and their extensions to estimate these dynamics. However, these methods either (1) interpolate between just two time points or (2) require a single fixed reference dynamic within the SB, which is often just set to be Brownian motion. But learning piecewise from adjacent time points can fail to capture long-term dependencies. And practitioners are typically able to specify a model class for the reference dynamic but not the exact values of the parameters within it. So we propose a new method that (1) learns the unobserved trajectories from sample snapshots across multiple time points and (2) requires specification only of a class of reference dynamics, not a single fixed one. In particular, we suggest an iterative projection method inspired by Schr\"odinger bridges; we alternate between learning a piecewise SB on the unobserved trajectories and using the learned SB to refine our best guess for the dynamics within the reference class. We demonstrate the advantages of our method via a well-known simulated parametric model from ecology, simulated and real data from systems biology, and real motion-capture data. | 翻訳日:2024-08-19 10:58:09 公開日:2024-08-16 |
# 制御フローの検証 - 概念,ソリューション,オープンな課題
Control-Flow Attestation: Concepts, Solutions, and Open Challenges ( http://arxiv.org/abs/2408.06304v3 ) ライセンス: Link先を確認 | Zhanyu Sha, Carlton Shepherd, Amir Rafi, Konstantinos Markantonakis, | (参考訳) 制御フロー検証は、ターゲットのランタイム動作を測定して報告することで、制御フローの完全性とプラットフォーム検証の世界を統一する。
ターゲットの信頼保証は、その実行が認可された制御フローパスに従うかどうかをテストすることによって提供される。
この問題は、サイバー物理システムの信頼性、IoTデバイス、クラウドプラットフォームなど、さまざまな環境で調査されてきた。
近年、かなりの数の提案がなされているが、その領域は断片化されており、異なる敵の振る舞い、検証パラダイム、デプロイメントの課題に対処している。
本稿では、制御フローの検証に関する最初の調査を行い、最先端のスキームにおける中核的な考え方と解決策について考察する。
2016~2024年の間に発行された30以上の論文を調査し、主要な特徴の統合と比較を行い、この分野の今後の研究にいくつかの課題と勧告を提示した。
Control-flow attestation unifies the worlds of control-flow integrity and platform attestation by measuring and reporting a target's run-time behaviour to a verifier. Trust assurances in the target are provided by testing whether its execution follows an authorised control-flow path. The problem has been explored in various settings, such as assessing the trustworthiness of cyber-physical systems, Internet of Things devices, cloud platforms, and many others. Despite a significant number of proposals being made in recent years, the area remains fragmented, addressing different adversarial behaviours, verification paradigms, and deployment challenges. In this paper, we present the first survey of control-flow attestation, examining the core ideas and solutions in state-of-the-art schemes. In total, we survey over 30 papers published between 2016-2024, consolidate and compare their key features, and pose several challenges and recommendations for future research in the area. | 翻訳日:2024-08-19 10:58:09 公開日:2024-08-16 |
# ファンクション近似を用いたヘビーボールモーメント加速アクタークリティカル
Heavy-Ball Momentum Accelerated Actor-Critic With Function Approximation ( http://arxiv.org/abs/2408.06945v2 ) ライセンス: Link先を確認 | Yanjie Dong, Haijun Zhang, Gang Wang, Shisheng Cui, Xiping Hu, | (参考訳) パラメータ値関数を用いて、モンテカルロロールアウトを値推定に置き換えることで、アクタークリティカル(AC)アルゴリズムは確率的ポリシー勾配の分散を低減し、収束率を改善することができる。
既存の研究は主にマルコフ雑音下でのACアルゴリズムの収束速度の分析に重点を置いているが、ACアルゴリズムに対する運動量の影響は未解明のままである。
本研究では,まず,重ボールモーメントを線形関数でパラメータ化した批判再帰に組み込むことにより,重ボールモーメントに基づくベネフィット・アクター・クリティック(\mbox{HB-A2C})アルゴリズムを提案する。
サンプル軌道がマルコフ決定過程に従うと、提案したHB-A2Cアルゴリズムの加速能力を定量的に証明する。
提案したHB-A2Cは,マルコフ雑音による強化学習タスクに対して,$\epsilon$-approximate stationary point with $\oo{\epsilon^{-2}}$ iterations を求める。
また,学習速度が標本軌跡の長さに依存することも明らかにした。
批判再帰のモーメント係数を慎重に選択することにより、提案したHB-A2Cは、初期化と確率近似によって生じる誤差のバランスをとることができる。
By using an parametric value function to replace the Monte-Carlo rollouts for value estimation, the actor-critic (AC) algorithms can reduce the variance of stochastic policy gradient so that to improve the convergence rate. While existing works mainly focus on analyzing convergence rate of AC algorithms under Markovian noise, the impacts of momentum on AC algorithms remain largely unexplored. In this work, we first propose a heavy-ball momentum based advantage actor-critic (\mbox{HB-A2C}) algorithm by integrating the heavy-ball momentum into the critic recursion that is parameterized by a linear function. When the sample trajectory follows a Markov decision process, we quantitatively certify the acceleration capability of the proposed HB-A2C algorithm. Our theoretical results demonstrate that the proposed HB-A2C finds an $\epsilon$-approximate stationary point with $\oo{\epsilon^{-2}}$ iterations for reinforcement learning tasks with Markovian noise. Moreover, we also reveal the dependence of learning rates on the length of the sample trajectory. By carefully selecting the momentum factor of the critic recursion, the proposed HB-A2C can balance the errors introduced by the initialization and the stoschastic approximation. | 翻訳日:2024-08-19 10:58:09 公開日:2024-08-16 |
# MathBridge:スポークな数学的表現を可読性向上のために$LaTeX$式に変換するための大規模なコーパスデータセット
MathBridge: A Large Corpus Dataset for Translating Spoken Mathematical Expressions into $LaTeX$ Formulas for Improved Readability ( http://arxiv.org/abs/2408.07081v3 ) ライセンス: Link先を確認 | Kyudan Jung, Sieun Hyeon, Jeong Youn Kwon, Nam-Joon Kim, Hyun Gon Ryu, Hyuk-Jae Lee, Jaeyoung Do, | (参考訳) 数式ビデオの字幕などのテキストベースの文書における数学的表現の可読性の向上は重要な課題である。
これを実現するために、数学的表現はコンパイルされた公式に変換するべきである。
例えば、音声表現 ``x は b 乗算 4 a c の平方根を小数点 b + または小数点 b に等しく、自動音声認識から b 乗算 4 a'' は、コンパイル式 $x = \frac{-b \pm \sqrt{b^2 - 4ac}}{2a}$ として表示されると、より理解しやすい。
数学的音声文をコンパイル式に変換するには、2つのプロセスが必要である: 音声文をLaTeX式に変換し、LaTeX式をコンパイル式に変換する。
後者はLaTeXエンジンで管理できる。
しかし、前者を効果的に行う方法はない。
言語モデルを用いてこれを解こうとしても、それを訓練するための音声文とLaTeX式の間にはペアのデータがない。
本稿では,数式をLaTeXに翻訳する最初の大規模データセットであるMathBridgeを紹介する。
MathBridgeは、約2300万のLaTeX式と対応する数学的音声文のペアで構成されている。
提案したデータによる微調整を含む包括的評価により,MathBridgeは,数学的音声文からLaTeX式に変換するための事前学習言語モデルの能力を大幅に向上することがわかった。
具体的には、T5大モデルでは、sareBLEUスコアは4.77から46.8に増加し、大幅に向上した。
Improving the readability of mathematical expressions in text-based document such as subtitle of mathematical video, is an significant task. To achieve this, mathematical expressions should be convert to compiled formulas. For instance, the spoken expression ``x equals minus b plus or minus the square root of b squared minus four a c, all over two a'' from automatic speech recognition is more readily comprehensible when displayed as a compiled formula $x = \frac{-b \pm \sqrt{b^2 - 4ac}}{2a}$. To convert mathematical spoken sentences to compiled formulas, two processes are required: spoken sentences are converted into LaTeX formulas, and LaTeX formulas are converted into compiled formulas. The latter can be managed by using LaTeX engines. However, there is no way to do the former effectively. Even if we try to solve this using language models, there is no paired data between spoken sentences and LaTeX formulas to train it. In this paper, we introduce MathBridge, the first extensive dataset for translating mathematical spoken sentences into LaTeX formulas. MathBridge comprises approximately 23 million LaTeX formulas paired with the corresponding mathematical spoken sentences. Through comprehensive evaluations, including fine-tuning with proposed data, we discovered that MathBridge significantly enhances the capabilities of pretrained language models for converting to LaTeX formulas from mathematical spoken sentences. Specifically, for the T5-large model, the sacreBLEU score increased from 4.77 to 46.8, demonstrating substantial enhancement. | 翻訳日:2024-08-19 10:58:09 公開日:2024-08-16 |
# 事前学習型高次基礎モデルのためのV情報の最大化
Maximizing V-information for Pre-training Superior Foundation Models ( http://arxiv.org/abs/2408.07107v2 ) ライセンス: Link先を確認 | Wenxuan Yang, Weimin Tan, Hanyu Zhang, Bo Yan, | (参考訳) 大規模データセットの事前トレーニング基盤モデルは、例外的なパフォーマンスを示す。
しかし、最近の研究では、事前学習データの増加がモデル性能の向上につながるかどうかという従来の考え方に疑問が呈されている。
この問題に対処するため,データ効率のよい学習手法が導入された。
しかし、この領域の現在の手法では、サンプル選択の明確な標準が欠落している。
実験の結果, V情報の最大化により, サンプル選択を最適化問題とみなすことができ, より少ないサンプルであっても, モデル性能を効果的に向上させることができることがわかった。
本稿では,V-information を最大化する最適なデータ効率学習法 (OptiDEL) を提案する。
OptiDEL法は、データ量を大幅に減らしながら、完全なデータセットでトレーニングされたモデルの性能を達成または超過するためのハードサンプルを生成する。
我々はOptiDEL法と最先端のアプローチを比較し、OptiDELはさまざまなデータセットで既存のアプローチを一貫して上回り、トレーニング済みデータの5%しかトレーニングされていない基礎モデルは、フルデータセットでトレーニングされたデータのパフォーマンスを上回ります。
Pre-training foundation models on large-scale datasets demonstrates exceptional performance. However, recent research questions this traditional notion, exploring whether an increase in pre-training data always leads to enhanced model performance. To address this issue, data-effective learning approaches have been introduced. However, current methods in this area lack a clear standard for sample selection. Our experiments reveal that by maximizing V-information, sample selection can be framed as an optimization problem, enabling effective improvement in model performance even with fewer samples. Under this guidance, we develop an optimal data-effective learning method (OptiDEL) to maximize V-information. The OptiDEL method generates hard samples to achieve or even exceed the performance of models trained on the full dataset while using substantially less data. We compare the OptiDEL method with state-of-the-art approaches finding that OptiDEL consistently outperforms existing approaches across different datasets, with foundation models trained on only 5% of the pre-training data surpassing the performance of those trained on the full dataset. | 翻訳日:2024-08-19 10:48:24 公開日:2024-08-16 |
# ChemVLM:化学分野におけるマルチモーダル大言語モデルのパワーを探る
ChemVLM: Exploring the Power of Multimodal Large Language Models in Chemistry Area ( http://arxiv.org/abs/2408.07246v2 ) ライセンス: Link先を確認 | Junxian Li, Di Zhang, Xunzhi Wang, Zeying Hao, Jingdi Lei, Qian Tan, Cai Zhou, Wei Liu, Yaotian Yang, Xinrui Xiong, Weiyun Wang, Zhe Chen, Wenhai Wang, Wei Li, Shufei Zhang, Mao Su, Wanli Ouyang, Yuqiang Li, Dongzhan Zhou, | (参考訳) 大規模言語モデル(LLM)は顕著な成功を収め、化学を含む様々な科学分野に応用されてきた。
しかし、多くの化学タスクは、既存の化学LLMではうまく処理できない視覚情報の処理を必要とする。
これにより、化学領域にマルチモーダル情報を統合できるモデルの必要性が高まっている。
本稿では, 化学応用に特化して設計された, オープンソースの化学マルチモーダル大規模言語モデルである \textbf{ChemVLM} を紹介する。
ChemVLMは、分子構造、反応、化学試験問題を含む、テキストおよび視覚化学的情報の両方を理解する能力を高めるために、慎重にキュレートされたバイリンガルなマルチモーダルデータセットで訓練されている。
我々は,化学光学的文字認識(OCR)やMMCR(Multimodal Chemical Reasoning),マルチモーダル分子理解(Multimodal Molecule Understanding)の3つのデータセットを開発した。
我々はChemVLMを、様々なタスクにおいて、オープンソースおよびプロプライエタリな多モーダルな大規模言語モデルに対してベンチマークする。
実験結果から,ChemVLMは評価されたすべてのタスクで競合性能を発揮することが示された。
私たちのモデルはhttps://huggingface.co/AI4Chem/ChemVLM-26Bで確認できます。
Large Language Models (LLMs) have achieved remarkable success and have been applied across various scientific fields, including chemistry. However, many chemical tasks require the processing of visual information, which cannot be successfully handled by existing chemical LLMs. This brings a growing need for models capable of integrating multimodal information in the chemical domain. In this paper, we introduce \textbf{ChemVLM}, an open-source chemical multimodal large language model specifically designed for chemical applications. ChemVLM is trained on a carefully curated bilingual multimodal dataset that enhances its ability to understand both textual and visual chemical information, including molecular structures, reactions, and chemistry examination questions. We develop three datasets for comprehensive evaluation, tailored to Chemical Optical Character Recognition (OCR), Multimodal Chemical Reasoning (MMCR), and Multimodal Molecule Understanding tasks. We benchmark ChemVLM against a range of open-source and proprietary multimodal large language models on various tasks. Experimental results demonstrate that ChemVLM achieves competitive performance across all evaluated tasks. Our model can be found at https://huggingface.co/AI4Chem/ChemVLM-26B. | 翻訳日:2024-08-19 10:48:24 公開日:2024-08-16 |
# グラディエントアライメントによる医用画像分割のためのテスト時間適応の改善
Gradient Alignment Improves Test-Time Adaptation for Medical Image Segmentation ( http://arxiv.org/abs/2408.07343v2 ) ライセンス: Link先を確認 | Ziyang Chen, Yiwen Ye, Yongsheng Pan, Yong Xia, | (参考訳) 近年、医用画像のセグメンテーションが著しく進歩しているのを目の当たりにしているが、様々なセンターからの医用画像における領域シフトの広範化は、事前訓練されたモデルの効果的な展開を妨げる。
多くのテスト時間適応(TTA)手法が、推論中にテストデータを持つ事前学習モデルの微調整によってこの問題に対処するために提案されている。
しかしながら、これらの手法は、最適以下の最適化方向(勾配によって予測される)と固定ステップサイズ(学習速度に基づいて予測される)によって、満足度の低い最適化に悩まされることが多い。
本稿では,グラディエントアライメントに基づくテスト時間適応法(GraTa)を提案する。
自己監督対象から導出される擬似勾配を最適化する従来のTTA法とは異なり,本手法は擬似勾配を組み込んで勾配調整を容易にする。
このような勾配アライメントにより、モデルは異なる勾配間の類似性を発掘し、勾配方向を補正し、現在のセグメント化タスクに関連する経験的勾配を近似することができる。
さらに、擬似勾配と補助勾配のコサイン類似性に基づいて動的学習率を設計し、様々なテストデータに基づいて事前学習したモデルの適応微調整を行う。
広汎な実験により、提案した勾配アライメントと動的学習率の有効性を確立し、ベンチマーク医用画像セグメンテーションタスクにおける他の最先端TTA法よりもGraTa法の方が優れていることを実証した。
事前トレーニングされたソースモデルのコードと重みが利用可能になる。
Although recent years have witnessed significant advancements in medical image segmentation, the pervasive issue of domain shift among medical images from diverse centres hinders the effective deployment of pre-trained models. Many Test-time Adaptation (TTA) methods have been proposed to address this issue by fine-tuning pre-trained models with test data during inference. These methods, however, often suffer from less-satisfactory optimization due to suboptimal optimization direction (dictated by the gradient) and fixed step-size (predicated on the learning rate). In this paper, we propose the Gradient alignment-based Test-time adaptation (GraTa) method to improve both the gradient direction and learning rate in the optimization procedure. Unlike conventional TTA methods, which primarily optimize the pseudo gradient derived from a self-supervised objective, our method incorporates an auxiliary gradient with the pseudo one to facilitate gradient alignment. Such gradient alignment enables the model to excavate the similarities between different gradients and correct the gradient direction to approximate the empirical gradient related to the current segmentation task. Additionally, we design a dynamic learning rate based on the cosine similarity between the pseudo and auxiliary gradients, thereby empowering the adaptive fine-tuning of pre-trained models on diverse test data. Extensive experiments establish the effectiveness of the proposed gradient alignment and dynamic learning rate and substantiate the superiority of our GraTa method over other state-of-the-art TTA methods on a benchmark medical image segmentation task. The code and weights of pre-trained source models will be available. | 翻訳日:2024-08-19 10:48:24 公開日:2024-08-16 |
# 大規模言語モデルを用いた自動単体テスト生成システムと生成テストスイートの評価
A System for Automated Unit Test Generation Using Large Language Models and Assessment of Generated Test Suites ( http://arxiv.org/abs/2408.07846v2 ) ライセンス: Link先を確認 | Andrea Lops, Fedelucio Narducci, Azzurra Ragone, Michelantonio Trizio, Claudio Bartolini, | (参考訳) 単体テストは、ソフトウェアテストライフサイクルの中でもっとも基本的なレベルのテストであり、ソフトウェアの正しさを保証するのに不可欠です。
単体テストの設計と作成は、自動化のためのコストと労力のかかるプロセスです。
近年,大規模言語モデル (LLM) は単体テスト生成を含むソフトウェア開発の様々な側面に適用されている。
テストコード生成におけるLLMの機能を評価する実験的な研究はいくつか存在するが、個々のメソッドの単体テストを直接生成するなど、単純なシナリオに重点を置いている。
これらの評価はしばしば独立して小規模なテストユニットを伴い、現実のソフトウェア開発シナリオにおけるLLMのパフォーマンスの限られたビューを提供する。
さらに、従来の研究では、現実の応用に適切なスケールでこの問題にアプローチしていない。
生成したユニットテストは、しばしばオリジナルのプロジェクトへの手動統合を通じて評価される。
これらのギャップに対処するため,我々はより現実的な複雑性テストスイートの生成と評価を行うアプローチを開発した。
本稿では,クラスレベルのテストコード生成に注目し,テスト生成からテストアセスメントまでのプロセス全体を自動化する。
本稿では、Javaプロジェクトのテストスイートを生成する自動化システムであるAgoneTestと、生成されたテストスイートを評価するための包括的で原則化された方法論について紹介する。
最先端のデータセット(すなわちMethods2Test)から始まり、人間の記述したテストとLLMの生成したテストを比較するための新しいデータセットを構築しました。
私たちの重要なコントリビューションには、スケーラブルな自動化ソフトウェアシステム、新しいデータセット、テスト品質を評価するための詳細な方法論が含まれています。
Unit tests represent the most basic level of testing within the software testing lifecycle and are crucial to ensuring software correctness. Designing and creating unit tests is a costly and labor-intensive process that is ripe for automation. Recently, Large Language Models (LLMs) have been applied to various aspects of software development, including unit test generation. Although several empirical studies evaluating LLMs' capabilities in test code generation exist, they primarily focus on simple scenarios, such as the straightforward generation of unit tests for individual methods. These evaluations often involve independent and small-scale test units, providing a limited view of LLMs' performance in real-world software development scenarios. Moreover, previous studies do not approach the problem at a suitable scale for real-life applications. Generated unit tests are often evaluated via manual integration into the original projects, a process that limits the number of tests executed and reduces overall efficiency. To address these gaps, we have developed an approach for generating and evaluating more real-life complexity test suites. Our approach focuses on class-level test code generation and automates the entire process from test generation to test assessment. In this work, we present AgoneTest: an automated system for generating test suites for Java projects and a comprehensive and principled methodology for evaluating the generated test suites. Starting from a state-of-the-art dataset (i.e., Methods2Test), we built a new dataset for comparing human-written tests with those generated by LLMs. Our key contributions include a scalable automated software system, a new dataset, and a detailed methodology for evaluating test quality. | 翻訳日:2024-08-19 10:48:24 公開日:2024-08-16 |
# クエリプラン表現の探索的研究
An Exploratory Case Study of Query Plan Representations ( http://arxiv.org/abs/2408.07857v2 ) ライセンス: Link先を確認 | Jinsheng Ba, Manuel Rigger, | (参考訳) データベースシステムでは、クエリプランはクエリを実行するための一連の具体的な内部ステップである。
複数のテストアプローチでは、クエリプランを使用してバグを見つける。
しかし、クエリプランはデータベース固有の方法で表現されるため、これらのテストアプローチを実装するには、その採用を妨げるような労力が要る。
統合されたクエリプラン表現により,これらの手法の実装が容易になることが期待できる。
本稿では,9つの広く利用されているデータベースシステムにおけるクエリ計画表現の探索的ケーススタディを提案する。
本研究では,クエリ計画表現を3つの概念的要素 – 操作,プロパティ,フォーマット – から構成し,統一的なクエリ計画表現を設計できることを示す。
これに基づいて、既存のテストメソッドを効率的に採用し、17の既知のバグを発見できる。
さらに、統合クエリプラン表現は、他のアプリケーションを容易にします。
既存のビジュアライゼーションツールは、適度な実装による統合クエリ計画表現に基づく複数のデータベースシステムをサポートし、データベースシステム間での統合クエリ計画を比較することで、パフォーマンスを改善するための実用的な洞察を提供する。
統合されたクエリプラン表現により、追加のアプリケーションシナリオの探索が可能になります。
In database systems, a query plan is a series of concrete internal steps to execute a query. Multiple testing approaches utilize query plans for finding bugs. However, query plans are represented in a database-specific manner, so implementing these testing approaches requires a non-trivial effort, hindering their adoption. We envision that a unified query plan representation can facilitate the implementation of these approaches. In this paper, we present an exploratory case study to investigate query plan representations in nine widely-used database systems. Our study shows that query plan representations consist of three conceptual components: operations, properties, and formats, which enable us to design a unified query plan representation. Based on it, existing testing methods can be efficiently adopted, finding 17 previously unknown and unique bugs. Additionally, the unified query plan representation can facilitate other applications. Existing visualization tools can support multiple database systems based on the unified query plan representation with moderate implementation effort, and comparing unified query plans across database systems provides actionable insights to improve their performance. We expect that the unified query plan representation will enable the exploration of additional application scenarios. | 翻訳日:2024-08-19 10:48:24 公開日:2024-08-16 |
# MAG-SQL: テキストからSQLへのソフトスキーマリンクと反復サブSQLリファインメントによるマルチエージェント生成アプローチ
MAG-SQL: Multi-Agent Generative Approach with Soft Schema Linking and Iterative Sub-SQL Refinement for Text-to-SQL ( http://arxiv.org/abs/2408.07930v2 ) ライセンス: Link先を確認 | Wenxuan Xie, Gaochen Wu, Bowen Zhou, | (参考訳) 最近の In-Context Learning ベースの手法は Text-to-SQL タスクで顕著な成功を収めている。
しかし、複雑なデータベーススキーマとBIRDのような難しい問題を持つデータセットでは、これらのモデルの性能と人的パフォーマンスの間にはまだ大きなギャップがある。
さらに、既存の研究は、質問を反復的に解決する際の中間段階を質問分解法で監督することを無視しており、これらの研究で使用されるスキーマリンク手法は非常に初歩的なものである。
これらの問題に対処するために,ソフトスキーマリンクと反復的サブSQL改良を用いたマルチエージェント生成手法であるMAG-SQLを提案する。
本フレームワークでは,データベース内の列の選択にテーブルの要約を含むエンティティベースの手法を用い,それらの複雑な質問を分解するために,新たな目標条件分解手法を導入する。
さらに,Sub-SQL GeneratorとSub-SQL Refinerを含む反復生成モジュールを構築し,生成の各ステップに対して外部監視を導入する。
一連のアブレーション研究を通じて,本フレームワークにおける各エージェントの有効性を実証した。
GPT-4を用いてBIRDベンチマークで評価すると、MAG-SQLは、バニラGPT-4のベースライン精度が46.35%、MAC-SQLのベースライン精度が57.56%であるのに対し、実行精度が61.08%に達する。
さらに、我々のアプローチはスパイダーに類似している。
Recent In-Context Learning based methods have achieved remarkable success in Text-to-SQL task. However, there is still a large gap between the performance of these models and human performance on datasets with complex database schema and difficult questions, such as BIRD. Besides, existing work has neglected to supervise intermediate steps when solving questions iteratively with question decomposition methods, and the schema linking methods used in these works are very rudimentary. To address these issues, we propose MAG-SQL, a multi-agent generative approach with soft schema linking and iterative Sub-SQL refinement. In our framework, an entity-based method with tables' summary is used to select the columns in database, and a novel targets-conditions decomposition method is introduced to decompose those complex questions. Additionally, we build a iterative generating module which includes a Sub-SQL Generator and Sub-SQL Refiner, introducing external oversight for each step of generation. Through a series of ablation studies, the effectiveness of each agent in our framework has been demonstrated. When evaluated on the BIRD benchmark with GPT-4, MAG-SQL achieves an execution accuracy of 61.08%, compared to the baseline accuracy of 46.35% for vanilla GPT-4 and the baseline accuracy of 57.56% for MAC-SQL. Besides, our approach makes similar progress on Spider. | 翻訳日:2024-08-19 10:48:24 公開日:2024-08-16 |
# ラベル効率のよい癌診断のための学習環境の探索
Exploring learning environments for label\-efficient cancer diagnosis ( http://arxiv.org/abs/2408.07988v2 ) ライセンス: Link先を確認 | Samta Rani, Tanvir Ahmad, Sarfaraz Masood, Chandni Saxena, | (参考訳) 研究努力と進歩にもかかわらず、がんは依然として死の主因である。
早期がん予測は、患者のケアを効率化し、治療結果を改善するために、がん研究において重要な焦点となっている。
病理学者による手動腫瘍検出は時間を要するため、治療計画の迅速化のためにコンピュータ化された方法が必要である。
従来の腫瘍検出のアプローチは教師付き学習に依存しており、モデルトレーニングには大量の注釈付きデータが必要である。
しかし、そのような広範囲なラベル付きデータを取得するのは手間がかかるし、時間もかかる。
本研究では, 腎臓, 肺, 乳癌の3つの学習環境について検討した。
事前学習した3つのディープラーニングモデル(Residual Network\-50, Visual Geometry Group\-16, EfficientNetB0)を、これらの学習設定に基づいて、7つの慎重にキュレートされたトレーニングセットを用いて評価する。
第1のトレーニングセット(TS1)を作成するには、すべてのアノテーション付きイメージサンプルにSLを適用する。
ラベル付き画像とラベルなし画像の比率が異なる5つのトレーニングセット(TS2\-TS6)を用いてSemi\-SLを評価する。
最終訓練セット(TS7)からの未ラベルのがん画像を用いて自己-SL評価を行う。
学習環境の違いの中で,Semi\-SL設定の結果は,SL設定で達成した結果と強い一致を示した。
3つのデータセットの全てにまたがる事前訓練されたモデルからの観測の均一パターンは、研究の方法論と技術を検証する。
本研究は,ラベル付きサンプルの軽度数と最小計算コストに基づいて,ラベルアノテーション制約シナリオ下で,Semi\-SLオプションがSLオプションの代用として有効であることが示唆された。
Despite significant research efforts and advancements, cancer remains a leading cause of mortality. Early cancer prediction has become a crucial focus in cancer research to streamline patient care and improve treatment outcomes. Manual tumor detection by histopathologists can be time consuming, prompting the need for computerized methods to expedite treatment planning. Traditional approaches to tumor detection rely on supervised learning, necessitates a large amount of annotated data for model training. However, acquiring such extensive labeled data can be laborious and time\-intensive. This research examines the three learning environments: supervised learning (SL), semi\-supervised learning (Semi\-SL), and self\-supervised learning (Self\-SL): to predict kidney, lung, and breast cancer. Three pre\-trained deep learning models (Residual Network\-50, Visual Geometry Group\-16, and EfficientNetB0) are evaluated based on these learning settings using seven carefully curated training sets. To create the first training set (TS1), SL is applied to all annotated image samples. Five training sets (TS2\-TS6) with different ratios of labeled and unlabeled cancer images are used to evaluateSemi\-SL. Unlabeled cancer images from the final training set (TS7) are utilized for Self\-SL assessment. Among different learning environments, outcomes from the Semi\-SL setting show a strong degree of agreement with the outcomes achieved in the SL setting. The uniform pattern of observations from the pre\-trained models across all three datasets validates the methodology and techniques of the research. Based on modest number of labeled samples and minimal computing cost, our study suggests that the Semi\-SL option can be a highly viable replacement for the SL option under label annotation constraint scenarios. | 翻訳日:2024-08-19 10:48:24 公開日:2024-08-16 |
# フェイクニュース検出のための一貫性と不整合情報の適応学習
Adaptive Learning of Consistency and Inconsistency Information for Fake News Detection ( http://arxiv.org/abs/2408.08013v2 ) ライセンス: Link先を確認 | Aohan Li, Jiaxin Chen, Xin Liao, Dengyong Zhang, | (参考訳) ソーシャルメディアプラットフォームの急速な進歩は、情報発信のコストを大幅に削減した一方で、偽ニュースの拡散を招き、社会的信頼と信頼性を脅かしている。
フェイクニュース検出研究の大半は、ニュースコンテンツにおける複数のモードの一貫性を表現するために、テキストと画像情報を統合することに焦点を当て、一貫性のない情報に注意を払っていない。
さらに、一貫性のない情報を活用する既存の手法は、しばしば別のモードをシャドーイングする1つのモードを引き起こし、一貫性のない手がかりを効果的に利用した。
これらの問題に対処するために,適応型マルチモーダル機能融合ネットワーク(MFF-Net)を提案する。
MFF-Netは、ニュースの真偽を判断する人間の判断プロセスにインスパイアされ、ニュースコンテンツが概して一貫性のある、一貫性のない部分である場合に、一貫性のない部分に焦点を当てる。
具体的には、画像とテキストから意味的特徴とグローバルな特徴を抽出し、複数の特徴融合モジュールを通じてモード間の一貫性情報を学習する。
モーダル情報をマスキングし易い問題に対処するため,対応モードから不整合情報を分離する単一モーダル特徴フィルタリング戦略を設計する。
最後に、一貫した特徴と矛盾しない特徴の重み付き融合を実現するための適応調整を施した大域的特徴に基づいて類似度スコアを算出する。
MFF-Netは、実際のソーシャルメディアから派生した3つの公開ニュースデータセットにおいて、最先端の手法よりも優れていることを示す。
The rapid advancement of social media platforms has significantly reduced the cost of information dissemination, yet it has also led to a proliferation of fake news, posing a threat to societal trust and credibility. Most of fake news detection research focused on integrating text and image information to represent the consistency of multiple modes in news content, while paying less attention to inconsistent information. Besides, existing methods that leveraged inconsistent information often caused one mode overshadowing another, leading to ineffective use of inconsistent clue. To address these issues, we propose an adaptive multi-modal feature fusion network (MFF-Net). Inspired by human judgment processes for determining truth and falsity in news, MFF-Net focuses on inconsistent parts when news content is generally consistent and consistent parts when it is generally inconsistent. Specifically, MFF-Net extracts semantic and global features from images and texts respectively, and learns consistency information between modes through a multiple feature fusion module. To deal with the problem of modal information being easily masked, we design a single modal feature filtering strategy to capture inconsistent information from corresponding modes separately. Finally, similarity scores are calculated based on global features with adaptive adjustments made to achieve weighted fusion of consistent and inconsistent features. Extensive experimental results demonstrate that MFF-Net outperforms state-of-the-art methods across three public news datasets derived from real social medias. | 翻訳日:2024-08-19 10:48:24 公開日:2024-08-16 |
# OC3D:粗いクリックアノテートのみによる屋外3Dオブジェクト検出を弱めに監視
OC3D: Weakly Supervised Outdoor 3D Object Detection with Only Coarse Click Annotation ( http://arxiv.org/abs/2408.08092v2 ) ライセンス: Link先を確認 | Qiming Xia, Hongwei Lin, Wei Ye, Hai Wu, Yadan Luo, Shijia Zhao, Xin Li, Chenglu Wen, | (参考訳) LiDARベースの屋外3Dオブジェクト検出は広く注目を集めている。
しかし、LiDARポイントクラウドからの3D検出器のトレーニングは通常、高価なバウンディングボックスアノテーションに依存している。
本稿では,3D 点雲の鳥の目視でのみ粗いクリックを必要とする,革新的な弱制御手法である OC3D を提案する。
ここでの重要な課題は、このような単純なクリックアノテーションからターゲットオブジェクトの完全な幾何学的記述がないことである。
この問題に対処するため,提案したOC3Dは2段階戦略を採用する。
最初の段階では、新しい動的分類戦略と静的分類戦略を設計し、次にClick2BoxとClick2Maskモジュールを提案し、それぞれ静的および動的インスタンス用のボックスレベルとマスクレベルの擬似ラベルを生成する。
第2段階では、ニューラルネットワークの学習能力を活用して、少ない情報を含むマスクレベルの擬似ラベルをボックスレベルの擬似ラベルに更新するMask2Boxモジュールを設計する。
広く使われているKITTIとnuScenesデータセットの実験結果から, 粗いクリックしか持たないOC3Dは, 弱教師付き3D検出法と比較して, 最先端の性能を実現することが示された。
OC3Dと欠落したクリックマイニング戦略を組み合わせたOC3D++パイプラインを提案する。
コードは公開されます。
LiDAR-based outdoor 3D object detection has received widespread attention. However, training 3D detectors from the LiDAR point cloud typically relies on expensive bounding box annotations. This paper presents OC3D, an innovative weakly supervised method requiring only coarse clicks on the bird's eye view of the 3D point cloud. A key challenge here is the absence of complete geometric descriptions of the target objects from such simple click annotations. To address this problem, our proposed OC3D adopts a two-stage strategy. In the first stage, we initially design a novel dynamic and static classification strategy and then propose the Click2Box and Click2Mask modules to generate box-level and mask-level pseudo-labels for static and dynamic instances, respectively. In the second stage, we design a Mask2Box module, leveraging the learning capabilities of neural networks to update mask-level pseudo-labels, which contain less information, to box-level pseudo-labels. Experimental results on the widely used KITTI and nuScenes datasets demonstrate that our OC3D with only coarse clicks achieves state-of-the-art performance compared to weakly-supervised 3D detection methods. Combining OC3D with a missing click mining strategy, we propose an OC3D++ pipeline, which requires only 0.2% annotation cost in the KITTI dataset to achieve performance comparable to fully supervised methods. The code will be made publicly available. | 翻訳日:2024-08-19 10:48:24 公開日:2024-08-16 |
# 潜在ポート-ハミルトン系のデータ駆動同定
Data-driven identification of latent port-Hamiltonian systems ( http://arxiv.org/abs/2408.08185v2 ) ライセンス: Link先を確認 | Johannes Rettberg, Jonas Kneifl, Julius Herb, Patrick Buchfink, Jörg Fehr, Bernard Haasdonk, | (参考訳) 従来の物理に基づくモデリング技術には、時間や専門家の知識といった高い労力が伴うが、データ駆動の手法は解釈可能性、構造、時には信頼性に欠けることが多い。
これを緩和するために、ポート・ハミルトン(pH)の定式化におけるモデルから導出するデータ駆動型システム識別フレームワークを提案する。
この定式化は多物理系に適しており、通過率と安定性の有用なシステム理論的性質を保証している。
我々のフレームワークは、線形および非線形の還元と、構造化された、物理を動機とするシステム同定を組み合わせる。
このプロセスでは、おそらく非線形システムから得られる高次元状態データがオートエンコーダの入力として機能し、次に2つのタスクを実行する。
(i)非線形に変形・変形する
(ii) このデータを低次元の潜在空間に還元する。
この空間において、構成毎のpH特性を満たす線形pHシステムは、ニューラルネットワークの重みによってパラメータ化される。
数学的要件は、コレスキー分解を通じてpH行列を定義することで満たされる。
座標変換とpHシステムを定義するニューラルネットワークを共同最適化プロセスで同定し、潜在空間における線形pHシステムを定義しながら、データで観測されたダイナミクスと一致させる。
学習された低次元のpHシステムは、非線形システムさえも記述することができ、そのサイズが小さいため、急速に計算可能である。
この方法は、パラメトリック質量ばねダンパーと非線形振子の例、および線形熱弾性挙動を有するディスクブレーキの高次元モデルによって例示される。
Conventional physics-based modeling techniques involve high effort, e.g., time and expert knowledge, while data-driven methods often lack interpretability, structure, and sometimes reliability. To mitigate this, we present a data-driven system identification framework that derives models in the port-Hamiltonian (pH) formulation. This formulation is suitable for multi-physical systems while guaranteeing the useful system theoretical properties of passivity and stability. Our framework combines linear and nonlinear reduction with structured, physics-motivated system identification. In this process, high-dimensional state data obtained from possibly nonlinear systems serves as input for an autoencoder, which then performs two tasks: (i) nonlinearly transforming and (ii) reducing this data onto a low-dimensional latent space. In this space, a linear pH system, that satisfies the pH properties per construction, is parameterized by the weights of a neural network. The mathematical requirements are met by defining the pH matrices through Cholesky factorizations. The neural networks that define the coordinate transformation and the pH system are identified in a joint optimization process to match the dynamics observed in the data while defining a linear pH system in the latent space. The learned, low-dimensional pH system can describe even nonlinear systems and is rapidly computable due to its small size. The method is exemplified by a parametric mass-spring-damper and a nonlinear pendulum example, as well as the high-dimensional model of a disc brake with linear thermoelastic behavior. | 翻訳日:2024-08-19 10:48:24 公開日:2024-08-16 |
# FancyVideo: クロスフレームテキストガイダンスによる動的で一貫性のあるビデオ生成を目指して
FancyVideo: Towards Dynamic and Consistent Video Generation via Cross-frame Textual Guidance ( http://arxiv.org/abs/2408.08189v2 ) ライセンス: Link先を確認 | Jiasong Feng, Ao Ma, Jing Wang, Bo Cheng, Xiaodan Liang, Dawei Leng, Yuhui Yin, | (参考訳) モーションリッチで時間的に一貫したビデオの合成は、特に長期間の処理において、人工知能の課題である。
既存のテキスト・トゥ・ビデオ(T2V)モデルでは、フレーム固有のテキスト・ガイダンスを使わずに、異なるフレーム・ジェネレーションを等価に導くために、テキスト・コントロールに空間的クロス・アテンションを用いるのが一般的である。
これにより、プロンプトで伝達された時間論理を理解でき、コヒーレントな動きでビデオを生成する能力が制限される。
この制限に対処するために、よく設計されたクロスフレームテキストガイダンスモジュール(CTGM)を用いて、既存のテキスト制御機構を改善する革新的なビデオジェネレータであるFancyVideoを紹介した。
具体的には、時間情報インジェクタ(TII)、時間親和性リファイナ(TAR)、時間特徴ブースタ(TFB)を、フレーム固有のテキストガイダンスを達成するために、それぞれ、クロスアテンションの開始、中、末に組み込む。
まず、TIIは、潜在特徴からテキスト条件にフレーム固有情報を注入し、フレーム間テキスト条件を得る。
そして、TARは、フレーム間テキスト条件と時間次元に沿った潜在特徴との相関行列を洗練する。
最後に、TFBは潜在機能の時間的一貫性を高める。
定量評価と定性評価の両方からなる大規模な実験は、FancyVideoの有効性を実証している。
私たちのビデオデモ、コード、モデルはhttps://360cvgroup.github.io/FancyVideo/で公開されています。
Synthesizing motion-rich and temporally consistent videos remains a challenge in artificial intelligence, especially when dealing with extended durations. Existing text-to-video (T2V) models commonly employ spatial cross-attention for text control, equivalently guiding different frame generations without frame-specific textual guidance. Thus, the model's capacity to comprehend the temporal logic conveyed in prompts and generate videos with coherent motion is restricted. To tackle this limitation, we introduce FancyVideo, an innovative video generator that improves the existing text-control mechanism with the well-designed Cross-frame Textual Guidance Module (CTGM). Specifically, CTGM incorporates the Temporal Information Injector (TII), Temporal Affinity Refiner (TAR), and Temporal Feature Booster (TFB) at the beginning, middle, and end of cross-attention, respectively, to achieve frame-specific textual guidance. Firstly, TII injects frame-specific information from latent features into text conditions, thereby obtaining cross-frame textual conditions. Then, TAR refines the correlation matrix between cross-frame textual conditions and latent features along the time dimension. Lastly, TFB boosts the temporal consistency of latent features. Extensive experiments comprising both quantitative and qualitative evaluations demonstrate the effectiveness of FancyVideo. Our video demo, code and model are available at https://360cvgroup.github.io/FancyVideo/. | 翻訳日:2024-08-19 10:48:24 公開日:2024-08-16 |
# フルラベルを超えて:赤外線小ターゲットラベル生成のためのシングルポイントプロンプト
Beyond Full Label: Single-Point Prompt for Infrared Small Target Label Generation ( http://arxiv.org/abs/2408.08191v2 ) ライセンス: Link先を確認 | Shuai Yuan, Hanlin Qin, Renke Kou, Xiang Yan, Zechuan Li, Chenxu Peng, Abd-Krim Seghouane, | (参考訳) 本研究では、赤外線小ターゲットラベル生成(IRSTLG)のための学習に基づく単一点アノテーションパラダイムを構築するための最初の試みを行う。
IRSTLGは、目標位置ヒントを持つ赤外線小目標検出(IRSTD)タスクとみなすことができる。
この知見に基づき,エネルギー二重誘導単点プロンプト(EDGSP)フレームワークを導入し,ターゲット検出ネットワークを改良されたラベル生成手法に適応的に変換する。
具体的には,提案されているEDGSPには以下のものがある。
1)擬似ラベルの十分な形状形成のための基礎的概要を作成するための目標エネルギー初期化(TEI)。
2ダブルプロンプト埋め込み(DPE)は、興味のある領域の迅速な局在とラベルの付着を避けるための個人差の強化を目的としている。
3) ボックスベースマッチング(BBM)による誤報の排除。
実験結果から,SIRST,NUDT-SIRST,IRSTD-1kデータセットにおいて,EDGSPを用いた3つのベースラインが生成する擬似ラベルが100%のオブジェクトレベル検出確率(Pd)と0%の偽アラームレート(Fa)を達成できた。
下流IRSTDの実践的応用において、EDGSPはフルラベルを超える単一点生成仮面を初めて認識する。
粗い単一ポイントアノテーションであっても、完全なラベル付けのパフォーマンスは99.5%である。
In this work, we make the first attempt to construct a learning-based single-point annotation paradigm for infrared small target label generation (IRSTLG). Our intuition is that label generation requires just one more point prompt than target detection: IRSTLG can be regarded as an infrared small target detection (IRSTD) task with the target location hint. Based on this insight, we introduce an energy double guided single-point prompt (EDGSP) framework, which adeptly transforms the target detection network into a refined label generation method. Specifically, the proposed EDGSP includes: 1) target energy initialization (TEI) to create a foundational outline for sufficient shape evolution of pseudo label, 2) double prompt embedding (DPE) for rapid localization of interested regions and reinforcement of individual differences to avoid label adhesion, and 3) bounding box-based matching (BBM) to eliminate false alarms. Experimental results show that pseudo labels generated by three baselines equipped with EDGSP achieve 100% object-level probability of detection (Pd) and 0% false-alarm rate (Fa) on SIRST, NUDT-SIRST, and IRSTD-1k datasets, with a pixel-level intersection over union (IoU) improvement of 13.28% over state-of-the-art (SOTA) label generation methods. In the practical application of downstream IRSTD, EDGSP realizes, for the first time, a single-point generated pseudo mask beyond the full label. Even with coarse single-point annotations, it still achieves 99.5% performance of full labeling. | 翻訳日:2024-08-19 10:48:24 公開日:2024-08-16 |
# Covert Bias: 言語モデルにおける社会的視点の不一致の深刻さ : 暗黙的・明示的な意見に向けて
Covert Bias: The Severity of Social Views' Unalignment in Language Models Towards Implicit and Explicit Opinion ( http://arxiv.org/abs/2408.08212v2 ) ライセンス: Link先を確認 | Abeer Aldayel, Areej Alokaili, Rehab Alahmadi, | (参考訳) 近年, バイアス識別のための様々な手法が研究されているが, 視点を明示的に伝達しない暗黙の言語が, 大規模言語モデルにおけるバイアス増幅に与える影響についてはほとんど分かっていない。
本研究では,社会集団の暗黙的・明示的な知識を用いた2つの下流課題の性能評価を行った。
まず,過度なバイアスシナリオのエッジケースにおけるバイアスモデルを用いて,ストレステストの評価を行う。
そこで我々は,LLMが対立する視点に整合している場合,暗黙的・明示的な意見に反応して言語学的に校正する方法について検討した。
以上の結果から,暗黙的・明示的な意見の識別において,LLM 性能の相違が明らかとなり,反対意見の明示的な意見に対する偏見の傾向が一般的であった。
さらに、バイアス整合モデルは、不整合(ゼロショット)ベースモデルと比較して不確実なフレーズを用いてより慎重な応答を生成する。
不整合モデルの直接的な、注意深い応答は、信頼性を高めるために不確実性マーカーを組み込むことにより、決定性のさらなる改善の必要性を示唆している。
While various approaches have recently been studied for bias identification, little is known about how implicit language that does not explicitly convey a viewpoint affects bias amplification in large language models. To examine the severity of bias toward a view, we evaluated the performance of two downstream tasks where the implicit and explicit knowledge of social groups were used. First, we present a stress test evaluation by using a biased model in edge cases of excessive bias scenarios. Then, we evaluate how LLMs calibrate linguistically in response to both implicit and explicit opinions when they are aligned with conflicting viewpoints. Our findings reveal a discrepancy in LLM performance in identifying implicit and explicit opinions, with a general tendency of bias toward explicit opinions of opposing stances. Moreover, the bias-aligned models generate more cautious responses using uncertainty phrases compared to the unaligned (zero-shot) base models. The direct, incautious responses of the unaligned models suggest a need for further refinement of decisiveness by incorporating uncertainty markers to enhance their reliability, especially on socially nuanced topics with high subjectivity. | 翻訳日:2024-08-19 10:48:24 公開日:2024-08-16 |
# パウリ指数の定数深さ実装について
On the Constant Depth Implementation of Pauli Exponentials ( http://arxiv.org/abs/2408.08265v2 ) ライセンス: Link先を確認 | Ioana Moflic, Alexandru Paler, | (参考訳) 任意の重み $Z\otimes \ldots \otimes Z$指数を$\mathcal{O}(n)$ ancillae と 2体 XX と ZZ の相互作用を用いて一定深さの回路に分解する。
結果として、同様の方法は任意のパウリ指数に対して作用する。
我々の分解は近傍の線形アーキテクチャと互換性がある。
量子ビットリサイクルの恩恵を受ける回路に新しい回路書き換え規則を導入し,その正しさを証明した。
新規性として、この分解はフォールトトレラント格子演算の実装に直ちに適用でき、二体相互作用のみを用いて任意の安定化回路を表現し、VQEのようなNISQ計算の深さを減らすことができる。
We decompose arbitrary weight $Z\otimes \ldots \otimes Z$ exponentials into circuits of constant depth using $\mathcal{O}(n)$ ancillae and two-body XX and ZZ interactions. Consequenty, a similar method works for arbitrary Pauli exponentials. Our decomposition is compatible with linear nearest neighbour architectures. We prove its correctness after introducing novel circuit rewrite rules for circuits which benefit from qubit recycling. As a novelty, the decomposition is immediately applicable for implementing fault-tolerant lattice surgery computations, expressing arbitrary stabilizer circuits using only two-body interactions, as well as reducing the depth of NISQ computations, such as VQE. | 翻訳日:2024-08-19 10:48:24 公開日:2024-08-16 |
# 高忠実度量子演算のためのメモリ最適化立方体スプライン
Memory-optimised Cubic Splines for High-fidelity Quantum Operations ( http://arxiv.org/abs/2408.08283v2 ) ライセンス: Link先を確認 | Jan Ole Ernst, Jan Snoeijs, Mitchell Peaks, Jochen Wolf, | (参考訳) 高周波パルスは量子ビットの制御や量子コンピュータでの演算の実行に広く使われている。
時間依存振幅、位相、周波数などの鍵パルスパラメータを調整できる能力は、最大ゲートの忠実度を達成し、誤差を軽減するために不可欠である。
システム規模が大きくなるにつれて、制御電子処理の大部分がキュービットに近づくようになり、高速なフィードバックを必要とする操作の統合とレイテンシの最小化が図られる。
これにより、制御エレクトロニクスのメモリで利用可能な空間を制限し、高サンプリングレートで時間分解パルスパラメータをロードする。
立方体スプライン補間は、パルスを立方体多項式のセグメントに分割する強力で広範な技術である。
FPGAに高サンプリングパルス出力をロードするために、2段階の曲線フィッティングプロセスと追加の対称性演算を用いて、この戦略を最適化した実装を示す。
これにより、メモリフットプリントのトレードオフに対して良好な精度が得られる。
中性原子デバイス上での単一量子ビット集団移動と原子輸送をシミュレートすることにより、低メモリ要求で高忠実性を実現することができることを示す。
これは、メモリが限られたリソースである環境で、キュービットとゲート操作の数を増やすのに役立ちます。
Radio-frequency pulses are widespread for the control of quantum bits and the execution of operations in quantum computers. The ability to tune key pulse parameters such as time-dependent amplitude, phase, and frequency is essential to achieve maximal gate fidelity and mitigate errors. As systems scale, a larger fraction of the control electronic processing will move closer to the qubits, to enhance integration and minimise latency in operations requiring fast feedback. This will constrain the space available in the memory of the control electronics to load time-resolved pulse parameters at high sampling rates. Cubic spline interpolation is a powerful and widespread technique that divides the pulse into segments of cubic polynomials. We show an optimised implementation of this strategy, using a two-stage curve fitting process and additional symmetry operations to load a high-sampling pulse output on an FPGA. This results in a favourable accuracy versus memory footprint trade-off. By simulating single-qubit population transfer and atom transport on a neutral atom device, we show that we can achieve high fidelities with low memory requirements. This is instrumental for scaling up the number of qubits and gate operations in environments where memory is a limited resource. | 翻訳日:2024-08-19 10:48:24 公開日:2024-08-16 |