このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240827となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# ビンパッキング問題の価格設定によるパターンベース学習と最適化
Pattern based learning and optimisation through pricing for bin packing problem ( http://arxiv.org/abs/2409.04456v1 ) ライセンス: Link先を確認 | Huayan Zhang, Ruibin Bai, Tie-Yan Liu, Jiawei Li, Bingchen Lin, Jianfeng Ren, | (参考訳) 知識と経験の一般的な形態として、ほとんどのデータマイニングアプリケーションでは、パターンとその識別が重要なタスクとなっている。
しかし、我々の知る限り、パターン値とその再利用の力学を様々な条件下で体系的に検討する研究は行われていない。
確率変数の分布などの問題条件が変化すると、以前の状況でうまく実行されるパターンは効果が低下し、これらのパターンの採用が準最適解をもたらすと論じる。
そこで本研究では,データマイニングと運用研究における双対性理論の関連性について検討し,パターンを効率的に同定し,各条件の値を動的に定量化する手法を提案する。
提案手法は, 確率的制約を満たす能力と, 目的値に対する効果に基づいて, パターンの価値を定量化し, 高品質なパターンと組み合わせを検出する。
提案手法の有効性を評価するために,オンライン・ビン・パッキング問題を用い,問題の本質的な不確実性に対処するパターンのガイダンスを用いて,オンライン・パッキング手順を説明する。
その結果,提案アルゴリズムは最先端手法よりも優れていた。
また,性能改善につながる提案手法の特長や,提案手法をさらに改善できる特別な事例についても詳細に分析した。
As a popular form of knowledge and experience, patterns and their identification have been critical tasks in most data mining applications. However, as far as we are aware, no study has systematically examined the dynamics of pattern values and their reuse under varying conditions. We argue that when problem conditions such as the distributions of random variables change, the patterns that performed well in previous circumstances may become less effective and adoption of these patterns would result in sub-optimal solutions. In response, we make a connection between data mining and the duality theory in operations research and propose a novel scheme to efficiently identify patterns and dynamically quantify their values for each specific condition. Our method quantifies the value of patterns based on their ability to satisfy stochastic constraints and their effects on the objective value, allowing high-quality patterns and their combinations to be detected. We use the online bin packing problem to evaluate the effectiveness of the proposed scheme and illustrate the online packing procedure with the guidance of patterns that address the inherent uncertainty of the problem. Results show that the proposed algorithm significantly outperforms the state-of-the-art methods. We also analysed in detail the distinctive features of the proposed methods that lead to performance improvement and the special cases where our method can be further improved. | 翻訳日:2024-09-15 05:31:27 公開日:2024-08-27 |
# 科学の実践の自動化 -機会、挑戦、含意
Automating the Practice of Science -- Opportunities, Challenges, and Implications ( http://arxiv.org/abs/2409.05890v1 ) ライセンス: Link先を確認 | Sebastian Musslick, Laura K. Bartlett, Suyog H. Chandramouli, Marina Dubova, Fernand Gobet, Thomas L. Griffiths, Jessica Hullman, Ross D. King, J. Nathan Kutz, Christopher G. Lucas, Suhas Mahesh, Franco Pestilli, Sabina J. Sloman, William R. Holmes, | (参考訳) 自動化は人類文明の様々な側面を変え、産業を革命させ、プロセスを合理化させた。
科学的調査の分野では、自動化されたアプローチが強力なツールとして出現し、発見を加速し、再現性を高め、科学的進歩に伝統的な障害を克服する約束を掲げた。
本稿では、科学的実践における自動化のスコープを評価し、最近のアプローチを評価する。
さらに、科学的な実践における自動化の最大の機会はどこにあるのか?
科学的実践の自動化の現在のボトルネックは何か。
科学的実践の自動化による重要な倫理的・実践的な結果とは何か?
自動科学の背景にあるモチベーションについて議論し、遭遇したハードルを分析し、その影響を調査し、この記事では、研究者、政策立案者、ステークホルダーに、自動化科学プラクティスの急速に発展するフロンティアをナビゲートするよう依頼する。
Automation transformed various aspects of our human civilization, revolutionizing industries and streamlining processes. In the domain of scientific inquiry, automated approaches emerged as powerful tools, holding promise for accelerating discovery, enhancing reproducibility, and overcoming the traditional impediments to scientific progress. This article evaluates the scope of automation within scientific practice and assesses recent approaches. Furthermore, it discusses different perspectives to the following questions: Where do the greatest opportunities lie for automation in scientific practice?; What are the current bottlenecks of automating scientific practice?; and What are significant ethical and practical consequences of automating scientific practice? By discussing the motivations behind automated science, analyzing the hurdles encountered, and examining its implications, this article invites researchers, policymakers, and stakeholders to navigate the rapidly evolving frontier of automated scientific practice. | 翻訳日:2024-09-15 05:21:30 公開日:2024-08-27 |
# 畳み込み自己エンコーダを用いた耳内心電図信号強調
In-ear ECG Signal Enhancement with Denoising Convolutional Autoencoders ( http://arxiv.org/abs/2409.05891v1 ) ライセンス: Link先を確認 | Edoardo Occhipinti, Marek Zylinski, Harry J. Davies, Amir Nassibi, Matteo Bermond, Patrik Bachtiger, Nicholas S. Peters, Danilo P. Mandic, | (参考訳) 心電図(ECG)信号の記録を可能にする消費者向けウェアラブルエレクトロニクスの一般的な場所である耳に、心臓双極子を伝播させることが示されている。
しかし、耳内心電図記録は、小さな振幅と、心血管の特徴の抽出を複雑にする脳波(EEG)のような他の生理学的信号の存在により、大きなノイズに悩まされることが多い。
本研究は、内部記録からのECG情報を強化し、よりクリーンなECG出力を生成するDCAE(Denoising Convolutional Autoencoder)を開発することでこの問題に対処する。
このモデルは、45人の健康な参加者の耳内心電図とそれに対応するクリーンリード心電図のデータセットを用いて評価される。
その結果、信号対雑音比(SNR)は5.9dBの中央値で大幅に改善した。
さらに、モデルでは心拍推定精度を大幅に改善し、平均絶対誤差を約70%削減し、Rピーク検出精度を90%まで向上させた。
また, ピンクノイズによる心形態異常を含む心電図信号から生成した合成データセットを用いて, モデルを訓練し, 検証した。
その結果, 臨床応用可能な波形再構成能を有するノイズ源を効果的に除去できることが判明した。
The cardiac dipole has been shown to propagate to the ears, now a common site for consumer wearable electronics, enabling the recording of electrocardiogram (ECG) signals. However, in-ear ECG recordings often suffer from significant noise due to their small amplitude and the presence of other physiological signals, such as electroencephalogram (EEG), which complicates the extraction of cardiovascular features. This study addresses this issue by developing a denoising convolutional autoencoder (DCAE) to enhance ECG information from in-ear recordings, producing cleaner ECG outputs. The model is evaluated using a dataset of in-ear ECGs and corresponding clean Lead I ECGs from 45 healthy participants. The results demonstrate a substantial improvement in signal-to-noise ratio (SNR), with a median increase of 5.9 dB. Additionally, the model significantly improved heart rate estimation accuracy, reducing the mean absolute error by almost 70% and increasing R-peak detection precision to a median value of 90%. We also trained and validated the model using a synthetic dataset, generated from real ECG signals, including abnormal cardiac morphologies, corrupted by pink noise. The results obtained show effective removal of noise sources with clinically plausible waveform reconstruction ability. | 翻訳日:2024-09-15 05:21:30 公開日:2024-08-27 |
# 視覚領域事前学習モデルに対するフィードバックに基づくモーダル相互探索
Feedback-based Modal Mutual Search for Attacking Vision-Language Pre-training Models ( http://arxiv.org/abs/2409.06726v1 ) ライセンス: Link先を確認 | Renhua Ding, Xinze Zhang, Xiao Yang, Kun He, | (参考訳) 視覚言語事前訓練(VLP)モデルは、クロスモーダルタスクにおいて顕著な進歩を遂げているが、敵の攻撃に弱いままである。
データ拡張とクロスモーダル相互作用を用いて、サロゲートモデル上で転送可能な敵の例を生成することで、トランスファーベースのブラックボックス攻撃は、現実のシナリオにおいてより実用的なため、VLPモデルを攻撃する主要な方法となっている。
しかし、それらの転送性は、異なるモデル間の特徴表現の違いによって制限される可能性がある。
そこで本研究では,FMMS (Feedback-based Modal Mutual Search) と呼ばれる新たな攻撃パラダイムを提案する。
FMMSはMML(Modal mutual loss)を導入し、マッチングされた画像とテキストのペアをランダムに描画しながら、不一致のペアを特徴空間に近づけ、敵の例の更新方向を導く。
さらに、FMMSはターゲットモデルフィードバックを利用して、敵の例を反復的に洗練し、敵の領域に誘導する。
我々の知る限り、これはターゲットモデルフィードバックを利用してマルチモーダリティの逆境を探索する最初の試みである。
画像テキストマッチングタスクのためのFlickr30KとMSCOCOデータセットに対する大規模な実験的な評価は、FMMSが最先端のベースラインを大幅に上回っていることを示している。
Although vision-language pre-training (VLP) models have achieved remarkable progress on cross-modal tasks, they remain vulnerable to adversarial attacks. Using data augmentation and cross-modal interactions to generate transferable adversarial examples on surrogate models, transfer-based black-box attacks have become the mainstream methods in attacking VLP models, as they are more practical in real-world scenarios. However, their transferability may be limited due to the differences on feature representation across different models. To this end, we propose a new attack paradigm called Feedback-based Modal Mutual Search (FMMS). FMMS introduces a novel modal mutual loss (MML), aiming to push away the matched image-text pairs while randomly drawing mismatched pairs closer in feature space, guiding the update directions of the adversarial examples. Additionally, FMMS leverages the target model feedback to iteratively refine adversarial examples, driving them into the adversarial region. To our knowledge, this is the first work to exploit target model feedback to explore multi-modality adversarial boundaries. Extensive empirical evaluations on Flickr30K and MSCOCO datasets for image-text matching tasks show that FMMS significantly outperforms the state-of-the-art baselines. | 翻訳日:2024-09-15 05:11:34 公開日:2024-08-27 |
# インド株式市場における同期分析のためのRNNとLSTMの活用:閾値に基づく分類アプローチ
Leveraging RNNs and LSTMs for Synchronization Analysis in the Indian Stock Market: A Threshold-Based Classification Approach ( http://arxiv.org/abs/2409.06728v1 ) ライセンス: Link先を確認 | Sanjay Sathish, Charu C Sharma, | (参考訳) 本研究は,機械学習と非線形時系列解析を用いて株価の同期を予測するための新しいアプローチを提案する。
株価間の複雑な非線形関係を捉えるために,繰り返しプロット (RP) と相互並行量子化分析 (CRQA) を用いる。
CRP(Cross Recurrence Plot)データを時系列形式にすることで、回帰と分類の両方を通じて株価の同期を予測するために、リカレントニューラルネットワーク(RNN)とLong Short-Term Memory(LSTM)ネットワークを有効にする。
この手法を21年間にわたるインド市場からの20の高資本株のデータセットに適用する。
提案手法は, 有効取引戦略やリスク管理ツールの開発に有用な洞察を提供するため, 0.98 と F1 のスコア 0.83 の精度で, 株価の同期を予測できることが判明した。
Our research presents a new approach for forecasting the synchronization of stock prices using machine learning and non-linear time-series analysis. To capture the complex non-linear relationships between stock prices, we utilize recurrence plots (RP) and cross-recurrence quantification analysis (CRQA). By transforming Cross Recurrence Plot (CRP) data into a time-series format, we enable the use of Recurrent Neural Networks (RNN) and Long Short-Term Memory (LSTM) networks for predicting stock price synchronization through both regression and classification. We apply this methodology to a dataset of 20 highly capitalized stocks from the Indian market over a 21-year period. The findings reveal that our approach can predict stock price synchronization, with an accuracy of 0.98 and F1 score of 0.83 offering valuable insights for developing effective trading strategies and risk management tools. | 翻訳日:2024-09-15 05:11:34 公開日:2024-08-27 |
# 先進的なAIシステムは民主主義にどのように影響するか?
How will advanced AI systems impact democracy? ( http://arxiv.org/abs/2409.06729v1 ) ライセンス: Link先を確認 | Christopher Summerfield, Lisa Argyle, Michiel Bakker, Teddy Collins, Esin Durmus, Tyna Eloundou, Iason Gabriel, Deep Ganguli, Kobi Hackenburg, Gillian Hadfield, Luke Hewitt, Saffron Huang, Helene Landemore, Nahema Marchal, Aviv Ovadya, Ariel Procaccia, Mathias Risse, Bruce Schneier, Elizabeth Seger, Divya Siddarth, Henrik Skaug Sætra, MH Tessler, Matthew Botvinick, | (参考訳) ヒューマンライクなテキストとマルチモーダルコンテンツを生成する高度なAIシステムは、現在広く利用可能である。
本稿では,生成的人工知能が民主的プロセスに与える影響について論じる。
我々は、市民が政治的代表者や問題(経済的な影響)について情報的選択を行う能力に対して、AIがもたらす影響を考察する。
我々は、AIが選挙(物質的影響)のような民主的なメカニズムを不安定化または支援するためにどのように使われるか尋ねる。
最後に、AIが民主主義の原則(基礎的な影響)を強化するか弱めるかについて議論する。
新しいAIシステムが民主主義に重大な課題をもたらすことは広く認識されている。
しかし、ジェネレーティブAIは市民を教育し、学習し、公的な言論を強化し、人々が共通の根拠を見つけるのを助け、民主主義がいかにうまく機能するかを再考する新しい機会を提供するとも主張されている。
Advanced AI systems capable of generating humanlike text and multimodal content are now widely available. In this paper, we discuss the impacts that generative artificial intelligence may have on democratic processes. We consider the consequences of AI for citizens' ability to make informed choices about political representatives and issues (epistemic impacts). We ask how AI might be used to destabilise or support democratic mechanisms like elections (material impacts). Finally, we discuss whether AI will strengthen or weaken democratic principles (foundational impacts). It is widely acknowledged that new AI systems could pose significant challenges for democracy. However, it has also been argued that generative AI offers new opportunities to educate and learn from citizens, strengthen public discourse, help people find common ground, and to reimagine how democracies might work better. | 翻訳日:2024-09-15 05:11:34 公開日:2024-08-27 |
# 都市環境と配車性能:多様な都市環境におけるカーゴバイクとバンのサービス時間のモデル化
Urban context and delivery performance: Modelling service time for cargo bikes and vans across diverse urban environments ( http://arxiv.org/abs/2409.06730v1 ) ライセンス: Link先を確認 | Maxwell Schrader, Navish Kumar, Esben Sørig, Soonmyeong Yoon, Akash Srivastava, Kai Xu, Maria Astefanoaei, Nicolas Collignon, | (参考訳) 輸送の最終マイルで広く使用される軽貨物車(LGV)は、都市で主要な汚染物質の一つである。
カーゴバイクのロジスティクスと軽電気自動車(LEV)はLGVの代替候補として提案されている。
都市部のバン配達の半数以上が、より高速で、駐車時間が短く、都市を横断するより効率的なルートのために、貨物自転車で置き換えられると推定されている。
しかし、ロジスティクス部門は、特に貨物自転車の配送に関する公開データの不足に悩まされており、その潜在的な利益に対する理解が制限されている。
具体的には、サービス時間(駐車や目的地への移動を含む)は、配達時間モデリングの主要な要素であるが、しばしば見過ごされがちである。
本研究の目的は,様々な都市環境におけるバンやカーゴバイクの運行時間をモデル化することに着目し,配送車両の性能を計測する枠組みを確立することである。
カーゴバイクのサービス時間の詳細な分析とモデル化を可能にする2つのデータセットを導入し、既存のデータセットを使用して、車種間でのデリバリパフォーマンスの違いを推論する。
都市環境に基づいた配送時間の予測を行うためのモデリングフレームワークを提案する。
UberのH3インデックスを使用して、都市を六角形に分割し、各セルにOpenStreetMapタグを集約します。
この空間格子を利用すると、GeoVexを使って連続ベクトル空間の点としてマイクロリージョンを表現し、車両の運行時間を予測するインプットとして機能する。
地理空間埋め込みは、都市環境を効果的に把握し、新しい文脈や都市への一般化を促進することができることを示す。
提案手法は,同じ都市環境下で異なる車両種別で利用可能な限定比較データの課題に対処する。
Light goods vehicles (LGV) used extensively in the last mile of delivery are one of the leading polluters in cities. Cargo-bike logistics and Light Electric Vehicles (LEVs) have been put forward as a high impact candidate for replacing LGVs. Studies have estimated over half of urban van deliveries being replaceable by cargo-bikes, due to their faster speeds, shorter parking times and more efficient routes across cities. However, the logistics sector suffers from a lack of publicly available data, particularly pertaining to cargo-bike deliveries, thus limiting the understanding of their potential benefits. Specifically, service time (which includes cruising for parking, and walking to destination) is a major, but often overlooked component of delivery time modelling. The aim of this study is to establish a framework for measuring the performance of delivery vehicles, with an initial focus on modelling service times of vans and cargo-bikes across diverse urban environments. We introduce two datasets that allow for in-depth analysis and modelling of service times of cargo bikes and use existing datasets to reason about differences in delivery performance across vehicle types. We introduce a modelling framework to predict the service times of deliveries based on urban context. We employ Uber's H3 index to divide cities into hexagonal cells and aggregate OpenStreetMap tags for each cell, providing a detailed assessment of urban context. Leveraging this spatial grid, we use GeoVex to represent micro-regions as points in a continuous vector space, which then serve as input for predicting vehicle service times. We show that geospatial embeddings can effectively capture urban contexts and facilitate generalizations to new contexts and cities. Our methodology addresses the challenge of limited comparative data available for different vehicle types within the same urban settings. | 翻訳日:2024-09-15 05:11:34 公開日:2024-08-27 |
# S-MolSearch:生物活性分子探索のための3次元半教師付きコントラスト学習
S-MolSearch: 3D Semi-supervised Contrastive Learning for Bioactive Molecule Search ( http://arxiv.org/abs/2409.07462v1 ) ライセンス: Link先を確認 | Gengmo Zhou, Zhen Wang, Feng Yu, Guolin Ke, Zhewei Wei, Zhifeng Gao, | (参考訳) 仮想スクリーニングは、膨大な分子ライブラリーから有望な薬物候補を特定することを目的とした、薬物発見の初期段階において不可欠な技術である。
近年、リガンドベースの仮想スクリーニングは、特定のタンパク質結合サイト情報に頼ることなく、広範囲のデータベーススクリーニングを実施できるという効果により、大きな注目を集めている。
錯体に対する結合親和性データを得ることは非常に高価であり、比較的小さな化学空間をカバーする限られた量のデータが得られる。
さらに、これらのデータセットには、かなりの量の矛盾したノイズが含まれている。
データ拡張時の分子活性の整合性を一貫して維持する誘導バイアスを特定することは困難である。
これらの課題に対処するために,我々は,分子3D情報と親和性情報を利用した,リガンドベースの仮想スクリーニングのための半教師付きコントラスト学習のためのS-MolSearchを提案する。
逆最適輸送の原理に基づき、S-MolSearchはラベル付きデータとラベルなしデータの両方を効率的に処理し、ラベルなしデータのソフトラベルを生成しながら分子構造エンコーダを訓練する。
この設計により、S-MolSearchは学習プロセス内でラベルのないデータを適応的に利用することができる。
S-MolSearchは、広く使われているLIT-PCBAとDUD-Eで優れた性能を示す。
構造ベースおよびリガンドベースの仮想スクリーニング手法を抜いて、0.5%、1%、5%の要素を濃縮する。
Virtual Screening is an essential technique in the early phases of drug discovery, aimed at identifying promising drug candidates from vast molecular libraries. Recently, ligand-based virtual screening has garnered significant attention due to its efficacy in conducting extensive database screenings without relying on specific protein-binding site information. Obtaining binding affinity data for complexes is highly expensive, resulting in a limited amount of available data that covers a relatively small chemical space. Moreover, these datasets contain a significant amount of inconsistent noise. It is challenging to identify an inductive bias that consistently maintains the integrity of molecular activity during data augmentation. To tackle these challenges, we propose S-MolSearch, the first framework to our knowledge, that leverages molecular 3D information and affinity information in semi-supervised contrastive learning for ligand-based virtual screening. Drawing on the principles of inverse optimal transport, S-MolSearch efficiently processes both labeled and unlabeled data, training molecular structural encoders while generating soft labels for the unlabeled data. This design allows S-MolSearch to adaptively utilize unlabeled data within the learning process. Empirically, S-MolSearch demonstrates superior performance on widely-used benchmarks LIT-PCBA and DUD-E. It surpasses both structure-based and ligand-based virtual screening methods for enrichment factors across 0.5%, 1% and 5%. | 翻訳日:2024-09-15 05:11:34 公開日:2024-08-27 |
# 半導体電子顕微鏡解析のためのマルチモーダルインストラクションチューニング小型言語・ビジョンアシスタント
Multi-Modal Instruction-Tuning Small-Scale Language-and-Vision Assistant for Semiconductor Electron Micrograph Analysis ( http://arxiv.org/abs/2409.07463v1 ) ライセンス: Link先を確認 | Sakhinana Sagar Srinivas, Geethan Sannidhi, Venkataramana Runkana, | (参考訳) 本稿では,半導体製造における電子顕微鏡画像の解析と解釈のための新しいフレームワークについて述べる。
このフレームワークは、GPT-4のような訓練済みのマルチモーダルな大規模言語モデルを利用して、ゼロショット視覚質問応答(VQA)と分類タスクのための命令追従データを生成し、顕微鏡画像解析のためにより小さなマルチモーダルモデル(SMM)をカスタマイズし、命令調整言語とビジョンアシスタントを提供する。
我々のフレームワークは知識工学と機械学習を融合し、この専門分野の大規模から小規模のマルチモーダルモデルからドメイン固有の専門知識を統合することで、広範囲な人的ラベリングの必要性を大幅に減らします。
本研究は,半導体製造におけるプロプライエタリなモデルを採用する上での課題に対処するため,顕微鏡画像解析のためのセキュアで費用対効果の高い,カスタマイズ可能なアプローチを提案する。
We present a novel framework for analyzing and interpreting electron microscopy images in semiconductor manufacturing using vision-language instruction tuning. The framework employs a unique teacher-student approach, leveraging pre-trained multimodal large language models such as GPT-4 to generate instruction-following data for zero-shot visual question answering (VQA) and classification tasks, customizing smaller multimodal models (SMMs) for microscopy image analysis, resulting in an instruction-tuned language-and-vision assistant. Our framework merges knowledge engineering with machine learning to integrate domain-specific expertise from larger to smaller multimodal models within this specialized field, greatly reducing the need for extensive human labeling. Our study presents a secure, cost-effective, and customizable approach for analyzing microscopy images, addressing the challenges of adopting proprietary models in semiconductor manufacturing. | 翻訳日:2024-09-15 05:01:16 公開日:2024-08-27 |
# テキスト対画像生成対話システムのための反射的ヒューマン・マシン協調適応
Reflective Human-Machine Co-adaptation for Enhanced Text-to-Image Generation Dialogue System ( http://arxiv.org/abs/2409.07464v1 ) ライセンス: Link先を確認 | Yuheng Feng, Yangfan He, Yinghui Xia, Tianyu Shi, Jun Wang, Jinsong Yang, | (参考訳) 今日の画像生成システムは、現実的で高品質な画像を生成することができる。
しかし、ユーザプロンプトには曖昧さがしばしば含まれており、ユーザの潜在的な意図を解釈することが困難である。
そのため、マシンはユーザの意図をよりよく理解するために、複数のラウンドでユーザと対話する必要がある。
複数のフィードバックインタラクションによる画像生成モデルの使用または学習の予測不可能なコストは、広く採用され、特に専門家でないユーザにとって、パフォーマンスのポテンシャルを損なう。
本研究では,画像生成システムのユーザフレンドリ性を高めることを目的とする。
そこで本研究では,RHM-CASという,人間と機械の協調的適応戦略を提案する。
外部では、Agentはユーザが生成した画像を反映して洗練するために、意味のある言語インタラクションを行う。
内部的には、エージェントはユーザーの好みに基づいてポリシーを最適化し、最終的な結果がユーザの好みと密接に一致することを保証する。
異なるタスクに対する様々な実験により,提案手法の有効性が示された。
Today's image generation systems are capable of producing realistic and high-quality images. However, user prompts often contain ambiguities, making it difficult for these systems to interpret users' potential intentions. Consequently, machines need to interact with users multiple rounds to better understand users' intents. The unpredictable costs of using or learning image generation models through multiple feedback interactions hinder their widespread adoption and full performance potential, especially for non-expert users. In this research, we aim to enhance the user-friendliness of our image generation system. To achieve this, we propose a reflective human-machine co-adaptation strategy, named RHM-CAS. Externally, the Agent engages in meaningful language interactions with users to reflect on and refine the generated images. Internally, the Agent tries to optimize the policy based on user preferences, ensuring that the final outcomes closely align with user preferences. Various experiments on different tasks demonstrate the effectiveness of the proposed method. | 翻訳日:2024-09-15 05:01:16 公開日:2024-08-27 |
# 非インストラクショナルファインチューニング:インストラクショナルデータのない事前学習言語モデルにおけるインストラクショナルインストラクション追跡機能の実現
Non-instructional Fine-tuning: Enabling Instruction-Following Capabilities in Pre-trained Language Models without Instruction-Following Data ( http://arxiv.org/abs/2409.00096v1 ) ライセンス: Link先を確認 | Juncheng Xie, Shensian Syu, Hung-yi Lee, | (参考訳) インストラクションの微調整は、今日の大規模言語モデル(LLM)にとって、指示に従うことを学び、人間の好みに合わせることが不可欠である。
従来、命令の微調整には、命令と正しい応答を含む教師付きデータが必要である。
このようなデータを得るために、一部の研究者はGPT-4のようなよく訓練されたモデルに指示と正しい応答を生成するよう促した。
本稿では,OpenWebText からのランダムテキストの前半を命令とし,GPT-3.5-turbo あるいは GPT-4-turbo を用いてテキストを応答として補完する手法を提案する。
データが"非教育的"であるにも関わらず、このデータに基づいて微調整された事前学習されたLLMが、命令追従能力を得る可能性があることがわかった。
この観測は、よく知られた訓練済みLLM(例えば、LLaMA-2-7B、LLaMA-3-8B、LLaMA-3-70B、Mistral-7B-v0.1)を微調整することによって検証される。
非教育データ」はまた、微調整と人間の嗜好調整を監督したいくつかのモデルを改善した。
LLaMA-3-70B-Instructned through "non-instructional data" is comparable with LLaMA-3.1-70B-Instruct on the Arena Hard Leaderboard。
我々は「ノンインストラクショナルデータ」を分析し、インストラクションの微調整に関連する内容がないことを確かめた。
本研究は, 明示的な命令関連データを用いずに, 指示追従機能を開発する方法について, さらなる研究をおこなうものである。
Instruction fine-tuning is crucial for today's large language models (LLMs) to learn to follow instructions and align with human preferences. Conventionally, supervised data, including the instruction and the correct response, is required for instruction fine-tuning. To obtain such data, some researchers prompted well-trained models like GPT-4 to generate instructions and correct responses. In this paper, we propose a novel approach that uses the first half of a random text from OpenWebText as the instruction and GPT-3.5-turbo or GPT-4-turbo to complete the text as the response. Despite the data being "non-instructional", we found that pre-trained LLMs fine-tuned on this data can gain instruction-following capabilities. This observation is verified by fine-tuning several well-known pre-trained LLMs (e.g., LLaMA-2-7B, LLaMA-3-8B, LLaMA-3-70B, Mistral-7B-v0.1). The "non-instructional data" also improved some models that underwent supervised fine-tuning and human preference alignment. Our LLaMA-3-70B-Instruct fine-tuned through "non-instructional data" is comparable with LLaMA-3.1-70B-Instruct on the Arena Hard leaderboard. We analyzed the "non-instructional data" and ensured it is devoid of content related to instruction fine-tuning. Our findings will inspire further investigation into how to develop instruction-following capabilities without explicit instruction-related data. | 翻訳日:2024-09-08 15:11:32 公開日:2024-08-27 |
# 疾患診断のための大規模言語モデル:スコーピング・レビュー
Large Language Models for Disease Diagnosis: A Scoping Review ( http://arxiv.org/abs/2409.00097v1 ) ライセンス: Link先を確認 | Shuang Zhou, Zidu Xu, Mian Zhang, Chunpu Xu, Yawen Guo, Zaifu Zhan, Sirui Ding, Jiashuo Wang, Kaishuai Xu, Yi Fang, Liqiao Xia, Jeremy Yeung, Daochen Zha, Mingquan Lin, Rui Zhang, | (参考訳) 自動疾患診断は、臨床実践においてますます価値が増している。
大規模言語モデル(LLM)の出現は、人工知能のパラダイムシフトを触媒し、診断タスクにおけるLLMの有効性を裏付ける証拠が増えている。
この分野に注目が集まっているにもかかわらず、多くの重要な研究課題が未解決のままである。
例えば、診断タスクにおいて、どの病気やLLM技術が研究されているか?
臨床診断に適切なLCM技術と評価方法の選択は可能か?
これらの疑問に答えるために, LLM を用いた疾患診断法を総合的に分析した。
本研究は, 疾患の種類, 関連臓器システム, 関連臨床データ, LLM技術, 既存の研究で報告されている評価方法について検討した。
さらに,データ前処理のガイドラインや,適切なLCM手法の選択,診断タスクの評価戦略も提案した。
また、現在の研究の限界を評価し、この研究分野における課題と今後の方向性を詳述した。
総説では,LSMによる疾患診断の青写真について概説し,今後の研究成果の合理化と指導に役立てた。
Automatic disease diagnosis has become increasingly valuable in clinical practice. The advent of large language models (LLMs) has catalyzed a paradigm shift in artificial intelligence, with growing evidence supporting the efficacy of LLMs in diagnostic tasks. Despite the growing attention in this field, many critical research questions remain under-explored. For instance, what diseases and LLM techniques have been investigated for diagnostic tasks? How can suitable LLM techniques and evaluation methods be selected for clinical decision-making? To answer these questions, we performed a comprehensive analysis of LLM-based methods for disease diagnosis. This scoping review examined the types of diseases, associated organ systems, relevant clinical data, LLM techniques, and evaluation methods reported in existing studies. Furthermore, we offered guidelines for data preprocessing and the selection of appropriate LLM techniques and evaluation strategies for diagnostic tasks. We also assessed the limitations of current research and delineated the challenges and future directions in this research field. In summary, our review outlined a blueprint for LLM-based disease diagnosis, helping to streamline and guide future research endeavors. | 翻訳日:2024-09-08 15:11:32 公開日:2024-08-27 |
# 弱スーパービジョンを用いたテキスト要約モデルの訓練方法
How to Train Text Summarization Model with Weak Supervisions ( http://arxiv.org/abs/2409.00098v1 ) ライセンス: Link先を確認 | Yanbo Wang, Wenyu Chen, Shimin Shan, | (参考訳) 現在、機械学習技術は様々なアプリケーションで大きな成功を収めている。
これらの技術のほとんどは、人為的なラベルや、複数のソースからのノイズや不正確なラベルの混在の監視に依存している。
しかし、特定の複雑なタスクでは、目的の複雑さのためにノイズや不正確なラベルも利用できない。
この問題に対処するため,複雑な目的を単純なタスクに分割し,各タスクの監視信号を生成する手法を提案する。
そして、これらの監視信号を管理可能な形式に統合し、簡単に学習することができる。
ケーススタディでは、トピックベースの要約に使用されるシステムを実演する。
このシステムは、豊富な監視信号を利用して、要約とトピック関連性の両方を促進する。
注目すべきは、ラベルなしでモデルをエンドツーエンドにトレーニングできることです。
実験結果から,本手法はCNNとDailyMailのデータセットで極めて良好に動作することがわかった。
Currently, machine learning techniques have seen significant success across various applications. Most of these techniques rely on supervision from human-generated labels or a mixture of noisy and imprecise labels from multiple sources. However, for certain complex tasks, even noisy or inexact labels are unavailable due to the intricacy of the objectives. To tackle this issue, we propose a method that breaks down the complex objective into simpler tasks and generates supervision signals for each one. We then integrate these supervision signals into a manageable form, resulting in a straightforward learning procedure. As a case study, we demonstrate a system used for topic-based summarization. This system leverages rich supervision signals to promote both summarization and topic relevance. Remarkably, we can train the model end-to-end without any labels. Experimental results indicate that our approach performs exceptionally well on the CNN and DailyMail datasets. | 翻訳日:2024-09-08 15:11:32 公開日:2024-08-27 |
# スペクトル時間グラフ注意ポーリングとマルチタスク学習を用いたクエリ・バイ・例キーワードスポッティング
Query-by-Example Keyword Spotting Using Spectral-Temporal Graph Attentive Pooling and Multi-Task Learning ( http://arxiv.org/abs/2409.00099v1 ) ライセンス: Link先を確認 | Zhenyu Wang, Shuyu Kong, Li Wan, Biqiao Zhang, Yiteng Huang, Mumin Jin, Ming Sun, Xin Lei, Zhaojun Yang, | (参考訳) 既存のキーワードスポッティング(KWS)システムは主に定義済みのキーワードフレーズに依存している。
しかし、インテリジェントデバイスとのインタラクションをカスタマイズするためには、カスタマイズされたキーワードを認識する能力が不可欠である。
本稿では,スペクトル時間グラフ減衰プーリングとマルチタスク学習を併用した新しいQbyE(Query-by-Example)KWSシステムを提案する。
本フレームワークは,QbyE KWSタスクに対する話者不変および言語不変の埋め込みを効果的に学習することを目的としている。
本稿では,エンコーダモデリングのための3つの異なるネットワークアーキテクチャ(LiCoNet, Conformer, ECAPA_TDNN)について検討する。
629ドルの話者からなるかなりの内部データセットの実験結果は、LiCoNetのようなシンプルなモデルの可能性の最大化において、提案されたQbyEフレームワークの有効性を実証した。
特に13倍効率のLiCoNetは計算集約型コンフォーマーモデル(0.3 FAs/Hrで1.98%対1.63\% FRR)に匹敵する性能を達成している。
Existing keyword spotting (KWS) systems primarily rely on predefined keyword phrases. However, the ability to recognize customized keywords is crucial for tailoring interactions with intelligent devices. In this paper, we present a novel Query-by-Example (QbyE) KWS system that employs spectral-temporal graph attentive pooling and multi-task learning. This framework aims to effectively learn speaker-invariant and linguistic-informative embeddings for QbyE KWS tasks. Within this framework, we investigate three distinct network architectures for encoder modeling: LiCoNet, Conformer and ECAPA_TDNN. The experimental results on a substantial internal dataset of $629$ speakers have demonstrated the effectiveness of the proposed QbyE framework in maximizing the potential of simpler models such as LiCoNet. Particularly, LiCoNet, which is 13x more efficient, achieves comparable performance to the computationally intensive Conformer model (1.98% vs. 1.63\% FRR at 0.3 FAs/Hr). | 翻訳日:2024-09-08 15:11:32 公開日:2024-08-27 |
# NeuroLM:言語と脳波のギャップを埋めるためのユニバーサルマルチタスク基礎モデル
NeuroLM: A Universal Multi-task Foundation Model for Bridging the Gap between Language and EEG Signals ( http://arxiv.org/abs/2409.00101v1 ) ライセンス: Link先を確認 | Wei-Bang Jiang, Yansen Wang, Bao-Liang Lu, Dongsheng Li, | (参考訳) 脳波(EEG)などの神経信号による大規模事前トレーニングの進歩は、脳-コンピュータインターフェース(BCI)と医療の発展を著しく促進する有望な結果を示している。
しかしながら、これらの事前訓練されたモデルは、大幅な改善を達成し、その汎用性とユーザビリティを制限し、かなりのリソース浪費をもたらすために、各下流タスクの完全な微調整を必要とすることが多い。
これらの課題に対処するため,我々は,多タスク学習能力と推論能力を備えたモデルを実現するため,脳波信号を外国語として扱うことで,LLM(Large Language Models)の機能を活用する最初のマルチタスク基盤モデルであるNeuroLMを提案する。
我々のアプローチは、脳波信号を離散的な神経トークンにエンコードするベクトル量子化された時間周波数予測を通じて、テキスト整列型ニューラルトークンを学習することから始まります。
これらのEEGトークンは、凍結ベクトル量子化(VQ)エンコーダによって生成され、LLMに入力され、マルチチャネルオートレグレスを介して因果EEG情報を学ぶ。
その結果、NeuroLMは脳波と言語モダリティの両方を理解することができる。
最後に、マルチタスク命令チューニングは、NeuroLMを様々な下流タスクに適応させる。
我々は、LLMを具体化することによって、NeuroLMは命令チューニングによって単一のモデル内で多様な脳波タスクを統合できることを初めて実証した。
最大の変種であるNeuroLM-XLは、EEG信号処理のための1.7Bパラメータを記録破りにしており、約25,000時間のEEGデータからなる大規模コーパスで事前訓練されている。
下流の6つのデータセットで評価すると、NeuroLMはこのマルチタスク学習パラダイムの巨大な可能性を示す。
Recent advancements for large-scale pre-training with neural signals such as electroencephalogram (EEG) have shown promising results, significantly boosting the development of brain-computer interfaces (BCIs) and healthcare. However, these pre-trained models often require full fine-tuning on each downstream task to achieve substantial improvements, limiting their versatility and usability, and leading to considerable resource wastage. To tackle these challenges, we propose NeuroLM, the first multi-task foundation model that leverages the capabilities of Large Language Models (LLMs) by regarding EEG signals as a foreign language, endowing the model with multi-task learning and inference capabilities. Our approach begins with learning a text-aligned neural tokenizer through vector-quantized temporal-frequency prediction, which encodes EEG signals into discrete neural tokens. These EEG tokens, generated by the frozen vector-quantized (VQ) encoder, are then fed into an LLM that learns causal EEG information via multi-channel autoregression. Consequently, NeuroLM can understand both EEG and language modalities. Finally, multi-task instruction tuning adapts NeuroLM to various downstream tasks. We are the first to demonstrate that, by specific incorporation with LLMs, NeuroLM unifies diverse EEG tasks within a single model through instruction tuning. The largest variant NeuroLM-XL has record-breaking 1.7B parameters for EEG signal processing, and is pre-trained on a large-scale corpus comprising approximately 25,000-hour EEG data. When evaluated on six diverse downstream datasets, NeuroLM showcases the huge potential of this multi-task learning paradigm. | 翻訳日:2024-09-08 15:11:32 公開日:2024-08-27 |
# Nuance Matters:Causal Reasoningにおけるてんかんの一貫性を探る
Nuance Matters: Probing Epistemic Consistency in Causal Reasoning ( http://arxiv.org/abs/2409.00103v1 ) ライセンス: Link先を確認 | Shaobo Cui, Junyou Li, Luca Mouchel, Yiyang Feng, Boi Faltings, | (参考訳) このギャップに対処するため,本研究では,大言語モデル(LLM)の自己整合性に着目し,因果推論の微妙な差異を伴う中間体を識別する因果認識整合性の概念を紹介した。
本稿では,この点においてLSMを評価するための新しい指標(強度ランキング一致,グループ間位置合意,グループ内クラスタリング)を提案する。
GPT-4、Claude3、LLaMA3-70Bを含む21の高分子膜に関する広範な実証研究を通じて、我々は、現在のモデルが因果推論における中間体の極性と強度の同定において、疫学的一貫性を維持するのに苦慮している証拠を好んでいる。
さらに,内因性てんかんの一貫性を維持する補助具として,内因性トークンの確率を用いる可能性についても検討した。
まとめると、我々の研究は、因果推論に関わる微粒な中間体に対する自己整合性を調べることによって、AI研究における重要なギャップを埋める。
To address this gap, our study introduces the concept of causal epistemic consistency, which focuses on the self-consistency of Large Language Models (LLMs) in differentiating intermediates with nuanced differences in causal reasoning. We propose a suite of novel metrics -- intensity ranking concordance, cross-group position agreement, and intra-group clustering -- to evaluate LLMs on this front. Through extensive empirical studies on 21 high-profile LLMs, including GPT-4, Claude3, and LLaMA3-70B, we have favoring evidence that current models struggle to maintain epistemic consistency in identifying the polarity and intensity of intermediates in causal reasoning. Additionally, we explore the potential of using internal token probabilities as an auxiliary tool to maintain causal epistemic consistency. In summary, our study bridges a critical gap in AI research by investigating the self-consistency over fine-grained intermediates involved in causal reasoning. | 翻訳日:2024-09-08 15:11:32 公開日:2024-08-27 |
# 視覚言語モデルによるゼロショット視覚推論:ベンチマークと解析
Zero-Shot Visual Reasoning by Vision-Language Models: Benchmarking and Analysis ( http://arxiv.org/abs/2409.00106v1 ) ライセンス: Link先を確認 | Aishik Nagar, Shantanu Jaiswal, Cheston Tan, | (参考訳) 視覚言語モデル(VLM)は、実世界の視覚的質問応答(VQA)ベンチマークにおいて、視覚的推論エンジンとしての能力に言及して、印象的なゼロショットと少数ショットのパフォーマンスを示している。
しかし、使用されているベンチマークは、世界の知識と「純粋な」視覚的推論を記述しており、限られた数の推論ステップを含む質問もある。
したがって、VLMの視覚的推論性能が世界的知識によるものなのか、それとも実際の視覚的推論能力によるものなのかは、いまだ不明である。
この曖昧さを明らかにするために,我々は,VLMのゼロショット視覚的推論能力を,世界知識の最小化を必要とする合成データセットを用いて体系的にベンチマークし,分解し,幅広い推論ステップで解析することが可能である。
ゼロショット視覚推論の2つの新しい側面に焦点を当てる。
一 VLMの基盤となる大言語モデル(LLM)に対する視覚的埋め込み又は純粋テキスト的シーン記述としてシーン情報を伝達することの影響を評価すること。
二 チェーン・オブ・ソート・プロンプトの有効性を、ゼロショットの視覚的推論のための標準的プロンプトと比較すること。
テキストのシーン記述を提供するLLMは、視覚的な埋め込みを提供するよりも、一貫して性能が向上していることがわかった。
特に、PTRデータセットでは、精度が18%高い。
また,比較的大規模な GPT-3.5-Turbo (175B) モデルに対してのみ,CoT のプロンプトが標準よりもわずかに優れており,小型モデルではさらに悪い結果が得られた。
これは、世界知識が限られている場合でも、LLMにおける視覚的推論のためのCoT能力の出現を示唆している。
全体として、より複雑な視覚的推論において、VLMとLLMの能力に限界が見られ、視覚的推論においてLLMが果たす重要な役割を強調している。
Vision-language models (VLMs) have shown impressive zero- and few-shot performance on real-world visual question answering (VQA) benchmarks, alluding to their capabilities as visual reasoning engines. However, the benchmarks being used conflate "pure" visual reasoning with world knowledge, and also have questions that involve a limited number of reasoning steps. Thus, it remains unclear whether a VLM's apparent visual reasoning performance is due to its world knowledge, or due to actual visual reasoning capabilities. To clarify this ambiguity, we systematically benchmark and dissect the zero-shot visual reasoning capabilities of VLMs through synthetic datasets that require minimal world knowledge, and allow for analysis over a broad range of reasoning steps. We focus on two novel aspects of zero-shot visual reasoning: i) evaluating the impact of conveying scene information as either visual embeddings or purely textual scene descriptions to the underlying large language model (LLM) of the VLM, and ii) comparing the effectiveness of chain-of-thought prompting to standard prompting for zero-shot visual reasoning. We find that the underlying LLMs, when provided textual scene descriptions, consistently perform better compared to being provided visual embeddings. In particular, 18% higher accuracy is achieved on the PTR dataset. We also find that CoT prompting performs marginally better than standard prompting only for the comparatively large GPT-3.5-Turbo (175B) model, and does worse for smaller-scale models. This suggests the emergence of CoT abilities for visual reasoning in LLMs at larger scales even when world knowledge is limited. Overall, we find limitations in the abilities of VLMs and LLMs for more complex visual reasoning, and highlight the important role that LLMs can play in visual reasoning. | 翻訳日:2024-09-08 15:11:32 公開日:2024-08-27 |
# 多元アグリゲータが全エネルギー市場に与える影響評価:ハイブリッド平均場アプローチ
Evaluating the Impact of Multiple DER Aggregators on Wholesale Energy Markets: A Hybrid Mean Field Approach ( http://arxiv.org/abs/2409.00107v1 ) ライセンス: Link先を確認 | Jun He, Andrew L. Liu, | (参考訳) 分散エネルギー資源 (DER) の地域エネルギー市場への統合は、グリッドの柔軟性を大幅に向上させ、市場効率を向上し、より持続可能なエネルギーの未来に貢献することができる。
太陽のPVパネルやエネルギー貯蔵など、DERが増殖するにつれて、小さなプロシューマーがこれらの市場で有意義に参加できるように、効果的なメカニズムが必要である。
我々は、複数のDERアグリゲータを特徴とする市場モデルについて検討し、それぞれがDERリソースのポートフォリオを制御し、DER資産所有者に代わって市場への入札を行う。
このアプローチの鍵は、市場相互作用の繰り返しの性質を認識し、参加者が時間とともに学び、適応する能力を認識することです。
具体的には、アグリゲーターは、問屋市場の他のサプライヤーと繰り返し交流し、問屋の電力価格(LMP)をまとめて形成する。
このマルチエージェントインタラクションを平均フィールドゲーム(MFG)を用いてモデル化し,市場参加者の平均行動を反映した市場情報を用いて,長期LMPトレンドの予測と情報決定を可能にする。
各アグリゲータは、特定の契約構造の下でポートフォリオ内のDERを管理するため、(MFGとは対照的に)平均フィールド制御(MFC)アプローチを用いて、その管理下にあるDERの総報酬を最大化する最適なポリシーを学ぶ。
また、MFGフレームワーク内で各エージェントが最適な戦略を学習し、市場状況や不確実性に適応する能力を高めるための強化学習(RL)ベースの手法を提案する。
数値シミュレーションにより、LMPはハイブリッド平均場アプローチにおいて急速に定常状態に達することが示された。
さらに,エネルギストレージと平均場学習の組み合わせは,ストレージのないシナリオと比較して価格変動を著しく低減することを示した。
The integration of distributed energy resources (DERs) into wholesale energy markets can greatly enhance grid flexibility, improve market efficiency, and contribute to a more sustainable energy future. As DERs -- such as solar PV panels and energy storage -- proliferate, effective mechanisms are needed to ensure that small prosumers can participate meaningfully in these markets. We study a wholesale market model featuring multiple DER aggregators, each controlling a portfolio of DER resources and bidding into the market on behalf of the DER asset owners. The key of our approach lies in recognizing the repeated nature of market interactions the ability of participants to learn and adapt over time. Specifically, Aggregators repeatedly interact with each other and with other suppliers in the wholesale market, collectively shaping wholesale electricity prices (aka the locational marginal prices (LMPs)). We model this multi-agent interaction using a mean-field game (MFG), which uses market information -- reflecting the average behavior of market participants -- to enable each aggregator to predict long-term LMP trends and make informed decisions. For each aggregator, because they control the DERs within their portfolio under certain contract structures, we employ a mean-field control (MFC) approach (as opposed to a MFG) to learn an optimal policy that maximizes the total rewards of the DERs under their management. We also propose a reinforcement learning (RL)-based method to help each agent learn optimal strategies within the MFG framework, enhancing their ability to adapt to market conditions and uncertainties. Numerical simulations show that LMPs quickly reach a steady state in the hybrid mean-field approach. Furthermore, our results demonstrate that the combination of energy storage and mean-field learning significantly reduces price volatility compared to scenarios without storage. | 翻訳日:2024-09-08 15:11:32 公開日:2024-08-27 |
# 治療ツールとしての大規模言語モデルに向けて:GPT提供型問題解決のためのプロンプト技術の比較
Toward Large Language Models as a Therapeutic Tool: Comparing Prompting Techniques to Improve GPT-Delivered Problem-Solving Therapy ( http://arxiv.org/abs/2409.00112v1 ) ライセンス: Link先を確認 | Daniil Filienko, Yinzhou Wang, Caroline El Jazmi, Serena Xie, Trevor Cohen, Martine De Cock, Weichao Yuwen, | (参考訳) 大規模言語モデル(LLM)は、医療を含む多くの領域に急速に適用されているが、その強みと落とし穴は未探索のままである。
そこで本研究では,大規模言語モデル(LLM)を指導するインシデントエンジニアリングが,特にパーソナライズされた目標設定のための症状識別・評価フェーズにおいて,テキストによる問題解決療法(PST)セッションの一部を配信する際の効果について検討した。
本稿では,自動測定と経験者医療専門家によるモデルの性能評価結果について述べる。
我々は,プロンプトエンジニアリング手法を適切に活用することで,プロトタイズされた治療を提供するモデルの能力を向上できることを実証した。
本研究は, 総合的な品質, 一貫性, 共感に焦点をあて, 一般論モデルの心理療法能力を高める上で, 様々な促進技術の効果を最初に評価するものである。
精神療法を提供するLLMの可能性を探求することは、大きなニーズの中で、現在のメンタルヘルス専門家の不足を約束し、AIベースの医療サービスとAI強化ケアサービスの潜在能力を向上する。
While Large Language Models (LLMs) are being quickly adapted to many domains, including healthcare, their strengths and pitfalls remain under-explored. In our study, we examine the effects of prompt engineering to guide Large Language Models (LLMs) in delivering parts of a Problem-Solving Therapy (PST) session via text, particularly during the symptom identification and assessment phase for personalized goal setting. We present evaluation results of the models' performances by automatic metrics and experienced medical professionals. We demonstrate that the models' capability to deliver protocolized therapy can be improved with the proper use of prompt engineering methods, albeit with limitations. To our knowledge, this study is among the first to assess the effects of various prompting techniques in enhancing a generalist model's ability to deliver psychotherapy, focusing on overall quality, consistency, and empathy. Exploring LLMs' potential in delivering psychotherapy holds promise with the current shortage of mental health professionals amid significant needs, enhancing the potential utility of AI-based and AI-enhanced care services. | 翻訳日:2024-09-08 15:11:32 公開日:2024-08-27 |
# すべてのオプションが間違っている場合: 誤選択による大規模言語モデルロバストネスの評価
When All Options Are Wrong: Evaluating Large Language Model Robustness with Incorrect Multiple-Choice Options ( http://arxiv.org/abs/2409.00113v1 ) ライセンス: Link先を確認 | Gracjan Góral, Emilia Wiśnios, | (参考訳) 本稿では,Large Language Models (LLMs) のゼロショット機能を用いて,正解を伴わずに複数の質問を検出できることを,教育評価の質の重要な側面として考察する。
我々は,この能力を,主題知識の尺度としてだけでなく,LLMにおける批判的思考の指標として探求する。
実験では, 多様な質問に対してLLMを多用し, 一つの正解の質問と無解の質問の間に, 顕著な性能差を浮き彫りにした。
Llama-3.1-405Bは、多くの事例において有効な答えがないことをうまく識別することで際立っている。
これらの結果から,LCMは盲目的指導よりも批判的思考を優先すべきであり,不正確な回答が不正確な評価につながる可能性のある教育環境において,その使用に注意が必要であることが示唆された。
本研究は、LCMにおける批判的思考を評価するためのベンチマークを設定し、真のユーザ理解と支援を保証するために、継続するモデルアライメントの必要性を強調している。
This paper examines the zero-shot ability of Large Language Models (LLMs) to detect multiple-choice questions with no correct answer, a crucial aspect of educational assessment quality. We explore this ability not only as a measure of subject matter knowledge but also as an indicator of critical thinking within LLMs. Our experiments, utilizing a range of LLMs on diverse questions, highlight the significant performance gap between questions with a single correct answer and those without. Llama-3.1-405B stands out by successfully identifying the lack of a valid answer in many instances. These findings suggest that LLMs should prioritize critical thinking over blind instruction following and caution against their use in educational settings where questions with incorrect answers might lead to inaccurate evaluations. This research sets a benchmark for assessing critical thinking in LLMs and emphasizes the need for ongoing model alignment to ensure genuine user comprehension and assistance. | 翻訳日:2024-09-08 15:11:32 公開日:2024-08-27 |
# 任意順序の相互作用を伴う最小複素モデルのベイズ推定
Bayesian Inference of Minimally Complex Models with Interactions of Arbitrary Order ( http://arxiv.org/abs/2008.00520v3 ) ライセンス: Link先を確認 | Clélia de Mulatier, Matteo Marsili, | (参考訳) 高次元データセットを最もよく記述するモデルを見つけることは、さらに難しい作業であり、もし、ペアワイズモデルを超えて、データのすべての高次のパターンを考慮しようとするなら、さらに難しい作業である。
バイナリデータに対して、最小複素モデル (MCM) と呼ばれる単純なモデルの族に探索を制限することで、このタスクが実現可能であることを示す。
MCMは任意の高次相互作用を持つ最大エントロピーモデルであり、最小複雑性の独立成分にグループ化される。
情報理論の用語では単純で、特定のタイプのデータパターンにのみ適合し、ファルシフィケーションも容易である。
これらのモデルに制限されたベイズモデルの選択は、計算可能であり、多くの利点があることを示す。
第一に、モデルエビデンス(モデルエビデンス)は、良さと複雑性のバランスを保ち、パラメータフィッティングなしで効率的に計算することができ、MCMの空間を高速に探索することができる。
第二に、MCMの族はゲージ変換の下で不変であり、統計モデルへの表現非依存的なアプローチを開発するのに使うことができる。
小さなシステム(最大15変数)では、これらの2つの結果を組み合わせることで、モデル数がすでに非常に多いにもかかわらず、最も優れたMCMを選択することができます。
より大規模なシステムでは、適切な時間で最適なMCMを見つけるための単純なヒューリスティックスを提案する。
さらに、推論とサンプリングは計算の労力を使わずに行うことができる。
最後に、MCMは任意の順序の相互作用を持つため、データに重要な高階依存が存在することを明らかにすることができ、複雑なシステムにおける高階依存を探索するための新しいアプローチを提供する。
提案手法を合成データや実世界の実例に適用し,MCMが変数間の依存関係構造を簡易に表現し,データから対称性や不変性に関する不確実な予測を抽出する。
Finding the model that best describes a high-dimensional dataset is a daunting task, even more so if one aims to consider all possible high-order patterns of the data, going beyond pairwise models. For binary data, we show that this task becomes feasible when restricting the search to a family of simple models, that we call Minimally Complex Models (MCMs). MCMs are maximum entropy models that have interactions of arbitrarily high order grouped into independent components of minimal complexity. They are simple in information-theoretic terms, which means they can only fit well certain types of data patterns and are therefore easy to falsify. We show that Bayesian model selection restricted to these models is computationally feasible and has many advantages. First, the model evidence, which balances goodness-of-fit against complexity, can be computed efficiently without any parameter fitting, enabling very fast explorations of the space of MCMs. Second, the family of MCMs is invariant under gauge transformations, which can be used to develop a representation-independent approach to statistical modeling. For small systems (up to 15 variables), combining these two results allows us to select the best MCM among all, even though the number of models is already extremely large. For larger systems, we propose simple heuristics to find optimal MCMs in reasonable times. Besides, inference and sampling can be performed without any computational effort. Finally, because MCMs have interactions of any order, they can reveal the presence of important high-order dependencies in the data, providing a new approach to explore high-order dependencies in complex systems. We apply our method to synthetic data and real-world examples, illustrating how MCMs portray the structure of dependencies among variables in a simple manner, extracting falsifiable predictions on symmetries and invariance from the data. | 翻訳日:2024-08-30 19:54:50 公開日:2024-08-27 |
# 圧縮経験的測度(有限次元)
Compressed Empirical Measures (in finite dimensions) ( http://arxiv.org/abs/2204.08847v3 ) ライセンス: Link先を確認 | Steffen Grünewälder, | (参考訳) 有限次元再生カーネルヒルベルト空間(RKHS)の文脈における経験的尺度の圧縮手法について検討する。
この文脈では、経験的測度は自然凸集合の中に含まれ、凸最適化法を用いて近似することができる。
このような近似は、データポイントのコアセットを引き起こす。
そのようなコアセットがどれほど大きいかを制御する重要な量は、経験的凸集合に含まれる経験的測度の周りにある最大の球の大きさである。
研究の大部分は, 様々な条件下で, 様々な条件下で, ボールの大きさに対する高い確率的下界を導出することに関するものである: データ密度とカーネル関数の条件が, それらの下界を推測するためにどのように使用できるかを示す; さらに, 共分散作用素の最小固有値に対する下界を用いて, ボールの大きさに対する下界を与えるアプローチを開発する; 近似共分散演算子へのアプローチを拡張し, カーネルリッジ回帰の文脈でどのように使用できるかを示す。
また,条件勾配法のような標準アルゴリズムを用いた場合の圧縮保証を導出し,これらの標準アルゴリズムのランタイムを改善するために,そのようなアルゴリズムのバリエーションについて議論する。
無限次元のRKHSの構成は圧縮が貧弱であり、無限次元のRKHSに移動しようとする際に直面する困難を浮き彫りにする。
We study approaches for compressing the empirical measure in the context of finite dimensional reproducing kernel Hilbert spaces (RKHSs). In this context, the empirical measure is contained within a natural convex set and can be approximated using convex optimization methods. Such an approximation gives rise to a coreset of data points. A key quantity that controls how large such a coreset has to be is the size of the largest ball around the empirical measure that is contained within the empirical convex set. The bulk of our work is concerned with deriving high probability lower bounds on the size of such a ball under various conditions and in various settings: we show how conditions on the density of the data and the kernel function can be used to infer such lower bounds; we further develop an approach that uses a lower bound on the smallest eigenvalue of a covariance operator to provide lower bounds on the size of such a ball; we extend the approach to approximate covariance operators and we show how it can be used in the context of kernel ridge regression. We also derive compression guarantees when standard algorithms like the conditional gradient method are used and we discuss variations of such algorithms to improve the runtime of these standard algorithms. We conclude with a construction of an infinite dimensional RKHS for which the compression is poor, highlighting some of the difficulties one faces when trying to move to infinite dimensional RKHSs. | 翻訳日:2024-08-30 19:54:50 公開日:2024-08-27 |
# XG-NID:異種グラフニューラルネットワークと大言語モデルを用いた二重モードネットワーク侵入検出
XG-NID: Dual-Modality Network Intrusion Detection using a Heterogeneous Graph Neural Network and Large Language Model ( http://arxiv.org/abs/2408.16021v1 ) ライセンス: Link先を確認 | Yasir Ali Farrukh, Syed Wali, Irfan Khan, Nathaniel D. Bastian, | (参考訳) サイバーセキュリティの急速に発展する分野では、リアルタイム侵入検知のためのフローレベルとパケットレベルの情報の統合は、研究のほとんど未解決領域である。
本稿では,新しいフレームワークであるXG-NIDを紹介し,このフレームワークは異種グラフ構造にフローレベルとパケットレベルのデータを融合し,ネットワークトラフィックの包括的解析を行う。
グラフレベルの分類による異種グラフニューラルネットワーク(GNN)を活用することで、XG-NIDは、フローとパケットペイロードデータの複雑な関係を効果的にキャプチャしながら、リアルタイムの推論を可能にする。
歴史的データを主に分析する従来のGNNベースの手法とは異なり、XG-NIDはネットワークトラフィックの不均一性に対応するように設計されており、堅牢でリアルタイムな防御機構を提供する。
大規模言語モデル(LLM)を統合して、詳細で可読な説明を生成し、潜在的な修復措置を提案し、得られた洞察が行動可能かつ理解可能であることを保証します。
さらに、時間的情報に基づく新しいフロー特徴セットを導入し、我々のモデルが提供する文脈的および説明可能な推論をさらに強化する。
提案した異種グラフ構造への生のネットワークトラフィックの抽出と変換を可能にし,フローとパケットレベルのデータをシームレスに統合するオープンソースツールである"GNN4ID"を開発した。
総合的な定量的比較分析により,XG-NIDはF1スコアが97 %のマルチクラス分類を達成し,既存のベースラインや最先端の手法よりも優れていることが示された。
これにより、ネットワーク侵入検知システムにおける新しい標準が確立され、インタプリタビリティとリアルタイム機能を組み合わせた革新的なデータ融合が実現された。
In the rapidly evolving field of cybersecurity, the integration of flow-level and packet-level information for real-time intrusion detection remains a largely untapped area of research. This paper introduces "XG-NID," a novel framework that, to the best of our knowledge, is the first to fuse flow-level and packet-level data within a heterogeneous graph structure, offering a comprehensive analysis of network traffic. Leveraging a heterogeneous graph neural network (GNN) with graph-level classification, XG-NID uniquely enables real-time inference while effectively capturing the intricate relationships between flow and packet payload data. Unlike traditional GNN-based methodologies that predominantly analyze historical data, XG-NID is designed to accommodate the heterogeneous nature of network traffic, providing a robust and real-time defense mechanism. Our framework extends beyond mere classification; it integrates Large Language Models (LLMs) to generate detailed, human-readable explanations and suggest potential remedial actions, ensuring that the insights produced are both actionable and comprehensible. Additionally, we introduce a new set of flow features based on temporal information, further enhancing the contextual and explainable inferences provided by our model. To facilitate practical application and accessibility, we developed "GNN4ID," an open-source tool that enables the extraction and transformation of raw network traffic into the proposed heterogeneous graph structure, seamlessly integrating flow and packet-level data. Our comprehensive quantitative comparative analysis demonstrates that XG-NID achieves an F1 score of 97\% in multi-class classification, outperforming existing baseline and state-of-the-art methods. This sets a new standard in Network Intrusion Detection Systems by combining innovative data fusion with enhanced interpretability and real-time capabilities. | 翻訳日:2024-08-30 18:04:21 公開日:2024-08-27 |
# リッチ曲率を用いた物理リファラルネットワークのキャラクタリゼーション
Characterizing Physician Referral Networks with Ricci Curvature ( http://arxiv.org/abs/2408.16022v1 ) ライセンス: Link先を確認 | Jeremy Wayland, Russel J. Funk, Bastian Rieck, | (参考訳) 特定
(a)医療アクセスの質とシステム的障壁
(b)米国でのケア効果の指標は依然として重要な課題である。
ケアデリバリーにおける地域格差の理解を深めるため,ネットワークの幾何学的トポロジカルな特性である曲率の新たな応用をPhysian Referral Networksに導入した。
ネットワーク構造の表現力で知られているForman-RicciとOllivier-Ricciの曲率測定は,医療効果の変動を検出する上で有望な指標となる。
我々はまた、Ricci曲率やその他のネットワーク機能を利用したオープンソースツールであるAPPARENTを、地域物理学的参照ネットワーク構造、地域国勢調査データ、医療効果、患者結果の相関関係を調べるために提案する。
Identifying (a) systemic barriers to quality healthcare access and (b) key indicators of care efficacy in the United States remains a significant challenge. To improve our understanding of regional disparities in care delivery, we introduce a novel application of curvature, a geometrical-topological property of networks, to Physician Referral Networks. Our initial findings reveal that Forman-Ricci and Ollivier-Ricci curvature measures, which are known for their expressive power in characterizing network structure, offer promising indicators for detecting variations in healthcare efficacy while capturing a range of significant regional demographic features. We also present APPARENT, an open-source tool that leverages Ricci curvature and other network features to examine correlations between regional Physician Referral Networks structure, local census data, healthcare effectiveness, and patient outcomes. | 翻訳日:2024-08-30 18:04:21 公開日:2024-08-27 |
# 量子エンタングルメントとココレート
Quantum Entanglement and Chocolates ( http://arxiv.org/abs/2408.16024v1 ) ライセンス: Link先を確認 | Biao Wu, | (参考訳) チョコレートの2つの統計的アンサンブルは、スピン一重項状態とGHZ状態の2つの量子絡み合い状態を模倣するために構成される。
確率分布と相関の点で最も近い類似性を達成するための大きな努力にもかかわらず、微妙な違いは残る。
この違いは、量子絡み合いと古典的相関を区別する基本的な特徴を明らかにし、示す。
Two statistical ensembles of chocolates are constructed to mimic two quantum entangled states, the spin singlet state and the GHZ state. Despite great efforts to achieve the closest possible resemblance in terms of probability distribution and correlation, subtle differences remain. The differences reveal and illustrate a fundamental characteristic that distinguishes quantum entanglement from classical correlation. | 翻訳日:2024-08-30 18:04:21 公開日:2024-08-27 |
# 偽相関の低減によるAndroidマルウェア検出における対向ロバスト性の改善
Improving Adversarial Robustness in Android Malware Detection by Reducing the Impact of Spurious Correlations ( http://arxiv.org/abs/2408.16025v1 ) ライセンス: Link先を確認 | Hamid Bostani, Zhengyu Zhao, Veelasha Moonsamy, | (参考訳) 機械学習(ML)は、Androidマルウェア検出(AMD)の大幅な進歩を示しているが、現実的な回避攻撃に対するMLのレジリエンスは、AMDにとって大きな障害である。
この問題に寄与する主要な要因の1つは、信頼できる一般化の不足である。
限定的な一般化性を持つマルウェア分類器は、偏りのある特徴から派生した突発的相関を過度に満たす傾向がある。
その結果、回避攻撃によって生成された敵例(AE)は、これらの特徴を検出を避けるために修正することができる。
本研究では,マルウェアサンプルとAEの分布を調整することで,AMDの一般化性を向上させるための領域適応手法を提案する。
具体的には、機能領域におけるドメイン制約を反映した意味のある機能依存を活用して、堅牢な機能領域を確立します。
提案された堅牢な機能空間のトレーニングにより、マルウェア分類器は個々の機能ではなく、アプリ機能に関連する事前に定義されたパターンから学ぶことができる。
このアプローチは、初期特徴空間に固有の急激な相関を緩和するのに役立つ。
筆者らは,Android マルウェア検知器 DREBIN を用いた実験を行い,現実的な回避攻撃に直面した場合,我々のアプローチが最先端の防御装置 Sec-SVM を上回ることを示した。
特に,Sec-SVMと比較して,現実的な回避攻撃に対して,敵の堅牢性を最大55%向上させることができる。
Machine learning (ML) has demonstrated significant advancements in Android malware detection (AMD); however, the resilience of ML against realistic evasion attacks remains a major obstacle for AMD. One of the primary factors contributing to this challenge is the scarcity of reliable generalizations. Malware classifiers with limited generalizability tend to overfit spurious correlations derived from biased features. Consequently, adversarial examples (AEs), generated by evasion attacks, can modify these features to evade detection. In this study, we propose a domain adaptation technique to improve the generalizability of AMD by aligning the distribution of malware samples and AEs. Specifically, we utilize meaningful feature dependencies, reflecting domain constraints in the feature space, to establish a robust feature space. Training on the proposed robust feature space enables malware classifiers to learn from predefined patterns associated with app functionality rather than from individual features. This approach helps mitigate spurious correlations inherent in the initial feature space. Our experiments conducted on DREBIN, a renowned Android malware detector, demonstrate that our approach surpasses the state-of-the-art defense, Sec-SVM, when facing realistic evasion attacks. In particular, our defense can improve adversarial robustness by up to 55% against realistic evasion attacks compared to Sec-SVM. | 翻訳日:2024-08-30 18:04:21 公開日:2024-08-27 |
# 疎都市群集センシングにおける時間連続データ推論に向けて
Toward Time-Continuous Data Inference in Sparse Urban CrowdSensing ( http://arxiv.org/abs/2408.16027v1 ) ライセンス: Link先を確認 | Ziyu Sun, Haoyang Su, Hanqi Sun, En Wang, Wenbin Liu, | (参考訳) Mobile Crowd Sensing(MCS)は,モバイルユーザとそのスマートポータブルデバイスを活用して,さまざまな実世界のタスクを実行する,有望なパラダイムである。
しかし、予算の制約と特定の領域のアクセス不能のため、Sparse MCSはより実用的な代替手段として出現し、限られたターゲットサブ領域からデータを収集し、推論アルゴリズムを用いて完全なセンシングマップを完成させている。
既存のアプローチでは、通常、各センシングサイクル内でデータが一定である時間離散的な設定を前提としていますが、この単純化は、特に長いサイクルを扱う場合、現実のセンシングデータが連続的に変化するため、重大なエラーを生じさせます。
本稿では,センササイクルの細粒度化,すなわち最小時間単位への分割から,より正確で連続的な完了へと進む。
まず、ニューラルネットワーク対応フレームワークとしてDeep Matrix Factorization(DMF)を導入し、それをRNN-DMF(Recurrent Neural Network)で強化し、これらの微細な時間スライスにおける時間相関を捉える。
連続データにさらに対処するため,不等間隔で時間的情報をキャプチャし,時間連続的な補完を可能にするTIME-DMFを提案する。
さらに、TIME-DMF内のクエリ生成(Q-G)戦略を用いて、連続データの無限の状態のモデル化を行う。
5種類のセンシングタスクにわたる広範囲な実験は、我々のモデルの有効性と時間連続補完の利点を実証する。
Mobile Crowd Sensing (MCS) is a promising paradigm that leverages mobile users and their smart portable devices to perform various real-world tasks. However, due to budget constraints and the inaccessibility of certain areas, Sparse MCS has emerged as a more practical alternative, collecting data from a limited number of target subareas and utilizing inference algorithms to complete the full sensing map. While existing approaches typically assume a time-discrete setting with data remaining constant within each sensing cycle, this simplification can introduce significant errors, especially when dealing with long cycles, as real-world sensing data often changes continuously. In this paper, we go from fine-grained completion, i.e., the subdivision of sensing cycles into minimal time units, towards a more accurate, time-continuous completion. We first introduce Deep Matrix Factorization (DMF) as a neural network-enabled framework and enhance it with a Recurrent Neural Network (RNN-DMF) to capture temporal correlations in these finer time slices. To further deal with the continuous data, we propose TIME-DMF, which captures temporal information across unequal intervals, enabling time-continuous completion. Additionally, we present the Query-Generate (Q-G) strategy within TIME-DMF to model the infinite states of continuous data. Extensive experiments across five types of sensing tasks demonstrate the effectiveness of our models and the advantages of time-continuous completion. | 翻訳日:2024-08-30 18:04:21 公開日:2024-08-27 |
# 平等な金融決定の保証:バイアスに対する対実的公正とディープラーニングを活用する
Ensuring Equitable Financial Decisions: Leveraging Counterfactual Fairness and Deep Learning for Bias ( http://arxiv.org/abs/2408.16088v1 ) ライセンス: Link先を確認 | Saish Shinde, | (参考訳) 近年、重要な意思決定プロセスにおける機械学習モデルの利用の増加、特にジェンダーのような繊細な特性に関して、公正さと偏見に関する懸念が高まっている。
本研究は,機械学習モデルにおけるバイアスに対処するために,データ拡張に伴う対実的公正性に着目した高度なバイアス緩和手法について検討する。
この研究は、これらの統合アプローチが金融業界、特にローン承認手続きにおけるジェンダーバイアスを緩和する方法について考察している。
これらの手法は、歪んだ財務データセットの徹底的なテストと評価を通じて、より公平な結果を達成するのに有効であることを示す。
この発見は、道徳的に正当かつ公平な意思決定を保証するために、機械学習モデルを作成する際に、公正な認識技術を使用することがいかに重要であるかを強調している。
Concerns regarding fairness and bias have been raised in recent years due to the growing use of machine learning models in crucial decision-making processes, especially when it comes to delicate characteristics like gender. In order to address biases in machine learning models, this research paper investigates advanced bias mitigation techniques, with a particular focus on counterfactual fairness in conjunction with data augmentation. The study looks into how these integrated approaches can lessen gender bias in the financial industry, specifically in loan approval procedures. We show that these approaches are effective in achieving more equitable results through thorough testing and assessment on a skewed financial dataset. The findings emphasize how crucial it is to use fairness-aware techniques when creating machine learning models in order to guarantee morally righteous and impartial decision-making. | 翻訳日:2024-08-30 17:43:40 公開日:2024-08-27 |
# 計算・情報理論における熱力学の再検討
Revisiting thermodynamics in computation and information theory ( http://arxiv.org/abs/2102.09981v2 ) ライセンス: Link先を確認 | Pritam Chattopadhyay, Goutam Paul, | (参考訳) 計算分野における研究の主要な動機の1つは、計算コストの最適化である。
コンピュータが必要とする主な要素は、プロセスを実行するためのエネルギー、すなわち熱力学的コストである。
計算の熱力学的コストの分析は、研究の主要な焦点の1つである。
ランダウアーの独創的な研究から始まり、コンピュータは少しの情報を削除するためにkB T ln2のエネルギーを消費しているとコメントされた(ここでは、Tは系の温度であり、kBはボルツマン定数を表す)。
統計力学の進歩により、現代コンピュータの計算さえも、自然界に存在する複雑なプロセスの熱力学的コストを理解し解析するために必要なツールが得られてきた。
物理学の進歩は、計算と統計力学(熱力学コスト)の関連を理解するのに役立っている。
コンピュータ科学の分野で問題となっているもう1つの重要な要素は、通信チャネルを介して情報を送信しながら発生するエラーの誤り訂正である。
本稿では,ランダウアーの原理から最近の計算機構をシミュレートした最新のモデルまで,計算の熱力学の進歩を概観する。
計算機科学理論と情報理論で計算の健全な部分を探索した後、計算と誤り訂正の熱力学的コストを概観した。
また、熱力学的コスト効率で提案した代替計算モデルについても論じている。
One of the primary motivations of the research in the field of computation is to optimize the cost of computation. The major ingredient that a computer needs is the energy to run a process, i.e., the thermodynamic cost. The analysis of the thermodynamic cost of computation is one of the prime focuses of research. It started back since the seminal work of Landauer where it was commented that the computer spends kB T ln2 amount of energy to erase a bit of information (here T is the temperature of the system and kB represents the Boltzmann's constant). The advancement of statistical mechanics has provided us the necessary tool to understand and analyze the thermodynamic cost for the complicated processes that exist in nature, even the computation of modern computers. The advancement of physics has helped us to understand the connection of the statistical mechanics (the thermodynamics cost) with computation. Another important factor that remains a matter of concern in the field of computer science is the error correction of the error that occurs while transmitting the information through a communication channel. Here in this article, we have reviewed the progress of the thermodynamics of computation starting from Landauer's principle to the latest model, which simulates the modern complex computation mechanism. After exploring the salient parts of computation in computer science theory and information theory, we have reviewed the thermodynamic cost of computation and error correction. We have also discussed about the alternative computation models that have been proposed with thermodynamically cost-efficient. | 翻訳日:2024-08-29 21:50:55 公開日:2024-08-27 |
# メソスコピックリード法による高速駆動と強結合を伴う量子熱力学
Quantum thermodynamics with fast driving and strong coupling via the mesoscopic leads approach ( http://arxiv.org/abs/2206.01090v3 ) ライセンス: Link先を確認 | Artur M. Lacerda, Archak Purkayastha, Michael Kewming, Gabriel T. Landi, John Goold, | (参考訳) 熱浴と強く結合した駆動量子系の熱力学を理解することは、量子熱力学とメソスコピック物理学の中心的な焦点である。
文学には様々な方法論のアプローチがあり、それぞれに独自の利点と欠点がある。
メソスコピックリードのアプローチは、最近定常的な熱機械に一般化され、非相互作用極限でランダウアー B\"uttiker 理論を再現する能力を持つ。
このアプローチでは、離散化された鉛モードの集合は、それぞれ局所的に減衰し、浴槽へのマルコフの埋め込みを提供する。
本研究では、このアプローチをさらに一般化し、ハミルトニアン系に任意の時間依存を組み込む。
熱力学量の計算に関する慎重な議論の後、有限温度フェルミオン浴に結合したいくつかのメソスコピックな例を研究し、既知の結果を様々な限界で再現することによって、我々のアプローチの力を説明する。
駆動された非相互作用量子ドットの場合、熱の整合を誘導するためにいかに高速な駆動を利用できるかを示す。
Understanding the thermodynamics of driven quantum systems strongly coupled to thermal baths is a central focus of quantum thermodynamics and mesoscopic physics. A variety of different methodological approaches exist in the literature, all with their own advantages and disadvantages. The mesoscopic leads approach was recently generalised to steady state thermal machines and has the ability to replicate Landauer B\"uttiker theory in the non-interacting limit. In this approach a set of discretised lead modes, each locally damped, provide a markovian embedding for the baths. In this work we further generalise this approach to incorporate an arbitrary time dependence in the system Hamiltonian. Following a careful discussion of the calculation of thermodynamic quantities we illustrate the power of our approach by studying several driven mesoscopic examples coupled to finite temperature fermionic baths, replicating known results in various limits. In the case of a driven non interacting quantum dot we show how fast driving can be used to induce heat rectification. | 翻訳日:2024-08-29 21:50:55 公開日:2024-08-27 |
# マルチモダリティは一様性を助ける:マルチモダリティモデルを用いたクロスモーダル・ファウショット学習
Multimodality Helps Unimodality: Cross-Modal Few-Shot Learning with Multimodal Models ( http://arxiv.org/abs/2301.06267v5 ) ライセンス: Link先を確認 | Zhiqiu Lin, Samuel Yu, Zhiyi Kuang, Deepak Pathak, Deva Ramanan, | (参考訳) 少数ショット学習として知られる最小限の命令で新しいタスクを素早く学習する能力は、インテリジェントエージェントの中心的な側面である。
古典的な数発のベンチマークでは、単一のモダリティから数発のサンプルを使用するが、そのようなサンプルは概念クラス全体を特徴づけるには不十分かもしれない。
対照的に、人間はクロスモーダル情報を使って新しい概念を効率的に学習する。
この研究で、実際に${\bf visual}$dog classifier by ${\bf read} $ing about dog and ${\bf listen} $ing to them bark. で、より優れた${\bf visual}$dog classifierを構築できることを示した。
そのために、CLIPのような最近のマルチモーダル基盤モデルは、異なるモーダルを同じ表現空間にマッピングするクロスモーダルエンコーダを学習しているという事実を利用する。
具体的には、${\bf cross-modal}$${\bf adaptation}$: 異なるモダリティの例を追加のいくつかの例として扱う。
例えば、クラス名を追加のトレーニングサンプルとして再利用するだけで、任意のnショット学習問題を(n+1)ショット問題に変換することができる。
これにより、恥ずかしいほど単純な線形分類器でSOTA結果を生成することができる。
提案手法は,プレフィックスチューニングやアダプタ,分類器アンサンブルといった既存の手法と組み合わせることができることを示す。
最後に、視覚と言語以外のモダリティを探索するために、最初の(知識のために)オーディオヴィジュアルな少数ショットベンチマークを構築し、画像分類と音声分類の両方の性能を向上させるために、クロスモーダルトレーニングを使用する。
The ability to quickly learn a new task with minimal instruction - known as few-shot learning - is a central aspect of intelligent agents. Classical few-shot benchmarks make use of few-shot samples from a single modality, but such samples may not be sufficient to characterize an entire concept class. In contrast, humans use cross-modal information to learn new concepts efficiently. In this work, we demonstrate that one can indeed build a better ${\bf visual}$ dog classifier by ${\bf read}$ing about dogs and ${\bf listen}$ing to them bark. To do so, we exploit the fact that recent multimodal foundation models such as CLIP learn cross-modal encoders that map different modalities to the same representation space. Specifically, we propose a simple strategy for ${\bf cross-modal}$ ${\bf adaptation}$: we treat examples from different modalities as additional few-shot examples. For example, by simply repurposing class names as an additional training sample, we trivially turn any n-shot learning problem into a (n+1)-shot problem. This allows us to produce SOTA results with embarrassingly simple linear classifiers. We show that our approach can be combined with existing methods such as prefix tuning, adapters, and classifier ensembling. Finally, to explore other modalities beyond vision and language, we construct the first (to our knowledge) audiovisual few-shot benchmark and use cross-modal training to improve the performance of both image and audio classification. | 翻訳日:2024-08-29 21:50:55 公開日:2024-08-27 |
# 省エネルギー・再利用・リサイクル:エネルギー拡散モデルとMCMCによる構成生成
Reduce, Reuse, Recycle: Compositional Generation with Energy-Based Diffusion Models and MCMC ( http://arxiv.org/abs/2302.11552v5 ) ライセンス: Link先を確認 | Yilun Du, Conor Durkan, Robin Strudel, Joshua B. Tenenbaum, Sander Dieleman, Rob Fergus, Jascha Sohl-Dickstein, Arnaud Doucet, Will Grathwohl, | (参考訳) 導入以来、拡散モデルは、多くの領域における生成的モデリングにおいて、急速に普及したアプローチとなっている。
それらは、ログ確率密度関数の時間変化列の勾配を学ぶものとして解釈できる。
この解釈は、拡散モデルのポストホック制御方法として、分類器ベースおよび分類器フリーガイダンスを動機付けている。
本研究では,これらの概念を,スコアに基づく拡散モデルの解釈を用いて構築し,構成生成と誘導を含むタスクに対する拡散モデルの条件付け,修正,再利用の方法を探究する。
特に, 現状の技術を用いて, ある種の構成が失敗する理由を考察し, 多数の解を提示する。
この失敗の原因はサンプル(モデルではない)であり,MCMCにインスパイアされた新しいサンプルの提案である。
さらに,新しい構成演算子とより洗練されたメトロポリス補正サンプリング器を利用できる拡散モデルのエネルギーベースパラメータ化を提案する。
興味深いことに、これらのサンプルは、分類器誘導画像ネットモデリングや合成テキスト・画像生成など、幅広い問題にまたがって、構成生成の顕著な改善につながっている。
Since their introduction, diffusion models have quickly become the prevailing approach to generative modeling in many domains. They can be interpreted as learning the gradients of a time-varying sequence of log-probability density functions. This interpretation has motivated classifier-based and classifier-free guidance as methods for post-hoc control of diffusion models. In this work, we build upon these ideas using the score-based interpretation of diffusion models, and explore alternative ways to condition, modify, and reuse diffusion models for tasks involving compositional generation and guidance. In particular, we investigate why certain types of composition fail using current techniques and present a number of solutions. We conclude that the sampler (not the model) is responsible for this failure and propose new samplers, inspired by MCMC, which enable successful compositional generation. Further, we propose an energy-based parameterization of diffusion models which enables the use of new compositional operators and more sophisticated, Metropolis-corrected samplers. Intriguingly we find these samplers lead to notable improvements in compositional generation across a wide set of problems such as classifier-guided ImageNet modeling and compositional text-to-image generation. | 翻訳日:2024-08-29 21:50:55 公開日:2024-08-27 |
# AIの信頼性と意思決定品質:基礎,相互依存,介入の効果
AI Reliance and Decision Quality: Fundamentals, Interdependence, and the Effects of Interventions ( http://arxiv.org/abs/2304.08804v3 ) ライセンス: Link先を確認 | Jakob Schoeffer, Johannes Jakubik, Michael Voessing, Niklas Kuehl, Gerhard Satzger, | (参考訳) AI支援による意思決定では、ヒューマン・イン・ザ・ループ(Human-in-the-loop)を持つという中心的な約束は、間違ったレコメンデーションをオーバーライドすることでAIシステムを補完できることである。
しかし実際には、人間がAIレコメンデーションの正しさを評価できないことや、結果として間違ったアドバイスに固執したり、正しいアドバイスを無効にしたりすることはよくあります。
AIレコメンデーションに依存する異なる方法には、すぐに、しかし、決定品質への影響がある。
残念ながら、AIによる意思決定に関する現在の文献では、信頼と意思決定の質が不適切に混ざり合っていることが多い。
本研究では,人間とAIの相補性が達成可能な条件を特徴付けるとともに,信頼と意思決定の質の関係を解消し,形式化する。
信頼と意思決定の質が相互にどのように関係しているかを説明するために、視覚的枠組みを提案し、説明のような介入の効果を含む経験的発見の解釈に有用であることを示す。
我々の研究は、AIによる意思決定において、信頼行動と意思決定品質を区別することの重要性を強調している。
In AI-assisted decision-making, a central promise of having a human-in-the-loop is that they should be able to complement the AI system by overriding its wrong recommendations. In practice, however, we often see that humans cannot assess the correctness of AI recommendations and, as a result, adhere to wrong or override correct advice. Different ways of relying on AI recommendations have immediate, yet distinct, implications for decision quality. Unfortunately, reliance and decision quality are often inappropriately conflated in the current literature on AI-assisted decision-making. In this work, we disentangle and formalize the relationship between reliance and decision quality, and we characterize the conditions under which human-AI complementarity is achievable. To illustrate how reliance and decision quality relate to one another, we propose a visual framework and demonstrate its usefulness for interpreting empirical findings, including the effects of interventions like explanations. Overall, our research highlights the importance of distinguishing between reliance behavior and decision quality in AI-assisted decision-making. | 翻訳日:2024-08-29 21:40:54 公開日:2024-08-27 |
# 物質中の量子相関の空間構造再構築
Reconstructing the spatial structure of quantum correlations in materials ( http://arxiv.org/abs/2306.11723v3 ) ライセンス: Link先を確認 | Allen Scheie, Pontus Laurell, Elbio Dagotto, D. Alan Tennant, Tommaso Roscilde, | (参考訳) 量子相関は、量子多体状態の基本的な性質である。
しかし、それらは実験的に解明され続け、特に量子材料における真の量子挙動の証明を妨げる。
ここでは、非弾性中性子散乱によって測定された運動量依存性の動的感受性により、任意の相互距離で2つのスピンの揺らぎにおける量子コヒーレンス(英語版)の程度を表す量子相関関数の一般族を体系的に再構築できることを示す。
KCuF$_3$$\unicode{x2014}$ 弱結合な$S=1/2$ハイゼンベルク鎖の系と数値的に正確な量子モンテカルロデータを用いて、量子相関が従来の相関関係に関して根本的に異なる空間構造を持つことを示す。
実際、新しい創発的長さスケール $\unicode{x2014}$ 量子コヒーレンス長 $\unicode{x2014}$ は任意の有限温度において有限である。
さらに、結合したハイゼンベルクスピン鎖は、量子相関とスピン鎖への逆相関のトレードオフを持つ量子一夫一婦制の形式を示すことが理論的に示されている。
これらの結果は、実量子材料の基礎となる量子状態を探索する、情報的、モデルに依存しない手段として、実空間量子相関器を強調している。
Quantum correlations are a fundamental property of quantum many-body states. Yet they remain experimentally elusive, hindering certification of genuine quantum behavior, especially in quantum materials. Here we show that the momentum-dependent dynamical susceptibility measured via inelastic neutron scattering enables the systematic reconstruction of a general family of quantum correlation functions, which express the degree of quantum coherence in the fluctuations of two spins at arbitrary mutual distance. Using neutron scattering data on the compound KCuF$_3$ $\unicode{x2014}$ a system of weakly coupled $S=1/2$ Heisenberg chains $\unicode{x2014}$ and of numerically exact quantum Monte Carlo data, we show that quantum correlations possess a radically different spatial structure with respect to conventional correlations. Indeed, they exhibit a new emergent length scale $\unicode{x2014}$ the quantum coherence length $\unicode{x2014}$ which is finite at any finite temperature (including when long-range magnetic order develops). Moreover, we show theoretically that coupled Heisenberg spin chains exhibit a form of quantum monogamy, with a trade-off between quantum correlations along and transverse to the spin chains. These results highlight real-space quantum correlators as an informative, model-independent means of probing the underlying quantum state of real quantum materials. | 翻訳日:2024-08-29 21:40:54 公開日:2024-08-27 |
# 絡み合ったトーリック符号におけるシングルショット量子誤差補正
Single-Shot Quantum Error Correction in Intertwined Toric Codes ( http://arxiv.org/abs/2307.08118v2 ) ライセンス: Link先を確認 | Charles Stahl, | (参考訳) ユーザフレンドリーで透過的な方法で単発誤り訂正を行う3次元のサブシステムコードを構築する。
このコードは結合トーリックコードのサブシステムバージョンなので、我々はそれをintertwined toric code (ITC)と呼ぶ。
以前の符号は単発誤り訂正の特性を共有していたが、ITCは物理的に動機づけられた原点、幾何学的に直観的な論理演算子と誤差、単純な位相図で区別されている。
コードは、シングルショットプロパティの物理的起源を強調する方法で、3d安定化トーリックコードから生じる。
特に、3dトーリックコードの2つのコピーから始め、ループ励起を凝縮することなく点状の励起を閉じ込めるチェック演算子を追加します。
幾何学的には、ITCの裸の論理演算子と着飾った論理演算子は、下層のトーリック符号の論理演算子から派生し、エラーと測定結果とを明確に関連付ける。
ITCのシンドロームは、KubicaとVasmerのシングルショットコードのシンドロームに似ている。
また、ITCに対応する位相図を抽出し、Kubica-Vasmer符号の位相を含むことを示す。
最後に,Walker-Wangモデルと測定に基づく量子計算との様々な関連性を提案する。
We construct a new subsystem code in three dimensions that exhibits single-shot error correction in a user-friendly and transparent way. As this code is a subsystem version of coupled toric codes, we call it the intertwined toric code (ITC). Although previous codes share the property of single-shot error correction, the ITC is distinguished by its physically motivated origin, geometrically straightforward logical operators and errors, and a simple phase diagram. The code arises from 3d stabilizer toric codes in a way that emphasizes the physical origin of the single-shot property. In particular, starting with two copies of the 3d toric code, we add check operators that provide for the confinement of pointlike excitations without condensing the loop excitations. Geometrically, the bare and dressed logical operators in the ITC derive from logical operators in the underlying toric codes, creating a clear relationship between errors and measurement outcomes. The syndromes of the ITC resemble the syndromes of the single-shot code by Kubica and Vasmer, allowing us to use their decoding schemes. We also extract the phase diagram corresponding to ITC and show that it contains the phases found in the Kubica-Vasmer code. Finally, we suggest various connections to Walker-Wang models and measurement-based quantum computation. | 翻訳日:2024-08-29 21:40:54 公開日:2024-08-27 |
# 専門知識に基づく画像差分グラフ表現学習
Expert Knowledge-Aware Image Difference Graph Representation Learning for Difference-Aware Medical Visual Question Answering ( http://arxiv.org/abs/2307.11986v2 ) ライセンス: Link先を確認 | Xinyue Hu, Lin Gu, Qiyuan An, Mengliang Zhang, Liangchen Liu, Kazuma Kobayashi, Tatsuya Harada, Ronald M. Summers, Yingying Zhu, | (参考訳) 医用視覚言語モデルの自動化に寄与するため,新しいケストX線差分視覚質問応答(VQA)タスクを提案する。
1対の主画像と参照画像が与えられたこのタスクは、疾患と、さらに重要なのは、両者の違いに関するいくつかの疑問に答えようとしている。
これは、レポートをまとめる前の現在の画像とリファレンスを比較した放射線技師の診断プラクティスと一致している。
我々は164,324対の主画像と参照画像から700,703対のQAペアを含むMIMIC-Diff-VQAという新しいデータセットを収集した。
既存の医療用VQAデータセットと比較して,臨床専門医が使用する評価・診断・介入・評価処理に適合する。
また,この課題に対処するための知識対応グラフ表現学習モデルを提案する。
提案するベースラインモデルは, 解剖学的構造, 意味, 空間的知識などの専門知識を活用して, 画像差分VQAタスクにおける2つの画像間の画像差を表す多関係グラフを構築する。
データセットとコードはhttps://github.com/Holipori/MIMIC-Diff-VQAで見ることができる。
この研究は、医療ビジョン言語モデルをさらに前進させるだろうと考えています。
To contribute to automating the medical vision-language model, we propose a novel Chest-Xray Difference Visual Question Answering (VQA) task. Given a pair of main and reference images, this task attempts to answer several questions on both diseases and, more importantly, the differences between them. This is consistent with the radiologist's diagnosis practice that compares the current image with the reference before concluding the report. We collect a new dataset, namely MIMIC-Diff-VQA, including 700,703 QA pairs from 164,324 pairs of main and reference images. Compared to existing medical VQA datasets, our questions are tailored to the Assessment-Diagnosis-Intervention-Evaluation treatment procedure used by clinical professionals. Meanwhile, we also propose a novel expert knowledge-aware graph representation learning model to address this task. The proposed baseline model leverages expert knowledge such as anatomical structure prior, semantic, and spatial knowledge to construct a multi-relationship graph, representing the image differences between two images for the image difference VQA task. The dataset and code can be found at https://github.com/Holipori/MIMIC-Diff-VQA. We believe this work would further push forward the medical vision language model. | 翻訳日:2024-08-29 21:40:54 公開日:2024-08-27 |
# 効率的なサロゲートスコアを用いた変分ベイズイメージング
Variational Bayesian Imaging with an Efficient Surrogate Score-based Prior ( http://arxiv.org/abs/2309.01949v2 ) ライセンス: Link先を確認 | Berthy T. Feng, Katherine L. Bouman, | (参考訳) ベイズ画像におけるスコアベース先行値の効率的かつ原則的利用のためのサロゲート関数を提案する。
不完全, 雑音の計測により, クリーンな画像後部を狙う不完全な逆画像問題について考察する。
測定は真の像を一意に決定しないので、解空間を制約するためには先行性が必要である。
最近の研究は、スコアベースの拡散モデルを、ODEベースの対数確率関数に訴えることにより、不適切な画像問題を解くための原則化された先行モデルに転換した。
しかし、ODEの評価は計算的に非効率であり、高次元画像の後方推定を阻害する。
提案するサロゲート先行法は, スコアベース拡散モデルの低境界に基づくものである。
変動推定に先立ってサロゲートを実証し, 大規模画像の高精度な近似的後方サンプリングを行った。
先行研究と比較すると, このサロゲートは, 少なくとも2桁の差分画像分布の最適化を高速化する。
また,本手法は,推定におけるハイパーパラメータチューニングを含む非変分拡散に基づく手法よりも,より正確な後方推定を行う。
本研究は,スコアベース拡散モデルを汎用画像として活用するための実践的な道筋を確立する。
We propose a surrogate function for efficient yet principled use of score-based priors in Bayesian imaging. We consider ill-posed inverse imaging problems in which one aims for a clean image posterior given incomplete or noisy measurements. Since the measurements do not uniquely determine a true image, a prior is needed to constrain the solution space. Recent work turned score-based diffusion models into principled priors for solving ill-posed imaging problems by appealing to an ODE-based log-probability function. However, evaluating the ODE is computationally inefficient and inhibits posterior estimation of high-dimensional images. Our proposed surrogate prior is based on the evidence lower bound of a score-based diffusion model. We demonstrate the surrogate prior on variational inference for efficient approximate posterior sampling of large images. Compared to the exact prior in previous work, our surrogate accelerates optimization of the variational image distribution by at least two orders of magnitude. We also find that our principled approach gives more accurate posterior estimation than non-variational diffusion-based approaches that involve hyperparameter-tuning at inference. Our work establishes a practical path forward for using score-based diffusion models as general-purpose image priors. | 翻訳日:2024-08-29 21:31:09 公開日:2024-08-27 |
# エバネッセント電子波スピン
Evanescent Electron Wave Spin ( http://arxiv.org/abs/2309.17325v4 ) ライセンス: Link先を確認 | Ju Gao, Fang Shen, | (参考訳) 本研究は、ディラック方程式を解き、境界におけるスピノル波動関数の連続性を確保することにより、有限および無限量子井戸の外側にエバネッセント電子波が存在することを示す。
このエバネッセント波は井戸内に閉じ込められた波とスピン特性を共有しており、すべての領域にわたる電流密度の解析式が支持している。
この結果から、電子波は量子情報の量子エントロピーが量子閉じ込めを通して漏れることのできる数学的特異点に制限されないことが示唆された。
その結果、ローレンツ不変電荷と電流密度によって完全に特徴づけられる電子波は、電子の真かつ唯一の存在とみなすべきであることが強調された。
This study demonstrates the existence of an evanescent electron wave outside both finite and infinite quantum wells by solving the Dirac equation and ensuring continuity of the spinor wavefunction at the boundaries. We show that this evanescent wave shares spin characteristics with the wave confined within the well, as supported by analytical expressions for the current density across the all regions. Our findings suggest that the electron wave cannot be confined to a mathematical singularity, which allows quantum information, or quantum entropy, to leak through the quantum confinement. The results emphasize that the electron wave, fully characterized by Lorentz-invariant charge and current densities, should be regarded as the true and sole entity of the electron. | 翻訳日:2024-08-29 21:31:08 公開日:2024-08-27 |
# 忠実度測定可能なマスケ言語モデル
Faithfulness Measurable Masked Language Models ( http://arxiv.org/abs/2310.07819v3 ) ライセンス: Link先を確認 | Andreas Madsen, Siva Reddy, Sarath Chandar, | (参考訳) NLPモデルを説明するための一般的なアプローチは、予測にどのトークンが重要であるかを表現する重要な尺度を使用することである。
残念なことに、このような説明は説得力があるにもかかわらずしばしば間違っている。
そのため、彼らの忠実さを測ることが不可欠である。
そのような指標の1つは、トークンが本当に重要であるなら、それらを隠すことはモデルのパフォーマンスを悪化させる。
しかし、トークンマスキングはアウト・オブ・ディストリビューションの問題を導入し、これに対処する既存のソリューションは計算コストが高く、プロキシモデルを採用している。
さらに、他のメトリクスはスコープが非常に限られています。
この研究は、これらの課題に対処する本質的に忠実度測定可能なモデルを提案する。
これはマスキングを取り入れた新しい微調整手法を用いて実現され、マスクトークンが設計によって流通する。
これは、完全にモデルに依存しない既存のアプローチとは異なるが、実際には適用できない。
我々は16の異なるデータセットに適用し、統計的分布内テストを用いて検証することで、我々のアプローチの汎用性を実証する。
その後、信頼度は9つの異なる重要度で測定される。
マスキングは流通しないため、マスキング自体が重視する重要度は一貫して忠実になる。
さらに,本モデルは信頼度を安価に測定できるため,最大忠実度に対する説明を最適化することができるため,本モデルは間接的に説明可能である。
A common approach to explaining NLP models is to use importance measures that express which tokens are important for a prediction. Unfortunately, such explanations are often wrong despite being persuasive. Therefore, it is essential to measure their faithfulness. One such metric is if tokens are truly important, then masking them should result in worse model performance. However, token masking introduces out-of-distribution issues, and existing solutions that address this are computationally expensive and employ proxy models. Furthermore, other metrics are very limited in scope. This work proposes an inherently faithfulness measurable model that addresses these challenges. This is achieved using a novel fine-tuning method that incorporates masking, such that masking tokens become in-distribution by design. This differs from existing approaches, which are completely model-agnostic but are inapplicable in practice. We demonstrate the generality of our approach by applying it to 16 different datasets and validate it using statistical in-distribution tests. The faithfulness is then measured with 9 different importance measures. Because masking is in-distribution, importance measures that themselves use masking become consistently more faithful. Additionally, because the model makes faithfulness cheap to measure, we can optimize explanations towards maximal faithfulness; thus, our model becomes indirectly inherently explainable. | 翻訳日:2024-08-29 21:31:08 公開日:2024-08-27 |
# 完全同型暗号化とプライバシ保護機械学習のためのブラインド評価フレームワーク
Blind Evaluation Framework for Fully Homomorphic Encryption and Privacy-Preserving Machine Learning ( http://arxiv.org/abs/2310.13140v4 ) ライセンス: Link先を確認 | Hunjae "Timothy" Lee, Corey Clark, | (参考訳) プライバシ保護機械学習(PPML)の領域では、マシンラーニングモデリングのセキュアでプライバシ保護のアウトソーシングを可能にするために、FHE(Fully Homomorphic Encryption)がしばしば暗号化計算に使用される。
FHEは暗号化演算を可能にするが、制御構造や条件付きプログラミングのようなプログラム論理の実行は依然として困難である。
その結果、PPMLとFHEの暗号化トレーニングの進歩は、トレーニングに必要な論理的複雑さがかなり高いため、暗号化推論に比べて比較的停滞している。
さらに、暗号化トレーニングを実証した以前の作業では、信頼できないコンピュータパーティ(サーバ)と信頼できるプライベートキー所有者(クライアント)の対話的なラウンドを使用して、特定の操作を平文で復号し、評価するInteractive Rounds of Decryption and Evaluation (IRDE)を使用していた。
例えば、決定木トレーニングでは、現在の最先端は d のツリー深さに対して IRDE の d ラウンドを必要とする。
PPML と FHE でこの問題に対処するため,IRDE を使わずに,視覚的かつ正しいプログラミングロジックの実行を可能にする,暗号的にセキュアなプログラミングフレームワークである Blind Evaluation Framework (BEF) を紹介した。
これは、論理論理を二進回路と二進演算に分解して論理文の代替表現を見つけ、安全な論理プログラミングのためにそれらをFHEに採用することで達成される。
我々の知る限りでは、このフレームワークは、復号ラウンドなしでFHEによるPPMLモデルのトレーニングと推論を可能にする最初のフレームワークです。
IRDEを完全に排除することによって、IRDE効率の最先端を推し進めることにより、BEFは、大量のコンピューティングサービスが利用可能なユースケースにおいて、信頼できるクライアントが復号ラウンドを実行できるような機能を持たずに、FHEの採用を可能にする。
In the domain of Privacy-Preserving Machine Learning (PPML), Fully Homomorphic Encryption (FHE) is often used for encrypted computation to allow secure and privacy-preserving outsourcing of machine learning modeling. While FHE enables encrypted arithmetic operations, execution of programmatic logic such as control structures or conditional programming have remained a challenge. As a result, progress in encrypted training of PPML with FHE has been relatively stagnant compared to encrypted inference owing to the considerably higher logical complexity required in training. In addition, prior works that have demonstrated encrypted training use Interactive Rounds of Decryption and Evaluation (IRDE), where certain operations are decrypted and evaluated in plaintext using interactive rounds between the untrusted computing party (server) and the trusted private-key owner (client). In decision tree training for example, the current state-of-the-art requires d-rounds of IRDE for tree-depth of d. To address this issue in PPML and FHE, we introduce the Blind Evaluation Framework (BEF), a cryptographically secure programming framework that enables blind, but correct, execution of programming logic without IRDE. This is achieved by deconstructing programming logic into binary circuits and binary arithmetic to find alternative representations of logical statements, and adopting them to FHE for secure logical programming. To the best of our knowledge, this is the first framework to enable both training and inference of PPML models with FHE without decryption rounds. By advancing the state-of-the-art in IRDE efficiency by eliminating IRDE entirely, BEF enables adoption of FHE in use-cases where large amounts of computing services are available without the ability to have trusted clients available to perform decryption rounds. | 翻訳日:2024-08-29 21:31:08 公開日:2024-08-27 |
# Genixer: 強力なデータジェネレータとしてのマルチモーダル大言語モデル
Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator ( http://arxiv.org/abs/2312.06731v6 ) ライセンス: Link先を確認 | Henry Hengyuan Zhao, Pan Zhou, Mike Zheng Shou, | (参考訳) MLLM(Multimodal Large Language Models)は、例外的な問題解決能力を示すが、視覚的インストラクションチューニングデータを生成する能力を評価することを目的とした研究は少ない。
本稿では,GPT-4に頼らずにMLLMを独立してデータ生成に活用する可能性を検討する。
Genixerは4つの重要なステップからなる包括的なデータ生成パイプラインです。
(i)命令データ収集
(ii) 命令テンプレートの設計
三 MLLMの強化、及び
(iv)データ生成とフィルタリング。
さらに、タスク非依存とタスク固有の2つのデータ生成モードを概説し、制御可能な出力を可能にした。
LLaVA1.5でトレーニングされた合成VQAライクなデータセットは、12のマルチモーダルベンチマークのうち10の精度を高めることを実証する。
さらに、MLLM Shikraは、RECに似た合成データセットでトレーニングされると、8つのRECデータセットのうち7つが改善されている。
実験と合成データ分析により,(1)現在のMLLMは GPT-4V の助けなしに堅牢なデータ生成装置として機能し,(2)タスク固有のデータセットで訓練されたMLLMは GPT-4V を超え,(3) 合成データセットは様々なマルチモーダルベンチマークのパフォーマンスを高め,モデル幻覚を緩和する。
データ、コード、モデルはhttps://github.com/zhaohengyuan1/Genixer.comで確認できる。
Multimodal Large Language Models (MLLMs) demonstrate exceptional problem-solving capabilities, but few research studies aim to gauge the ability to generate visual instruction tuning data. This paper proposes to explore the potential of empowering MLLMs to generate data independently without relying on GPT-4. We introduce Genixer, a comprehensive data generation pipeline consisting of four key steps: (i) instruction data collection, (ii) instruction template design, (iii) empowering MLLMs, and (iv) data generation and filtering. Additionally, we outline two modes of data generation: task-agnostic and task-specific, enabling controllable output. We demonstrate that a synthetic VQA-like dataset trained with LLaVA1.5 enhances performance on 10 out of 12 multimodal benchmarks. Additionally, the grounding MLLM Shikra, when trained with a REC-like synthetic dataset, shows improvements on 7 out of 8 REC datasets. Through experiments and synthetic data analysis, our findings are: (1) current MLLMs can serve as robust data generators without assistance from GPT-4V; (2) MLLMs trained with task-specific datasets can surpass GPT-4V in generating complex instruction tuning data; (3) synthetic datasets enhance performance across various multimodal benchmarks and help mitigate model hallucinations. The data, code, and models can be found at https://github.com/zhaohengyuan1/Genixer. | 翻訳日:2024-08-29 21:19:05 公開日:2024-08-27 |
# 量子熱力学のメソスコピックリーズ定式化におけるエントロピー生成
Entropy production in the mesoscopic-leads formulation of quantum thermodynamics ( http://arxiv.org/abs/2312.12513v2 ) ライセンス: Link先を確認 | Artur M. Lacerda, Michael J. Kewming, Marlon Brenes, Conor Jackson, Stephen R. Clark, Mark T. Mitchison, John Goold, | (参考訳) 熱浴と強く結合した系のエントロピー生成を理解することは、量子熱力学とメソスコピック物理学の双方の核となる問題である。
このようなシステムでエントロピー生産を正確に研究する技術は数多く存在するが、一般的には浴槽の微細な記述が必要であり、大規模なシステムの研究には数値的に難解になる。
あるいは、様々なレベルの近似に関連するすべてのニュアンスに、オープンシステムアプローチを適用することもできる。
近年、メソスコピック・リード・アプローチは、複数の熱浴と強く結合した量子系を研究するための強力な方法として出現している。
この方法では、離散化されたリードモードの集合は、それぞれ局所的に減衰し、マルコフの埋め込みを提供する。
ここでは,この手法が強結合なオープン量子系のエントロピー生成を記述するのに極めて有用であることを示す。
我々は,非相互作用系と相互作用系の両方において,単一の浴槽に結合した系が埋め込みのレベルで熱的固定点を示すことを数値的に示す。
これにより、量子力学半群の熱力学から様々な結果を用いて、強結合された非マルコフ中心系の非平衡熱力学を推測することができる。
特に、過渡的な状態におけるエントロピー生成は、単項および複数項の場合に明示的に計算できる補正により、よく確立されたエントロピー生成の顕微鏡的定義を復元することを示した。
Understanding the entropy production of systems strongly coupled to thermal baths is a core problem of both quantum thermodynamics and mesoscopic physics. While there exist many techniques to accurately study entropy production in such systems, they typically require a microscopic description of the baths, which can become numerically intractable to study for large systems. Alternatively an open-systems approach can be employed with all the nuances associated with various levels of approximation. Recently, the mesoscopic leads approach has emerged as a powerful method for studying such quantum systems strongly coupled to multiple thermal baths. In this method, a set of discretised lead modes, each locally damped, provide a Markovian embedding. Here we show that this method proves extremely useful to describe entropy production of a strongly coupled open quantum system. We show numerically, for both non-interacting and interacting setups, that a system coupled to a single bath exhibits a thermal fixed point at the level of the embedding. This allows us to use various results from the thermodynamics of quantum dynamical semi-groups to infer the non-equilibrium thermodynamics of the strongly coupled, non-Markovian central systems. In particular, we show that the entropy production in the transient regime recovers the well established microscopic definitions of entropy production with a correction that can be computed explicitly for both the single- and multiple-lead cases. | 翻訳日:2024-08-29 21:19:05 公開日:2024-08-27 |
# Universal Time-Series Representation Learning: A Survey
Universal Time-Series Representation Learning: A Survey ( http://arxiv.org/abs/2401.03717v3 ) ライセンス: Link先を確認 | Patara Trirat, Yooju Shin, Junhyeok Kang, Youngeun Nam, Jihye Na, Minyoung Bae, Joeun Kim, Byunghyun Kim, Jae-Gil Lee, | (参考訳) 時系列データは、空の衛星から人体のウェアラブルデバイスまで、現実世界のシステムやサービスのあらゆるコーナーに存在する。
これらの時系列から貴重な情報を抽出して推論することによって表現を学習することは、特定の現象の複雑なダイナミクスを理解し、情報的決定を可能にするために重要である。
学習した表現により、より効果的に多数の下流分析を行うことができる。
いくつかのアプローチの中で、ディープラーニングは、手動の特徴工学を使わずに時系列データから隠れパターンや特徴を抽出する際、顕著な性能を示した。
本調査はまず,時系列における最先端の普遍的表現学習手法の設計における3つの基本的要素に基づく新しい分類法を提案する。
提案する分類学では,既存の研究を包括的にレビューし,これらの手法が学習表現の質を高める方法に関する直観と洞察について考察する。
最後に、今後の研究の指針として、実験装置とデータセットを概説し、いくつかの有望な研究方向性について論じる。
最新の対応リソースはhttps://github.com/itouchz/awesome-deep-time-series-representationsで公開されている。
Time-series data exists in every corner of real-world systems and services, ranging from satellites in the sky to wearable devices on human bodies. Learning representations by extracting and inferring valuable information from these time series is crucial for understanding the complex dynamics of particular phenomena and enabling informed decisions. With the learned representations, we can perform numerous downstream analyses more effectively. Among several approaches, deep learning has demonstrated remarkable performance in extracting hidden patterns and features from time-series data without manual feature engineering. This survey first presents a novel taxonomy based on three fundamental elements in designing state-of-the-art universal representation learning methods for time series. According to the proposed taxonomy, we comprehensively review existing studies and discuss their intuitions and insights into how these methods enhance the quality of learned representations. Finally, as a guideline for future studies, we summarize commonly used experimental setups and datasets and discuss several promising research directions. An up-to-date corresponding resource is available at https://github.com/itouchz/awesome-deep-time-series-representations. | 翻訳日:2024-08-29 21:19:05 公開日:2024-08-27 |
# ジェネレーティブAIのためのレッドチーム:銀の弾丸かセキュリティシアターか?
Red-Teaming for Generative AI: Silver Bullet or Security Theater? ( http://arxiv.org/abs/2401.15897v3 ) ライセンス: Link先を確認 | Michael Feffer, Anusha Sinha, Wesley Hanwen Deng, Zachary C. Lipton, Hoda Heidari, | (参考訳) ジェネレーティブAI(GenAI)モデルの安全性、セキュリティ、信頼性に関する懸念の高まりに対して、実践者や規制当局も、これらのリスクを特定し緩和するための戦略の重要な要素として、AIのリピートを挙げている。
しかし、政策議論や企業メッセージングにおけるAIのレッドチームの役割にもかかわらず、それが正確には何を意味するのか、規制においてどのような役割を果たすのか、また、サイバーセキュリティの分野で最初に考え出されたような従来のレッドチームの実践とどのように関係するのか、重要な疑問が残る。
本研究では,AI産業における赤チーム活動の最近の事例を特定し,関連する研究文献を広範囲に調査し,AI赤チーム実践のスコープ,構造,基準を特徴づける。
分析の結果,活動目的(曖昧な場合が多い),評価対象の成果物(アクター,リソース,メソッド),通知する意思決定(報告,開示,緩和など)など,AIの事前の手法と実践が複数の軸に沿って分散していることが判明した。
当社の調査結果を踏まえると、赤いチーム化はGenAIの害虫対策を特徴付ける上で価値のある大胆なアイデアであり、業界は、赤いチーム化やその他の戦略を、AIの安全を守るために効果的に適用し、赤いチーム化(パブリックな定義に基づく)へのジェスチャーを、セキュリティシアターのあらゆるリスク検証のためのパナセアとして適用することができる、と論じている。
生成AIの評価のより堅牢なツールボックスに向けて、私たちは、私たちの推奨事項を、将来のAI赤チームプラクティスをガイドし、足場にすることを目的とした質問銀行に合成します。
In response to rising concerns surrounding the safety, security, and trustworthiness of Generative AI (GenAI) models, practitioners and regulators alike have pointed to AI red-teaming as a key component of their strategies for identifying and mitigating these risks. However, despite AI red-teaming's central role in policy discussions and corporate messaging, significant questions remain about what precisely it means, what role it can play in regulation, and how it relates to conventional red-teaming practices as originally conceived in the field of cybersecurity. In this work, we identify recent cases of red-teaming activities in the AI industry and conduct an extensive survey of relevant research literature to characterize the scope, structure, and criteria for AI red-teaming practices. Our analysis reveals that prior methods and practices of AI red-teaming diverge along several axes, including the purpose of the activity (which is often vague), the artifact under evaluation, the setting in which the activity is conducted (e.g., actors, resources, and methods), and the resulting decisions it informs (e.g., reporting, disclosure, and mitigation). In light of our findings, we argue that while red-teaming may be a valuable big-tent idea for characterizing GenAI harm mitigations, and that industry may effectively apply red-teaming and other strategies behind closed doors to safeguard AI, gestures towards red-teaming (based on public definitions) as a panacea for every possible risk verge on security theater. To move toward a more robust toolbox of evaluations for generative AI, we synthesize our recommendations into a question bank meant to guide and scaffold future AI red-teaming practices. | 翻訳日:2024-08-29 21:09:20 公開日:2024-08-27 |
# 一次元における非中心相互作用を持つ量子粒子の定常特性に対する暗黒状態の影響
Impact of dark states on the stationary properties of quantum particles with off-centered interactions in one dimension ( http://arxiv.org/abs/2403.10078v3 ) ライセンス: Link先を確認 | G. Bougas, N. L. Harshman, P. Schmelcher, | (参考訳) 一次元に閉じ込められた非相対論的粒子に対する2体接触相互作用の一般化を提案する。
粒子は距離cが離れているときにのみ相互作用する。
相互作用長スケールと振動子長の競合は、エネルギースペクトルから同定される3つのレギュレーションをもたらす。
c が振動子長より小さい場合、粒子は互いに避けるが、逆の場合、束縛が発生する。
発振器長がcに匹敵する中間領域では、排除と束縛の両方が現れる。
これらの領域は全て、相互作用の影響を受けない暗黒状態、すなわちボゾン状態またはフェルミオン状態によって分離される。
We present a generalization of the two-body contact interaction for non-relativistic particles trapped in one dimension. The particles interact only when they are a distance c apart. The competition of the interaction length scale with the oscillator length leads to three regimes identified from the energy spectra. When c is less than the oscillator length, particles avoid each other, whereas in the opposite case bunching occurs. In the intermediate region where the oscillator length is comparable to c, both exclusion and bunching are manifested. All of these regions are separated by dark states, i.e. bosonic or fermionic states which are not affected by the interactions. | 翻訳日:2024-08-29 20:59:10 公開日:2024-08-27 |
# 新しいデータセットと学習フレームワーク
Computer User Interface Understanding. A New Dataset and a Learning Framework ( http://arxiv.org/abs/2403.10170v2 ) ライセンス: Link先を確認 | Andrés Muñoz, Daniel Borrajo, | (参考訳) ユーザインターフェース(UI)の理解は、ここ数年でますます人気が高まっているトピックです。
これまでのところ、Webやモバイルアプリケーションだけに重点を置いてきた。
本稿では,コンピュータUI理解の難しさについて紹介する。
この分野での研究を可能にするために、ユーザが一連のアクションを実行しているビデオと、その時点で各画像がデスクトップコンテンツを表示する一連のデータセットを作成した。
また、関連する特徴を持つデータセットを増強する合成サンプル生成パイプラインと、ビデオ内の画像の分類を行うコントラスト学習方法からなるフレームワークを提案する。
複数の部分的なタスクを同時に処理することで、画像の特徴と自然な条件、木のような関係を利用して表現の学習を規則化する。
実験結果から,提案したフレームワークは,これまで提案されていた階層型マルチラベル・コントラストのUI分類における損失よりも優れていた。
User Interface (UI) understanding has been an increasingly popular topic over the last few years. So far, there has been a vast focus solely on web and mobile applications. In this paper, we introduce the harder task of computer UI understanding. With the goal of enabling research in this field, we have generated a dataset with a set of videos where a user is performing a sequence of actions and each image shows the desktop contents at that time point. We also present a framework that is composed of a synthetic sample generation pipeline to augment the dataset with relevant characteristics, and a contrastive learning method to classify images in the videos. We take advantage of the natural conditional, tree-like, relationship of the images' characteristics to regularize the learning of the representations by dealing with multiple partial tasks simultaneously. Experimental results show that the proposed framework outperforms previously proposed hierarchical multi-label contrastive losses in fine-grain UI classification. | 翻訳日:2024-08-29 20:59:10 公開日:2024-08-27 |
# Vid2Robot: クロスアテンショントランスフォーマーを用いたエンドツーエンドのビデオ条件付きポリシー学習
Vid2Robot: End-to-end Video-conditioned Policy Learning with Cross-Attention Transformers ( http://arxiv.org/abs/2403.12943v2 ) ライセンス: Link先を確認 | Vidhi Jain, Maria Attarian, Nikhil J Joshi, Ayzaan Wahid, Danny Driess, Quan Vuong, Pannag R Sanketi, Pierre Sermanet, Stefan Welker, Christine Chan, Igor Gilitschenski, Yonatan Bisk, Debidatta Dwibedi, | (参考訳) 大規模なマルチタスクロボット操作システムは、タスクを特定するためにテキストに依存することが多い。
本研究では,人間を観察することでロボットが学べるかどうかを考察する。
そのためには,実施形態や環境の違いにもかかわらず,ロボットは人の意図を理解し,推論タスクを実行する必要がある。
Vid2Robotは、人間のビデオで操作タスクを入力として表現し、ロボットアクションを生成する、エンドツーエンドのビデオ条件付きポリシーである。
我々のモデルは、ビデオから人間とロボットのアクションの統一表現を学習するために、プロンプトロボット軌道対の大規模なデータセットを用いて訓練されている。
Vid2Robotは、ビデオ機能と現在のロボット状態の間のクロスアテンショントランスフォーマーレイヤを使用して、アクションを生成し、ビデオに示されているように同じタスクを実行する。
我々は、プロンプトとロボットビデオの表現をより良くするために、補助的なコントラスト損失を用いて調整する。
実世界のロボット上でのVid2Robotの評価を行い、人間のプロンプトビデオを用いた場合、BC-Zよりも20%以上の改善が見られた。
また,ロボットの環境下において,プロンプト映像中のある物体に観察された動作を他の物体に転送することができるクロスオブジェクト動作伝達機能についても示す。
ビデオはhttps://vid2robot.github.ioで公開されている。
Large-scale multi-task robotic manipulation systems often rely on text to specify the task. In this work, we explore whether a robot can learn by observing humans. To do so, the robot must understand a person's intent and perform the inferred task despite differences in the embodiments and environments. We introduce Vid2Robot, an end-to-end video-conditioned policy that takes human videos demonstrating manipulation tasks as input and produces robot actions. Our model is trained with a large dataset of prompt video-robot trajectory pairs to learn unified representations of human and robot actions from videos. Vid2Robot uses cross-attention transformer layers between video features and the current robot state to produce the actions and perform the same task as shown in the video. We use auxiliary contrastive losses to align the prompt and robot video representations for better policies. We evaluate Vid2Robot on real-world robots and observe over 20% improvement over BC-Z when using human prompt videos. Further, we also show cross-object motion transfer ability that enables video-conditioned policies to transfer a motion observed on one object in the prompt video to another object in the robot's own environment. Videos available at https://vid2robot.github.io | 翻訳日:2024-08-29 20:59:10 公開日:2024-08-27 |
# 確率補間子とフェルマー過程による確率予測
Probabilistic Forecasting with Stochastic Interpolants and Föllmer Processes ( http://arxiv.org/abs/2403.13724v2 ) ライセンス: Link先を確認 | Yifan Chen, Mark Goldstein, Mengjian Hua, Michael S. Albergo, Nicholas M. Boffi, Eric Vanden-Eijnden, | (参考訳) 生成モデルに基づく動的システムの確率的予測のためのフレームワークを提案する。
システム状態の経時的観察を前提として,将来のシステム状態の条件分布からのサンプリングとして予測問題を定式化する。
この目的のために、任意の基底分布と対象の間の生成モデルの構築を容易にする確率補間器の枠組みを利用する。
我々は、現在のシステム状態の初期条件として、有限時間かつバイアスのないターゲット条件分布からサンプルを出力する、架空の非物理的確率力学を設計する。
この過程は、現在の状態中心の点質量を予測の確率的アンサンブルにマッピングする。
この課題を達成する確率微分方程式(SDE)に入るドリフト係数は非特異であり、時系列データ上での2乗損失回帰により効率よく学習できることを証明した。
このSDEのドリフトと拡散係数は訓練後に調整できることを示し、推定誤差の影響を最小限に抑える特定の選択がF\"ollmerプロセスを与えることを示した。
我々は,KTHおよびCLEVRERデータセット上で,統計的に強制されたNavier-Stokesやビデオ予測など,複雑で高次元な予測問題に対するアプローチの有用性を強調した。
We propose a framework for probabilistic forecasting of dynamical systems based on generative modeling. Given observations of the system state over time, we formulate the forecasting problem as sampling from the conditional distribution of the future system state given its current state. To this end, we leverage the framework of stochastic interpolants, which facilitates the construction of a generative model between an arbitrary base distribution and the target. We design a fictitious, non-physical stochastic dynamics that takes as initial condition the current system state and produces as output a sample from the target conditional distribution in finite time and without bias. This process therefore maps a point mass centered at the current state onto a probabilistic ensemble of forecasts. We prove that the drift coefficient entering the stochastic differential equation (SDE) achieving this task is non-singular, and that it can be learned efficiently by square loss regression over the time-series data. We show that the drift and the diffusion coefficients of this SDE can be adjusted after training, and that a specific choice that minimizes the impact of the estimation error gives a F\"ollmer process. We highlight the utility of our approach on several complex, high-dimensional forecasting problems, including stochastically forced Navier-Stokes and video prediction on the KTH and CLEVRER datasets. | 翻訳日:2024-08-29 20:59:10 公開日:2024-08-27 |
# コントローラネットワークのドロップアウトによる時間論理タスクのスケーリング学習に基づくポリシー最適化
Scaling Learning based Policy Optimization for Temporal Logic Tasks by Controller Network Dropout ( http://arxiv.org/abs/2403.15826v2 ) ライセンス: Link先を確認 | Navid Hashemi, Bardh Hoxha, Danil Prokhorov, Georgios Fainekos, Jyotirmoy Deshmukh, | (参考訳) 本稿では,非非線形(決定論的)な環境下で動作する自律エージェントに対するフィードバックコントローラのトレーニングモデルに基づくアプローチを提案する。
我々は、エージェントが特定のタスク目標と安全制約を満たすことを保証するために、訓練されたポリシーを望んでおり、どちらも離散時間信号時論理(DT-STL)で表される。
DT-STLのような形式的なフレームワークによるタスクの再構成の利点の1つは、定量的なセマンティクスを可能にすることである。
言い換えれば、軌道とDT-STLの公式が与えられた場合、この公式を満たす軌跡と軌跡の集合の間のおよそ符号付き距離として解釈できる「レムロバストネス」を計算することができる。
フィードバック制御を利用し、フィードバック制御を学習するためにフィードフォワードニューラルネットワークを仮定する。
この学習問題は、エージェントのタスク目標の時間的地平線に比例して繰り返し単位の数が比例する、リカレントニューラルネットワーク(RNN)のトレーニングとどのように似ているかを示す。
このことは、RNNは勾配の消滅と爆発に感受性があり、na\"{i}ve 勾配降下に基づく戦略は、長い水平タスクの目的を解決するため、同じ問題に悩まされる。
この課題に対処するために、ドロップアウトや勾配サンプリングのアイデアに基づいた、新しい勾配近似アルゴリズムを導入する。
主なコントリビューションの1つが {\em controller network dropout} の概念であり、前回のトレーニングステップでコントローラを用いて得られた制御入力により、NNコントローラをタスク水平線の複数の時間ステップで近似する。
制御合成手法は,より少ない数値問題に収束する確率勾配降下に非常に役立ち,長期間の地平線上でのスケーラブルなバックプロパゲーションと高次元状態空間上でのトラジェクトリを実現することができることを示す。
This paper introduces a model-based approach for training feedback controllers for an autonomous agent operating in a highly nonlinear (albeit deterministic) environment. We desire the trained policy to ensure that the agent satisfies specific task objectives and safety constraints, both expressed in Discrete-Time Signal Temporal Logic (DT-STL). One advantage for reformulation of a task via formal frameworks, like DT-STL, is that it permits quantitative satisfaction semantics. In other words, given a trajectory and a DT-STL formula, we can compute the {\em robustness}, which can be interpreted as an approximate signed distance between the trajectory and the set of trajectories satisfying the formula. We utilize feedback control, and we assume a feed forward neural network for learning the feedback controller. We show how this learning problem is similar to training recurrent neural networks (RNNs), where the number of recurrent units is proportional to the temporal horizon of the agent's task objectives. This poses a challenge: RNNs are susceptible to vanishing and exploding gradients, and na\"{i}ve gradient descent-based strategies to solve long-horizon task objectives thus suffer from the same problems. To tackle this challenge, we introduce a novel gradient approximation algorithm based on the idea of dropout or gradient sampling. One of the main contributions is the notion of {\em controller network dropout}, where we approximate the NN controller in several time-steps in the task horizon by the control input obtained using the controller in a previous training step. We show that our control synthesis methodology, can be quite helpful for stochastic gradient descent to converge with less numerical issues, enabling scalable backpropagation over long time horizons and trajectories over high dimensional state spaces. | 翻訳日:2024-08-29 20:59:10 公開日:2024-08-27 |
# 大規模言語モデルを用いた政治Q&Aにおける回答の品質測定
Measuring the Quality of Answers in Political Q&As with Large Language Models ( http://arxiv.org/abs/2404.08816v2 ) ライセンス: Link先を確認 | R. Michael Alvarez, Jacob Morrier, | (参考訳) 本稿では,政治質問・回答セッションにおける回答の質を評価するための新しいアプローチを提案する。
本稿では,初期質問を正確に推測できる度合いに基づいて,回答の品質を測定することを提案する。
この回答の品質の尺度は、答えがいかにうまく関与し、最初の質問に対処するかを反映します。
セマンティックサーチと類似した図面を描き、この測定手法は、ラベル付きデータを追加せずに、観察された質問や回答のコーパス上で大きな言語モデルを微調整することで実現可能であることを実証する。
我々は,カナダ庶民院における質問期間の文脈内で,我々のアプローチを紹介し,回答品質の相関性に関する貴重な洞察を提供する。
本研究は, 議員の党員会派による質問に対する回答品質の有意な変動を明らかにした。
さらに,回答の品質と質問で提起された話題との間に有意な相関関係があることが判明した。
This paper introduces a new approach for measuring the quality of answers in political question-and-answer sessions. We propose to measure answer quality based on the degree to which it allows to infer the initial question accurately. This measure of answer quality reflects how well the answer engages with and addresses the initial question. Drawing an analogy with semantic search, we demonstrate that this measurement approach can be implemented by fine-tuning a large language model on the corpus of observed questions and answers without additional labeled data. We showcase our approach within the context of the Question Period in the Canadian House of Commons, providing valuable insights into the correlates of answer quality. Our findings reveal significant variations in answer quality based on the party affiliation of the members of Parliament asking the question. Additionally, we find a meaningful correlation between answer quality and the topic raised in the question. | 翻訳日:2024-08-29 20:49:20 公開日:2024-08-27 |
# OMEGAS:ガウスセグメンテーションでガイドされた大規模シーンからのオブジェクトメッシュ抽出
OMEGAS: Object Mesh Extraction from Large Scenes Guided by Gaussian Segmentation ( http://arxiv.org/abs/2404.15891v4 ) ライセンス: Link先を確認 | Lizhi Wang, Feng Zhou, Bo yu, Pu Cao, Jianqin Yin, | (参考訳) 近年の3D再構成技術は,複雑な3Dシーンの高品質かつリアルタイムレンダリングの道を開いた。
これらの成果にもかかわらず、注目すべき課題は、大きなシーンから特定のオブジェクトを正確に再構築することは困難である。
現在のシーン再構築技術は、しばしばオブジェクト詳細テクスチャが失われ、ビューに隠されたり、見えないオブジェクト部分の再構築ができない。
この課題に対処するために,我々は,ガウスセグメンテーションでガイドされた大規模シーンからのオブジェクトメッシュ抽出という,大規模シーン内の特定のオブジェクトの精密な3次元再構成を探索し,OMEGASというフレームワークを提案する。
具体的には,多視点シーン画像中の3次元一貫したターゲットマスクを分割し,予備的ターゲットモデルを生成する,2次元ガウス分割に基づく新しい3次元ターゲットセグメンテーション手法を提案する。
さらに, ターゲットの未確認部分を再構築するために, 大規模生成拡散により誘導される新たな目標補充手法を提案する。
本研究では,大規模シーンから,定量的かつ定性的に,特定のターゲットを正確に再構築できることを実証する。
本実験により, OMEGASは, 様々なシナリオにおいて, 既存の再建方法よりも有意に優れていることがわかった。
私たちのプロジェクトページは以下の通りです。
Recent advancements in 3D reconstruction technologies have paved the way for high-quality and real-time rendering of complex 3D scenes. Despite these achievements, a notable challenge persists: it is difficult to precisely reconstruct specific objects from large scenes. Current scene reconstruction techniques frequently result in the loss of object detail textures and are unable to reconstruct object portions that are occluded or unseen in views. To address this challenge, we delve into the meticulous 3D reconstruction of specific objects within large scenes and propose a framework termed OMEGAS: Object Mesh Extraction from Large Scenes Guided by Gaussian Segmentation. Specifically, we proposed a novel 3D target segmentation technique based on 2D Gaussian Splatting, which segments 3D consistent target masks in multi-view scene images and generates a preliminary target model. Moreover, to reconstruct the unseen portions of the target, we propose a novel target replenishment technique driven by large-scale generative diffusion priors. We demonstrate that our method can accurately reconstruct specific targets from large scenes, both quantitatively and qualitatively. Our experiments show that OMEGAS significantly outperforms existing reconstruction methods across various scenarios. Our project page is at: https://github.com/CrystalWlz/OMEGAS | 翻訳日:2024-08-29 20:49:20 公開日:2024-08-27 |
# Rydberg原子を用いた物質量子位相の生成と最大重み付き単位ディスクグラフの発見
Generation of quantum phases of matter and finding a maximum-weight independent set of unit-disk graphs using Rydberg atoms ( http://arxiv.org/abs/2405.09803v3 ) ライセンス: Link先を確認 | Ahmed M. Farouk, I. I. Beterov, Peng Xu, I. I. Ryabtsev, | (参考訳) 近年の量子コンピューティングと、リドバーグ励起を用いた中性原子配列を持つ多体系の量子シミュレーションは、様々な最適化問題の解法における計算上の優位性に対する予期せぬ機会を与えている。
単位ディスクグラフの最大ウェイト独立集合の問題は、NPハード最適化問題の例である。
それは、単位距離内で全ての頂点を接続するエッジを持つグラフに対して、その重みの最大和を持つ最大の頂点の集合を見つけることを含む。
この問題は、相互作用するRydberg原子の配列を持つ量子アニールを用いて解決できる。
特定のグラフに対して、原子の空間配置はグラフの頂点を表し、一方、リドベルクの励起における共鳴からの変形はこれらの頂点の重みを定義する。
グラフのエッジは単位ディスク基準に従って描画することができる。
最大ウェイト独立集合は変分量子断熱アルゴリズムを適用することで得られる。
相互作用する原子の量子系を多体基底状態に駆動し,非線形準断熱プロファイルを用いてライドバーグデチューニングを網羅する。
また、異なる化学元素の補助原子の集合である量子ワイヤを用いて、グラフの遠隔頂点間の強い結合を媒介する。
量子ワイヤの異なる長さに対するこの効果について検討する。
また、原子配列の1次元および2次元空間配置において、コンメニュレートおよび非コンメニュレート相を実現する物質の量子相についても検討する。
Recent progress in quantum computing and quantum simulation of many-body systems with arrays of neutral atoms using Rydberg excitation has provided unforeseen opportunities towards computational advantage in solving various optimization problems. The problem of a maximum-weight independent set of unit-disk graphs is an example of an NP-hard optimization problem. It involves finding the largest set of vertices with the maximum sum of their weights for a graph which has edges connecting all pairs of vertices within a unit distance. This problem can be solved using quantum annealing with an array of interacting Rydberg atoms. For a particular graph, a spatial arrangement of atoms represents vertices of the graph, while the detuning from resonance at Rydberg excitation defines the weights of these vertices. The edges of the graph can be drawn according to the unit disk criterion. Maximum-weight independent sets can be obtained by applying a variational quantum adiabatic algorithm. We consider driving the quantum system of interacting atoms to the many-body ground state using a non-linear quasi-adiabatic profile for sweeping the Rydberg detuning. We also propose using a quantum wire which is a set of auxiliary atoms of a different chemical element to mediate strong coupling between the remote vertices of the graph. We investigate this effect for different lengths of the quantum wire. We also investigate the quantum phases of matter realizing commensurate and incommensurate phases in one- and two-dimensional spatial arrangements of the atomic array. | 翻訳日:2024-08-29 20:49:20 公開日:2024-08-27 |
# 政策グラディエント駆動型騒音マスク
Policy Gradient-Driven Noise Mask ( http://arxiv.org/abs/2406.14568v2 ) ライセンス: Link先を確認 | Mehmet Can Yavuz, Yang Yang, | (参考訳) ディープラーニング分類器は、異質なマルチモーダルおよびマルチ組織バイオメディカルデータセットを扱う場合、重大な課題に直面している。
画像のモダリティに制限された低レベルの特徴区別性は、分類器の高レベルの意味関係を学習する能力を妨げ、結果として準最適性能をもたらす。
この問題に対処するために、画像強化戦略を正規化手法として採用する。
ネットワークトレーニング中の付加的なノイズ入力は、正規化法として確立された拡張であるが、現代のパイプラインは、ドロップアウトやウェイト崩壊のようなより堅牢な技術を好むことが多い。
この選好は、これらの確立された手法とノイズ入力を組み合わせることがモデル性能に悪影響を及ぼすという観察に起因している。
本研究では,マルチモーダル・マルチオーガナイズドデータセットの性能向上に適した条件付きノイズマスクの生成を学習する,新しい事前学習パイプラインを提案する。
強化学習アルゴリズムとして,微分可能なベータ分布と分類器ネットワークを用いて条件付き雑音のサンプリングを学習する,非常に軽量なポリシーネットワークからなる2成分系を用いる。
ポリシーネットワークは、事前訓練中に分類器を正規化する画像固有のノイズマスクを生成するために強化アルゴリズムを用いて訓練される。
重要な側面は、ポリシーネットワークの役割が微調整の前に中間的な(または加熱された)モデルを取得することに限定されていることである。
推測中、ポリシーネットワークは省略され、ベースラインモデルとノイズ正規化モデルを直接比較できる。
我々はRadImageNetデータセットの実験と関連する分析を行った。
その結果、中間モデルの微調整は、分類と一般化の両方の従来の訓練アルゴリズムよりも、目に見えない概念タスクに優れていた。
Deep learning classifiers face significant challenges when dealing with heterogeneous multi-modal and multi-organ biomedical datasets. The low-level feature distinguishability limited to imaging-modality hinders the classifiers' ability to learn high-level semantic relationships, resulting in sub-optimal performance. To address this issue, image augmentation strategies are employed as regularization techniques. While additive noise input during network training is a well-established augmentation as regularization method, modern pipelines often favor more robust techniques such as dropout and weight decay. This preference stems from the observation that combining these established techniques with noise input can adversely affect model performance. In this study, we propose a novel pretraining pipeline that learns to generate conditional noise mask specifically tailored to improve performance on multi-modal and multi-organ datasets. As a reinforcement learning algorithm, our approach employs a dual-component system comprising a very light-weight policy network that learns to sample conditional noise using a differentiable beta distribution as well as a classifier network. The policy network is trained using the reinforce algorithm to generate image-specific noise masks that regularize the classifier during pretraining. A key aspect is that the policy network's role is limited to obtaining an intermediate (or heated) model before fine-tuning. During inference, the policy network is omitted, allowing direct comparison between the baseline and noise-regularized models. We conducted experiments and related analyses on RadImageNet datasets. Results demonstrate that fine-tuning the intermediate models consistently outperforms conventional training algorithms on both classification and generalization to unseen concept tasks. | 翻訳日:2024-08-29 20:38:57 公開日:2024-08-27 |
# 意図的頭部の不均質なコンテキストシャーディングによる効率的なLDM訓練と訓練
Efficient LLM Training and Serving with Heterogeneous Context Sharding among Attention Heads ( http://arxiv.org/abs/2407.17678v2 ) ライセンス: Link先を確認 | Xihui Lin, Yunan Zhang, Suyu Ge, Barun Patra, Vishrav Chaudhary, Hao Peng, Xia Song, | (参考訳) 既存のLLMトレーニングと推論フレームワークは、コンテキストとモデルアーキテクチャの整合性を維持しながら、疎結合で効率を高めるのに苦労しています。
データベースにおけるシャーディングの概念と,アテンションがアクセル上のヘッドを並列化するという事実に着想を得て,アテンションアルゴリズムであるSparsely-Sharded (S2) アテンション(注意)を提案する。
S2-Attentionは、各アテンションヘッドを強化されたスパーシティパターンに従ってコンテキストの分割にのみ参加するように強制する一方、フルコンテキストはすべてのシャードの結合として保存される。
注目ヘッドは別個のスレッドブロックで処理されるため、各ヘッドのコンテキスト削減はエンドツーエンドのスピードアップとメモリ削減をもたらす。
推測すると、S2-Attentionで訓練されたLLMは、KVキャッシュの削減をモデル品質の保証された無料の食事とすることができる。
実験では,(1)S2-Attentioncanは,(1)FlashAttention-2より25.3倍の注目速度を実現し,エンドツーエンドのトレーニング時間と10倍の推論遅延を6倍に削減し,(2)既定のアテンションに比べてモデルのトレーニング品質が向上し,(3)32Kコンテキストウインドウ上での良質なニードル検索精度が向上した。
アルゴリズムの上にDKernelというLLMトレーニングおよび推論カーネルライブラリを構築し、ユーザが自身のモデルに対してスパーシティパターンをカスタマイズできるようにする。
私たちはDKernelandをオープンソースにしてMegatron、Pytorch、vLLMと互換性のあるものにしました。
Existing LLM training and inference frameworks struggle in boosting efficiency with sparsity while maintaining the integrity of context and model architecture. Inspired by the sharding concept in database and the fact that attention parallelizes over heads on accelerators, we propose Sparsely-Sharded (S2) Attention, an attention algorithm that allocates heterogeneous context partitions for different attention heads to divide and conquer. S2-Attention enforces each attention head to only attend to a partition of contexts following a strided sparsity pattern, while the full context is preserved as the union of all the shards. As attention heads are processed in separate thread blocks, the context reduction for each head can thus produce end-to-end speed-up and memory reduction. At inference, LLMs trained with S2-Attention can then take the KV cache reduction as free meals with guaranteed model quality preserve. In experiments, we show S2-Attentioncan provide as much as (1) 25.3X wall-clock attention speed-up over FlashAttention-2, resulting in 6X reduction in end-to-end training time and 10X inference latency, (2) on-par model training quality compared to default attention, (3)perfect needle retrieval accuracy over 32K context window. On top of the algorithm, we build DKernel, an LLM training and inference kernel library that allows users to customize sparsity patterns for their own models. We open-sourced DKerneland make it compatible with Megatron, Pytorch, and vLLM. | 翻訳日:2024-08-29 20:28:56 公開日:2024-08-27 |
# 視覚言語AIにおける顔印象バイアスのデータセット尺度と社会的一貫性
Dataset Scale and Societal Consistency Mediate Facial Impression Bias in Vision-Language AI ( http://arxiv.org/abs/2408.01959v2 ) ライセンス: Link先を確認 | Robert Wolfe, Aayushi Dangol, Alexis Hiniker, Bill Howe, | (参考訳) 画像とテキストを関連付けることができるマルチモーダルAIモデルは、自動キャプションから視覚障害者向けのアクセシビリティアプリケーションまで、多くの領域で約束を達成している。
しかしながら、バイアスに関する不確実性は、一部のケースでは採用と可用性を制限している。
本研究は,43のCLIP視覚言語モデルを用いて,人間の顔印象バイアスを学習するかどうかを判定し,これらのバイアスが3つのCLIPモデルファミリーに反映されていることを示す。
社会全体でバイアスが共有される度合いがCLIPモデルに反映される度合いを予測するのはこれが初めてである。
信頼性やセクシュアリティといった、視覚的に観察不可能な属性の人間的な印象は、最大のデータセットでトレーニングされたモデルにのみ現れる。
さらに、階層的なクラスタリング手法を用いて、データセットのサイズが顔印象バイアスの基盤構造が人間の顔印象バイアスとどのように似ているかを予測していることを示す。
最後に,CLIPをテキストエンコーダとして使用する安定拡散モデルは,顔印象バイアスを学習し,これらのバイアスは,安定拡散XL-Turboの人種バイアスと交差することを示す。
事前訓練されたCLIPモデルはバイアスの科学的研究に有用であるが、ゼロショット設定で汎用モデルとしての使用を意図した場合には、かなりのデータセットのキュレーションも必要である。
Multimodal AI models capable of associating images and text hold promise for numerous domains, ranging from automated image captioning to accessibility applications for blind and low-vision users. However, uncertainty about bias has in some cases limited their adoption and availability. In the present work, we study 43 CLIP vision-language models to determine whether they learn human-like facial impression biases, and we find evidence that such biases are reflected across three distinct CLIP model families. We show for the first time that the the degree to which a bias is shared across a society predicts the degree to which it is reflected in a CLIP model. Human-like impressions of visually unobservable attributes, like trustworthiness and sexuality, emerge only in models trained on the largest dataset, indicating that a better fit to uncurated cultural data results in the reproduction of increasingly subtle social biases. Moreover, we use a hierarchical clustering approach to show that dataset size predicts the extent to which the underlying structure of facial impression bias resembles that of facial impression bias in humans. Finally, we show that Stable Diffusion models employing CLIP as a text encoder learn facial impression biases, and that these biases intersect with racial biases in Stable Diffusion XL-Turbo. While pretrained CLIP models may prove useful for scientific studies of bias, they will also require significant dataset curation when intended for use as general-purpose models in a zero-shot setting. | 翻訳日:2024-08-29 20:28:56 公開日:2024-08-27 |
# ML-EAT: 解釈・透明な社会科学のための多段階埋め込みアソシエーションテスト
ML-EAT: A Multilevel Embedding Association Test for Interpretable and Transparent Social Science ( http://arxiv.org/abs/2408.01966v2 ) ライセンス: Link先を確認 | Robert Wolfe, Alexis Hiniker, Bill Howe, | (参考訳) 本研究は,言語工学における内在バイアスの解釈と透過的測定を目的とした多段階埋め込みアソシエーションテスト(ML-EAT)を紹介する。
ML-EATは、2つの属性概念と2つの属性概念の差分関係、それぞれの目標概念と個々の属性概念の差分関係、という3つのレベルにおいてバイアスを定量化することで、従来のEAT測定の曖昧さと難易度を解釈する問題に対処する。
本研究は, ML-EATを用いて, 埋め込みアソシエーションテストの9つの可能性を示すEATパターンの分類を定義した。
静的およびダイアクロニックな単語埋め込み、GPT-2言語モデル、およびCLIP言語と画像モデルの実証分析により、EATパターンは、EATを構成するコンポーネントバイアスに関する観測不可能な情報を追加し、ゼロショットモデルでプロンプトの効果を明らかにする。
我々の研究は、偏見をより観察可能かつ解釈可能とし、人間の心や社会に対する計算調査の透明性を向上させる方法に貢献している。
This research introduces the Multilevel Embedding Association Test (ML-EAT), a method designed for interpretable and transparent measurement of intrinsic bias in language technologies. The ML-EAT addresses issues of ambiguity and difficulty in interpreting the traditional EAT measurement by quantifying bias at three levels of increasing granularity: the differential association between two target concepts with two attribute concepts; the individual effect size of each target concept with two attribute concepts; and the association between each individual target concept and each individual attribute concept. Using the ML-EAT, this research defines a taxonomy of EAT patterns describing the nine possible outcomes of an embedding association test, each of which is associated with a unique EAT-Map, a novel four-quadrant visualization for interpreting the ML-EAT. Empirical analysis of static and diachronic word embeddings, GPT-2 language models, and a CLIP language-and-image model shows that EAT patterns add otherwise unobservable information about the component biases that make up an EAT; reveal the effects of prompting in zero-shot models; and can also identify situations when cosine similarity is an ineffective metric, rendering an EAT unreliable. Our work contributes a method for rendering bias more observable and interpretable, improving the transparency of computational investigations into human minds and societies. | 翻訳日:2024-08-29 20:28:56 公開日:2024-08-27 |
# AI-Native Software Development Lifecycle:理論的かつ実践的な新しい方法論
The AI-Native Software Development Lifecycle: A Theoretical and Practical New Methodology ( http://arxiv.org/abs/2408.03416v3 ) ライセンス: Link先を確認 | Cory Hymel, | (参考訳) AIがソフトウェア開発ライフサイクル(SDLC)のすべてのフェーズに進化し、影響を与え続けるにつれ、ソフトウェア構築の新しい方法の必要性が生まれます。
SDLCの現況に影響を及ぼす要因と、AIによってどのように変化するかを分析することにより、新しい開発モデルを提案する。
白書では、計画からデプロイメントまで、AIが開発の各フェーズにシームレスに統合される、完全なAIネイティブなSDLCの出現を提案する。
本稿では,AIを終端から終端まで組み込んだ従来のV-モデルの適応であるV-バウンスモデルを紹介する。
V-BounceモデルはAIを活用して、実装フェーズに費やされた時間を劇的に削減し、要求収集、アーキテクチャ設計、継続的な検証に重点を置いている。
このモデルは、AIが実装エンジンとして機能するバリデータや検証者に至るまで、主要な実装者から人間の役割を再定義する。
As AI continues to advance and impact every phase of the software development lifecycle (SDLC), a need for a new way of building software will emerge. By analyzing the factors that influence the current state of the SDLC and how those will change with AI we propose a new model of development. This white paper proposes the emergence of a fully AI-native SDLC, where AI is integrated seamlessly into every phase of development, from planning to deployment. We introduce the V-Bounce model, an adaptation of the traditional V-model that incorporates AI from end to end. The V-Bounce model leverages AI to dramatically reduce time spent in implementation phases, shifting emphasis towards requirements gathering, architecture design, and continuous validation. This model redefines the role of humans from primary implementers to primarily validators and verifiers with AI acting as an implementation engine. | 翻訳日:2024-08-29 20:18:52 公開日:2024-08-27 |
# 数のある表について, 数を持つ表について
On Tables with Numbers, with Numbers ( http://arxiv.org/abs/2408.06062v3 ) ライセンス: Link先を確認 | Konstantinos Kogkalidis, Stergios Chatzikyriakidis, | (参考訳) 本稿では,現代計算言語学のエピステミック・カルチャーに対する批判的考察である。
我々は,その疫学的無関係,環境への影響,社会的不平等の有効化と悪化における役割,商業的応用と利益主導型研究との深い結びつきを踏まえて,数表について論じる。
我々は,過去10年間の計算言語学研究のメタ分析から得られた経験的証拠を用いて,我々の議論を裏付ける。
This paper is a critical reflection on the epistemic culture of contemporary computational linguistics, framed in the context of its growing obsession with tables with numbers. We argue against tables with numbers on the basis of their epistemic irrelevance, their environmental impact, their role in enabling and exacerbating social inequalities, and their deep ties to commercial applications and profit-driven research. We substantiate our arguments with empirical evidence drawn from a meta-analysis of computational linguistics research over the last decade. | 翻訳日:2024-08-29 20:18:52 公開日:2024-08-27 |
# IReCa:人間とAIの協調のためのコンテキスト認識強化学習
IReCa: Intrinsic Reward-enhanced Context-aware Reinforcement Learning for Human-AI Coordination ( http://arxiv.org/abs/2408.07877v2 ) ライセンス: Link先を確認 | Xin Hao, Bahareh Nakisa, Mohmmad Naim Rastgoo, Richard Dazeley, | (参考訳) 人間とAIの調整シナリオでは、人間のエージェントは通常、AIエージェントのエージェントと比べて著しく疎く予測不可能な非対称な振る舞いを示す。
これらの特徴は、スパース報酬を得る効果とAIエージェントを訓練する効率の2つの主要な課題をもたらす。
これらの課題に対処するため、本研究では、スパース報酬の獲得を容易にするために固有の報酬を利用する、学習効率を高めるために環境コンテキストを利用する、固有Reward-enhanced Context-aware(IReCa)強化学習(RL)アルゴリズムを提案する。
我々のIReCa RLアルゴリズムには3つの特徴がある。
一 環境からの内因的報酬を補う内因的報酬を組み込むことにより、疎外報酬の探索を奨励すること。
(二)当該スパース状態-作用対を優先することによりスパース報酬の取得を改善し、
第三に、外因性及び内因性報酬の革新的文脈を考慮した重み付けにより、探索と搾取を最適化することにより、訓練効率を向上させること。
オーバークッキングレイアウトで実行される広範囲なシミュレーションにより、我々のIReCa RLアルゴリズムは、蓄積した報酬を約20%増加させ、収束に必要なエポックを最先端のベースラインと比較して約67%削減できることを示した。
In human-AI coordination scenarios, human agents usually exhibit asymmetric behaviors that are significantly sparse and unpredictable compared to those of AI agents. These characteristics introduce two primary challenges to human-AI coordination: the effectiveness of obtaining sparse rewards and the efficiency of training the AI agents. To tackle these challenges, we propose an Intrinsic Reward-enhanced Context-aware (IReCa) reinforcement learning (RL) algorithm, which leverages intrinsic rewards to facilitate the acquisition of sparse rewards and utilizes environmental context to enhance training efficiency. Our IReCa RL algorithm introduces three unique features: (i) it encourages the exploration of sparse rewards by incorporating intrinsic rewards that supplement traditional extrinsic rewards from the environment; (ii) it improves the acquisition of sparse rewards by prioritizing the corresponding sparse state-action pairs; and (iii) it enhances the training efficiency by optimizing the exploration and exploitation through innovative context-aware weights of extrinsic and intrinsic rewards. Extensive simulations executed in the Overcooked layouts demonstrate that our IReCa RL algorithm can increase the accumulated rewards by approximately 20% and reduce the epochs required for convergence by approximately 67% compared to state-of-the-art baselines. | 翻訳日:2024-08-29 20:18:52 公開日:2024-08-27 |
# Coprime Bivariate Bicycle Codesとその特性
Coprime Bivariate Bicycle Codes and their Properties ( http://arxiv.org/abs/2408.10001v2 ) ライセンス: Link先を確認 | Ming Wang, Frank Mueller, | (参考訳) 本研究は, BB符号の探索過程を高速化する新しい数値アルゴリズムを提案し, 2) 量子誤り訂正に適したBB符号のサブクラスを新たに定義する。
提案した加速度探索アルゴリズムは,検索空間から等価なコードを取り除き,早期に悪いコードをドロップするしきい値を設定することにより,検索空間を縮小する。
このアルゴリズムで発見された多くの新しいBB符号が報告されている。
提案されたBB符号のサブクラスは、制約のないコンストラクタを持つ標準的なBB符号を使用するのではなく、BB符号の基礎として多項式を介してグループを構成するためにココリムを使用する。
符号発見に先立ってパラメータが不明なバニラBB符号とは対照的に,数値探索アルゴリズムの入力として係数多項式を指定することにより,提案符号の速度を事前に決定することができる。
このコリメBB構造を用いて、これまで知られていなかった驚くほど短小から中短の符号を発見した。
This work (1) proposes a novel numerical algorithm to accelerate the search process for good Bivariate Bicycle (BB) codes and (2) defines a new subclass of BB codes suitable for quantum error correction. The proposed acceleration search algorithm reduces the search space by excluding some equivalent codes from the search space, as well as setting thresholds to drop bad codes at an early stage. A number of new BB codes found by this algorithm are reported. The proposed subclass of BB codes employs coprimes to construct groups via polynomials as the basis for the BB code, rather than using the standard BB codes with unconstrained constructors. In contrast to vanilla BB codes, where parameters remain unknown prior to code discovery, the rate of the proposed code can be determined beforehand by specifying a factor polynomial as an input to the numerical search algorithm. Using this coprime BB construction, we found a number of surprisingly short to medium-length codes that were previously unknown. | 翻訳日:2024-08-29 18:22:33 公開日:2024-08-27 |
# 多視点データにおける共有・私的幾何学の教師なし発見
Unsupervised discovery of the shared and private geometry in multi-view data ( http://arxiv.org/abs/2408.12091v2 ) ライセンス: Link先を確認 | Sai Koukuntla, Joshua B. Julian, Jesse C. Kaminsky, Manuel Schottdorf, David W. Tank, Carlos D. Brody, Adam S. Charles, | (参考訳) 現代の応用は、しばしば研究対象の複数の視点を利用する。
神経科学では、複数の脳領域にまたがる大規模な同時記録への関心が高まっている。
ビュー間の関係(例えば、各領域の神経活動)を理解することは、各表現の特徴とシステムに関する基本的な原則を明らかにすることができる。
しかし、そのような関係を特徴づける既存の方法は、複雑な非線形性を捉えるのに必要な表現性を欠くか、ビュー間で共有される分散の源のみを記述するか、データの解釈に不可欠な幾何学的情報を捨てるかのいずれかである。
そこで本研究では,高次元ビューのペア化されたサンプルを与えられた非線形ニューラルネットワークを用いて,これらのビューの基盤となる低次元の共有変数とプライベート変数を分離し,本質的なデータ幾何を保存する。
複数のシミュレートされた実データにまたがって,本手法が競合する手法よりも優れていることを示す。
側方生成核(LGN)とV1ニューロンの模擬集団を用いて、異なるノイズ条件で解釈可能な共有構造とプライベート構造を発見する能力を示す。
回転しないが無作為に回転するMNIST桁のデータセット上では、回転する図形に対して、回転する図形に対して回転角を符号化し、1-d多様体上に角度表現を配置する。
本手法を海馬と前頭前皮質の同時記録に応用し, マウスが直線軌道を走行している間に, 動物の位置を符号化する低次元の潜伏空間を発見する。
本稿では,ペア化データセットの簡潔かつ解釈可能な記述を,非絡み合わされた共有変数とプライベート潜伏変数の観点から検索する汎用的手法として提案する。
Modern applications often leverage multiple views of a subject of study. Within neuroscience, there is growing interest in large-scale simultaneous recordings across multiple brain regions. Understanding the relationship between views (e.g., the neural activity in each region recorded) can reveal fundamental principles about the characteristics of each representation and about the system. However, existing methods to characterize such relationships either lack the expressivity required to capture complex nonlinearities, describe only sources of variance that are shared between views, or discard geometric information that is crucial to interpreting the data. Here, we develop a nonlinear neural network-based method that, given paired samples of high-dimensional views, disentangles low-dimensional shared and private latent variables underlying these views while preserving intrinsic data geometry. Across multiple simulated and real datasets, we demonstrate that our method outperforms competing methods. Using simulated populations of lateral geniculate nucleus (LGN) and V1 neurons we demonstrate our model's ability to discover interpretable shared and private structure across different noise conditions. On a dataset of unrotated and corresponding but randomly rotated MNIST digits, we recover private latents for the rotated view that encode rotation angle regardless of digit class, and places the angle representation on a 1-d manifold, while shared latents encode digit class but not rotation angle. Applying our method to simultaneous Neuropixels recordings of hippocampus and prefrontal cortex while mice run on a linear track, we discover a low-dimensional shared latent space that encodes the animal's position. We propose our approach as a general-purpose method for finding succinct and interpretable descriptions of paired data sets in terms of disentangled shared and private latent variables. | 翻訳日:2024-08-29 18:22:33 公開日:2024-08-27 |
# Cross Inspector: クロスコントラクト脆弱性検出のための静的解析手法
CrossInspector: A Static Analysis Approach for Cross-Contract Vulnerability Detection ( http://arxiv.org/abs/2408.15292v1 ) ライセンス: Link先を確認 | Xiao Chen, | (参考訳) ブロックチェーン技術の発展に伴い、スマートコントラクトの脆弱性の検出がますます強調されている。
しかしながら、スマートコントラクトバイトコードを使用した契約間相互作用(すなわち、クロスコントラクトの脆弱性)の脆弱性を検出する場合、既存のツールは意味情報の回復が不十分で、契約依存性の考慮が不十分なため、多くの偽陽性と偽陰性を生成することが多い。
静的解析によりバイトコードレベルでクロスコントラクト脆弱性を検出する新しいフレームワークであるCrossInspectorを提案する。
CrossInspectorは、トレーニングされたTransformerモデルを使用してセマンティック情報を回復し、スマートコントラクト状態変数に関連する制御フロー、データフロー、依存関係を考慮して、きめ細かいプロセス間解析のための状態依存グラフを構築する。
さらに、CrossInspectorにはプルーニング法と2つの並列最適化機構が組み込まれ、脆弱性検出プロセスが高速化される。
手動で構築したデータセットの実験では、CrossInspectorは最先端のツールよりも精度(97\%)とリコール(96.75\%)が優れており、全体的な時間は16.34秒から7.83秒に大幅に短縮されている。
さらに、300の現実世界のスマートコントラクトでランダムに選択されたセット上でCrossInspectorを実行し、以前のツールで見逃された11のクロスコントラクト脆弱性を特定しました。
With the development of blockchain technology, the detection of smart contract vulnerabilities is increasingly emphasized. However, when detecting vulnerabilities in inter-contract interactions (i.e., cross-contract vulnerabilities) using smart contract bytecode, existing tools often produce many false positives and false negatives due to insufficient recovery of semantic information and inadequate consideration of contract dependencies. We present CrossInspector, a novel framework for detecting cross-contract vulnerabilities at the bytecode level through static analysis. CrossInspector utilizes a trained Transformer model to recover semantic information and considers control flow, data flow, and dependencies related to smart contract state variables to construct a state dependency graph for fine-grained inter-procedural analysis. Additionally, CrossInspector incorporates a pruning method and two parallel optimization mechanisms to accelerate the vulnerability detection process. Experiments on our manually constructed dataset demonstrate that CrossInspector outperforms the state-of-the-art tools in both precision (97\%) and recall (96.75\%), while also significantly reducing the overall time from 16.34 seconds to 7.83 seconds, almost on par with the fastest tool that utilizes bytecode for detection. Additionally, we ran CrossInspector on a randomly selected set of 300 real-world smart contracts and identified 11 cross-contract vulnerabilities that were missed by prior tools. | 翻訳日:2024-08-29 18:22:33 公開日:2024-08-27 |
# 時間的知識グラフ補完のための粒度表現の学習
Learning Granularity Representation for Temporal Knowledge Graph Completion ( http://arxiv.org/abs/2408.15293v1 ) ライセンス: Link先を確認 | Jinchuan Zhang, Tianqi Wan, Chong Mu, Guangxi Lu, Ling Tian, | (参考訳) 時間的知識グラフ(TKG)は、実世界の事実の動的な構造的知識と進化的パターンを反映する時間的情報を含んでいる。
それでも、TKGは不完全性の問題のため、下流のアプリケーションでは制限されている。
その結果、TKG完了(リンク予測とも呼ばれる)は広く研究され、最近の研究では、時間の独立した埋め込みを取り入れたり、時間的表現を形成するための実体や関係と組み合わせることに焦点を当てている。
しかし、既存のほとんどのメソッドは、複数粒度の側面から歴史の影響を見落としている。
順序の日付など、人間の定義した時間的粒度の固有の意味論は、事実が一般的に従う一般的なパターンを明らかにしている。
この制限に対処するために、TKG完了に対する \textbf{L}earning \textbf{G}ranularity \textbf{Re}presentation (termed $\mathsf{LGRe}$)を提案する。
グラニュラリティ表現学習(GRL)とアダプティブグラニュラリティバランス(AGB)の2つの主要コンポーネントから構成される。
具体的には、GRLは時間固有の多層畳み込みニューラルネットワークを使用して、異なる粒度のエンティティと関係の間の相互作用をキャプチャする。
その後、AGBは時間的意味論に基づいてこれらの埋め込みに対する適応的な重みを生成し、その結果予測の表現が表現される。
さらに、隣接するタイムスタンプの類似した意味を反映し、時間的損失関数を導入する。
4つのイベントベンチマークの大規模な実験結果から,学習時間関連表現における$\mathsf{LGRe}$の有効性が示された。
再現性を確保するため、私たちのコードはhttps://github.com/KcAcoZhang/LGRe.comで利用可能です。
Temporal Knowledge Graphs (TKGs) incorporate temporal information to reflect the dynamic structural knowledge and evolutionary patterns of real-world facts. Nevertheless, TKGs are still limited in downstream applications due to the problem of incompleteness. Consequently, TKG completion (also known as link prediction) has been widely studied, with recent research focusing on incorporating independent embeddings of time or combining them with entities and relations to form temporal representations. However, most existing methods overlook the impact of history from a multi-granularity aspect. The inherent semantics of human-defined temporal granularities, such as ordinal dates, reveal general patterns to which facts typically adhere. To counter this limitation, this paper proposes \textbf{L}earning \textbf{G}ranularity \textbf{Re}presentation (termed $\mathsf{LGRe}$) for TKG completion. It comprises two main components: Granularity Representation Learning (GRL) and Adaptive Granularity Balancing (AGB). Specifically, GRL employs time-specific multi-layer convolutional neural networks to capture interactions between entities and relations at different granularities. After that, AGB generates adaptive weights for these embeddings according to temporal semantics, resulting in expressive representations of predictions. Moreover, to reflect similar semantics of adjacent timestamps, a temporal loss function is introduced. Extensive experimental results on four event benchmarks demonstrate the effectiveness of $\mathsf{LGRe}$ in learning time-related representations. To ensure reproducibility, our code is available at https://github.com/KcAcoZhang/LGRe. | 翻訳日:2024-08-29 18:12:06 公開日:2024-08-27 |
# 人中心知識グラフ埋め込みの予測的特徴の評価:拡張的アブレーション研究
Evaluating the Predictive Features of Person-Centric Knowledge Graph Embeddings: Unfolding Ablation Studies ( http://arxiv.org/abs/2408.15294v1 ) ライセンス: Link先を確認 | Christos Theodoropoulos, Natasha Mulligan, Joao Bettencourt-Silva, | (参考訳) 複雑な生体情報を用いた新しい予測モデルの開発は、データの異質性、標準化、スパース性に関連する様々な慣用性のために困難である。
我々は以前、患者に関する情報を整理するための人中心オントロジーと、人中心知識グラフ(PKG)を抽出し、グラフニューラルネットワーク(GNN)を訓練するための表現学習フレームワークを導入しました。
本稿では,MIMIC-IIIデータセットから得られた構造化情報と非構造化情報の両方を用いて学習したGNNモデルの結果を体系的に検証する手法を提案する。
異なる臨床, 人口統計, 社会データに対するアブレーション研究を通じて, 読み出し予測のタスクにおいて, PKGの予測的特徴を識別する上で, このアプローチの堅牢性を示す。
Developing novel predictive models with complex biomedical information is challenging due to various idiosyncrasies related to heterogeneity, standardization or sparseness of the data. We previously introduced a person-centric ontology to organize information about individual patients, and a representation learning framework to extract person-centric knowledge graphs (PKGs) and to train Graph Neural Networks (GNNs). In this paper, we propose a systematic approach to examine the results of GNN models trained with both structured and unstructured information from the MIMIC-III dataset. Through ablation studies on different clinical, demographic, and social data, we show the robustness of this approach in identifying predictive features in PKGs for the task of readmission prediction. | 翻訳日:2024-08-29 18:12:06 公開日:2024-08-27 |
# 自動メエルカット音声分類のための特徴表現
Feature Representations for Automatic Meerkat Vocalization Classification ( http://arxiv.org/abs/2408.15296v1 ) ライセンス: Link先を確認 | Imen Ben Mahmoud, Eklavya Sarkar, Marta Manser, Mathew Magimai. -Doss, | (参考訳) 社会動物における声道コミュニケーションの進化を理解することは重要な研究課題である。
この文脈では、人間以外では、ミーアカット、マーモセット、類人猿などの他の社会動物の発声の分析に関心がある。
既存のアプローチは特定の種の発声に対処するが、ミーアカットの発声に適した信頼性の高い方法が欠如している。
そこで本研究では,自動メエルカット発声解析のための特徴表現について検討する。
従来の信号処理に基づく表現と、ディープラーニングの進歩によって促進されるデータ駆動表現の両方を探索する。
2つのデータセットを対象としたコールタイプ分類研究により、人間の音声処理のために開発された特徴抽出法が、自動メエルカット呼分析に効果的に活用できることが明らかになった。
Understanding evolution of vocal communication in social animals is an important research problem. In that context, beyond humans, there is an interest in analyzing vocalizations of other social animals such as, meerkats, marmosets, apes. While existing approaches address vocalizations of certain species, a reliable method tailored for meerkat calls is lacking. To that extent, this paper investigates feature representations for automatic meerkat vocalization analysis. Both traditional signal processing-based representations and data-driven representations facilitated by advances in deep learning are explored. Call type classification studies conducted on two data sets reveal that feature extraction methods developed for human speech processing can be effectively employed for automatic meerkat call analysis. | 翻訳日:2024-08-29 18:12:06 公開日:2024-08-27 |
# YOLO-Stutter:エンド・ツー・エンド領域-ワイズ音声障害検出
YOLO-Stutter: End-to-end Region-Wise Speech Dysfluency Detection ( http://arxiv.org/abs/2408.15297v1 ) ライセンス: Link先を確認 | Xuanru Zhou, Anshul Kashyap, Steve Li, Ayati Sharma, Brittany Morin, David Baquirin, Jet Vonk, Zoe Ezzes, Zachary Miller, Maria Luisa Gorno Tempini, Jiachen Lian, Gopala Krishna Anumanchipalli, | (参考訳) 難解な音声検出は、混乱した音声分析と音声言語学習のボトルネックとなる。
現在の最先端モデルは、効率性と堅牢性に欠け、テンプレート設計に敏感なルールベースのシステムによって管理されている。
本稿では,時間的精度で不規則を検出する最初のエンドツーエンド手法であるYOLO-Stutterを提案する。
YOLO-Stutterは、不完全な音声テキストアライメントを入力とし、次いで空間的特徴集約器と時間的依存抽出器を用いて、領域境界とクラス予測を行う。
また, VCTK-Stutter と VCTK-TTS という2つのディフルエンシコーパスを導入し, 繰り返し, ブロック, 欠落, 置換, 延長などの自然な音声のディフルエンシをシミュレートした。
我々のエンドツーエンドの手法は、シミュレーションデータと実際の失語症音声の両方において、最小限のトレーニング可能なパラメータで最先端の性能を達成する。
コードとデータセットはhttps://github.com/rorizzz/YOLO-Stutterでオープンソース化される
Dysfluent speech detection is the bottleneck for disordered speech analysis and spoken language learning. Current state-of-the-art models are governed by rule-based systems which lack efficiency and robustness, and are sensitive to template design. In this paper, we propose YOLO-Stutter: a first end-to-end method that detects dysfluencies in a time-accurate manner. YOLO-Stutter takes imperfect speech-text alignment as input, followed by a spatial feature aggregator, and a temporal dependency extractor to perform region-wise boundary and class predictions. We also introduce two dysfluency corpus, VCTK-Stutter and VCTK-TTS, that simulate natural spoken dysfluencies including repetition, block, missing, replacement, and prolongation. Our end-to-end method achieves state-of-the-art performance with a minimum number of trainable parameters for on both simulated data and real aphasia speech. Code and datasets are open-sourced at https://github.com/rorizzz/YOLO-Stutter | 翻訳日:2024-08-29 18:12:06 公開日:2024-08-27 |
# TourSynbio: タンパク質工学のためのテキストとタンパク質配列をブリッジするマルチモーダル大規模モデルとエージェントフレームワーク
TourSynbio: A Multi-Modal Large Model and Agent Framework to Bridge Text and Protein Sequences for Protein Engineering ( http://arxiv.org/abs/2408.15299v1 ) ライセンス: Link先を確認 | Yiqing Shen, Zan Chen, Michail Mamalakis, Yungeng Liu, Tianbin Li, Yanzhou Su, Junjun He, Pietro Liò, Yu Guang Wang, | (参考訳) タンパク質配列と自然言語の構造的類似性は、両方のドメインにまたがる深層学習の並列的な進歩をもたらした。
大規模言語モデル (LLM) は自然言語処理の分野で大きな進歩を遂げてきたが、タンパク質工学におけるその可能性はほとんど解明されていない。
従来のアプローチでは、外部のタンパク質エンコーダを組み込むことで、タンパク質理解機能を備えたLLMが実装されていたが、タンパク質配列と自然言語の固有の類似性を十分に活用できず、亜最適性能とモデル複雑さが増大した。
このギャップに対処するため、外部タンパク質エンコーダを使わずにタンパク質工学タスクに特化した最初のマルチモーダル大規模モデルであるTourSynbio-7Bを提案する。
TourSynbio-7Bは、LLMが本質的にタンパク質を言語として理解することができることを示した。
このモデルは、自己教師付き事前訓練のための176億のトークンとタンパク質配列と、教師付き微調整のための893Kの命令からなるデータセットであるProtectLMDatasetを使用して、InternLM2-7B上で訓練後、微調整された。
TourSynbio-7B はProteinLMBenchで GPT-4 を上回り、944 個の質問を手動で検証し、62.18%の精度で評価した。
TourSynbio-7Bのタンパク質配列理解機能を活用したTourSynbio-Agentは、突然変異解析、逆折り畳み、タンパク質折り畳み、可視化など、様々なタンパク質工学タスクを実行できる革新的なフレームワークである。
TourSynbio-Agentは、タンパク質エンジニアリングドメインに以前は接続されていなかったディープラーニングモデルを統合し、ユーザビリティを向上させるための統合された対話型ユーザインターフェースを提供する。
最後に,バニラキー酵素の修飾とステロイド化合物の触媒作用について,TourSynbio-7BおよびTourSynbio-Agentの有効性について検討した。
The structural similarities between protein sequences and natural languages have led to parallel advancements in deep learning across both domains. While large language models (LLMs) have achieved much progress in the domain of natural language processing, their potential in protein engineering remains largely unexplored. Previous approaches have equipped LLMs with protein understanding capabilities by incorporating external protein encoders, but this fails to fully leverage the inherent similarities between protein sequences and natural languages, resulting in sub-optimal performance and increased model complexity. To address this gap, we present TourSynbio-7B, the first multi-modal large model specifically designed for protein engineering tasks without external protein encoders. TourSynbio-7B demonstrates that LLMs can inherently learn to understand proteins as language. The model is post-trained and instruction fine-tuned on InternLM2-7B using ProteinLMDataset, a dataset comprising 17.46 billion tokens of text and protein sequence for self-supervised pretraining and 893K instructions for supervised fine-tuning. TourSynbio-7B outperforms GPT-4 on the ProteinLMBench, a benchmark of 944 manually verified multiple-choice questions, with 62.18% accuracy. Leveraging TourSynbio-7B's enhanced protein sequence understanding capability, we introduce TourSynbio-Agent, an innovative framework capable of performing various protein engineering tasks, including mutation analysis, inverse folding, protein folding, and visualization. TourSynbio-Agent integrates previously disconnected deep learning models in the protein engineering domain, offering a unified conversational user interface for improved usability. Finally, we demonstrate the efficacy of TourSynbio-7B and TourSynbio-Agent through two wet lab case studies on vanilla key enzyme modification and steroid compound catalysis. | 翻訳日:2024-08-29 18:12:06 公開日:2024-08-27 |
# GIFT-SW:LLM用サルエントウェイトを微調整したガウス雑音
GIFT-SW: Gaussian noise Injected Fine-Tuning of Salient Weights for LLMs ( http://arxiv.org/abs/2408.15300v1 ) ライセンス: Link先を確認 | Maxim Zhelnin, Viktor Moskvoretskii, Egor Shvetsov, Egor Venediktov, Mariya Krylova, Aleksandr Zuev, Evgeny Burnaev, | (参考訳) パラメータ効率の良いファインチューニング(PEFT)手法が普及し、LLM(Large Language Models)の使用を民主化している。
最近の研究では、重量の小さなサブセットが性能に大きな影響を及ぼすことが示されている。
そこで本研究では,Gaussian noise Injected Fine Tuning of Salient Weights (GIFT-SW) と呼ばれる新しいPEFT法を提案する。
本手法では, ガウス雑音を非正弦波に注入しながら, 正弦波列のみを更新する。
これらのコラムを識別するために、従来の研究からメトリクスを拡張し、統一する一般化感度測定法を開発した。
LLaMAモデルによる実験により、GIFT-SWは、同じ計算予算の下で、完全な微調整および現代的なPEFTメソッドよりも優れていることが示された。
さらに、GIFT-SWは、完全精度を維持しながら、混合精度の量子化を受けるモデルの性能を回復する実用的な利点を提供する。
Parameter Efficient Fine-Tuning (PEFT) methods have gained popularity and democratized the usage of Large Language Models (LLMs). Recent studies have shown that a small subset of weights significantly impacts performance. Based on this observation, we introduce a novel PEFT method, called Gaussian noise Injected Fine Tuning of Salient Weights (GIFT-SW). Our method updates only salient columns, while injecting Gaussian noise into non-salient ones. To identify these columns, we developeda generalized sensitivity metric that extends and unifies metrics from previous studies. Experiments with LLaMA models demonstrate that GIFT-SW outperforms full fine-tuning and modern PEFT methods under the same computational budget. Moreover, GIFT-SW offers practical advantages to recover performance of models subjected to mixed-precision quantization with keeping salient weights in full precision. | 翻訳日:2024-08-29 18:12:06 公開日:2024-08-27 |
# チャネル当たり量子化によるLLaMA3-70Bの特異性:実証的研究
The Uniqueness of LLaMA3-70B with Per-Channel Quantization: An Empirical Study ( http://arxiv.org/abs/2408.15301v1 ) ライセンス: Link先を確認 | Minghai Qin, | (参考訳) 我々はLLaMA3/3.1-70BモデルとLLaMA3/3.1-8B/405Bモデルの両方に欠落しているLLaMA3/3.1-70Bモデルに特徴的な量子化関連挙動を観察した。
量子化は、大規模言語モデル(LLM)を効率的にデプロイするための重要なテクニックである。
重みとアクティベーションのための様々なビット幅と表現のうち、8ビット整数重みと8ビット整数アクティベーション(W8A8)の構成は、ハードウェアが広くサポートされているため特に人気がある。
しかし、W8A8後の量子化がモデル精度に与える影響は議論の余地がある。
いくつかの研究は、精度の劣化を軽減するために重みの調整やアクティベーションの調整を提案したが、包括的解はまだ特定されていない。
本稿では,LLaMA3-70B モデルシリーズが,W8A8 チャネル後量子化を用いた一意の精度劣化挙動を有することを発見した。
対照的に、LLaMA2、LLaMA3-8B、Qwen、Mixtral、Mistral、Phi-3、Falconといった他のモデルシリーズはW8A8で堅牢な性能を示し、時にはFP16を上回ります。
その結果,LLaMA3-70Bの重量分布が主な要因であることが示唆された。
トランスフォーマーブロック間の重み分布の異なる特性を巧みに解析することにより、W8A8の量子化粒度をより細かくできる3%未満の層で混合戦略を提案し、残りの97%の層はチャネル単位の構成を維持している。
その結果、LLaMA3-70B-W8A8の平均精度は8つの推論タスクで45.5%から73.4%(LLaMA3-70B-FP16のわずか0.7%)に向上した。
特に,キャリブレーションや微調整は不要である。
We have observed a distinctive quantization-related behavior in the LLaMA3/3.1-70B models that is absent in both the LLaMA2-70B and LLaMA3/3.1-8B/405B models. Quantization is a crucial technique for deploying large language models (LLMs) efficiently. Among various bit widths and representations for weights and activations, the 8-bit integer weight and 8-bit integer activation (W8A8) configuration is particularly popular due to its widespread hardware support. However, the impact of W8A8 post-training quantization on model accuracy remains contentious. While several studies have suggested calibrating either weights or activations to mitigate accuracy degradation, a comprehensive solution has yet to be identified. In this paper, we empirically investigate multiple LLMs featured on an open LLM leaderboard, discovering that the LLaMA3-70B model series have a unique accuracy degradation behavior with W8A8 per-channel post-training quantization. In contrast, other model series such as LLaMA2, LLaMA3-8B, Qwen, Mixtral, Mistral, Phi-3, and Falcon demonstrate robust performance with W8A8, sometimes surpassing their FP16 counterparts. Contrary to previous assertions attributing degradation to the large dynamic range of activations, our findings indicate that the weight distribution of the LLaMA3-70B is the primary factor behind the vulnerability. By meticulously analyzing the distinct characteristics of weight distributions across Transformer blocks, we propose a mixed strategy with less than 3% of the layers enabling finer W8A8 quantization granularity, while the remaining 97% of layers retain the per-channel configuration. As a result, the average accuracy of LLaMA3-70B-W8A8 is increased from 45.5% to 73.4% (just 0.7% shy of LLaMA3-70B-FP16) across eight reasoning tasks. Notably, our method requires neither calibration nor fine-tuning. | 翻訳日:2024-08-29 18:12:06 公開日:2024-08-27 |
# ロスレス光Yカプラの単一光子記述
Single-photon description of the lossless optical Y coupler ( http://arxiv.org/abs/2408.15304v1 ) ライセンス: Link先を確認 | Christopher R. Schwarze, Anthony D. Manni, David S. Simon, Alexander V. Sergienko, | (参考訳) 対称性を考慮した3ポート光YカップラーやYブランチの1次散乱行列を導出する。
結果は外部の位相シフトまでユニークであることが示されている。
従来の受動線形光片方向スプリッターとは異なり、Yカップラーの出力ポートに結合した光は強いコヒーレントなバックリフレクションをもたらすため、光の方向を逆転しないビームスプリッターのようなフィードフォワード装置と、最近検討された方向が不偏なマルチポート散乱器(次元が2より大きい)とのハイブリッドとなる。
このデバイスは、量子ウォークの実装のための新しい散乱頂点としてすぐに使われる可能性があるが、散乱過程の対称性を利用して構築できるいくつかの単純だが有用な光学系も設計する。
これには、Grover 4ポートの干渉のない、リソース効率のよい実装と、調整可能な微細さを備えた高次元のFabry-Perot干渉計が含まれる。
対称性を破る一般化も検討されている。
Using symmetry considerations, we derive a unitary scattering matrix for a three-port optical Y-coupler or Y-branch. The result is shown to be unique up to external phase shifts. Unlike traditional passive linear-optical one-way splitters, coupling light into the conventional output ports of the Y-coupler results in strong coherent back-reflections, making the device a hybrid between feed-forward devices like the beam splitter, which do not reverse the direction of light, and a recently considered class of directionally unbiased multiport scatterers (with dimension greater than two) which do. While the device could immediately find use as a novel scattering vertex for the implementation of quantum walks, we also design a few simple but nonetheless useful optical systems that can be constructed by taking advantage of the symmetry of the scattering process. This includes an interference-free, resource-efficient implementation of the Grover four-port and a higher-dimensional Fabry-Perot interferometer with tunable finesse. Symmetry-breaking generalizations are also considered. | 翻訳日:2024-08-29 18:12:06 公開日:2024-08-27 |
# 半導体電子顕微鏡解析のためのビジョンランゲージインストラクションチューニングとパラメータ効率のよい量子混合器
Parameter-Efficient Quantized Mixture-of-Experts Meets Vision-Language Instruction Tuning for Semiconductor Electron Micrograph Analysis ( http://arxiv.org/abs/2408.15305v1 ) ライセンス: Link先を確認 | Sakhinana Sagar Srinivas, Chidaksh Ravuru, Geethan Sannidhi, Venkataramana Runkana, | (参考訳) 現代のエレクトロニクスにとって重要な半導体は、一般的に基礎的なモデルでは研究されていない。
半導体デバイス技術のポートフォリオを強化し、ハイエンドデバイス製造を支援する研究の必要性を強調している。
本稿では,半導体製造に適した小型ビジョン言語アシスタントであるsLAVAを紹介し,電子顕微鏡画像解析に焦点をあてる。
データ不足の課題に対処し、高品質のエキスパートアノテートされたデータを取得する。
GPT-4のような基本的な視覚言語モデルを教師として用い、学生モデルであるsLAVAをカスタマイズするためのマルチモーダルデータを作成する。
当社のアプローチでは,提案するフレームワークをさらに微調整し,自社のインフラストラクチャ内で独自のデータをセキュアに保持し,知的財産を保護する。
厳密な実験は、我々のフレームワークが従来の手法を超越し、データシフトを処理し、高スループットのスクリーニングを可能にすることを実証する。
Semiconductors, crucial to modern electronics, are generally under-researched in foundational models. It highlights the need for research to enhance the semiconductor device technology portfolio and aid in high-end device fabrication. In this paper, we introduce sLAVA, a small-scale vision-language assistant tailored for semiconductor manufacturing, with a focus on electron microscopy image analysis. It addresses challenges of data scarcity and acquiring high-quality, expert-annotated data. We employ a teacher-student paradigm, using a foundational vision language model like GPT-4 as a teacher to create instruction-following multimodal data for customizing the student model, sLAVA, for electron microscopic image analysis tasks on consumer hardware with limited budgets. Our approach allows enterprises to further fine-tune the proposed framework with their proprietary data securely within their own infrastructure, protecting intellectual property. Rigorous experiments validate that our framework surpasses traditional methods, handles data shifts, and enables high-throughput screening. | 翻訳日:2024-08-29 18:12:06 公開日:2024-08-27 |
# 基本エントロピーの不等式から生じる量子エントロピーの連続性境界
Continuity bounds for quantum entropies arising from a fundamental entropic inequality ( http://arxiv.org/abs/2408.15306v1 ) ライセンス: Link先を確認 | Koenraad Audenaert, Bjarne Bergh, Nilanjana Datta, Michael G. Jabbour, Ángela Capel, Paul Gondolf, | (参考訳) 我々は、フォン・ノイマンエントロピーの2つの量子状態、$\rho_1$ と $\rho_2$ の差について、厳密な上限を確立する。
この境界は、差作用素 $(\rho_1 - \rho_2)$ のヨルダン=ハーン分解から導かれる相互直交状態のフォン・ノイマンエントロピーで表される。
これは、よく知られた Audenaert-Fannes の不等式を意味する新しいエントロピー不等式をもたらす。
この不等式を用いて、条件系上の限界が一致する2つの状態の量子条件エントロピーに対して一様連続性を得る。
さらに、両変数の量子相対エントロピーに対して有界な連続性を導出するためにそれを用いる。
我々の証明は、大まかに言えば、一般化理論と凸最適化に基づいている。
We establish a tight upper bound for the difference in von Neumann entropies between two quantum states, $\rho_1$ and $\rho_2$. This bound is expressed in terms of the von Neumann entropies of the mutually orthogonal states derived from the Jordan-Hahn decomposition of the difference operator $(\rho_1 - \rho_2)$. This yields a novel entropic inequality that implies the well-known Audenaert-Fannes inequality. We employ this inequality to obtain a uniform continuity bound for the quantum conditional entropy of two states whose marginals on the conditioning system coincide. We additionally use it to derive a continuity bound for the quantum relative entropy in both variables. Our proofs are largely based on majorization theory and convex optimization. | 翻訳日:2024-08-29 18:12:06 公開日:2024-08-27 |
# ブラジリアンテレグラムにおけるアンチバックスとオフラベルの薬物群集--門口としての密教と偽奇跡的治療の収益化-
Antivax and off-label medication communities on brazilian Telegram: between esotericism as a gateway and the monetization of false miraculous cures ( http://arxiv.org/abs/2408.15308v1 ) ライセンス: Link先を確認 | Ergon Cugler de Moraes Silva, | (参考訳) 陰謀論、特に抗ワクチン説やMMSやCDSのような非ラベル薬の促進に焦点を当てた理論は、ブラジルを含むテレグラムで増加し、神秘的な信念を共有し、科学機関に不信感を抱くコミュニティの中で肥厚な基盤を見いだした。
本研究は, ブラジルのテレグラムにおける陰謀論のコミュニティが, 予防接種テーマやオフラベル医薬品に関してどのように特徴づけられ, 具体化されているかを理解することを目的とする。
本研究は,テレグラム上でのブラジルの陰謀論コミュニティの理解と特徴化を目的とした7つの研究のシリーズの一部である点を強調することが重要である。
この7つの研究のシリーズは、コーネル大学のarXivで公開され、すべての研究にミラー化手法を適用し、分析の主題だけを変更し、プロプライエタリおよびオリジナルコードを含むレプリカブルな研究を提供し、フリーおよびオープンソースソフトウェアの文化に寄与する。
新世界秩序やアポカリプス、サバイバル主義といったテーマは、反ワクチン説の重大な入り口として機能し、世界支配の理論と結びついている; グローバル主義と新世界秩序は、反ワクチンコミュニティからの招待を受ける主要なコミュニティとして際立っている; 職業主義と密教は、非ラベル医学コミュニティへの招待の最大の源として出現し、密教と非科学的治療の促進の間に強いつながりを生み出している; 反ワクチン説は、COVID-19パンデミックの間に290%増加した。
Conspiracy theories, particularly those focused on anti-vaccine narratives and the promotion of off-label medications such as MMS and CDS, have proliferated on Telegram, including in Brazil, finding fertile ground among communities that share esoteric beliefs and distrust towards scientific institutions. In this context, this study seeks to answer how Brazilian conspiracy theory communities on Telegram are characterized and articulated concerning anti-vaccine themes and off-label medications? It is important to highlight that this study is part of a series of seven studies aimed at understanding and characterizing Brazilian conspiracy theory communities on Telegram. This series of seven studies is openly and originally available on the arXiv of Cornell University, applying a mirrored method across all studies, changing only the thematic object of analysis and providing replicable research, including proprietary and original codes developed, contributing to the culture of free and open-source software. Regarding the main findings of this study, it was observed: Themes such as the New World Order and Apocalypse and Survivalism act as significant gateways to anti-vaccine narratives, connecting them to theories of global control; Globalism and New World Order stand out as the main communities receiving invitations from anti-vaccine communities; Occultism and Esotericism emerge as the largest sources of invitations to off-label medication communities, creating a strong connection between esoteric beliefs and the promotion of non-scientific treatments; Anti-vaccine narratives experienced a 290% increase during the COVID-19 pandemic, evidencing a growing interconnectedness with other conspiracy theories; The overlap of themes between anti-vaccine and other conspiracy theories creates an interdependent disinformation network, where different narratives mutually reinforce each other. | 翻訳日:2024-08-29 18:12:06 公開日:2024-08-27 |
# RGDA-DDI:薬物・薬物相互作用予測のための残留グラフアテンションネットワークとデュアルアテンションベースフレームワーク
RGDA-DDI: Residual graph attention network and dual-attention based framework for drug-drug interaction prediction ( http://arxiv.org/abs/2408.15310v1 ) ライセンス: Link先を確認 | Changjian Zhou, Xin Zhang, Jiafeng Li, Jia Song, Wensheng Xiang, | (参考訳) 近年の研究では、薬物と薬物の相互作用(DDI)の予測が、複数の薬物の機能や共同処方を理解する上で重要であることが示唆されている。
しかし、既存のDDI予測手法は、ドラッグ・ドラッグ・ペア(DDP)間の潜在的な相互作用を無視するか、より優れた予測のためにマルチスケールのドラッグ特徴表現を明示的にモデル化して融合させるのに失敗する。
本研究では,薬物・薬物相互作用予測のための残留グラフアテンションネットワーク(Residual-GAT)とデュアルアテンションベースフレームワークであるRGDA-DDIを提案する。
残留GATモジュールを導入し、薬物やDDPからマルチスケールの特徴表現を同時に学習する。
さらに,デュアルアテンションに基づく特徴融合ブロックを構築し,局所的な関節相互作用表現を学習する。
一連の評価指標は、RGDA-DDIが2つの公開ベンチマークデータセット上でのDDI予測性能を大幅に改善したことを示している。
Recent studies suggest that drug-drug interaction (DDI) prediction via computational approaches has significant importance for understanding the functions and co-prescriptions of multiple drugs. However, the existing silico DDI prediction methods either ignore the potential interactions among drug-drug pairs (DDPs), or fail to explicitly model and fuse the multi-scale drug feature representations for better prediction. In this study, we propose RGDA-DDI, a residual graph attention network (residual-GAT) and dual-attention based framework for drug-drug interaction prediction. A residual-GAT module is introduced to simultaneously learn multi-scale feature representations from drugs and DDPs. In addition, a dual-attention based feature fusion block is constructed to learn local joint interaction representations. A series of evaluation metrics demonstrate that the RGDA-DDI significantly improved DDI prediction performance on two public benchmark datasets, which provides a new insight into drug development. | 翻訳日:2024-08-29 18:12:06 公開日:2024-08-27 |
# ブラジルテレグラムにおける気候変動の否定と反科学コミュニティ--より広範な陰謀ネットワークへの入り口としての気候変動の偽情報
Climate change denial and anti-science communities on brazilian Telegram: climate disinformation as a gateway to broader conspiracy networks ( http://arxiv.org/abs/2408.15311v1 ) ライセンス: Link先を確認 | Ergon Cugler de Moraes Silva, | (参考訳) 気候変動の否定と反科学に関する陰謀論は、特に科学機関に不信感を抱き、地球環境政策に反対するブラジルのコミュニティの中で、テレグラムに肥大な基盤を見出している。
この研究は、ブラジルの陰謀論コミュニティが気候変動や反科学のテーマについて、どのようにTelegramで明らかにされているかという研究課題に答えようとしている。
この研究は、テレグラムにおけるブラジルの陰謀論コミュニティの理解と特徴化を目的とした7つの研究のシリーズの一部であることは注目に値する。
この一連の研究は、コーネル大学のarXivで公開され、最初は7つの研究すべてにミラー化手法を適用し、分析のテーマのみを変更し、カスタム開発およびプロプライエタリなコードを含む複製可能な調査方法を提供し、オープンソースソフトウェアの文化に寄与した。
気候変動の否定と反科学のコミュニティは相乗的に相互作用し、異文化の物語を相互に補強する複雑なネットワークを作り、アポカリプスやサバイバル主義のようなアポカリプス的なテーマは、これらのコミュニティに向けられた5,057のゲートウェイとして行動し、アンチサイエンスコミュニティはゲートキーパーとして機能し、新世界秩序やグローバリズムなどの理論と等しく結びつく。
Conspiracy theories related to climate change denial and anti-science have found fertile ground on Telegram, particularly among Brazilian communities that distrust scientific institutions and oppose global environmental policies. This study seeks to answer the research question: how are Brazilian conspiracy theory communities on climate change and anti-science themes characterized and articulated on Telegram? It is worth noting that this study is part of a series of seven studies aimed at understanding and characterizing Brazilian conspiracy theory communities on Telegram. This series of studies is openly and originally available on arXiv from Cornell University, applying a mirrored method across all seven studies, changing only the thematic focus of analysis, and providing replicable investigation methods, including custom-developed and proprietary codes, contributing to the culture of open-source software. Regarding the main findings of this study, the following observations were made: Climate change denial and anti-science communities interact synergistically, creating a complex network that mutually reinforces disinformation narratives; Apocalyptic themes, such as Apocalypse and Survivalism, act as gateways to climate denial, with 5,057 links directed to these communities; Anti-science communities function as gatekeepers, distributing links evenly to theories such as the New World Order and Globalism, among others; During the COVID-19 pandemic, anti-science discussions experienced a significant peak, driven by vaccine disinformation; The intersection between anti-science narratives and esoteric beliefs reinforces the idea of a supposed alternative truth that challenges science; Since 2022, discussions on climate change have evolved to align with global domination theories; Additionally, the UN's 2030 Agenda is portrayed as part of a global conspiracy. | 翻訳日:2024-08-29 18:12:06 公開日:2024-08-27 |
# 双方向選好最適化:言語モデルにおける安全性のバランス
Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models ( http://arxiv.org/abs/2408.15313v1 ) ライセンス: Link先を確認 | Wenxuan Zhang, Philip H. S. Torr, Mohamed Elhoseiny, Adel Bibi, | (参考訳) 人間の好みに基づいて微調整された大型言語モデル(LLM)は、典型的には人間からのフィードバック(RLHF)からの強化学習を通じて、その能力向上に成功している。
しかし, 微調整中のLLMの安全性確保は依然として重要な問題であり, RLHFでは安全性と有用性における潜在的な衝突を軽減できる。
この問題に対処するために,BFPO(Bi-Factorial Preference Optimization)と呼ばれる教師付き学習フレームワークを提案する。
教師付き最適化では、安全性と利便性のバランスをとるために、グローバルな選好ランキングをキャプチャするラベリング関数が使用される。
BFPOを評価するために,包括的識別・生成タスクを含むベンチマークを構築した。
その結果,本手法は安全性と有用性の両方において既存手法よりも優れていたことが示唆された。
さらに、BFPOは、人間の作業に大きく依存する手法と同じレベルの安全性を達成しつつ、LLMの微調整における人間のプロンプトやアノテーションの必要性をなくし、計算資源の10%未満を消費する。
トレーニングレシピとモデルがリリースされる。
Fine-tuning large language models (LLMs) on human preferences, typically through reinforcement learning from human feedback (RLHF), has proven successful in enhancing their capabilities. However, ensuring the safety of LLMs during the fine-tuning remains a critical concern, and mitigating the potential conflicts in safety and helpfulness is costly in RLHF. To address this issue, we propose a supervised learning framework called Bi-Factorial Preference Optimization (BFPO), which re-parameterizes a joint RLHF objective of both safety and helpfulness into a single supervised learning objective. In the supervised optimization, a labeling function is used to capture global preferences ranking to balance both safety and helpfulness. To evaluate BFPO, we develop a benchmark including comprehensive discriminative and generative tasks for helpfulness and harmlessness. The results indicate that our method significantly outperforms existing approaches in both safety and helpfulness. Moreover, BFPO eliminates the need for human prompting and annotation in LLM fine-tuning while achieving the same level of safety as methods that heavily rely on human labor, with less than 10% of the computational resources. The training recipes and models will be released. | 翻訳日:2024-08-29 18:12:06 公開日:2024-08-27 |
# ホログラフィーの葉:双曲性ハニカムからの自己相似準結晶
Holographic Foliations: Self-Similar Quasicrystals from Hyperbolic Honeycombs ( http://arxiv.org/abs/2408.15316v1 ) ライセンス: Link先を確認 | Latham Boyle, Justin Kulp, | (参考訳) 双曲空間における離散幾何学は純粋数学に長年興味を持ち、ホログラフィー、量子情報、凝縮物質物理学において近年注目されている。
純粋に幾何学的なレベルで働くと、$d+1$)-次元双曲空間の任意の正則テッセルレーションが、自相的な '準結晶' の性質を持つ$d$-次元境界幾何学を自然に持つかを記述する。
特に境界幾何学は、共形幾何学を区別する局所的、可逆的、自己相似置換タイリングによって記述される。
1D/2Dの例に現れるこれらの局所置換規則の以前の記述を大幅に洗練し、高次元バルクへの第1次拡張を与えるためにこの改良を用いて、通常の3次元双曲型テッセルレーションの詳細な説明を含む。
境界データからのバルクジオメトリの再構成を含むグローバルな問題にコメントし、局所的可逆な方法でバルクの完全な幾何学が任意の単葉葉にエンコードされる自己相似準結晶のスタックによるフロイテーションという「ホログラフィック・フロイテーション」の概念を導入する。
正規イコサヘドラによる3次元双曲空間の${3,5,3\}$テッセルレーションにおいて、ペンローズのタイリングではない5倍対称性の2次元境界準結晶点を発見し、ウィリアム・サーストンの関連する予想を記録・コメントする。
今後の分析および数値的な研究のために、多くのオープンな質問をまとめて締めくくる。
Discrete geometries in hyperbolic space are of longstanding interest in pure mathematics and have come to recent attention in holography, quantum information, and condensed matter physics. Working at a purely geometric level, we describe how any regular tessellation of ($d+1$)-dimensional hyperbolic space naturally admits a $d$-dimensional boundary geometry with self-similar ''quasicrystalline'' properties. In particular, the boundary geometry is described by a local, invertible, self-similar substitution tiling, that discretizes conformal geometry. We greatly refine an earlier description of these local substitution rules that appear in the 1D/2D example and use the refinement to give the first extension to higher dimensional bulks; including a detailed account for all regular 3D hyperbolic tessellations. We comment on global issues, including the reconstruction of bulk geometries from boundary data, and introduce the notion of a ''holographic foliation'': a foliation by a stack of self-similar quasicrystals, where the full geometry of the bulk (and of the foliation itself) is encoded in any single leaf in a local invertible way. In the $\{3,5,3\}$ tessellation of 3D hyperbolic space by regular icosahedra, we find a 2D boundary quasicrystal admitting points of 5-fold symmetry which is not the Penrose tiling, and record and comment on a related conjecture of William Thurston. We end with a large list of open questions for future analytic and numerical studies. | 翻訳日:2024-08-29 18:12:06 公開日:2024-08-27 |
# 正確な基底状態を持つ相互作用ボソンのモデル:統一的アプローチ
Models of interacting bosons with exact ground states: a unified approach ( http://arxiv.org/abs/2408.15319v1 ) ライセンス: Link先を確認 | Zhaoyu Han, Steven A. Kivelson, | (参考訳) 数保存ボソンに対して '`frustration-free'' 相互作用する格子量子ハミルトニアンの無限クラスを定義し、それらの正確な基底状態が対応する古典的格子気体問題のボルツマン重みによって指定された密度分布を持つように構成する。
古典的重みを適切に選択することにより、量子二量体モデルやある種のLevin-Wen弦-ネットモデルを含む様々な既知可解モデルのボソン表現を得るとともに、「量子スピン液体」、「超固体」、「ボース・アインシュタイン絶縁体」、「ボス表面」、「ボース・アインシュタイン凝縮体」など他の興味深い基底状態を持つ可解モデルも体系的に構築し、非相互作用極限からグッツウィルマー射影極限への断熱的進化を許容する。
We define an infinite class of ``frustration-free'' interacting lattice quantum Hamiltonians for number-conserving bosons, constructed such that their exact ground states have a density distribution specified by the Boltzmann weight of a corresponding classical lattice gas problem. By appropriately choosing the classical weights, we obtain boson representations of various known solvable models, including quantum dimer models and certain Levin-Wen string-net models, and we also systematically construct solvable models with other interesting ground states, including ``quantum spin liquids,'' supersolids, ``Bose-Einstein insulators,'' Bose liquids with ``Bose surfaces'', and Bose-Einstein condensates that permit adiabatic evolution from a non-interacting limit to a Gutzwiller-projected limit. | 翻訳日:2024-08-29 18:02:17 公開日:2024-08-27 |
# レビュー:Multi-Body Systemsによる量子メトロロジーとセンシング
Review: Quantum Metrology and Sensing with Many-Body Systems ( http://arxiv.org/abs/2408.15323v1 ) ライセンス: Link先を確認 | Victor Montenegro, Chiranjib Mukhopadhyay, Rozhin Yousefjani, Saubhik Sarkar, Utkarsh Mishra, Matteo G. A. Paris, Abolfazl Bayat, | (参考訳) 量子センサーの主動力は、プローブが複数の粒子で構成されているときに達成される。
この状況では、絡み合いのような量子的特徴は、古典的なセンサーの容量を超えて量子センサーの精度を高めるのに寄与する。
当初、量子センシングは、最大エンタングル状態の特別な形で調製される非相互作用粒子に対して定式化された。
これらのプローブはデコヒーレンスに非常に敏感であり、粒子間の相互作用はそれらの性能に有害である。
量子センシングのための別のフレームワークが、粒子間の相互作用が重要な役割を果たす量子多体系を利用して開発されている。
本稿では,量子力学とセンシングにおける後者のアプローチの異なる側面について検討する。
多体プローブは平衡と非平衡の両方のシナリオで用いられている。
量子臨界は、両方のシナリオにおいて量子強化感度を達成するためのリソースとして特定されている。
平衡では、第1次、第2次、トポロジカル、局在化相転移などの様々な臨界が知覚目的のために利用されてきた。
非平衡のシナリオでは、Floquet、散逸性、および時間結晶相転移に対する量子増強感度が発見された。
これらの臨界にはそれぞれの特性があるが、1つの特徴の存在は量子増強感度(エネルギー/準エネルギーギャップ閉鎖)を達成するのに不可欠である。
非平衡量子センシングでは、時間はプローブの感度に影響を与える別のパラメータである。
通常、感度はプローブが時間の経過とともに向上する。
一般に、非平衡量子センサーのリソースのより完全な理解は急速に進化している。
本稿では,近年の量子気象学の進歩と多体システムを用いたセンシングについて概説する。
The main power of quantum sensors is achieved when the probe is composed of several particles. In this situation, quantum features such as entanglement contribute in enhancing the precision of quantum sensors beyond the capacity of classical sensors. Originally, quantum sensing was formulated for non-interacting particles which are prepared in a special form of maximally entangled states. These probes are extremely sensitive to decoherence and any interaction between particles is detrimental to their performance. An alternative framework for quantum sensing has been developed exploiting quantum many-body systems, where the interaction between particles plays a crucial role. In this review, we investigate different aspects of the latter approach for quantum metrology and sensing. Many-body probes have been used in both equilibrium and non-equilibrium scenarios. Quantum criticality has been identified as a resource for achieving quantum enhanced sensitivity in both scenarios. In equilibrium, various types of criticalities, such as first order, second order, topological, and localization phase transitions have been exploited for sensing purposes. In non-equilibrium scenarios, quantum enhanced sensitivity has been discovered for Floquet, dissipative, and time crystal phase transitions. While each type of these criticalities has its own characteristics, the presence of one feature is crucial for achieving quantum enhanced sensitivity: the energy/quasi-energy gap closing. In non-equilibrium quantum sensing, time is another parameter which can affect the sensitivity of the probe. Typically, the sensitivity enhances as the probe evolves in time. In general, a more complete understanding of resources for non-equilibrium quantum sensors is now rapidly evolving. In this review, we provide an overview of recent progress in quantum metrology and sensing using many-body systems. | 翻訳日:2024-08-29 18:02:17 公開日:2024-08-27 |
# 電荷保存量子力学における深部熱化
Deep thermalization under charge-conserving quantum dynamics ( http://arxiv.org/abs/2408.15325v1 ) ライセンス: Link先を確認 | Rui-An Chang, Harshank Shrotriya, Wen Wei Ho, Matteo Ippoliti, | (参考訳) ディープ熱化」は、量子多体力学における普遍波動関数分布の出現を記述し、その環境を測定する際に局所的なサブシステムに現れる。
本研究では, 連続内部対称性と関連する保存則が深熱化に及ぼす影響について詳細に検討する。
具体的には、磁化の保存(または「チャージ」)に関連する$U(1)$対称性の量子スピン系を考察し、初期状態の選択(特に電荷変動の程度)と測定ベースの選択(特に局所電荷密度に関する情報を明らかにすることができるかどうか)が、次の普遍波動関数分布をどのように決定するかを分析する。
可能性の集合が豊富にある。
まず、突発的な電荷のランダムな状態に注目し、投射されたアンサンブルが利得サブシステムのチャージセクターにおけるハールアンサンブルの直接和に近づくことを厳密に証明する。
次に、より一般的な初期状態と測定ベースに対する制限波動関数分布を解析的に導出し、Haarアンサンブル、‘Scroogeアンサンブル’(密度行列によるHaarアンサンブルの歪み)、‘‘Generalized Scroogeアンサンブル’(複数のScroogeアンサンブルの確率混合)などの結果を求める。
これらはギブス状態の非自明な高モーメント一般化を表し、特にその平均だけでなく初期状態の電荷分布全体に依存する。
以上の結果から, 対称性と測定によって抽出された情報との豊富な相互作用が示され, 深部熱化は, 通常の熱化よりもはるかに広い範囲の普遍的な挙動を示すことができた。
``Deep thermalization'' describes the emergence of universal wavefunction distributions in quantum many-body dynamics, appearing on a local subsystem upon measurement of its environment. In this work, we study in detail the effect of continuous internal symmetries and associated conservation laws on deep thermalization. Concretely, we consider quantum spin systems with a $U(1)$ symmetry associated with the conservation of magnetization (or `charge'), and analyze how the choice of initial states (specifically, their degree of charge fluctuations) and the choice of measurement basis (specifically, whether or not it can reveal information about the local charge density) determine the ensuing universal wavefunction distributions. We find a rich set of possibilities. First we focus on the case of a random state of well-defined charge subjected to charge-revealing masurements, and rigorously prove that the projected ensemble approaches a direct sum of Haar ensembles in the charge sectors of the subsystem of interest. We then analytically derive the limiting wavefunction distributions for more general initial states and measurement bases, finding results that include the Haar ensemble, the ``Scrooge ensemble'' (a distortion of the Haar ensemble by a density matrix), and the ``generalized Scrooge ensemble'' (a stochastic mixture of multiple Scrooge ensembles). These represent nontrivial higher-moment generalizations of the Gibbs state, and notably can depend on the entire charge distribution of the initial state, not just its average. Our findings demonstrate a rich interplay between symmetries and the information extracted by measurements, which allows deep thermalization to exhibit a range of universal behaviors far beyond regular thermalization. | 翻訳日:2024-08-29 18:02:17 公開日:2024-08-27 |
# オープン量子系の最適制御のための人工知的マクスウェルの悪魔
Artificially intelligent Maxwell's demon for optimal control of open quantum systems ( http://arxiv.org/abs/2408.15328v1 ) ライセンス: Link先を確認 | Paolo Andrea Erdman, Robert Czupryniak, Bibek Bhandari, Andrew N. Jordan, Frank Noé, Jens Eisert, Giacomo Guarnieri, | (参考訳) オープン量子システムのフィードバック制御は、量子計算から量子エラー補正、量子気象学まで、様々な文脈における実践的応用において基本的な重要性である。
熱力学の文脈での使用により、情報とエネルギーの間の相互作用の研究が可能になる。
しかし、最適フィードバック制御戦略の導出は、オープン量子システムの最適制御、量子測定の確率的性質、長期的および軌道平均目標を最大化するポリシーの包含など、非常に困難である。
本研究では,量子マックスウェルのデーモンの役割の自動化と把握に強化学習アプローチを採用する。このエージェントは,測定駆動冷却と測定効率のトレードオフを最大化する量子ビットベースのシステムにおいて,最適なフィードバック制御戦略を発見するというリテラルな役割を担っている。
弱い、あるいは射影的な量子測定を考慮すると、熱化、測定、単位フィードバックの時間スケールの順序に基づいて、異なる非直観的かつ解釈可能な戦略を探索する。
熱化支配体制では, 測定結果に照らし合わせて, 厳密な有限時間熱化プロトコルを用いた方法が見つかる。
測定支配体制において、最適戦略は、取得した情報を反映する異なる量子ビット観測可能量を適応的に測定することと、量子状態が「十分純粋」になるまで複数の弱い測定を繰り返し、状態空間におけるランダムウォーキングをもたらすことを含む。
最後に、すべてのタイムスケールが同等である場合について検討し、より直感的な手法よりもはるかに優れた新しいフィードバック制御戦略を見出す。
本稿では, 絡み合いの役割を考察し, 量子多体系へのスケーリングを議論する2ビットの例について論じる。
Feedback control of open quantum systems is of fundamental importance for practical applications in various contexts, ranging from quantum computation to quantum error correction and quantum metrology. Its use in the context of thermodynamics further enables the study of the interplay between information and energy. However, deriving optimal feedback control strategies is highly challenging, as it involves the optimal control of open quantum systems, the stochastic nature of quantum measurement, and the inclusion of policies that maximize a long-term time- and trajectory-averaged goal. In this work, we employ a reinforcement learning approach to automate and capture the role of a quantum Maxwell's demon: the agent takes the literal role of discovering optimal feedback control strategies in qubit-based systems that maximize a trade-off between measurement-powered cooling and measurement efficiency. Considering weak or projective quantum measurements, we explore different regimes based on the ordering between the thermalization, the measurement, and the unitary feedback timescales, finding different and highly non-intuitive, yet interpretable, strategies. In the thermalization-dominated regime, we find strategies with elaborate finite-time thermalization protocols conditioned on measurement outcomes. In the measurement-dominated regime, we find that optimal strategies involve adaptively measuring different qubit observables reflecting the acquired information, and repeating multiple weak measurements until the quantum state is "sufficiently pure", leading to random walks in state space. Finally, we study the case when all timescales are comparable, finding new feedback control strategies that considerably outperform more intuitive ones. We discuss a two-qubit example where we explore the role of entanglement and conclude discussing the scaling of our results to quantum many-body systems. | 翻訳日:2024-08-29 18:02:17 公開日:2024-08-27 |
# 5ビット原子レジスタのサイト選択性キャビティ読み出しと古典的誤り訂正
Site-selective cavity readout and classical error correction of a 5-bit atomic register ( http://arxiv.org/abs/2408.15329v1 ) ライセンス: Link先を確認 | Beili Hu, Josiah Sinclair, Edita Bytyqi, Michelle Chong, Alyssa Rudelis, Joshua Ramette, Zachary Vendeiro, Vladan Vuletić, | (参考訳) 光学キャビティは個々の原子量子ビットを高速かつ非破壊的に読み取ることができるが、多くの量子ビットにスケールアップすることは依然として困難である。
局所的に対応した励起状態のスタークシフトを用いて原子を共鳴から調整し、サイト選択型超微粒状態キャビティの読み出しを実現した。
状態の識別忠実度は1つの原子に対して0.994(1)であり、0.989(2)は生存確率が0.975(1)である。
配列読み出しを高速化するため,グローバル/サブセットチェックを用いた適応探索手法を実証した。
最後に,古典的誤り訂正を繰り返し,論理的誤りの指数的抑制を示し,論理的記憶を1ビットのアイドリング寿命を超えて5倍に拡張した。
Optical cavities can provide fast and non-destructive readout of individual atomic qubits; however, scaling up to many qubits remains a challenge. Using locally addressed excited-state Stark shifts to tune atoms out of resonance, we realize site-selective hyperfine-state cavity readout across a 10-site array. The state discrimination fidelity is 0.994(1) for one atom and 0.989(2) averaged over the entire array at a survival probability of 0.975(1). To further speed up array readout, we demonstrate adaptive search strategies utilizing global/subset checks. Finally, we demonstrate repeated rounds of classical error correction, showing exponential suppression of logical error and extending logical memory fivefold beyond the single-bit idling lifetime. | 翻訳日:2024-08-29 18:02:17 公開日:2024-08-27 |
# 浮遊強磁性体を用いた超軽量暗黒物質検出
Ultralight dark matter detection with levitated ferromagnets ( http://arxiv.org/abs/2408.15330v1 ) ライセンス: Link先を確認 | Saarik Kalia, Dmitry Budker, Derek F. Jackson Kimball, Wei Ji, Zhen Liu, Alexander O. Sushkov, Chris Timberlake, Hendrik Ulbricht, Andrea Vinante, Tao Wang, | (参考訳) 浮上した強磁性体は超精密磁気センサとして機能し、環境からの優れた隔離のために高品質な要因を示すことができる。
これらの機器は、アクシオンのようなダークマターやダークフォトンダークマターのような超軽量のダークマター候補の探索に利用できる。
物理的磁場を生成する軸-光子カップリングや運動混合に敏感であるのに加え、強磁性体は軸-電子カップリングによって生じる有効磁場(または「軸風」)にも敏感である。
直流磁場に対する誘電体強磁性体の動的特性はよく研究されているが、これらの結合はすべて交流磁場を発生させる。
本研究では,強磁性体が印加した交流磁場に対する応答について検討し,これらの結果を用いて,アキションや暗光黒物質に対する感度を予測した。
応用交流場によって誘導される運動の方向について特に注意を払っており、特に、応用場(電子スピンに類似)の周りで起こるか、あるいは磁場の平面(コンパス針に類似)でリブレートするかである。
既存の浮遊強磁性体は、コマグネトメーターやねじりバランス実験のような軸-電子カップリングに匹敵する感度を持つことを示す。
さらに、将来の設定は、超軽量の暗黒物質質量に対して、軸-電子結合、暗-光子運動混合、および軸-光子結合の感度の高いプローブとなる。
Levitated ferromagnets act as ultraprecise magnetometers, which can exhibit high quality factors due to their excellent isolation from the environment. These instruments can be utilized in searches for ultralight dark matter candidates, such as axionlike dark matter or dark-photon dark matter. In addition to being sensitive to an axion-photon coupling or kinetic mixing, which produce physical magnetic fields, ferromagnets are also sensitive to the effective magnetic field (or ``axion wind") produced by an axion-electron coupling. While the dynamics of a levitated ferromagnet in response to a DC magnetic field have been well studied, all of these couplings would produce AC fields. In this work, we study the response of a ferromagnet to an applied AC magnetic field and use these results to project their sensitivity to axion and dark-photon dark matter. We pay special attention to the direction of motion induced by an applied AC field, in particular, whether it precesses around the applied field (similar to an electron spin) or librates in the plane of the field (similar to a compass needle). We show that existing levitated ferromagnet setups can already have comparable sensitivity to an axion-electron coupling as comagnetometer or torsion balance experiments. In addition, future setups can become sensitive probes of axion-electron coupling, dark-photon kinetic mixing, and axion-photon coupling, for ultralight dark matter masses $m_\mathrm{DM}\lesssim\mathrm{feV}$. | 翻訳日:2024-08-29 18:02:17 公開日:2024-08-27 |
# 強化学習に数学の問題はなぜ難しいのか--ケーススタディ
What makes math problems hard for reinforcement learning: a case study ( http://arxiv.org/abs/2408.15332v1 ) ライセンス: Link先を確認 | Ali Shehper, Anibal M. Medina-Mardones, Bartłomiej Lewandowski, Angus Gruen, Piotr Kucharski, Sergei Gukov, | (参考訳) 組合せ群論からの長年の予想を用いて、複数の角度から、不均等に高い報酬を持つ稀な事例を見つけることの難しさを探求する。
アンドリュース=クールティス予想(英語版)によって定義された数学的文脈で学んだ教訓に基づき、超スパース報酬問題を持つ他の領域に関係のあるアルゴリズム的改善を提案する。
我々のケーススタディはゲームとして定式化できるが、最短の勝利シーケンスはチェスで遭遇した選手の10^6$または10^9$である可能性がある。
Akbulut と Kirby による潜在的な反例の1つは、39 年間直接数学的手法を免れたものであり、AC は安定的に自明であることを示す。
Using a long-standing conjecture from combinatorial group theory, we explore, from multiple angles, the challenges of finding rare instances carrying disproportionately high rewards. Based on lessons learned in the mathematical context defined by the Andrews-Curtis conjecture, we propose algorithmic improvements that can be relevant in other domains with ultra-sparse reward problems. Although our case study can be formulated as a game, its shortest winning sequences are potentially $10^6$ or $10^9$ times longer than those encountered in chess. In the process of our study, we demonstrate that one of the potential counterexamples due to Akbulut and Kirby, whose status escaped direct mathematical methods for 39 years, is stably AC-trivial. | 翻訳日:2024-08-29 18:02:17 公開日:2024-08-27 |
# UNA:一般帰納関数によるRLHF/PPO,DPO,KTOのアライメントの統一
UNA: Unifying Alignments of RLHF/PPO, DPO and KTO by a Generalized Implicit Reward Function ( http://arxiv.org/abs/2408.15339v1 ) ライセンス: Link先を確認 | Zhichao Wang, Bin Bi, Can Huang, Shiva Kumar Pentyala, Zixu James Zhu, Sitaram Asur, Na Claire Cheng, | (参考訳) LLMは数兆のトークンで事前訓練されるが、事前訓練されたLSMは依然として望ましくない応答を生成する可能性がある。
この問題を解決するために,RLHF,DPO,KTOなどのアライメント手法を提案する。
しかし、これらのアライメント技術には限界がある。
例えば、RLHFは報酬モデルとポリシーを個別にトレーニングする必要がある。
DPOは最適なポリシーと報酬のマッピングを提案し、RLHFのトレーニングプロセスを大幅に単純化する。
しかし、報酬モデルの完全な利点は得られず、ペアの選好データに限られる。
本稿では,RLHF/PPO,DPO,KTOを統一した \textbf{UN}ified \textbf{A}lignment (UNA) を提案する。
まず、古典的RLHFの目的が与えられた場合、最適ポリシーは一般化された暗黙の報酬関数によって誘導されることを数学的に証明する。
この新たな報酬モデルと最適政策のマッピングにより、UNAは可能となる。
1.RLHF/PPO,DPO,KTOを暗黙の報酬と明示的な報酬との差を最小限に抑える指導的学習に統一すること。
2. RLHF/PPOの簡易化、安定化、高速化、RL微調整プロセスのメモリ負荷低減を図りながら、性能が向上する。
ペア、バイナリ、スカラーのフィードバックなど、さまざまなフィードバックタイプに対応している。
下流実験では、UNAはDPO、KTO、RLHFより優れていた。
An LLM is pretrained on trillions of tokens, but the pretrained LLM may still generate undesired responses. To solve this problem, alignment techniques such as RLHF, DPO and KTO are proposed. However, these alignment techniques have limitations. For example, RLHF requires training the reward model and policy separately, which is complex, time-consuming, memory intensive and unstable during training processes. DPO proposes a mapping between an optimal policy and a reward, greatly simplifying the training process of RLHF. However, it can not take full advantages of a reward model and it is limited to pairwise preference data. In this paper, we propose \textbf{UN}ified \textbf{A}lignment (UNA) which unifies RLHF/PPO, DPO and KTO. Firstly, we mathematically prove that given the classical RLHF objective, the optimal policy is induced by a generalize implicit reward function. With this novel mapping between a reward model and an optimal policy, UNA can 1. unify RLHF/PPO, DPO and KTO into a supervised learning of minimizing the difference between an implicit reward and an explicit reward; 2. outperform RLHF/PPO while simplify, stabilize, speed up and reduce memory burden of RL fine-tuning process; 3. accommodate different feedback types including pairwise, binary and scalar feedback. Downstream experiments show UNA outperforms DPO, KTO and RLHF. | 翻訳日:2024-08-29 18:02:17 公開日:2024-08-27 |
# Conformal Disentanglement: パースペクティブ合成と微分のためのニューラルネットワークフレームワーク
Conformal Disentanglement: A Neural Framework for Perspective Synthesis and Differentiation ( http://arxiv.org/abs/2408.15344v1 ) ライセンス: Link先を確認 | George A. Kevrekidis, Eleni D. Koronaki, Yannis G. Kevrekidis, | (参考訳) 複数の科学的努力に対して、複数の方法で関心の現象を測定することが一般的である。
我々は、異なる種類の機器を用いて混合物の異なる性質を測定することもできる。
この異種情報を収集した上で、最終的に研究したい主題である「共通」の完全な図像をソース間で合成できることが求められます。
しかしながら、システムの孤立した(「クリーン」)観測は、必ずしも不可能ではない: 観測には、その環境内の他のシステムに関する情報や、測定器自体に関する情報が含まれることが多い。
その意味では、それぞれの観測には元の対象に「重要でない」情報が含まれており、同じ対象を観測するセンサー間の「珍しい」情報は依然として重要であり、メイン信号から切り離すのが有用である。
ニューラルネットワークオートエンコーダフレームワークは,2つのタスクを同時に行うことができる: 「共通」変数を識別するために構成され,幾何的独立性を定義するために直交制約を用いることで,異種センサから発せられる非共通」情報も識別する。
いくつかの計算例で応用例を示す。
For multiple scientific endeavors it is common to measure a phenomenon of interest in more than one ways. We make observations of objects from several different perspectives in space, at different points in time; we may also measure different properties of a mixture using different types of instruments. After collecting this heterogeneous information, it is necessary to be able to synthesize a complete picture of what is `common' across its sources: the subject we ultimately want to study. However, isolated (`clean') observations of a system are not always possible: observations often contain information about other systems in its environment, or about the measuring instruments themselves. In that sense, each observation may contain information that `does not matter' to the original object of study; this `uncommon' information between sensors observing the same object may still be important, and decoupling it from the main signal(s) useful. We introduce a neural network autoencoder framework capable of both tasks: it is structured to identify `common' variables, and, making use of orthogonality constraints to define geometric independence, to also identify disentangled `uncommon' information originating from the heterogeneous sensors. We demonstrate applications in several computational examples. | 翻訳日:2024-08-29 18:02:17 公開日:2024-08-27 |
# 絡み合い深さと気象絡み合い基準の代替
Alternatives of entanglement depth and metrological entanglement criteria ( http://arxiv.org/abs/2408.15350v1 ) ライセンス: Link先を確認 | Szilárd Szalay, Géza Tóth, | (参考訳) 部分的絡み合い特性の1パラメータファミリーの一般理論と、結果として生じる絡み合いの深さのような量について検討する。
それらの特別な例は、分割性の深さ、再現性の深さ(あるいは単に絡み合う深さ)、伸縮性の深さであり、これは以前にも知られていた部分絡み特性の1パラメータの族に基づいていた。
また、より物理的に意味のある性質、例えば、二乗性、強靭性、自由度、およびエントロピー的動機付けのいくつかのものを構築します。
量子フィッシャー情報によるメトロロジカル多部絡み合いの基準はこの枠組みに自然に適合する。
ここでは、これらを正方性深さとして定式化し、従って自然選択であることが判明し、通常の絡み合う深さよりも強い境界が導かれる。
すなわち、量子フィッシャー情報は、絡み合ったサブシステムの最大サイズだけでなく、基本サブシステムのランダムな選択のための絡み合ったサブシステムの平均サイズにも低い境界を与える。
また,両症例の凸基準を定式化した。
これは、前述の境界は、量子状態のすべての分解において平均も保持することを意味する。
また、エントロピー的な意味を持つ一パラメータ部分絡み合い特性は、計量的境界を定義するためにより適していると主張する。
We work out the general theory of one-parameter families of partial entanglement properties and the resulting entanglement depth-like quantities. Special cases of these are the depth of partitionability, the depth of producibility (or simply entanglement depth) and the depth of stretchability, which are based on one-parameter families of partial entanglement properties known earlier. We also construct some further physically meaningful properties, for instance the squareability, the toughness, the degree of freedom, and also several ones of entropic motivation. Metrological multipartite entanglement criteria with the quantum Fisher information fit naturally into this framework. Here we formulate these for the depth of squareability, which therefore turns out to be the natural choice, leading to stronger bounds than the usual entanglement depth. Namely, the quantum Fisher information turns out to provide a lower bound not only on the maximal size of entangled subsystems, but also on the average size of entangled subsystems for a random choice of elementary subsystems. We also formulate convex criteria for both cases, which are much stronger than the original ones. This means that the aforementioned bounds hold also for the average in every decomposition of the quantum state. We also argue for that one-parameter partial entanglement properties bearing entropic meaning are more suitable for the purpose of defining metrological bounds. | 翻訳日:2024-08-29 18:02:17 公開日:2024-08-27 |
# 共感型AIに必要なものは何か? 依存するものと、それがAI開発者とユーザにとって重要である理由
What Is Required for Empathic AI? It Depends, and Why That Matters for AI Developers and Users ( http://arxiv.org/abs/2408.15354v1 ) ライセンス: Link先を確認 | Jana Schaich Borg, Hannah Read, | (参考訳) 人工共感の関心は高まりつつあるが、人工共感とは何か、そうでなければいけないのかという混乱もある。
この混乱は、共感的なAI開発に伴う技術的、倫理的な問題をナビゲートすることを困難にしている。
ここでは、共感に関連するさまざまな機能群が、共感型AIアプリケーションにとって重要であるという前提に基づいて、共感型AIについて考えるためのフレームワークの概要を述べる。
我々は、共感の傘の下にあると主張する能力の区別を説明し、3つの医療的共感的AIユースケースがこれらの能力の異なるセットを必要とするかを示す。
我々は、共感の傘の下で多様な能力に感謝することが、AIクリエイターとユーザーの両方にとって重要である理由を論じて結論付けた。
Interest is growing in artificial empathy, but so is confusion about what artificial empathy is or needs to be. This confusion makes it challenging to navigate the technical and ethical issues that accompany empathic AI development. Here, we outline a framework for thinking about empathic AI based on the premise that different constellations of capabilities associated with empathy are important for different empathic AI applications. We describe distinctions of capabilities that we argue belong under the empathy umbrella, and show how three medical empathic AI use cases require different sets of these capabilities. We conclude by discussing why appreciation of the diverse capabilities under the empathy umbrella is important for both AI creators and users. | 翻訳日:2024-08-29 18:02:17 公開日:2024-08-27 |
# CT画像における肺がん検出の最適化:Dragonfly Algorithm(DA)によるウェーブレット多層パーセプトロン(WMLP)アプローチ
Optimizing Lung Cancer Detection in CT Imaging: A Wavelet Multi-Layer Perceptron (WMLP) Approach Enhanced by Dragonfly Algorithm (DA) ( http://arxiv.org/abs/2408.15355v1 ) ライセンス: Link先を確認 | Bitasadat Jamshidi, Nastaran Ghorbani, Mohsen Rostamy-Malkhalifeh, | (参考訳) 肺がんは、世界的にがん関連死亡率の高い原因である。
プロンプトと正確な診断と効果的な治療は、この重篤な疾患に関連する死亡率を減らすために必須である。
本研究では,CTスキャン画像から肺がんを分類するための最先端のディープラーニングフレームワークを提案する。
この研究には、カニーエッジ検出やウェーブレット変換など、画像前処理の一連の戦略が含まれており、これは、多層パーセプトロン(MLP)による有能な特徴の抽出とその後の分類に先立って行われる。
最適化プロセスはさらにDragonfly Algorithm (DA)を用いて洗練されている。
この手法は、肺がんの正確な診断におけるその有効性と信頼性を裏付ける、99.82\%の優れたトレーニングとテストの精度を達成した。
Lung cancer stands as the preeminent cause of cancer-related mortality globally. Prompt and precise diagnosis, coupled with effective treatment, is imperative to reduce the fatality rates associated with this formidable disease. This study introduces a cutting-edge deep learning framework for the classification of lung cancer from CT scan imagery. The research encompasses a suite of image pre-processing strategies, notably Canny edge detection, and wavelet transformations, which precede the extraction of salient features and subsequent classification via a Multi-Layer Perceptron (MLP). The optimization process is further refined using the Dragonfly Algorithm (DA). The methodology put forth has attained an impressive training and testing accuracy of 99.82\%, underscoring its efficacy and reliability in the accurate diagnosis of lung cancer. | 翻訳日:2024-08-29 18:02:17 公開日:2024-08-27 |
# 非パラメトリックトーナメントとクラウドソーシング問題の最適レベルセット推定
Optimal level set estimation for non-parametric tournament and crowdsourcing problems ( http://arxiv.org/abs/2408.15356v1 ) ライセンス: Link先を確認 | Maximilian Graf, Alexandra Carpentier, Nicolas Verzelen, | (参考訳) クラウドソーシングによって動機づけられた我々は、$d$の質問に対する$n$の専門家の回答の正しさを部分的に観察する問題を考える。
本稿では、専門家と質問の両方を順序付けできる、すなわち、専門家$i$が質問に対して正しく答える確率を含む行列$M$が、行と列の置換までのバイソトニックであると仮定する。
n=d$の場合、トーナメント文献からの強確率推移(SST)モデルも含む。
ここでは、質問に対する労働者の効率的な配分のためのクラウドソーシングにおいて重要な、M$の大規模なエントリからM$の小さなエントリを解読する、関連する問題に焦点を当てる。
より正確には、行列の(あるいは複数の)レベルセット$p$を精度$h$まで回復すること、すなわちrespを回復することを目指している。
M_{ij}>p+h$ と $M_{i,j}<p-h$ の位置の集合。
損失指標として、誤分類されたエントリの数を考慮する。
本研究の主目的として,この分類問題に対して最小限の多項式時間アルゴリズムを構築した。
これは、SSTモデルにおける既存の文献と大きく対照的であり、より強い再構成損失のため、統計計算のギャップが推測されている。
より一般に、これは置換モデルに対する統計計算的ギャップの性質に光を当てる。
Motivated by crowdsourcing, we consider a problem where we partially observe the correctness of the answers of $n$ experts on $d$ questions. In this paper, we assume that both the experts and the questions can be ordered, namely that the matrix $M$ containing the probability that expert $i$ answers correctly to question $j$ is bi-isotonic up to a permutation of it rows and columns. When $n=d$, this also encompasses the strongly stochastic transitive (SST) model from the tournament literature. Here, we focus on the relevant problem of deciphering small entries of $M$ from large entries of $M$, which is key in crowdsourcing for efficient allocation of workers to questions. More precisely, we aim at recovering a (or several) level set $p$ of the matrix up to a precision $h$, namely recovering resp. the sets of positions $(i,j)$ in $M$ such that $M_{ij}>p+h$ and $M_{i,j}<p-h$. We consider, as a loss measure, the number of misclassified entries. As our main result, we construct an efficient polynomial-time algorithm that turns out to be minimax optimal for this classification problem. This heavily contrasts with existing literature in the SST model where, for the stronger reconstruction loss, statistical-computational gaps have been conjectured. More generally, this shades light on the nature of statistical-computational gaps for permutations models. | 翻訳日:2024-08-29 18:02:17 公開日:2024-08-27 |
# スマートフォンIMUセンサと深部学習が呼吸状態の検出に及ぼす影響について
On the effectiveness of smartphone IMU sensors and Deep Learning in the detection of cardiorespiratory conditions ( http://arxiv.org/abs/2408.15357v1 ) ライセンス: Link先を確認 | Lorenzo Simone, Luca Miglior, Vincenzo Gervasi, Luca Moroni, Emanuele Vignali, Emanuele Gasparotti, Simona Celi, | (参考訳) 本研究は,商品用スマートフォンの慣性測定ユニット(IMU)と深層学習技術を活用した,取得プロトコルに基づく循環器疾患の早期スクリーニング手法を提案する。
5つの異なる身体領域の加速度計とジャイロスコープで得られた呼吸動態を記録したデータセットを臨床的に収集した。
本研究では,早期心肺疾患スクリーニングのためのエンド・ツー・エンドのディープラーニングパイプラインを提案し,各呼吸周期にデータをセグメント化するための前処理ステップと,多様な身体領域から特徴を抽出する双方向モジュールを提案する。
ハイパパラメータチューニングとモデル選択にベイズ最適化を用いたLeave-one-out-cross-validationを採用した。
実験結果は,特徴エンコーダアーキテクチャとしての双方向長短項メモリ(Bi-LSTM)の優れた性能を一貫して示し,平均感度は0.81 \pm 0.02$,特異性は0.82 \pm 0.05$,F1スコアは0.81 \pm 0.02$,精度は80.2\% \pm 3.9$とした。
また,訓練に使用しない健康な患者のみを対象とし,スキュード分布の一般化能力を評価したところ,真の陰性率は74.8 % \pm 4.5$であった。
単一の患者の呼吸サイクルにおける予測の持続的精度は、前処理戦略の有効性を強調し、呼吸サイクルの異なるフェーズで重要なパターンを識別する能力を強調している。
この調査は、一般市民、家庭内でのタイムリーな心呼吸器疾患スクリーニング装置として、広く利用可能なスマートフォンの有用性を強調し、公衆衛生活動(特に最近の新型コロナウイルス(COVID-19)などパンデミックの流行)に重要な支援を提供する。
This research introduces an innovative method for the early screening of cardiorespiratory diseases based on an acquisition protocol, which leverages commodity smartphone's Inertial Measurement Units (IMUs) and deep learning techniques. We collected, in a clinical setting, a dataset featuring recordings of breathing kinematics obtained by accelerometer and gyroscope readings from five distinct body regions. We propose an end-to-end deep learning pipeline for early cardiorespiratory disease screening, incorporating a preprocessing step segmenting the data into individual breathing cycles, and a recurrent bidirectional module capturing features from diverse body regions. We employed Leave-one-out-cross-validation with Bayesian optimization for hyperparameter tuning and model selection. The experimental results consistently demonstrated the superior performance of a bidirectional Long-Short Term Memory (Bi-LSTM) as a feature encoder architecture, yielding an average sensitivity of $0.81 \pm 0.02$, specificity of $0.82 \pm 0.05$, F1 score of $0.81 \pm 0.02$, and accuracy of $80.2\% \pm 3.9$ across diverse seed variations. We also assessed generalization capabilities on a skewed distribution, comprising exclusively healthy patients not used in training, revealing a true negative rate of $74.8 \% \pm 4.5$. The sustained accuracy of predictions over time during breathing cycles within a single patient underscores the efficacy of the preprocessing strategy, highlighting the model's ability to discern significant patterns throughout distinct phases of the respiratory cycle. This investigation underscores the potential usefulness of widely available smartphones as devices for timely cardiorespiratory disease screening in the general population, in at-home settings, offering crucial assistance to public health efforts (especially during a pandemic outbreaks, such as the recent COVID-19). | 翻訳日:2024-08-29 18:02:17 公開日:2024-08-27 |
# 超微細スペクトルを横切る光学的ツイーザにおける光アシスト衝突の定量化
Quantifying Light-assisted Collisions in Optical Tweezers Across the Hyperfine Spectrum ( http://arxiv.org/abs/2408.15359v1 ) ライセンス: Link先を確認 | Steven K. Pampel, Matteo Marinelli, Mark O. Brown, José P. D'Incao, Cindy A. Regal, | (参考訳) 光学的ツイーザを用いた2つの原子間の共鳴-双極子相互作用における超微細構造の役割について検討した。
光アシスト衝突(LAC)による2体損失速度は、$^{87}$Rb超微粒子スペクトルで測定され、半古典的モデルにより分子光解離電位の性質に関係している。
この結果を得るため, トラップ内の2つの原子を検出し, ツイーザーのパリティ制約を回避するために, 反発型LACを用いたイメージング技術を導入する。
我々の研究は、レーザー誘起衝突における超微細構造を利用して、幅広い量子科学応用における低温原子や分子を制御するための重要な洞察を提供する。
We investigate the role of hyperfine structure in resonant-dipole interactions between two atoms co-trapped in an optical tweezer. Two-body loss rates from light-assisted collisions (LACs) are measured across the $^{87}$Rb hyperfine spectrum and connected to properties of molecular photoassociation potentials via a semi-classical model. To obtain our results, we introduce an imaging technique that leverages repulsive LACs to detect two atoms in a trap, thereby circumventing parity constraints in tweezers. Our findings offer key insights for exploiting hyperfine structure in laser-induced collisions to control cold atoms and molecules in a broad range of quantum science applications. | 翻訳日:2024-08-29 18:02:17 公開日:2024-08-27 |
# COMETにおける落とし穴と展望
Pitfalls and Outlooks in Using COMET ( http://arxiv.org/abs/2408.15366v1 ) ライセンス: Link先を確認 | Vilém Zouhar, Pinzhen Chen, Tsz Kin Lam, Nikita Moghe, Barry Haddow, | (参考訳) COMETメートル法は導入以来,翻訳品質の人為的判断と強い相関関係にあることから,機械翻訳コミュニティの足跡となった。
その成功は、品質評価のために微調整された事前訓練された多言語モデルであることに由来する。
しかし、機械学習モデルであることは、広く知られていないかもしれない新しい落とし穴を生じさせる。
我々はこれらの予期せぬ行動を3つの側面から調査する。
1) 技術: 時代遅れのソフトウェアバージョン及び計算精度
2) データは,テスト時の空のコンテンツ,言語ミスマッチ,翻訳文,及びトレーニングにおける分布及びドメインバイアスである。
3)使用状況と報告:文献におけるマルチリファレンスサポートとモデル参照。
これらの問題は、COMETのスコアが論文や技術的な設定と同等ではないことを暗示している。
さらに,ソフトウェアとモデル構成のシグネチャを生成するSacreCOMETパッケージと適切な引用を生成する。
この作業の目標は、コミュニティがCOMETメトリックをよりうまく活用できるようにすることです。
Since its introduction, the COMET metric has blazed a trail in the machine translation community, given its strong correlation with human judgements of translation quality. Its success stems from being a modified pre-trained multilingual model finetuned for quality assessment. However, it being a machine learning model also gives rise to a new set of pitfalls that may not be widely known. We investigate these unexpected behaviours from three aspects: 1) technical: obsolete software versions and compute precision; 2) data: empty content, language mismatch, and translationese at test time as well as distribution and domain biases in training; 3) usage and reporting: multi-reference support and model referencing in the literature. All of these problems imply that COMET scores is not comparable between papers or even technical setups and we put forward our perspective on fixing each issue. Furthermore, we release the SacreCOMET package that can generate a signature for the software and model configuration as well as an appropriate citation. The goal of this work is to help the community make more sound use of the COMET metric. | 翻訳日:2024-08-29 17:52:31 公開日:2024-08-27 |
# オフライン強化学習のための決定論的ポリシとしての最適化解関数
Optimization Solution Functions as Deterministic Policies for Offline Reinforcement Learning ( http://arxiv.org/abs/2408.15368v1 ) ライセンス: Link先を確認 | Vanshaj Khattar, Ming Jin, | (参考訳) オフライン強化学習(RL)は多くの制御アプリケーションにとって有望なアプローチであるが、限られたデータカバレッジや値関数過大評価といった課題に直面している。
本稿では,最適化の最適値に対する決定論的ポリシー(アクター)および単調関数として最適化解関数を用いる暗黙的なアクター批判(iAC)フレームワークを提案する。
アクターポリシーの最適性を符号化することにより、学習したアクターパラメータの最適度に対して指数的減衰感度(EDS)特性を介して頑健であることを示す。
提案したiACフレームワークの性能保証を取得し,一般関数近似方式に対する利点を示す。
最後に,提案手法を実世界の2つのアプリケーション上で検証し,最先端(SOTA)オフラインRL法よりも大幅に改善したことを示す。
Offline reinforcement learning (RL) is a promising approach for many control applications but faces challenges such as limited data coverage and value function overestimation. In this paper, we propose an implicit actor-critic (iAC) framework that employs optimization solution functions as a deterministic policy (actor) and a monotone function over the optimal value of optimization as a critic. By encoding optimality in the actor policy, we show that the learned policies are robust to the suboptimality of the learned actor parameters via the exponentially decaying sensitivity (EDS) property. We obtain performance guarantees for the proposed iAC framework and show its benefits over general function approximation schemes. Finally, we validate the proposed framework on two real-world applications and show a significant improvement over state-of-the-art (SOTA) offline RL methods. | 翻訳日:2024-08-29 17:52:31 公開日:2024-08-27 |
# 動的サイテーションネットワークにおける時間グラフニューラルネットワークを利用した紙レコメンデーション
Temporal Graph Neural Network-Powered Paper Recommendation on Dynamic Citation Networks ( http://arxiv.org/abs/2408.15371v1 ) ライセンス: Link先を確認 | Junhao Shen, Mohammad Ausaf Ali Haqqani, Beichen Hu, Cheng Huang, Xihao Xie, Tsengdar Lee, Jia Zhang, | (参考訳) 科学出版物の急激な成長により、文献中のすべての関連記事の特定はますます困難になってきたが、非常に要求が高まっている。
既存の手法は、記事の内容とその構造的情報(引用関係など)に焦点をあてて、主に静的な観点から候補者の出版物を評価する。
埋め込みに関する論文の進化的影響を説明するための研究の欠如がある。
本研究の目的は,紙レコメンデーション戦略に時間的次元を導入することである。
中心となる考え方は、新しい引用関係が現れると、論文の埋め込みを継続的に更新し、将来の推奨への関連性を高めることである。
論文の発行時に文献に引用関係が付加されると、テンポラルグラフニューラルネットワーク(TGN)を介して2つの関連論文の埋め込みを更新する。
リカレントニューラルネットワーク(RNN)に基づく学習可能なメモリ更新モジュールを用いて、将来のタイムスタンプにおける参照影響を予測するために、紙の埋め込みの進化を研究する。
このようなTGNベースのモデルは、人々が論文に対する見解をどのように進化させるかのパターンを学習し、より正確に論文レコメンデーションを導くことを目的としている。
https://paperswithcode.com/about PaperWithCodeの313,278記事を含むオープンな引用ネットワークデータセットに関する大規模な実験は、提案手法の有効性を実証した。
Due to the rapid growth of scientific publications, identifying all related reference articles in the literature has become increasingly challenging yet highly demanding. Existing methods primarily assess candidate publications from a static perspective, focusing on the content of articles and their structural information, such as citation relationships. There is a lack of research regarding how to account for the evolving impact among papers on their embeddings. Toward this goal, this paper introduces a temporal dimension to paper recommendation strategies. The core idea is to continuously update a paper's embedding when new citation relationships appear, enhancing its relevance for future recommendations. Whenever a citation relationship is added to the literature upon the publication of a paper, the embeddings of the two related papers are updated through a Temporal Graph Neural Network (TGN). A learnable memory update module based on a Recurrent Neural Network (RNN) is utilized to study the evolution of the embedding of a paper in order to predict its reference impact in a future timestamp. Such a TGN-based model learns a pattern of how people's views of the paper may evolve, aiming to guide paper recommendations more precisely. Extensive experiments on an open citation network dataset, including 313,278 articles from https://paperswithcode.com/about PaperWithCode, have demonstrated the effectiveness of the proposed approach. | 翻訳日:2024-08-29 17:52:31 公開日:2024-08-27 |
# AutoPatch: リアルタイム組み込みデバイス用のホットパッチの自動生成
AutoPatch: Automated Generation of Hotpatches for Real-Time Embedded Devices ( http://arxiv.org/abs/2408.15372v1 ) ライセンス: Link先を確認 | Mohsen Salehi, Karthik Pattabiraman, | (参考訳) 医療や工業用デバイスのようなリアルタイムの組み込みデバイスは、サイバー攻撃がますますターゲットになっている。
これらのデバイスに対する攻撃の深刻な影響を軽減するためには、プロンプトパッチが不可欠である。
ホットパッチングは、再起動せずにミッションクリティカルな組み込みデバイスにパッチを適用するアプローチである。
しかし、既存のホットパッチアプローチでは、開発者が手動でターゲットシステムのホットパッチを書く必要がある。
これらの問題に対処するため,オフィシャルパッチの静的解析を通じて機能的に等価なホットパッチを自動的に生成する,新しいホットパッチ技術であるAutoPatchを提案する。
AutoPatchでは、さまざまな組み込みデバイスをサポートし、公式パッチの機能を保存する、新たなソフトウェアトリガアプローチが導入されている。
以前の作業とは対照的に、AutoPatchはパッチをトリガーしたり、特別な仮想マシンでパッチを実行するためのハードウェアサポートに依存していない。
LLVMコンパイラを用いてAutoPatchを実装し,RTOSを動作させる4つの組み込みデバイス上で62個の実CVEを用いて,その効率,有効性,汎用性を評価した。
私たちはAutoPatchがCVEの90%以上を修正でき、脆弱性の解決に成功しました。
その結果、脆弱性を修正するための平均的な遅延は12.7ドル以下であることが判明し、RapidPatchよりも50%パフォーマンスが向上した。
さらに, メモリオーバーヘッドは, 平均して23%) よりもわずかに低かった。
最後に、AutoPatchは変更することなく、4つのデバイスすべてにホットパッチを生成することができた。
Real-time embedded devices like medical or industrial devices are increasingly targeted by cyber-attacks. Prompt patching is crucial to mitigate the serious consequences of such attacks on these devices. Hotpatching is an approach to apply a patch to mission-critical embedded devices without rebooting them. However, existing hotpatching approaches require developers to manually write the hotpatch for target systems, which is time-consuming and error-prone. To address these issues, we propose AutoPatch, a new hotpatching technique that automatically generates functionally equivalent hotpatches via static analysis of the official patches. AutoPatch introduces a new software triggering approach that supports diverse embedded devices, and preserves the functionality of the official patch. In contrast to prior work, AutoPatch does not rely on hardware support for triggering patches, or on executing patches in specialized virtual machines. We implemented AutoPatch using the LLVM compiler, and evaluated its efficiency, effectiveness and generality using 62 real CVEs on four embedded devices with different specifications and architectures running popular RTOSes. We found that AutoPatch can fix more than 90% of CVEs, and resolve the vulnerability successfully. The results revealed an average total delay of less than 12.7 $\mu s$ for fixing the vulnerabilities, representing a performance improvement of 50% over RapidPatch, a state-of-the-art approach. Further, our memory overhead, on average, was slightly lower than theirs (23%). Finally, AutoPatch was able to generate hotpatches for all four devices without any modifications. | 翻訳日:2024-08-29 17:52:31 公開日:2024-08-27 |
# 外科的RGB画像とハイパースペクトル画像のセマンティックセグメンテーションにおける幾何学的領域シフトの扱い
Handling Geometric Domain Shifts in Semantic Segmentation of Surgical RGB and Hyperspectral Images ( http://arxiv.org/abs/2408.15373v1 ) ライセンス: Link先を確認 | Silvia Seidlitz, Jan Sellner, Alexander Studier-Fischer, Alessandro Motta, Berkin Özdemir, Beat P. Müller-Stich, Felix Nickel, Lena Maier-Hein, | (参考訳) 術中画像データのロバストなセマンティックセグメンテーションは、自動手術シーン理解と自律ロボット手術を可能にすることを約束する。
モデル開発と検証は主に理想主義的な場面で行われるが、実世界の開手術では、シタスの閉塞のような幾何学的領域シフトが一般的である。
このギャップを埋めるために、(1)幾何学的アウト・オブ・ディストリビューション(OOD)データに直面した場合の、最先端(SOA)セマンティックセマンティックセマンティクスモデルの最初の分析を行い、(2)汎用性を高めるために「有機移植」と呼ばれる拡張手法を提案する。
我々は,33頭のブタの600 RGBおよびハイパースペクトルイメージング(HSI)立方体を含む6種類のOODデータセットに対する総合的検証を行い,それぞれ19のクラスで注釈を付けた結果,幾何学的OODデータに基づくSOA臓器のセグメンテーションモデルの性能低下が明らかとなった。
この性能低下は、より豊富なスペクトル情報量にもかかわらず、従来のRGBデータ(ダイス類似度係数(DSC)低下率46 %)だけでなく、HSIデータ(DSC低下率45 %)においても観測される。
入力データの空間的粒度によって性能低下が増大する。
我々の拡張技術は、RGBデータに対して最大67%、HSIデータに対して90%の性能向上を実現し、実際のOODテストデータ上での分配内パフォーマンスのレベルでの性能向上を実現します。
本手法の単純さと有効性を考えると,手術シーンセグメンテーションにおける幾何学的領域シフトに対処するための貴重なツールである。
私たちのコードと事前訓練されたモデルはhttps://github.com/IMSY-DKFZ/htc.comで公開されています。
Robust semantic segmentation of intraoperative image data holds promise for enabling automatic surgical scene understanding and autonomous robotic surgery. While model development and validation are primarily conducted on idealistic scenes, geometric domain shifts, such as occlusions of the situs, are common in real-world open surgeries. To close this gap, we (1) present the first analysis of state-of-the-art (SOA) semantic segmentation models when faced with geometric out-of-distribution (OOD) data, and (2) propose an augmentation technique called "Organ Transplantation", to enhance generalizability. Our comprehensive validation on six different OOD datasets, comprising 600 RGB and hyperspectral imaging (HSI) cubes from 33 pigs, each annotated with 19 classes, reveals a large performance drop in SOA organ segmentation models on geometric OOD data. This performance decline is observed not only in conventional RGB data (with a dice similarity coefficient (DSC) drop of 46 %) but also in HSI data (with a DSC drop of 45 %), despite the richer spectral information content. The performance decline increases with the spatial granularity of the input data. Our augmentation technique improves SOA model performance by up to 67 % for RGB data and 90 % for HSI data, achieving performance at the level of in-distribution performance on real OOD test data. Given the simplicity and effectiveness of our augmentation method, it is a valuable tool for addressing geometric domain shifts in surgical scene segmentation, regardless of the underlying model. Our code and pre-trained models are publicly available at https://github.com/IMSY-DKFZ/htc. | 翻訳日:2024-08-29 17:52:31 公開日:2024-08-27 |
# より優れたサイクルを持つCycleGAN
CycleGAN with Better Cycles ( http://arxiv.org/abs/2408.15374v1 ) ライセンス: Link先を確認 | Tongzhou Wang, Yihan Lin, | (参考訳) CycleGANは、サイクル整合性損失[4]を使用して、未ペアデータセットで画像から画像への変換をトレーニングするフレームワークを提供する。
多くのアプリケーションでは結果が優れているが、ピクセルレベルのサイクルの一貫性は問題になり、場合によっては非現実的な画像を引き起こす可能性がある。
本稿では, サイクル整合性に対する3つの簡単な修正を提案し, より少ないアーティファクトでより良い結果が得られることを示す。
CycleGAN provides a framework to train image-to-image translation with unpaired datasets using cycle consistency loss [4]. While results are great in many applications, the pixel level cycle consistency can potentially be problematic and causes unrealistic images in certain cases. In this project, we propose three simple modifications to cycle consistency, and show that such an approach achieves better results with fewer artifacts. | 翻訳日:2024-08-29 17:52:31 公開日:2024-08-27 |
# Dual KanbaFormer: Kolmogorov-Arnold Networks and State Space Model DualKanbaFormer: Kolmogorov-Arnold Networks and State Space Model Transformer for Multimodal Aspect-based Sentiment Analysis
DualKanbaFormer: Kolmogorov-Arnold Networks and State Space Model DualKanbaFormer: Kolmogorov-Arnold Networks and State Space Model Transformer for Multimodal Aspect-based Sentiment Analysis ( http://arxiv.org/abs/2408.15379v1 ) ライセンス: Link先を確認 | Adamu Lawan, Juhua Pu, Haruna Yunusa, Muhammad Lawan, Aliyu Umar, Adamu Sani Yahya, | (参考訳) マルチモーダルアスペクトベースの感情分析(MABSA)は、テキストと画像のような他のデータ型を組み合わせることで感情検出を強化する。
しかし、重要なベンチマークの設定にもかかわらず、注意機構はテキスト内のアスペクトと意見対象間の長距離依存関係を効率的にモデル化する際の限界を示す。
また、ビジュアル表現のグローバルコンテキスト依存をキャプチャする上でも、課題に直面している。
そこで本稿では,KAN(Kolmogorov-Arnold Networks)とSelective State Space Model(Mamba) Transformer(DualKanbaFormer)を提案する。
我々はMambaの力を利用して、グローバルなコンテキスト依存をキャプチャし、MHA(Multi-head Attention)を使ってローカルなコンテキスト依存をキャプチャし、Kansはテキスト表現(textual KanbaFormer)とビジュアル表現(visual KanbaFormer)の両方の非線形モデリングパターンをキャプチャします。
さらに,テキスト形式のkanbaFormerとビジュアルなkanbaFomerをゲート融合層で融合させて,モーダリティ間のダイナミクスを捉える。
大規模な実験結果によると、我々のモデルは2つの公開データセットに関する最新技術(SOTA)研究より優れています。
Multimodal aspect-based sentiment analysis (MABSA) enhances sentiment detection by combining text with other data types like images. However, despite setting significant benchmarks, attention mechanisms exhibit limitations in efficiently modelling long-range dependencies between aspect and opinion targets within the text. They also face challenges in capturing global-context dependencies for visual representations. To this end, we propose Kolmogorov-Arnold Networks (KANs) and Selective State Space model (Mamba) transformer (DualKanbaFormer), a novel architecture to address the above issues. We leverage the power of Mamba to capture global context dependencies, Multi-head Attention (MHA) to capture local context dependencies, and KANs to capture non-linear modelling patterns for both textual representations (textual KanbaFormer) and visual representations (visual KanbaFormer). Furthermore, we fuse the textual KanbaFormer and visual KanbaFomer with a gated fusion layer to capture the inter-modality dynamics. According to extensive experimental results, our model outperforms some state-of-the-art (SOTA) studies on two public datasets. | 翻訳日:2024-08-29 17:52:31 公開日:2024-08-27 |
# バリアゲートパルスを用いた量子ドット量子ビットの単一ショットラッチ読み出し
Single-shot latched readout of a quantum dot qubit using barrier gate pulsing ( http://arxiv.org/abs/2408.15380v1 ) ライセンス: Link先を確認 | Sanghyeok Park, Jared Benson, J. Corrigan, J. P. Dodson, S. N. Coppersmith, Mark Friesen, M. A. Eriksson, | (参考訳) ラッチ技術は量子ビットの読み出しを高めるために広く用いられている。
これらの方法では、複数のトンネル速度の正確なチューニングが必要であり、キュービットが単一の貯水池に結合された場合など、現実的な実験条件下では達成が難しい。
本稿では,ラッチアウト方式を用いて量子ドット量子ビットを単一貯留層で単発計測する方法を提案する。
提案手法は,様々なスピンベースの量子ビットのラッチ読み出しに容易に適用可能な,量子ビットから貯留層へのトンネル速度を動的に制御するためのバリアゲートの脈動を含む。
この方法を用いて、Si/SiGe量子ドットハイブリッド量子ビットのコヒーレントラーモア振動の測定において、量子ビット状態ラッチを可能とし、量子ビットリセット時間を短縮する。
Latching techniques are widely used to enhance readout of qubits. These methods require precise tuning of multiple tunnel rates, which can be challenging to achieve under realistic experimental conditions, such as when a qubit is coupled to a single reservoir. Here, we present a method for single-shot measurement of a quantum dot qubit with a single reservoir using a latched-readout scheme. Our approach involves pulsing a barrier gate to dynamically control qubit-to-reservoir tunnel rates, a method that is readily applicable to the latched readout of various spin-based qubits. We use this method to enable qubit state latching and to reduce the qubit reset time in measurements of coherent Larmor oscillations of a Si/SiGe quantum dot hybrid qubit. | 翻訳日:2024-08-29 17:52:31 公開日:2024-08-27 |
# マルチエージェント強化学習におけるステートフル値分解について
On Stateful Value Factorization in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2408.15381v1 ) ライセンス: Link先を確認 | Enrico Marchesini, Andrea Baisero, Rupali Bathi, Christopher Amato, | (参考訳) バリューファクタライゼーションは、スケーラブルなマルチエージェント強化学習アルゴリズムを設計するための一般的なパラダイムである。
しかし、現在の因数分解法は、その性能を制限するような完全な正当化なしに選択する。
例えば、先行研究における理論はステートレス(履歴)関数を使用し、実践的な実装ではステート情報を使用します -- モチベーション理論を実装のミスマッチにします。また、メソッドは以前のアプローチから作り出され、アーキテクチャを継承します。これらの懸念に対処するために、現在のメソッドの履歴ではなく、ステートを使用する理論を正式に分析します。理論と実践を再接続します。
次にDuelMIXを導入する。DuelMIXは、各エージェント毎のユーティリティ推定器を学習し、性能を改善し、完全な表現性を実現する。
StarCraft IIのマイクロマネジメントとBox Pushingタスクの実験は、私たちの直感の利点を示しています。
Value factorization is a popular paradigm for designing scalable multi-agent reinforcement learning algorithms. However, current factorization methods make choices without full justification that may limit their performance. For example, the theory in prior work uses stateless (i.e., history) functions, while the practical implementations use state information -- making the motivating theory a mismatch for the implementation. Also, methods have built off of previous approaches, inheriting their architectures without exploring other, potentially better ones. To address these concerns, we formally analyze the theory of using the state instead of the history in current methods -- reconnecting theory and practice. We then introduce DuelMIX, a factorization algorithm that learns distinct per-agent utility estimators to improve performance and achieve full expressiveness. Experiments on StarCraft II micromanagement and Box Pushing tasks demonstrate the benefits of our intuitions. | 翻訳日:2024-08-29 17:52:31 公開日:2024-08-27 |
# Fediverse decentralizationPromiseのエビデンスに基づく批判的分析
An evidence-based and critical analysis of the Fediverse decentralization promises ( http://arxiv.org/abs/2408.15383v1 ) ライセンス: Link先を確認 | Henrique S. Xavier, | (参考訳) 本稿では,ソーシャルメディアとコンテンツプラットフォームの連合ネットワークであるFederiverseの可能性を検討する。
我々は、Fediverse(特にActivityPubプロトコル)を支える技術、インスタンス上のFediverseユーザ分布に関する現在の統計データ、および電子メールとWebという2つの古い、類似した分散技術の現状から証拠を収集する。
われわれの調査結果は、Fediverseが分散化の約束を果たす上で大きな課題に直面することを示唆している。
This paper examines the potential of the Fediverse, a federated network of social media and content platforms, to counter the centralization and dominance of commercial platforms on the social Web. We gather evidence from the technology powering the Fediverse (especially the ActivityPub protocol), current statistical data regarding Fediverse user distribution over instances, and the status of two older, similar, decentralized technologies: e-mail and the Web. Our findings suggest that Fediverse will face significant challenges in fulfilling its decentralization promises, potentially hindering its ability to positively impact the social Web on a large scale. | 翻訳日:2024-08-29 17:52:31 公開日:2024-08-27 |
# 顔超解像の拡散モデルにおける多機能凝集
Multi-Feature Aggregation in Diffusion Models for Enhanced Face Super-Resolution ( http://arxiv.org/abs/2408.15386v1 ) ライセンス: Link先を確認 | Marcelo dos Santos, Rayson Laroca, Rafael O. Ribeiro, João C. Neves, David Menotti, | (参考訳) 超解像アルゴリズムは、未知の劣化、ポーズの変化、不規則な照明、閉塞などの悪条件のために、監視環境からのイメージに苦しむことが多い。
しかし、低品質でも複数の画像を取得することは監視カメラで可能である。
本研究では,低解像度画像と複数の低画質画像から抽出した特徴を組み合わせた拡散モデルに基づくアルゴリズムを開発し,個人識別の歪みを最小限に抑えながら超解像を生成する。
他のアルゴリズムとは異なり、本手法は属性情報を明示的に提供せず、あるいは再構成過程中に関数の勾配を計算することなく顔の特徴を復元する。
我々の知る限り、確率微分方程式を用いてより信頼性の高い超解像を生成するために、低分解能画像と低分解能画像の組み合わせがコンディショナーとして使用されるのは、これが初めてである。
FFHQデータセットはトレーニングに使用されており、CelebAデータセットとQuis-Campiデータセットで評価すると、顔認識と検証メトリクスの最先端のパフォーマンスが向上した。
私たちのコードはhttps://github.com/marcelowds/fasrで公開されています
Super-resolution algorithms often struggle with images from surveillance environments due to adverse conditions such as unknown degradation, variations in pose, irregular illumination, and occlusions. However, acquiring multiple images, even of low quality, is possible with surveillance cameras. In this work, we develop an algorithm based on diffusion models that utilize a low-resolution image combined with features extracted from multiple low-quality images to generate a super-resolved image while minimizing distortions in the individual's identity. Unlike other algorithms, our approach recovers facial features without explicitly providing attribute information or without the need to calculate a gradient of a function during the reconstruction process. To the best of our knowledge, this is the first time multi-features combined with low-resolution images are used as conditioners to generate more reliable super-resolution images using stochastic differential equations. The FFHQ dataset was employed for training, resulting in state-of-the-art performance in facial recognition and verification metrics when evaluated on the CelebA and Quis-Campi datasets. Our code is publicly available at https://github.com/marcelowds/fasr | 翻訳日:2024-08-29 17:52:31 公開日:2024-08-27 |
# 自律運転のためのパノプティカル認知:サーベイ
Panoptic Perception for Autonomous Driving: A Survey ( http://arxiv.org/abs/2408.15388v1 ) ライセンス: Link先を確認 | Yunge Li, Lanyu Xu, | (参考訳) パノプティック・インセプション(英: Panoptic perception)は、自律運転技術の先駆的な進歩であり、複数の知覚タスクを単一の密集した枠組みに統合し、車両の周囲の完全な理解を促進する。
この調査では、独自の入力やアーキテクチャに対する典型的な汎視知覚モデルをレビューし、パフォーマンス、応答性、リソース利用と比較した。
また、汎視的知覚で直面する一般的な課題を掘り下げ、将来の研究のための潜在的な軌道を探究する。
私たちのゴールは、自律運転の研究者に、パン光学的知覚の詳細なシナプスを付与することであり、この調査は、自律運転技術の絶え間なく進化する分野における重要な基準として位置づけられている。
Panoptic perception represents a forefront advancement in autonomous driving technology, unifying multiple perception tasks into a singular, cohesive framework to facilitate a thorough understanding of the vehicle's surroundings. This survey reviews typical panoptic perception models for their unique inputs and architectures and compares them to performance, responsiveness, and resource utilization. It also delves into the prevailing challenges faced in panoptic perception and explores potential trajectories for future research. Our goal is to furnish researchers in autonomous driving with a detailed synopsis of panoptic perception, positioning this survey as a pivotal reference in the ever-evolving landscape of autonomous driving technologies. | 翻訳日:2024-08-29 17:52:31 公開日:2024-08-27 |
# 剛線形微分方程式に対する物理インフォームニューラルネットワークの安定性解析
Stability Analysis of Physics-Informed Neural Networks for Stiff Linear Differential Equations ( http://arxiv.org/abs/2408.15393v1 ) ライセンス: Link先を確認 | Gianluca Fabiani, Erik Bollt, Constantinos Siettos, Athanasios N. Yannacopoulos, | (参考訳) 本稿では、(剛性)線形微分方程式の数値解に対して、ランダムな投射を伴う物理情報ニューラルネットワーク(PINN)の安定性解析を行う。
本稿では,線形ODEと線形パラボリックPDEのシステムについて考察する。
適切に設計されたPINNは、一貫性と漸近的に安定な数値スキームを提供し、従って収束するスキームを提供する。
特に,マルチコロケーション・ランダム・プロジェクション PINN は高度剛性に対する漸近安定性を保証し,単一コロケーション PINN が$A$stable であることを証明する。
数値近似精度と計算コストの両面からPINNの性能を評価するため,他の暗黙のスキームとの比較を行い,特に後方のオイラー,中点,台形(クランク・ニコルソン),2段ガウススキーム,2段および3段ラダウスキームを比較した。
提案したPINNは,様々なステップサイズにおいて,数値近似精度と計算コストの両方において,従来の手法よりも優れていることを示す。
We present a stability analysis of Physics-Informed Neural Networks (PINNs) coupled with random projections, for the numerical solution of (stiff) linear differential equations. For our analysis, we consider systems of linear ODEs, and linear parabolic PDEs. We prove that properly designed PINNs offer consistent and asymptotically stable numerical schemes, thus convergent schemes. In particular, we prove that multi-collocation random projection PINNs guarantee asymptotic stability for very high stiffness and that single-collocation PINNs are $A$-stable. To assess the performance of the PINNs in terms of both numerical approximation accuracy and computational cost, we compare it with other implicit schemes and in particular backward Euler, the midpoint, trapezoidal (Crank-Nikolson), the 2-stage Gauss scheme and the 2 and 3 stages Radau schemes. We show that the proposed PINNs outperform the above traditional schemes, in both numerical approximation accuracy and importantly computational cost, for a wide range of step sizes. | 翻訳日:2024-08-29 17:52:31 公開日:2024-08-27 |
# SCAN-Edge: ハードウェア・アウェア進化探索による多様なエッジデバイスのための移動ネットワーク高速ハイブリッドネットワークの探索
SCAN-Edge: Finding MobileNet-speed Hybrid Networks for Diverse Edge Devices via Hardware-Aware Evolutionary Search ( http://arxiv.org/abs/2408.15395v1 ) ライセンス: Link先を確認 | Hung-Yueh Chiang, Diana Marculescu, | (参考訳) 様々な低コストのコモディティエッジデバイス向けに低レイテンシと高効率のハイブリッドネットワークを設計することは費用がかかり、面倒であり、最適なアーキテクチャを見つけるためにハードウェア対応のニューラルネットワークサーチ(NAS)が採用される。
しかし、幅広いエッジデバイスに対するNASの統合は、様々なハードウェア設計、サポートされた操作、コンパイル最適化などの課題を提起する。
既存の手法では、アーキテクチャ選択の検索スペース(例えば、アクティベーション、畳み込み、自己アテンション)を固定し、ハードウェアに依存しないプロキシ(例えば、FLOP)を用いて遅延を推定する。
この問題に対処するために、我々は、CPU、GPU、ハードウェアアクセラレーションベースのシステムを含む幅広いエッジデバイスに対応するために、自己注意、畳み込み、アクティベーションを共同で検索する統合NASフレームワークであるSCAN-Edgeを提案する。
大規模な検索空間を扱うために、SCAN-Edgeは、サンプリングプロセスを高速化するために、検索空間の品質を改善するハードウェア対応の進化アルゴリズムに依存している。
大規模データセットの実験により、我々のハイブリッドネットワークは、様々なコモディティエッジデバイスで224x224入力解像度で実際のMobileNetV2レイテンシと一致していることが示された。
Designing low-latency and high-efficiency hybrid networks for a variety of low-cost commodity edge devices is both costly and tedious, leading to the adoption of hardware-aware neural architecture search (NAS) for finding optimal architectures. However, unifying NAS for a wide range of edge devices presents challenges due to the variety of hardware designs, supported operations, and compilation optimizations. Existing methods often fix the search space of architecture choices (e.g., activation, convolution, or self-attention) and estimate latency using hardware-agnostic proxies (e.g., FLOPs), which fail to achieve proclaimed latency across various edge devices. To address this issue, we propose SCAN-Edge, a unified NAS framework that jointly searches for self-attention, convolution, and activation to accommodate the wide variety of edge devices, including CPU-, GPU-, and hardware accelerator-based systems. To handle the large search space, SCAN-Edge relies on with a hardware-aware evolutionary algorithm that improves the quality of the search space to accelerate the sampling process. Experiments on large-scale datasets demonstrate that our hybrid networks match the actual MobileNetV2 latency for 224x224 input resolution on various commodity edge devices. | 翻訳日:2024-08-29 17:52:31 公開日:2024-08-27 |
# 重症急性呼吸症候群データセットにおける事前トレーニングバイアスの評価
Evaluating Pre-Training Bias on Severe Acute Respiratory Syndrome Dataset ( http://arxiv.org/abs/2408.15398v1 ) ライセンス: Link先を確認 | Diego Dimer Rodrigues, | (参考訳) 機械学習(ML)は、健康を含むいくつかの領域で多くの実践的な応用を見出したコンピュータサイエンスの分野である。
しかし、データのサイズや可用性が増大し、人間の決定を助けたり置き換えたりするモデルの数が増えるにつれて、これらのモデルが偏見の影響を受けやすくなり、性別、宗教、性的指向、民族性などの保護された属性に基づいて決定を下すことによって特定の個人に害を与える可能性があるという懸念が高まる。
可視化技術は洞察を生成し、大規模なデータセットを要約する助けになり、トレーニング前にデータセットに適用された事前トレーニングメトリクスを評価することで、データサイエンティストがモデルをトレーニングする前にデータをよりよく理解できるようになる。
この研究は、OpenDataSUSの重篤な急性呼吸症候群データセットを使用して、3つのトレーニング済みバイアスメトリクスとそのブラジルの異なる地域への分布を可視化する。
ランダム森林モデルは各地域で訓練され、他の地域に適用される。
目的は、異なる領域のバイアスを比較し、保護された属性に注目し、モデルのパフォーマンスとメトリック値を比較することである。
Machine learning (ML) is a growing field of computer science that has found many practical applications in several domains, including Health. However, as data grows in size and availability, and the number of models that aim to aid or replace human decisions, it raises the concern that these models can be susceptible to bias, which can lead to harm to specific individuals by basing its decisions on protected attributes such as gender, religion, sexual orientation, ethnicity, and others. Visualization techniques might generate insights and help summarize large datasets, enabling data scientists to understand the data better before training a model by evaluating pre-training metrics applied to the datasets before training, which might contribute to identifying potential harm before any effort is put into training and deploying the models. This work uses the severe acute respiratory syndrome dataset from OpenDataSUS to visualize three pre-training bias metrics and their distribution across different regions in Brazil. A random forest model is trained in each region and applied to the others. The aim is to compare the bias for the different regions, focusing on their protected attributes and comparing the model's performance with the metric values. | 翻訳日:2024-08-29 17:52:31 公開日:2024-08-27 |
# データ依存型検索モデルのための統計的枠組み
A Statistical Framework for Data-dependent Retrieval-Augmented Models ( http://arxiv.org/abs/2408.15399v1 ) ライセンス: Link先を確認 | Soumya Basu, Ankit Singh Rawat, Manzil Zaheer, | (参考訳) 最新のMLシステムは、最終的な予測を強化するために、追加の関連情報によって入力インスタンスを増大させる。
このような検索強化モデルへの関心が高まっているが、その基本的な性質や訓練はよく理解されていない。
2つのコンポーネントでそのようなモデルを研究するための統計的枠組みを提案する。
1) 大規模コーパスからデータ依存計量を用いて関連情報を識別する検索装置
2) 検索した情報とともに入力インスタンスを消費し、最終的な予測を行う。
本稿では,両コンポーネントのエンドツーエンドトレーニングを原則として提案し,文献における各種トレーニング手法との関係について述べる。
さらに,検索対象モデルに対する過剰なリスクバウンダリを確立するとともに,検索者および予測者のモデル性能に対する貢献を明記する。
提案手法の有効性と,検索強化が重要となるオープン領域質問応答タスクに関する統計的分析から,提案手法の有効性を検証した。
Modern ML systems increasingly augment input instances with additional relevant information to enhance final prediction. Despite growing interest in such retrieval-augmented models, their fundamental properties and training are not well understood. We propose a statistical framework to study such models with two components: 1) a {\em retriever} to identify the relevant information out of a large corpus via a data-dependent metric; and 2) a {\em predictor} that consumes the input instances along with the retrieved information to make the final predictions. We present a principled method for end-to-end training of both components and draw connections with various training approaches in the literature. Furthermore, we establish excess risk bounds for retrieval-augmented models while delineating the contributions of both retriever and predictor towards the model performance. We validate the utility of our proposed training methods along with the key takeaways from our statistical analysis on open domain question answering task where retrieval augmentation is important. | 翻訳日:2024-08-29 17:42:47 公開日:2024-08-27 |
# 多機能貯水池コンピュータにおけるスイッチングダイナミクスの起源を探る
Exploring the origins of switching dynamics in a multifunctional reservoir computer ( http://arxiv.org/abs/2408.15400v1 ) ライセンス: Link先を確認 | Andrew Flynn, Andreas Amann, | (参考訳) 多機能性の概念は、一般的に人工ニューラルネットワークとして実現される力学系の一種である貯水池コンピュータ(RC)を、同じ訓練された重みを使って同時に複数の誘引器を再構築することを可能にする。
しかし、RCをトレーニングして複数のアトラクションを再構築する際、さらに多くの現象が発生する。
以前の研究では、ある場合において、RCがアトラクタの共存を再構築できなかった場合、外部入力がなければ、RCの状態はアトラクタの特性に類似した振る舞いの異なるモードに切り替わる。
本稿では,これらのスイッチング・ダイナミクスの起源を,'シーティング・ダブル'問題によるパラダイム・セッティングで考察する。
The concept of multifunctionality has enabled reservoir computers (RCs), a type of dynamical system that is typically realised as an artificial neural network, to reconstruct multiple attractors simultaneously using the same set of trained weights. However there are many additional phenomena that arise when training a RC to reconstruct more than one attractor. Previous studies have found that, in certain cases, if the RC fails to reconstruct a coexistence of attractors then it exhibits a form of metastability whereby, without any external input, the state of the RC switches between different modes of behaviour that resemble properties of the attractors it failed to reconstruct. In this paper we explore the origins of these switching dynamics in a paradigmatic setting via the `seeing double' problem. | 翻訳日:2024-08-29 17:42:47 公開日:2024-08-27 |
# 超伝導量子ビットにおけるZZ結合の包括的説明
Comprehensive explanation of ZZ coupling in superconducting qubits ( http://arxiv.org/abs/2408.15402v1 ) ライセンス: Link先を確認 | Simon Pettersson Fors, Jorge Fernández-Pendás, Anton Frisk Kockum, | (参考訳) 超伝導量子コンピュータのスケールアップにおける大きな課題は、クビット間の不要な結合であり、クビット状態に条件付きエネルギー準位をシフトすることでゲート忠実性に影響を与える常時オンのZZ結合をもたらす。
この課題に対処するために、図式摂動理論と状態割当アルゴリズムを含む解析的および数値的手法、およびZZ結合の動作に対する洗練された直観的図形を導入する。
これらのツールによって、ZZ結合の背後にあるメカニズムのより深い理解が可能になり、弱いZZ結合と強いZZ結合のパラメータ領域の発見が容易になる。
フラックス可変トランスモンカップラで接続された2つの固定周波数トランスモンキュービットからなるシステムに対して,これらの手法を実証する。
そこでは,ZZ結合がゼロあるいはゼロに近い3種類のパラメータ領域が見つかる。
さらに, 断熱制御相ゲートの実装に使用されるZZ結合の強い領域が近くにあることも見いだされる。
提案手法は様々な種類の量子ビットに適用可能であり,ゲート忠実度を向上した大規模量子コンピュータの設計にも適用可能である。
A major challenge for scaling up superconducting quantum computers is unwanted couplings between qubits, which lead to always-on ZZ couplings that impact gate fidelities by shifting energy levels conditional on qubit states. To tackle this challenge, we introduce analytical and numerical techniques, including a diagrammatic perturbation theory and a state-assignment algorithm, as well as a refined intuitive picture for the workings of the ZZ coupling. Together, these tools enable a deeper understanding of the mechanisms behind the ZZ coupling and facilitate finding parameter regions of weak and strong ZZ coupling. We showcase these techniques for a system consisting of two fixed-frequency transmon qubits connected by a flux-tunable transmon coupler. There, we find three types of parameter regions with zero or near-zero ZZ coupling, all of which are accessible with current technology. We furthermore find regions of strong ZZ coupling nearby, which may be used to implement adiabatic controlled-phase gates. Our methods are applicable to many types of qubits and open up for the design of large-scale quantum computers with improved gate fidelities. | 翻訳日:2024-08-29 17:42:47 公開日:2024-08-27 |
# インクリメンタルバッチ学習によるCDS(Credit VIX)予測手法の評価
Evaluating Credit VIX (CDS IV) Prediction Methods with Incremental Batch Learning ( http://arxiv.org/abs/2408.15404v1 ) ライセンス: Link先を確認 | Robert Taylor, | (参考訳) 本稿は,SVM,グラディエントブースティング,およびアテンション-GRUハイブリッドモデルによる,24年5月半ば以降の四半期における欧州企業債務に対する5年間の信用デフォルトスワップ(CDS)のインプリッドボラティリティの予測について,iTraxx/Cboe Europe Main 1-Monthボラティリティ指標(BPボラティリティ指数)に代表される実験プロセスと結果を示す。
この分析は、メルトンのデフォルト確率の行列式にインスパイアされた特徴行列を用いる。
我々の比較評価は、金融リスク予測のためのSOTAと古典的機械学習手法の強みを特定することを目的としている。
This paper presents the experimental process and results of SVM, Gradient Boosting, and an Attention-GRU Hybrid model in predicting the Implied Volatility of rolled-over five-year spread contracts of credit default swaps (CDS) on European corporate debt during the quarter following mid-May '24, as represented by the iTraxx/Cboe Europe Main 1-Month Volatility Index (BP Volatility). The analysis employs a feature matrix inspired by Merton's determinants of default probability. Our comparative assessment aims to identify strengths in SOTA and classical machine learning methods for financial risk prediction | 翻訳日:2024-08-29 17:42:47 公開日:2024-08-27 |
# ソーシャルメディアの至る所におけるインターツウィンドバイアス : メディアバイアス次元の相関を解き放つ
Intertwined Biases Across Social Media Spheres: Unpacking Correlations in Media Bias Dimensions ( http://arxiv.org/abs/2408.15406v1 ) ライセンス: Link先を確認 | Yifan Liu, Yike Li, Dong Wang, | (参考訳) メディアバイアスは、ステレオタイプを強化し、社会的分裂を悪化させることによって、公共の認知を著しく形作る。
以前の研究では、様々なトピック領域にまたがる様々なバイアスの複雑な相互関係を無視して、メディアバイアスの分離された次元(例えば「textit{political bias}」や「textit{racial bias}」など)に焦点を合わせてきた。
さらに、既存のメディアバイアスベンチマークでトレーニングされたモデルは、最近のソーシャルメディア投稿、特に特定のバイアス識別タスクにおいて効果的に一般化できないことが観察された。
この不足は、これらのベンチマークが、ユーザの行動やトレンドの変化を特徴とするソーシャルメディアコンテンツの急速に進化する性質を適切に反映していないため、主に生じます。
これらの制限に応えて、過去5年間にYouTubeとRedditから収集された新しいデータセットを紹介します。
私たちのデータセットには、性別、人種、政治的バイアス、ヘイトスピーチなど、幅広いバイアス範囲にわたるYouTubeコンテンツの自動アノテーションが含まれています。
政治、スポーツ、医療、教育、エンターテイメントなど様々な分野にまたがっており、様々な社会分野における偏見の複雑な相互作用を反映している。
包括的統計分析により、これらの領域間でのバイアス表現パターンとドメイン内バイアス相関の有意な差異を同定する。
様々なバイアス次元間の相関関係の理解を利用して、複数のバイアスを同時に検出できる先進的なシステムを構築するための基礎を築いた。
全体として、我々のデータセットはメディアバイアス識別の分野を前進させ、より公平なメディア消費を促進するツールの開発に寄与する。
既存のメディアバイアスに対する包括的認識は、より倫理的なジャーナリズムを育み、文化的な感受性を促進し、より情報に富み、公平な世論を支持する。
Media bias significantly shapes public perception by reinforcing stereotypes and exacerbating societal divisions. Prior research has often focused on isolated media bias dimensions such as \textit{political bias} or \textit{racial bias}, neglecting the complex interrelationships among various bias dimensions across different topic domains. Moreover, we observe that models trained on existing media bias benchmarks fail to generalize effectively on recent social media posts, particularly in certain bias identification tasks. This shortfall primarily arises because these benchmarks do not adequately reflect the rapidly evolving nature of social media content, which is characterized by shifting user behaviors and emerging trends. In response to these limitations, our research introduces a novel dataset collected from YouTube and Reddit over the past five years. Our dataset includes automated annotations for YouTube content across a broad spectrum of bias dimensions, such as gender, racial, and political biases, as well as hate speech, among others. It spans diverse domains including politics, sports, healthcare, education, and entertainment, reflecting the complex interplay of biases across different societal sectors. Through comprehensive statistical analysis, we identify significant differences in bias expression patterns and intra-domain bias correlations across these domains. By utilizing our understanding of the correlations among various bias dimensions, we lay the groundwork for creating advanced systems capable of detecting multiple biases simultaneously. Overall, our dataset advances the field of media bias identification, contributing to the development of tools that promote fairer media consumption. The comprehensive awareness of existing media bias fosters more ethical journalism, promotes cultural sensitivity, and supports a more informed and equitable public discourse. | 翻訳日:2024-08-29 17:42:47 公開日:2024-08-27 |
# 多結晶材料の応力場モデリングのためのダイバージェンスフリーニューラル演算子
Divergence-free neural operators for stress field modeling in polycrystalline materials ( http://arxiv.org/abs/2408.15408v1 ) ライセンス: Link先を確認 | Mohammad S. Khorrami, Pawan Goyal, Jaber R. Mianroodi, Bob Svendsen, Peter Benner, Dierk Raabe, | (参考訳) 本研究の目的は、多結晶材料の準静的機械的応答の代理モデリングのためのフーリエ神経演算子(FNO)の開発と比較である。
物理誘導型FNO(PgFNO)、物理インフォーム型FNO(PiFNO)、物理符号化型FNO(PeFNO)である。
これらは、周期的な粒微細構造を持つ異種弾性材料の基準モデルからの応力場データを用いて、訓練され、比較される。
PgFNO のトレーニングはこれらのデータのみに基づいているが、PiFNO と PeFNO のトレーニングは、応力場が機械的平衡を満たすこと、すなわち、ばらつきのないことの要求に制約される。
PiFNO と PeFNO の違いは、この制約がどのように考慮されるかにある; PiFNO では損失関数に含まれるが、PeFNO では演算子アーキテクチャで "エンコード" される。
現在の研究では、この符号化はストレスポテンシャルとフーリエ変換に基づいている。
結果として、PiFNOのトレーニングのみは機械的平衡によって制約されるが、対照的に、機械的平衡はPeFNOのトレーニングと出力の両方に制約される。
特に, トレーニングされたPFNOで計算した応力場は, 検討した例において, トレーニングされたPiFNOで計算した応力場よりも有意に精度が高い。
The purpose of the current work is the development and comparison of Fourier neural operators (FNOs) for surrogate modeling of the quasi-static mechanical response of polycrystalline materials. Three types of such FNOs are considered here: a physics-guided FNO (PgFNO), a physics-informed FNO (PiFNO), and a physics-encoded FNO (PeFNO). These are trained and compared with the help of stress field data from a reference model for heterogeneous elastic materials with a periodic grain microstructure. Whereas PgFNO training is based solely on these data, that of the PiFNO and PeFNO is in addition constrained by the requirement that stress fields satisfy mechanical equilibrium, i.e., be divergence-free. The difference between the PiFNO and PeFNO lies in how this constraint is taken into account; in the PiFNO, it is included in the loss function, whereas in the PeFNO, it is "encoded" in the operator architecture. In the current work, this encoding is based on a stress potential and Fourier transforms. As a result, only the training of the PiFNO is constrained by mechanical equilibrium; in contrast, mechanical equilibrium constrains both the training and output of the PeFNO. Due in particular to this, stress fields calculated by the trained PeFNO are significantly more accurate than those calculated by the trained PiFNO in the example cases considered. | 翻訳日:2024-08-29 17:42:47 公開日:2024-08-27 |
# LLM研究から学ぶ、法律と欠陥
Awes, Laws, and Flaws From Today's LLM Research ( http://arxiv.org/abs/2408.15409v1 ) ライセンス: Link先を確認 | Adrian de Wynter, | (参考訳) 我々は,現代大言語モデル(LLM)研究の背景にある科学的方法論を批判的に検討する。
本研究は,優れた研究(例えば,統計検査や再現可能性)の基準に基づいて2000を超える研究成果を評価し,議論の中心にある議論(例えば,創発的行動の主張,LLMを評価対象として用いるなど)で検証する。
創発的行動の主張の減少や倫理的否定者の存在,そして評価者としてのLLMの台頭など,さまざまな傾向を見出した。
本論文は,本分野におけるより精査と厳密さの必要性を浮き彫りにするものである。
批判的な読みと文学への親しみは、倫理的、再現可能、体系的、批判に開放された、責任ある科学的方法の基礎に生きるために不可欠である。
We perform a critical examination of the scientific methodology behind contemporary large language model (LLM) research. For this we assess over 2,000 research works based on criteria typical of what is considered good research (e.g. presence of statistical tests and reproducibility) and cross-validate it with arguments that are at the centre of controversy (e.g., claims of emergent behaviour, the use of LLMs as evaluators). We find multiple trends, such as declines in claims of emergent behaviour and the presence of ethics disclaimers; and the rise of LLMs as evaluators. This paper underscores the need for more scrutiny and rigour by and from this field. Critical reading and familiarity with the literature are crucial to live up to the fundamentals of a responsible scientific method that is ethical, reproducible, systematic, and open to criticism. | 翻訳日:2024-08-29 17:42:47 公開日:2024-08-27 |
# AUTOGENICS: LLMを用いたQ&Aサイトのプログラミングに関するコードスニペットのためのコンテキスト対応インラインコメントの自動生成
AUTOGENICS: Automated Generation of Context-Aware Inline Comments for Code Snippets on Programming Q&A Sites Using LLM ( http://arxiv.org/abs/2408.15411v1 ) ライセンス: Link先を確認 | Suborno Deb Bappon, Saikat Mondal, Banani Roy, | (参考訳) ソースコードのインラインコメントは、理解しやすく、再利用しやすく、可読性も向上している。
しかしながら、Stack Overflow (SO)のようなQ&Aサイトでの回答のコードスニペットにはコメントがないことが多い。
既存の研究によると、これらのオンラインコードの例は読みやすく理解しにくいため、開発者(特に初心者)が正しく使うのが難しく、誤用につながる。
これらの課題から,我々は,大規模な言語モデル(LLM)を利用したSO回答のコードスニペットに対する効果的なインラインコメントを生成するために,SOと統合したツールであるAUTOGENICSを紹介した。
私たちの貢献は3倍です。
まず、SOから400の応答コードスニペットをランダムに選択し、LSMを使ってインラインコメントを生成する。
次に,これらのコメントの有効性を,正確性,妥当性,簡潔性,有用性という4つの重要な指標を用いて手作業で評価する。
全体として、LLMはSO応答コードスニペットのインラインコメントを生成する上で有望な効果を示している。
第2に,14名のアクティブSOユーザを対象に,インラインコメントの有効性について調査した。
調査結果はこれまでの手作業による評価と一致している。
しかし、我々の評価によると、LLMの生成したコメントは短いコードスニペットに対して効果が低く、時にノイズの多いコメントを生成する。
第3に,AUTOGENICSを導入し,質問文から追加のコンテキストを抽出し,文脈対応のインラインコメントを生成する。
また、ノイズを取り除いてコメントを最適化する(例えば、インポートステートメントのコメントや変数宣言など)。
我々は,標準LLMよりも優れる4つの指標を用いて,AUTOGENICS生成コメントの有効性を評価する。
オートジェニックス
(a)コード理解の強化。
(b)時間を節約し、より正確にコードを学び再利用する開発者の能力を向上させる。
Inline comments in the source code facilitate easy comprehension, reusability, and enhanced readability. However, code snippets in answers on Q&A sites like Stack Overflow (SO) often lack comments because answerers volunteer their time and often skip comments or explanations due to time constraints. Existing studies show that these online code examples are difficult to read and understand, making it difficult for developers (especially novices) to use them correctly and leading to misuse. Given these challenges, we introduced AUTOGENICS, a tool designed to integrate with SO to generate effective inline comments for code snippets in SO answers exploiting large language models (LLMs). Our contributions are threefold. First, we randomly select 400 answer code snippets from SO and generate inline comments for them using LLMs. We then manually evaluate these comments' effectiveness using four key metrics: accuracy, adequacy, conciseness, and usefulness. Overall, LLMs demonstrate promising effectiveness in generating inline comments for SO answer code snippets. Second, we surveyed 14 active SO users to perceive the effectiveness of these inline comments. The survey results are consistent with our previous manual evaluation. However, according to our evaluation, LLMs-generated comments are less effective for shorter code snippets and sometimes produce noisy comments. Third, to address the gaps, we introduced AUTOGENICS, which extracts additional context from question texts and generates context-aware inline comments. It also optimizes comments by removing noise (e.g., comments in import statements and variable declarations). We evaluate the effectiveness of AUTOGENICS-generated comments using the same four metrics that outperform those of standard LLMs. AUTOGENICS might (a) enhance code comprehension, (b) save time, and improve developers' ability to learn and reuse code more accurately. | 翻訳日:2024-08-29 17:42:47 公開日:2024-08-27 |
# QAOAによるMaxCut問題における小さなグラフ摂動の影響について
On the Effects of Small Graph Perturbations in the MaxCut Problem by QAOA ( http://arxiv.org/abs/2408.15413v1 ) ライセンス: Link先を確認 | Leonardo Lavagna, Simone Piperno, Andrea Ceschini, Massimo Panella, | (参考訳) 本稿では,量子近似最適化アルゴリズム(QAOA)を用いて,グラフクラスにおける最大カット(MaxCut)問題を対称性を用いて検討する。
特に、グラフ対称性とQAOAシミュレーションによって達成される近似比の関係に関するヒューリスティックスを考察する。
そのために、まずよく知られたグラフ上のMaxCut問題を解き、そのグラフの単純かつ制御可能な摂動を考え、QAOAで近似したMaxCutを求める。
グラフのスペクトルとその摂動の解析、および関連する自己同型群の慎重な研究を通じて、対称性がQAOAの性能にどのように影響するかについての貴重な知見を抽出することを目的とする。
これらの洞察は、量子回路の複雑さ、トレーニングステップの数、関連するパラメータの数をヒューリスティックに減らし、QAOAベースのソリューションの効率と有効性を高めるために利用することができる。
We investigate the Maximum Cut (MaxCut) problem on different graph classes with the Quantum Approximate Optimization Algorithm (QAOA) using symmetries. In particular, heuristics on the relationship between graph symmetries and the approximation ratio achieved by a QAOA simulation are considered. To do so, we first solve the MaxCut problem on well-known graphs, then we consider a simple and controllable perturbation of the graph and find again the approximate MaxCut with the QAOA. Through an analysis of the spectrum of the graphs and their perturbations, as well as a careful study of the associated automorphism groups, we aim to extract valuable insights into how symmetry impacts the performance of QAOA. These insights can then be leveraged to heuristically reduce the quantum circuit complexity, the number of training steps, or the number of parameters involved, thus enhancing the efficiency and effectiveness of QAOA-based solutions. | 翻訳日:2024-08-29 17:42:47 公開日:2024-08-27 |
# 次世代予測のインシシシト幾何学:言語空間パターンからモデル表現へ
Implicit Geometry of Next-token Prediction: From Language Sparsity Patterns to Model Representations ( http://arxiv.org/abs/2408.15417v1 ) ライセンス: Link先を確認 | Yize Zhao, Tina Behnia, Vala Vakilian, Christos Thrampoulidis, | (参考訳) 大規模テキストコーパス上でのNTP(Next-token Prediction)は,大規模言語モデルの学習のパラダイムとなっている。
しかし、NTPが結果のモデル表現の幾何学的性質に対する言語パターンのマッピングにどう影響するかは、まだ不明である。
我々は、スパース確率ラベルベクトルに対するソフトラベル分類としての大規模言語モデルの訓練を、制約のない文脈埋め込みを可能にする解析的近似と組み合わせた。
このアプローチは、NTPトレーニングをロジット領域におけるランク制約付き核ノルム正規化最適化に結び付け、単語と文脈埋め込みの幾何学を解析するためのフレームワークを提供する。
大きな埋め込み空間では、NTPは暗黙的にスパース+ローランク構造でロジットを学習することを好んでいる。
スパース成分はコンテキストワード対の共起周波数をキャプチャするが、トレーニングの進行に伴って支配的な直交低ランク成分は、共起行列のスパースパターンにのみ依存する。
したがって、適切な部分空間に射影されたとき、次トーケンズ崩壊の同じ集合が続く文脈の表現は、部分空間崩壊(subspace-collapse)と呼ばれる現象である。
合成および小規模な実言語データセットについて,本研究の成果を検証した。
最後に,NTPが言語パターンや規則性の学習に与える影響の理解を深めることを目的とした潜在的研究の方向性について概説する。
Next-token prediction (NTP) over large text corpora has become the go-to paradigm to train large language models. Yet, it remains unclear how NTP influences the mapping of linguistic patterns to geometric properties of the resulting model representations. We frame training of large language models as soft-label classification over sparse probabilistic label vectors, coupled with an analytical approximation that allows unrestricted generation of context embeddings. This approach links NTP training to rank-constrained, nuclear-norm regularized optimization in the logit domain, offering a framework for analyzing the geometry of word and context embeddings. In large embedding spaces, we find that NTP implicitly favors learning logits with a sparse plus low-rank structure. While the sparse component captures the co-occurrence frequency of context-word pairs, the orthogonal low-rank component, which becomes dominant as training progresses, depends solely on the sparsity pattern of the co-occurrence matrix. Consequently, when projected onto an appropriate subspace, representations of contexts that are followed by the same set of next-tokens collapse, a phenomenon we term subspace-collapse. We validate our findings on synthetic and small-scale real language datasets. Finally, we outline potential research directions aimed at deepening the understanding of NTP's influence on the learning of linguistic patterns and regularities. | 翻訳日:2024-08-29 17:42:47 公開日:2024-08-27 |
# 近似アルゴリズムによるブール満足度のためのGNNの理解
Understanding GNNs for Boolean Satisfiability through Approximation Algorithms ( http://arxiv.org/abs/2408.15418v1 ) ライセンス: Link先を確認 | Jan Hůla, David Mojžíšek, Mikoláš Janota, | (参考訳) 本稿では,ブール満足度という文脈におけるグラフニューラルネットワークの解釈可能性について論じる。
目標は、これらのモデルの内部動作をデミスティフィケートし、意思決定プロセスに対する洞察力のある視点を提供することです。
これは、ブール満足度(Boolean Satisfiability)の領域で研究された2つの近似アルゴリズム(Breief Propagation)と半定プログラミング緩和(Semidefinite Programming Relaxations)との接続を明らかにすることで実現される。
これらの接続を復活させることで、私たちは影響の大きい拡張一式を導入することができました。
最初の重要な拡張はカリキュラムのトレーニング手順であり、グラフニューラルネットワークのメッセージパッシングイテレーションの数を増やすとともに、トレーニングセットの複雑性を漸進的に増加させる。
カリキュラムは,他のいくつかの最適化とともに,カリキュラムのないベースラインに比べて1桁以上のトレーニング時間を短縮することを示した。
さらに,初期埋め込みのデシメーションとサンプリングを適用し,解問題の割合を大幅に増加させる。
The paper deals with the interpretability of Graph Neural Networks in the context of Boolean Satisfiability. The goal is to demystify the internal workings of these models and provide insightful perspectives into their decision-making processes. This is done by uncovering connections to two approximation algorithms studied in the domain of Boolean Satisfiability: Belief Propagation and Semidefinite Programming Relaxations. Revealing these connections has empowered us to introduce a suite of impactful enhancements. The first significant enhancement is a curriculum training procedure, which incrementally increases the problem complexity in the training set, together with increasing the number of message passing iterations of the Graph Neural Network. We show that the curriculum, together with several other optimizations, reduces the training time by more than an order of magnitude compared to the baseline without the curriculum. Furthermore, we apply decimation and sampling of initial embeddings, which significantly increase the percentage of solved problems. | 翻訳日:2024-08-29 17:42:47 公開日:2024-08-27 |
# Receiptsの紹介:現代ランサムウェアエコシステムの理解
Showing the Receipts: Understanding the Modern Ransomware Ecosystem ( http://arxiv.org/abs/2408.15420v1 ) ライセンス: Link先を確認 | Jack Cable, Ian W. Gray, Damon McCoy, | (参考訳) ランサムウェアによる攻撃は世界中に波及し続けており、ランサムウェアの支払い総額は年間数十億ドルを突破している。
暗号通貨の使用はランサムウェアアクターの戦術を理解するための道を示すが、これまで公表された研究は、ランサムウェア支払いの比較的限られたパブリックデータセットによって制限されてきた。
本研究では,未報告のランサムウェア支払いで7億ドル近くを分類し,偽陽性の少ないランサムウェア支払いを識別する新しい手法を提案する。
ランサムウェア支払いで9億ドルを超える最大のパブリックデータセットを公開しています。
次に、この拡張データセットを活用して、ランサムウェアグループの活動の時間的理解に焦点を当てた分析を行う。
これはランサムウェアの行動に関するユニークな洞察を与え、ランサムウェアのサイバー犯罪活動の研究のためのコーパスを提供する。
Ransomware attacks continue to wreak havoc across the globe, with public reports of total ransomware payments topping billions of dollars annually. While the use of cryptocurrency presents an avenue to understand the tactics of ransomware actors, to date published research has been constrained by relatively limited public datasets of ransomware payments. We present novel techniques to identify ransomware payments with low false positives, classifying nearly \$700 million in previously-unreported ransomware payments. We publish the largest public dataset of over \$900 million in ransomware payments -- several times larger than any existing public dataset. We then leverage this expanded dataset to present an analysis focused on understanding the activities of ransomware groups over time. This provides unique insights into ransomware behavior and a corpus for future study of ransomware cybercriminal activity. | 翻訳日:2024-08-29 17:42:47 公開日:2024-08-27 |
# 人口ベース強化学習における第1・第2次最適化者の同時学習
Simultaneous Training of First- and Second-Order Optimizers in Population-Based Reinforcement Learning ( http://arxiv.org/abs/2408.15421v1 ) ライセンス: Link先を確認 | Felix Pfeiffer, Shahram Eivazi, | (参考訳) 強化学習(RL)におけるハイパーパラメータのチューニングは、これらのパラメータがエージェントのパフォーマンスと学習効率に大きな影響を及ぼすため、非常に重要である。
トレーニング過程におけるハイパーパラメータの動的調整は、学習性能と安定性の両方を著しく向上させることができる。
人口ベーストレーニング(PBT)は、トレーニング全体を通してハイパーパラメータを継続的にチューニングすることで、これを実現する方法を提供する。
この継続的な調整により、モデルは異なる学習段階に適応し、より高速な収束と全体的なパフォーマンス向上を実現する。
本稿では,単一個体群内における一階最適化と二階最適化を同時に活用することにより,PBTの強化を提案する。
我々は様々な MuJoCo 環境にまたがるTD3 アルゴリズムを用いて実験を行った。
PBT ベースの RL に 2 階最適化器を組み込むことの可能性を実証的に実証した。
具体的には、K-FACオプティマイザとAdamの組み合わせにより、Adamのみを使用したPBTと比較して、全体のパフォーマンスが10%向上した。
さらに、スイマー環境のようなアダムが時々失敗する環境では、K-FACとの混成人口はより信頼性の高い学習結果を示し、計算時間を大幅に増加させることなく、トレーニング安定性に大きな利点をもたらした。
The tuning of hyperparameters in reinforcement learning (RL) is critical, as these parameters significantly impact an agent's performance and learning efficiency. Dynamic adjustment of hyperparameters during the training process can significantly enhance both the performance and stability of learning. Population-based training (PBT) provides a method to achieve this by continuously tuning hyperparameters throughout the training. This ongoing adjustment enables models to adapt to different learning stages, resulting in faster convergence and overall improved performance. In this paper, we propose an enhancement to PBT by simultaneously utilizing both first- and second-order optimizers within a single population. We conducted a series of experiments using the TD3 algorithm across various MuJoCo environments. Our results, for the first time, empirically demonstrate the potential of incorporating second-order optimizers within PBT-based RL. Specifically, the combination of the K-FAC optimizer with Adam led to up to a 10% improvement in overall performance compared to PBT using only Adam. Additionally, in environments where Adam occasionally fails, such as the Swimmer environment, the mixed population with K-FAC exhibited more reliable learning outcomes, offering a significant advantage in training stability without a substantial increase in computational time. | 翻訳日:2024-08-29 17:42:47 公開日:2024-08-27 |
# 超対称性量子力学による半古典的手法の最近の進歩
Recent Advances in Semiclassical Methods Inspired by Supersymmetric Quantum Mechanics ( http://arxiv.org/abs/2408.15424v1 ) ライセンス: Link先を確認 | Asim Gangopadhaya, Jonathan Bougie, Constantin Rasinariu, | (参考訳) 半古典的手法は量子力学系の解析に不可欠である。
概して近似結果を生成するが、これらの手法が正確である比較的稀なポテンシャルが存在する。
このような興味深いポテンシャルは、半古典的近似の重要なテストケースとして機能する。
最近の研究では、超対称性量子力学と半古典的手法の正確性の間に深い関係が示されている。
具体的には、従来の形状不変ポテンシャルの数学的形式は、いくつかの関連する状況において正確性を保証する。
本稿では,最近の研究成果を概観し,その意義について論じる。
Semiclassical methods are essential in analyzing quantum mechanical systems. Although they generally produce approximate results, relatively rare potentials exist for which these methods are exact. Such intriguing potentials serve as crucial test cases for semiclassical approximations. Recent research has demonstrated a deep connection between supersymmetric quantum mechanics and the exactness of semiclassical methods. Specifically, the mathematical form of conventional shape-invariant potentials guarantees exactness in several related situations. In this manuscript, we review these recent results and discuss their significance. | 翻訳日:2024-08-29 17:42:47 公開日:2024-08-27 |
# 自動運転車用高速・モジュールオートノミーソフトウェア
Fast and Modular Autonomy Software for Autonomous Racing Vehicles ( http://arxiv.org/abs/2408.15425v1 ) ライセンス: Link先を確認 | Andrew Saba, Aderotimi Adetunji, Adam Johnson, Aadi Kothari, Matthew Sivaprakasam, Joshua Spisak, Prem Bharatia, Arjun Chauhan, Brendan Duff Jr., Noah Gasparro, Charles King, Ryan Larkin, Brian Mao, Micah Nye, Anjali Parashar, Joseph Attias, Aurimas Balciunas, Austin Brown, Chris Chang, Ming Gao, Cindy Heredia, Andrew Keats, Jose Lavariega, William Muckelroy III, Andre Slavescu, Nickolas Stathas, Nayana Suvarna, Chuan Tian Zhang, Sebastian Scherer, Deva Ramanan, | (参考訳) 自動モータースポーツは、人間のレースカードライバーをソフトウェアとセンサーで再現することを目指している。
従来のモータースポーツと同様に、オートマチック・レーシング・ビークル(ARV)は、非常に高い(150mph$)速度で、マルチエージェントシナリオでのハンドリング限界まで押し付けられている。
このオペレーショナルデザインドメイン(ODD)は、自律性スタックにまたがる固有の課題を提示します。
インディ・自律チャレンジ(英語: Indy Autonomous Challenge、略称:IAC)は、ARVの競技を通じて自動運転車の開発を進める国際大会である。
人間のレースカードライバーができることに挑戦するわけではないが、IACはフルサイズのAVVコンペティションを促進することで最先端の技術を推し進めている。
本稿は、ITCにおける自動運転レースに対するMIT-Pitt-RWチームのアプローチについて詳述する。
本研究では,エージェント検出,動作計画,自動スタック作成のための制御に対するモジュール型かつ高速なアプローチを提案する。
また、高速な競合環境での迅速なデプロイのために、ソフトウェアスタックの単一および複数エージェントシナリオにおけるパフォーマンスの分析も提供する。
Dallara AV-21プラットフォームを物理システムにデプロイしたときの動作と、これらの欠点に対処するための潜在的な改善についても取り上げる。
最後に、学習した教訓を伝え、改善のための限界と今後の方向性について議論する。
Autonomous motorsports aim to replicate the human racecar driver with software and sensors. As in traditional motorsports, Autonomous Racing Vehicles (ARVs) are pushed to their handling limits in multi-agent scenarios at extremely high ($\geq 150mph$) speeds. This Operational Design Domain (ODD) presents unique challenges across the autonomy stack. The Indy Autonomous Challenge (IAC) is an international competition aiming to advance autonomous vehicle development through ARV competitions. While far from challenging what a human racecar driver can do, the IAC is pushing the state of the art by facilitating full-sized ARV competitions. This paper details the MIT-Pitt-RW Team's approach to autonomous racing in the IAC. In this work, we present our modular and fast approach to agent detection, motion planning and controls to create an autonomy stack. We also provide analysis of the performance of the software stack in single and multi-agent scenarios for rapid deployment in a fast-paced competition environment. We also cover what did and did not work when deployed on a physical system the Dallara AV-21 platform and potential improvements to address these shortcomings. Finally, we convey lessons learned and discuss limitations and future directions for improvement. | 翻訳日:2024-08-29 17:42:47 公開日:2024-08-27 |
# HEAD:不均一連結・自律走行車における帯域効率の良い協調知覚アプローチ
HEAD: A Bandwidth-Efficient Cooperative Perception Approach for Heterogeneous Connected and Autonomous Vehicles ( http://arxiv.org/abs/2408.15428v1 ) ライセンス: Link先を確認 | Deyuan Qu, Qi Chen, Yongqi Zhu, Yihao Zhu, Sergei S. Avedisov, Song Fu, Qing Yang, | (参考訳) 協調的知覚研究においては、通信帯域幅と知覚性能の間にはトレードオフがあることが多い。
現在の機能融合ソリューションは、優れたオブジェクト検出性能で知られているが、中間機能マップ全体の送信にはかなりの帯域幅が必要である。
さらに、これらの融合アプローチは、通常同じ検出モデルを使用する車両に限られる。
我々のゴールは、センサーの異なる車両間で協調的な知覚を支援するソリューションを開発することである。
本手法は、最先端の中間核融合と同様の精度を達成しつつ、遅延核融合技術と比較して知覚性能を向上させることを目的としているが、帯域幅は桁違いに少ない。
本稿では,3次元物体検出ネットワークの分類と回帰ヘッドから特徴を融合するHEADを提案する。
本手法は,LiDAR PointPillars,SECOND,VoxelNet,カメラBird's-eye View (BEV) Encoderなどの異種検出ネットワークと互換性がある。
検出ヘッドの自然に小さい特徴量を考えると、分類ヘッドと相補的特徴融合層を融合させて回帰ヘッドを融合させる自己認識機構を設計する。
V2V4RealとOPV2Vデータセットを総合的に評価した結果,HEADは通信帯域幅と知覚性能を効果的にバランスさせる融合法であることがわかった。
In cooperative perception studies, there is often a trade-off between communication bandwidth and perception performance. While current feature fusion solutions are known for their excellent object detection performance, transmitting the entire sets of intermediate feature maps requires substantial bandwidth. Furthermore, these fusion approaches are typically limited to vehicles that use identical detection models. Our goal is to develop a solution that supports cooperative perception across vehicles equipped with different modalities of sensors. This method aims to deliver improved perception performance compared to late fusion techniques, while achieving precision similar to the state-of-art intermediate fusion, but requires an order of magnitude less bandwidth. We propose HEAD, a method that fuses features from the classification and regression heads in 3D object detection networks. Our method is compatible with heterogeneous detection networks such as LiDAR PointPillars, SECOND, VoxelNet, and camera Bird's-eye View (BEV) Encoder. Given the naturally smaller feature size in the detection heads, we design a self-attention mechanism to fuse the classification head and a complementary feature fusion layer to fuse the regression head. Our experiments, comprehensively evaluated on the V2V4Real and OPV2V datasets, demonstrate that HEAD is a fusion method that effectively balances communication bandwidth and perception performance. | 翻訳日:2024-08-29 17:32:58 公開日:2024-08-27 |
# 表面近傍の偏光性粒子のデコヒーレンスとブラウン運動
Decoherence and Brownian motion of a polarizable particle near a surface ( http://arxiv.org/abs/2408.15433v1 ) ライセンス: Link先を確認 | Clemens Jakubec, Christopher Jarzynski, Kanu Sinha, | (参考訳) 我々は、媒体の存在下での電磁場(EM)のゆらぎと相互作用する偏光性粒子の古典的および量子化された中心運動を分析する。
偏光性粒子は熱環境に浸漬されるため、磁場のゆらぎによって与えられる運動量インパルスは、粒子の古典的な質量中心への運動量拡散と引きずりにつながる。
粒子の量子化された中心-質量運動を考えると、これらの非常にゆらぎはその位置に関する情報を得て、位置ベースでデコヒーレンスをもたらす。
我々は、粒子の量子化された質量中心の位置局在マスター方程式を導出し、その古典的な中心運動量拡散を調べ、媒体近傍の偏光性粒子の古典的ブラウン運動と量子的ブラウン運動の対応を解明する。
We analyze the classical and quantized center-of-mass motion of a polarizable particle interacting with the fluctuations of the electromagnetic (EM) field in the presence of a medium. As a polarizable particle is immersed in a thermal environment, the momentum impulses imparted by the field fluctuations lead to momentum diffusion and drag for the particle's classical center of mass. When considering the quantized center-of-mass motion of the particle, these very fluctuations gain information about its position, leading to decoherence in the position basis. We derive a position localization master equation for the particle's quantized center of mass, and examine its classical center-of-mass momentum diffusion, elucidating correspondences between classical and quantum Brownian motion of polarizable particles near media. | 翻訳日:2024-08-29 17:32:58 公開日:2024-08-27 |
# 可変慣性を有する電力系統における周波数制御のためのオンラインイベントトリガースイッチング
Online Event-Triggered Switching for Frequency Control in Power Grids with Variable Inertia ( http://arxiv.org/abs/2408.15436v1 ) ライセンス: Link先を確認 | Jie Feng, Wenqi Cui, Jorge Cortés, Yuanyuan Shi, | (参考訳) 再生可能エネルギー資源の電力網への統合が増加し、時間的に変化するシステムの慣性や周波数力学の劣化につながった。
性能劣化を軽減するための有望な解決策は、周波数偏差に応じて出力設定点を調整することにより、再生可能発電機や一次周波数制御のための電池エネルギー貯蔵など、電力エレクトロニクスにインターフェースされたエネルギー資源を使用することである。
しかし,時変慣性下での周波数制御系の設計は困難である。
具体的には、時間不変システム用に設計されたコントローラの安定性や最適性は、時間変化システムに適用すれば妥協することができる。
時間変化慣性下での周波数ダイナミクスを非線形スイッチングシステムとしてモデル化し、各モードの周波数ダイナミクスを非線形揺動方程式で記述し、異なるモードが異なる慣性レベルを表す。
我々は,各モードの指数的入力-状態安定性を保証するニューラルプロポーショナル-インテゴラル(ニューラル-PI)コントローラというキーコントローラ構造を同定する。
さらに性能向上のために,一組のNeural-PIコントローラから最適なコントローラを選択するための,オンラインイベントトリガースイッチングアルゴリズムを提案する。
IEEE 39バスシステムのシミュレーションは,時間変化慣性下での周波数制御における安定性保証と最適化性能を備えたオンラインスイッチング制御方式の有効性を検証した。
The increasing integration of renewable energy resources into power grids has led to time-varying system inertia and consequent degradation in frequency dynamics. A promising solution to alleviate performance degradation is using power electronics interfaced energy resources, such as renewable generators and battery energy storage for primary frequency control, by adjusting their power output set-points in response to frequency deviations. However, designing a frequency controller under time-varying inertia is challenging. Specifically, the stability or optimality of controllers designed for time-invariant systems can be compromised once applied to a time-varying system. We model the frequency dynamics under time-varying inertia as a nonlinear switching system, where the frequency dynamics under each mode are described by the nonlinear swing equations and different modes represent different inertia levels. We identify a key controller structure, named Neural Proportional-Integral (Neural-PI) controller, that guarantees exponential input-to-state stability for each mode. To further improve performance, we present an online event-triggered switching algorithm to select the most suitable controller from a set of Neural-PI controllers, each optimized for specific inertia levels. Simulations on the IEEE 39-bus system validate the effectiveness of the proposed online switching control method with stability guarantees and optimized performance for frequency control under time-varying inertia. | 翻訳日:2024-08-29 17:32:58 公開日:2024-08-27 |
# 遅延継承器生成によるパスフィニング
Pathfinding with Lazy Successor Generation ( http://arxiv.org/abs/2408.15443v1 ) ライセンス: Link先を確認 | Keisuke Okumura, | (参考訳) 本研究では,2つの位置の接続性に応答するオラクルによって,エッジを暗黙的に定義するパスフィンディング問題について検討する。
単純な構造であるにもかかわらず、この問題は検索アルゴリズムに膨大な分岐因子を課すため、膨大な数の位置において非自明なものとなる。
隣人などの後継者の数を制限すれば、探索の労力は減るが、完全性を損なう。
代わりに、新しいLaCAS*アルゴリズムを提案する。これは、全ての後継を一度に生成するのではなく、探索が進むにつれて徐々に後継を生成できる。
このスキームは、k-d木上のk-nearest近傍の探索によって実装される。
LaCAS* は完全かつ任意の時間アルゴリズムであり、最終的にはオプティマに収束する。
大規模評価では, 従来の手法が誤る複雑なパスフィニングを迅速に解決するLaCAS*の有効性が示された。
We study a pathfinding problem where only locations (i.e., vertices) are given, and edges are implicitly defined by an oracle answering the connectivity of two locations. Despite its simple structure, this problem becomes non-trivial with a massive number of locations, due to posing a huge branching factor for search algorithms. Limiting the number of successors, such as with nearest neighbors, can reduce search efforts but compromises completeness. Instead, we propose a novel LaCAS* algorithm, which does not generate successors all at once but gradually generates successors as the search progresses. This scheme is implemented with k-nearest neighbors search on a k-d tree. LaCAS* is a complete and anytime algorithm that eventually converges to the optima. Extensive evaluations demonstrate the efficacy of LaCAS*, e.g., solving complex pathfinding instances quickly, where conventional methods falter. | 翻訳日:2024-08-29 17:32:58 公開日:2024-08-27 |
# 量子ゲームとシンクロニティ
Quantum Games and Synchronicity ( http://arxiv.org/abs/2408.15444v1 ) ライセンス: Link先を確認 | Adina Goldberg, | (参考訳) 圏量子力学のフレーバーでは、量子集合(特に対称ダガー・フロベニウス代数)と arXiv:1711.07945 の量子関数を用いて、非局所ゲームを拡張して量子問題と解を許容する。
方程式はテンソル圏の図式計算を用いて表される。
この量子質問と回答設定のために、戦略、相関、同期性を含む標準定義を拡張し、これらの定義を用いて同期性に関する結果を拡張する。
グラフ準同型(同型)ゲームを量子グラフに拡張し、同期性(双同期性)であり、その完全量子交換性(bi)ストラテジーが量子グラフ準同型(同型)であることを示す。
拡張された定義は、同期性の場合を除いて、既存の量子ゲーム文献と一致する。
In the flavour of categorical quantum mechanics, we extend nonlocal games to allow quantum questions and answers, using quantum sets (special symmetric dagger Frobenius algebras) and the quantum functions of arXiv:1711.07945. Equations are presented using a diagrammatic calculus for tensor categories. To this quantum question and answer setting, we extend the standard definitions, including strategies, correlations, and synchronicity, and we use these definitions to extend results about synchronicity. We extend the graph homomorphism (isomorphism) game to quantum graphs, and show it is synchronous (bisynchronous) and that its perfect quantum-commuting (bi)strategies are quantum graph homomorphisms (isomorphisms). Our extended definitions agree with the existing quantum games literature, except in the case of synchronicity. | 翻訳日:2024-08-29 17:32:58 公開日:2024-08-27 |
# 経時的埋め込みによる細粒度制御可能なビデオキャプション
Fine-grained length controllable video captioning with ordinal embeddings ( http://arxiv.org/abs/2408.15447v1 ) ライセンス: Link先を確認 | Tomoya Nitta, Takumi Fukuzawa, Toru Tamaki, | (参考訳) 本稿では,生成されたキャプションの長さを制御するビデオキャプション手法を提案する。
長さ制御に関する以前の研究は、しばしば長さを表現するためのレベルがほとんどなかった。
本研究では,細粒度制御のための2つの長さ埋め込み法を提案する。
従来の埋め込み法は1ホットベクトルと埋め込み行列を用いて線形である。
本研究では,マルチホットベクトルにおける長さを表す手法を提案する。
1つはビット表現で長さを表すビット埋め込みであり、もう1つは順序回帰でよく使われるバイナリ表現を使用する順序埋め込みである。
これらのマルチホットベクトルの長さ表現は、非線形MLPによって長さ埋め込みに変換される。
この方法は、字幕文の長さ制御だけでなく、字幕を読む際の時間制御を可能にする。
ActivityNet Captions と Spoken Moments in Time を用いた実験では,提案手法が生成したキャプションの長さを効果的に制御できることが示されている。
ICAを用いた埋め込みベクトルの解析により, 長さと意味を別々に学習し, 提案手法の有効性を実証した。
This paper proposes a method for video captioning that controls the length of generated captions. Previous work on length control often had few levels for expressing length. In this study, we propose two methods of length embedding for fine-grained length control. A traditional embedding method is linear, using a one-hot vector and an embedding matrix. In this study, we propose methods that represent length in multi-hot vectors. One is bit embedding that expresses length in bit representation, and the other is ordinal embedding that uses the binary representation often used in ordinal regression. These length representations of multi-hot vectors are converted into length embedding by a nonlinear MLP. This method allows for not only the length control of caption sentences but also the control of the time when reading the caption. Experiments using ActivityNet Captions and Spoken Moments in Time show that the proposed method effectively controls the length of the generated captions. Analysis of the embedding vectors with ICA shows that length and semantics were learned separately, demonstrating the effectiveness of the proposed embedding methods. | 翻訳日:2024-08-29 17:32:58 公開日:2024-08-27 |
# マルチエージェントシステムにおけるネットワークトポロジのグラフアテンション推定
Graph Attention Inference of Network Topology in Multi-Agent Systems ( http://arxiv.org/abs/2408.15449v1 ) ライセンス: Link先を確認 | Akshay Kolli, Reza Azadeh, Kshitj Jerath, | (参考訳) マルチエージェントシステムの基盤となるグラフ構造を正確に同定することは難しい課題である。
本研究は,ノード表現を学習することで,マルチエージェントシステムの将来の状態を予測するためのアテンションメカニズムを活用する,新しい機械学習ベースのソリューションを提案する。
次に、注目値の強さからグラフ構造を推定する。
このアプローチは、線形コンセンサス力学と倉本振動子の非線形力学の両方に適用され、良いエージェント表現を学習することでグラフを暗黙的に学習する。
提案したデータ駆動型グラフアテンション機械学習モデルは,リンク予測において達成されたF1スコアが示すように,基礎となる動的モデルが未知の場合でも,マルチエージェントシステムのネットワークトポロジを識別可能であることを示す。
Accurately identifying the underlying graph structures of multi-agent systems remains a difficult challenge. Our work introduces a novel machine learning-based solution that leverages the attention mechanism to predict future states of multi-agent systems by learning node representations. The graph structure is then inferred from the strength of the attention values. This approach is applied to both linear consensus dynamics and the non-linear dynamics of Kuramoto oscillators, resulting in implicit learning the graph by learning good agent representations. Our results demonstrate that the presented data-driven graph attention machine learning model can identify the network topology in multi-agent systems, even when the underlying dynamic model is not known, as evidenced by the F1 scores achieved in the link prediction. | 翻訳日:2024-08-29 17:32:58 公開日:2024-08-27 |
# TCNFormer: 短期風速予測のための時間的畳み込みネットワーク
TCNFormer: Temporal Convolutional Network Former for Short-Term Wind Speed Forecasting ( http://arxiv.org/abs/2408.15737v1 ) ライセンス: Link先を確認 | Abid Hasan Zim, Aquib Iqbal, Asad Malik, Zhicheng Dong, Hanzhou Wu, | (参考訳) 地球環境問題とエネルギー需要の増大は、風力エネルギー技術の広範な探査に繋がった。
風速予測(WSF)は,風力の捕捉を最適化し,システムの安定性を確保するために重要である。
しかし、風速の予測は、その固有のランダム性、変動、予測不可能性のため、依然として困難である。
本研究では,短期(12時間)の風速予測のためのTCNFormerを提案する。
TCNFormerは、時空間畳み込みネットワーク(TCN)とトランスフォーマーエンコーダを統合し、風速の時空間特性を捉える。
トランスコーダは、因果的側頭多頭自己注意(CT-MSA)と時間的外的注意(TEA)の2つの異なる注意機構から構成される。
CT-MSAは、ステップの出力が前のステップ、すなわち因果性のみに由来することを保証します。
また、効率を向上させるために地域性も導入されている。
TEAは、風速データにおける異なるサンプルシーケンス間の潜在的な関係を探索する。
この研究は、バングラデシュのパテンガ海浜にあるNASA POWER(NASA Prediction of Worldwide Energy Resources)の風速データ(緯度22.2352{\deg} N、経度91.7914{\deg} E)を1年(6シーズン)に利用した。
以上の結果から,TNFormerは予測精度において最先端モデルよりも優れていたことが示唆された。
提案したTNFormer は時空間 WSF の有望な提案手法であり,風力発電システムの実環境への適用において望ましい性能を実現することができる。
Global environmental challenges and rising energy demands have led to extensive exploration of wind energy technologies. Accurate wind speed forecasting (WSF) is crucial for optimizing wind energy capture and ensuring system stability. However, predicting wind speed remains challenging due to its inherent randomness, fluctuation, and unpredictability. This study proposes the Temporal Convolutional Network Former (TCNFormer) for short-term (12-hour) wind speed forecasting. The TCNFormer integrates the Temporal Convolutional Network (TCN) and transformer encoder to capture the spatio-temporal features of wind speed. The transformer encoder consists of two distinct attention mechanisms: causal temporal multi-head self-attention (CT-MSA) and temporal external attention (TEA). CT-MSA ensures that the output of a step derives only from previous steps, i.e., causality. Locality is also introduced to improve efficiency. TEA explores potential relationships between different sample sequences in wind speed data. This study utilizes wind speed data from the NASA Prediction of Worldwide Energy Resources (NASA POWER) of Patenga Sea Beach, Chittagong, Bangladesh (latitude 22.2352{\deg} N, longitude 91.7914{\deg} E) over a year (six seasons). The findings indicate that the TCNFormer outperforms state-of-the-art models in prediction accuracy. The proposed TCNFormer presents a promising method for spatio-temporal WSF and may achieve desirable performance in real-world applications of wind power systems. | 翻訳日:2024-08-29 16:00:49 公開日:2024-08-27 |
# フェデレート学習における等価クライアント選択のための部分モジュラ最大化手法
Submodular Maximization Approaches for Equitable Client Selection in Federated Learning ( http://arxiv.org/abs/2408.13683v2 ) ライセンス: Link先を確認 | Andrés Catalino Castillo Jiménez, Ege C. Kaya, Lintao Ye, Abolfazl Hashemi, | (参考訳) 従来のフェデレートラーニングフレームワークでは、トレーニングのためのクライアント選択は、通常、イテレーション毎にクライアントのサブセットをランダムにサンプリングする。
しかし、このランダムな選択は、しばしばクライアント間で異なるパフォーマンスをもたらし、公正性、特に医療や金融の機械学習タスクなど、公平な結果が不可欠であるアプリケーションにおいて、関心を喚起する。
この格差は通常、パフォーマンス中心のクライアントサンプリング技術の出現によってより顕著になる。
本稿では,ランダムクライアント選択の限界に対処するために,SUBTRUNCとUNIONFLという2つの新しい手法を提案する。
どちらのアプローチも、よりバランスの取れたモデルを達成するために、部分モジュラ函数の最大化を利用する。
施設の位置問題を修正することにより、ランダムな選択に伴う公平さの懸念を軽減することを目指している。
SUBTRUNCは、クライアント損失情報を利用してソリューションを多様化し、UNIONFLは、最終モデルのより公平なパフォーマンスを保証するために、過去のクライアント選択データに依存する。
さらに、これらのアルゴリズムは、合理的な仮定の下で収束に関する堅牢な理論的保証を伴っている。
これらの手法の有効性は、不均一なシナリオにわたる広範囲な評価を通じて実証され、クライアントの異性度測定値によって測定された公正性の顕著な改善が示された。
In a conventional Federated Learning framework, client selection for training typically involves the random sampling of a subset of clients in each iteration. However, this random selection often leads to disparate performance among clients, raising concerns regarding fairness, particularly in applications where equitable outcomes are crucial, such as in medical or financial machine learning tasks. This disparity typically becomes more pronounced with the advent of performance-centric client sampling techniques. This paper introduces two novel methods, namely SUBTRUNC and UNIONFL, designed to address the limitations of random client selection. Both approaches utilize submodular function maximization to achieve more balanced models. By modifying the facility location problem, they aim to mitigate the fairness concerns associated with random selection. SUBTRUNC leverages client loss information to diversify solutions, while UNIONFL relies on historical client selection data to ensure a more equitable performance of the final model. Moreover, these algorithms are accompanied by robust theoretical guarantees regarding convergence under reasonable assumptions. The efficacy of these methods is demonstrated through extensive evaluations across heterogeneous scenarios, revealing significant improvements in fairness as measured by a client dissimilarity metric. | 翻訳日:2024-08-29 12:58:09 公開日:2024-08-27 |
# Splatt3R:未校正画像対からのゼロショットガウススプラッティング
Splatt3R: Zero-shot Gaussian Splatting from Uncalibrated Image Pairs ( http://arxiv.org/abs/2408.13912v2 ) ライセンス: Link先を確認 | Brandon Smart, Chuanxia Zheng, Iro Laina, Victor Adrian Prisacariu, | (参考訳) 本稿では,ポーズレスフィードフォワード方式であるSplatt3Rについて紹介する。
Splatt3Rは補正されていない自然画像から、カメラパラメータや深度情報を必要とせずに3Dガウススプラッターを予測できる。
一般化のために,我々は,Splatt3Rを3次元構造と外観の両方を扱うように拡張して,'`foundation'の3次元幾何再構成法MASt3Rに基づいて構築する。
具体的には、3次元点雲のみを再構成する元のMASt3Rとは異なり、各点に対してガウス原始を構成するのに必要なガウス属性を予測する。
したがって、他の新しいビュー合成法とは異なり、Splatt3Rは最初に3Dポイント雲の幾何学的損失を最適化し、新しいビュー合成目的を最適化することで訓練される。
これにより、ステレオビューから3次元ガウススプラッターを訓練する際の局所的なミニマを避けることができる。
また,外挿視点における強靭なパフォーマンスには,経験的に重要な損失マスキング戦略を提案する。
ScanNet++データセット上でSplatt3Rをトレーニングし、未校正画像に優れた一般化を示す。
Splatt3Rは512 x 512の解像度で4FPSでシーンを再構築でき、その結果のスプラッターをリアルタイムでレンダリングできる。
In this paper, we introduce Splatt3R, a pose-free, feed-forward method for in-the-wild 3D reconstruction and novel view synthesis from stereo pairs. Given uncalibrated natural images, Splatt3R can predict 3D Gaussian Splats without requiring any camera parameters or depth information. For generalizability, we build Splatt3R upon a ``foundation'' 3D geometry reconstruction method, MASt3R, by extending it to deal with both 3D structure and appearance. Specifically, unlike the original MASt3R which reconstructs only 3D point clouds, we predict the additional Gaussian attributes required to construct a Gaussian primitive for each point. Hence, unlike other novel view synthesis methods, Splatt3R is first trained by optimizing the 3D point cloud's geometry loss, and then a novel view synthesis objective. By doing this, we avoid the local minima present in training 3D Gaussian Splats from stereo views. We also propose a novel loss masking strategy that we empirically find is critical for strong performance on extrapolated viewpoints. We train Splatt3R on the ScanNet++ dataset and demonstrate excellent generalisation to uncalibrated, in-the-wild images. Splatt3R can reconstruct scenes at 4FPS at 512 x 512 resolution, and the resultant splats can be rendered in real-time. | 翻訳日:2024-08-29 12:58:09 公開日:2024-08-27 |
# オーディオディープフェイクの人間の知覚
Human Perception of Audio Deepfakes ( http://arxiv.org/abs/2107.09667v7 ) ライセンス: Link先を確認 | Nicolas M. Müller, Karla Pizzi, Jennifer Williams, | (参考訳) 近年のディープフェイクの出現は、機械学習研究の最前線に操作されたコンテンツと生成されたコンテンツをもたらした。
ディープフェイクの自動検出は多くの新しい機械学習技術が見られたが、人間の検出能力ははるかに少ない。
本稿では,人の声を模倣する音声のディープフェイクを検出するために,人間と機械の能力を比較する結果を提案する。
そのために、ゲームとして定式化されたWebベースのアプリケーションフレームワークを使用します。
参加者は、実際のオーディオサンプルと偽のオーディオサンプルを区別するよう求められた。
我々の実験では、472人のユニークなユーザーが14912ラウンドで最先端のAIディープフェイク検出アルゴリズムと競合した。
人間とディープフェイク検出アルゴリズムは類似の強みと弱みを共有しており、どちらも特定の種類の攻撃を検出するのに苦労している。
これは、物体検出や顔認識など、多くの応用分野におけるAIの超人的パフォーマンスとは対照的である。
人間の成功要因に関しては、IT専門家は非専門職に勝るものはありませんが、ネイティブスピーカーは非ネイティブスピーカーに勝るものと言えます。
さらに,高齢者の方が若年者より感受性が高い傾向がみられた。
これらの洞察は、人間のための将来のサイバーセキュリティトレーニングを設計するだけでなく、より良い検出アルゴリズムを開発する際にも役立つかもしれない。
The recent emergence of deepfakes has brought manipulated and generated content to the forefront of machine learning research. Automatic detection of deepfakes has seen many new machine learning techniques, however, human detection capabilities are far less explored. In this paper, we present results from comparing the abilities of humans and machines for detecting audio deepfakes used to imitate someone's voice. For this, we use a web-based application framework formulated as a game. Participants were asked to distinguish between real and fake audio samples. In our experiment, 472 unique users competed against a state-of-the-art AI deepfake detection algorithm for 14912 total of rounds of the game. We find that humans and deepfake detection algorithms share similar strengths and weaknesses, both struggling to detect certain types of attacks. This is in contrast to the superhuman performance of AI in many application areas such as object detection or face recognition. Concerning human success factors, we find that IT professionals have no advantage over non-professionals but native speakers have an advantage over non-native speakers. Additionally, we find that older participants tend to be more susceptible than younger ones. These insights may be helpful when designing future cybersecurity training for humans as well as developing better detection algorithms. | 翻訳日:2024-08-28 20:36:52 公開日:2024-08-27 |
# オブジェクト分類のための知識蒸留損失関数に関する一考察
A Note on Knowledge Distillation Loss Function for Object Classification ( http://arxiv.org/abs/2109.06458v3 ) ライセンス: Link先を確認 | Defang Chen, | (参考訳) 本研究ノートでは, オブジェクト分類における知識蒸留損失関数について紹介する。
特に,従来提案されていたロジット整合損失関数との関係について論じる。
さらに、知識蒸留を出力正則化の特定の形態として扱い、ラベルの平滑化とエントロピーに基づく正則化との関連性を実証する。
This research note provides a quick introduction to the knowledge distillation loss function used in object classification. In particular, we discuss its connection to a previously proposed logits matching loss function. We further treat knowledge distillation as a specific form of output regularization and demonstrate its connection to label smoothing and entropy-based regularization. | 翻訳日:2024-08-28 20:36:52 公開日:2024-08-27 |
# 不確かさ校正による拡散テンソル推定
Diffusion Tensor Estimation with Uncertainty Calibration ( http://arxiv.org/abs/2111.10847v3 ) ライセンス: Link先を確認 | Davood Karimi, Simon K. Warfield, Ali Gholipour, | (参考訳) 特にディープラーニングのような複雑で理解が難しいモデルでは、モデルの予測がどの程度不確実であるかを知ることが非常に望ましい。
拡散強調MRIにおける深層学習への関心は高まっているが,従来の研究はモデル不確実性の問題に対処していない。
本稿では,拡散テンソルを推定し,推定の不確実性を計算する深層学習手法を提案する。
データ依存の不確実性はネットワークによって直接計算され、損失減衰によって学習される。
モデル不確実性はモンテカルロのドロップアウトを用いて計算される。
また,予測された不確実性の品質を評価するための新しい手法を提案する。
本稿では,本手法を最小二乗テンソル推定法とブートストラップに基づく不確実性計算法と比較する。
実験の結果,測定値が小さい場合,深層学習法の方が精度が高く,不確実性予測が標準法よりも精度が高いことがわかった。
提案手法によって計算された推定の不確実性は,モデルのバイアスを強調し,領域シフトを検出し,測定における雑音の強さを反映できることを示す。
本研究では,ディープラーニングに基づく拡散MRI解析における予測の不確かさのモデル化の重要性と実用的価値を示す。
It is highly desirable to know how uncertain a model's predictions are, especially for models that are complex and hard to understand as in deep learning. Although there has been a growing interest in using deep learning methods in diffusion-weighted MRI, prior works have not addressed the issue of model uncertainty. Here, we propose a deep learning method to estimate the diffusion tensor and compute the estimation uncertainty. Data-dependent uncertainty is computed directly by the network and learned via loss attenuation. Model uncertainty is computed using Monte Carlo dropout. We also propose a new method for evaluating the quality of predicted uncertainties. We compare the new method with the standard least-squares tensor estimation and bootstrap-based uncertainty computation techniques. Our experiments show that when the number of measurements is small the deep learning method is more accurate and its uncertainty predictions are better calibrated than the standard methods. We show that the estimation uncertainties computed by the new method can highlight the model's biases, detect domain shift, and reflect the strength of noise in the measurements. Our study shows the importance and practical value of modeling prediction uncertainties in deep learning-based diffusion MRI analysis. | 翻訳日:2024-08-28 20:36:52 公開日:2024-08-27 |
# オーディオディープフェイク検出は一般化されるか?
Does Audio Deepfake Detection Generalize? ( http://arxiv.org/abs/2203.16263v4 ) ライセンス: Link先を確認 | Nicolas M. Müller, Pavel Czempin, Franziska Dieckmann, Adam Froghyar, Konstantin Böttinger, | (参考訳) 現在のテキスト音声合成アルゴリズムは、人間の声をリアルに偽造する。
研究者たちは、オーディオスプーフを検出するための様々なテクニックを提示してきたが、これらのアーキテクチャが成功した理由がよく分かっていない: 事前処理ステップ、ハイパーパラメータ設定、微調整の程度は、関連する作業間で一致していない。
成功に寄与する要因は何か。
本研究では, 関連する作業からアーキテクチャを再実装し, 均一に評価することで, 音声スプーフィング検出をシステム化する。
メリースペック機能の代わりにcqtspecやlogspec機能などのオーディオディープフェイク検出を成功させるためには,平均で37%のEERの性能向上が期待できる。
有名人や政治家のオーディオ録音を37.9時間収集し、新しいデータセットを公開し、そのうち17.2時間がディープフェイクである。
このような実世界のデータ(最大1000パーセントの性能劣化)では、関連する作業が不十分であることが分かりました。
これは、コミュニティがASVSpoofベンチマークに近づきすぎており、ディープフェイクが以前考えられていたよりもラボ外で検出するのがずっと難しいことを示唆しているかもしれない。
Current text-to-speech algorithms produce realistic fakes of human voices, making deepfake detection a much-needed area of research. While researchers have presented various techniques for detecting audio spoofs, it is often unclear exactly why these architectures are successful: Preprocessing steps, hyperparameter settings, and the degree of fine-tuning are not consistent across related work. Which factors contribute to success, and which are accidental? In this work, we address this problem: We systematize audio spoofing detection by re-implementing and uniformly evaluating architectures from related work. We identify overarching features for successful audio deepfake detection, such as using cqtspec or logspec features instead of melspec features, which improves performance by 37% EER on average, all other factors constant. Additionally, we evaluate generalization capabilities: We collect and publish a new dataset consisting of 37.9 hours of found audio recordings of celebrities and politicians, of which 17.2 hours are deepfakes. We find that related work performs poorly on such real-world data (performance degradation of up to one thousand percent). This may suggest that the community has tailored its solutions too closely to the prevailing ASVSpoof benchmark and that deepfakes are much harder to detect outside the lab than previously thought. | 翻訳日:2024-08-28 20:36:52 公開日:2024-08-27 |
# Pegg-BarnettとPaul量子相の形式的関係
Formal relation between Pegg-Barnett and Paul quantum phase frameworks ( http://arxiv.org/abs/2205.09481v4 ) ライセンス: Link先を確認 | Tomasz Linowski, Konrad Schlichtholz, Łukasz Rudnicki, | (参考訳) エルミート量子位相演算子を定義する問題は、量子力学そのものと同じくらい古い。
長年にわたり、抽象演算子形式から位相空間法まで、多くの解が提案された。
本研究では、ポール形式主義における位相の確率分布が、後者と量子制限増幅チャネルを組み合わせることで、ペッグ・バーネット形式主義から完全に従うことを証明し、最も顕著な2つのアプローチのうちの明示的な接続を行う。
その結果,Paul フレームワークは Pegg-Barnett アプローチの半古典的限界と見なされる可能性が示唆された。
The problem of defining a hermitian quantum phase operator is nearly as old as quantum mechanics itself. Throughout the years, a number of solutions was proposed, ranging from abstract operator formalisms to phase-space methods. In this work, we make an explicit connection between two of the most prominent approaches, by proving that the probability distribution of phase in the Paul formalism follows exactly from the Pegg-Barnett formalism by combining the latter with the quantum limited amplifier channel. Our findings suggest that the Paul framework may be viewed as a semi-classical limit of the Pegg-Barnett approach. | 翻訳日:2024-08-28 20:36:52 公開日:2024-08-27 |
# ユニタリ複素共役に対する最適普遍量子回路
Optimal universal quantum circuits for unitary complex conjugation ( http://arxiv.org/abs/2206.00107v3 ) ライセンス: Link先を確認 | Daniel Ebler, Michał Horodecki, Marcin Marciniak, Tomasz Młynik, Marco Túlio Quintino, Michał Studziński, | (参考訳) U_d$ を任意の$d$次元のユニタリ量子演算を表すユニタリ作用素とする。
この研究は、$U_d$のコール数$k$を複素共役$\bar{U_d}$に変換するための最適量子回路を示す。
我々の回路は並列実装を認めており、平均忠実度が$\left\langle{F}\right\rangle =\frac{k+1}{d(d-k)}$の任意の$k$と$d$に対して最適であることが証明されている。
平均的忠実度、雑音に対する堅牢性、その他の標準的なメリットの指標に対して最適性を示す。
これは、$U_d$の単一の呼び出しのシナリオ($k=1$)と、$k=d-1$呼び出しの特別なケースを考える以前の作業を拡張する。
すると、この結果は、$k$ の$U_d$ の呼び出しから$f(U_d)$ への任意の準同型 $f$ への最適な変換を$d$次元ユニタリ作用素群からそれ自身へ包含することを示し、なぜなら複素共役はユニタリ作用素群上の唯一の非自明な自己同型であるからである。
最後に、任意の量子進化を逆転する確率回路の設計に最適な複素共役実装を適用する。
Let $U_d$ be a unitary operator representing an arbitrary $d$-dimensional unitary quantum operation. This work presents optimal quantum circuits for transforming a number $k$ of calls of $U_d$ into its complex conjugate $\bar{U_d}$. Our circuits admit a parallel implementation and are proven to be optimal for any $k$ and $d$ with an average fidelity of $\left\langle{F}\right\rangle =\frac{k+1}{d(d-k)}$. Optimality is shown for average fidelity, robustness to noise, and other standard figures of merit. This extends previous works which considered the scenario of a single call ($k=1$) of the operation $U_d$, and the special case of $k=d-1$ calls. We then show that our results encompass optimal transformations from $k$ calls of $U_d$ to $f(U_d)$ for any arbitrary homomorphism $f$ from the group of $d$-dimensional unitary operators to itself, since complex conjugation is the only non-trivial automorphisms on the group of unitary operators. Finally, we apply our optimal complex conjugation implementation to design a probabilistic circuit for reversing arbitrary quantum evolutions. | 翻訳日:2024-08-28 20:28:28 公開日:2024-08-27 |
# 自動パッチ評価のためのテストベースパッチクラスタリング
Test-based Patch Clustering for Automatically-Generated Patches Assessment ( http://arxiv.org/abs/2207.11082v2 ) ライセンス: Link先を確認 | Matias Martinez, Maria Kechagia, Anjana Perera, Justyna Petke, Federica Sarro, Aldeida Aleti, | (参考訳) これまでの研究では、APR(Automated Program repair)技術がオーバーフィッティングの問題に悩まされていることが示されている。
オーバーフィッティングは、パッチが実行され、テストスイートがエラーを露呈しない場合に発生するが、パッチは、実際に基盤となるバグを修正したり、テストスイートがカバーしていない新しい欠陥を導入したりする。
したがって、aprツールによって生成されたパッチは人間プログラマによって検証される必要があり、これは非常にコストがかかり、実際にaprツールが採用されるのを防ぐことができる。
私たちの研究は、プログラマがレビューしなければならない妥当なパッチの数を最小限に抑え、正しいパッチを見つけるのに必要な時間を短縮することを目的としています。
我々は、xTestClusterと呼ばれる新しい軽量なテストベースのパッチクラスタリング手法を導入し、その動的挙動に基づいてパッチをクラスタリングする。
xTestClusterは、パッチ生成フェーズ後に適用され、1つ以上の修復ツールから生成されたパッチを分析し、パッチアセスメントを容易にするためにこれらのパッチに関する情報を提供する。
xTestClusterの新規性は、新しく生成されたテストケースの実行から、複数のAPRアプローチによって生成されたクラスタパッチまでの情報を使用することにある。
クラスタは、同じ生成されたテストケースで失敗するパッチで構成されています。
xTestClusterのアウトプットが開発者に提供する
a) 各クラスタからのパッチのサンプルを分析することに集中して、分析するパッチの数を減らす方法。
b) 各パッチに添付する追加情報
21のJava APRツールから902の可視パッチを分析した結果、xTestClusterは、レビューや分析を行うパッチの数を50%の中央値で削減できることがわかった。
xTestClusterは、aprツールによって生成される多数のパッチをレビューする必要のある開発者にとってかなりの時間を節約し、生成されたパッチ間の振る舞いの違いを明らかにする新しいテストケースを提供する。
Previous studies have shown that Automated Program Repair (APR) techniques suffer from the overfitting problem. Overfitting happens when a patch is run and the test suite does not reveal any error, but the patch actually does not fix the underlying bug or it introduces a new defect that is not covered by the test suite. Therefore, the patches generated by apr tools need to be validated by human programmers, which can be very costly, and prevents apr tool adoption in practice. Our work aims to minimize the number of plausible patches that programmers have to review, thereby reducing the time required to find a correct patch. We introduce a novel light-weight test-based patch clustering approach called xTestCluster, which clusters patches based on their dynamic behavior. xTestCluster is applied after the patch generation phase in order to analyze the generated patches from one or more repair tools and to provide more information about those patches for facilitating patch assessment. The novelty of xTestCluster lies in using information from execution of newly generated test cases to cluster patches generated by multiple APR approaches. A cluster is formed of patches that fail on the same generated test cases. The output from xTestCluster gives developers a) a way of reducing the number of patches to analyze, as they can focus on analyzing a sample of patches from each cluster, b) additional information attached to each patch. After analyzing 902 plausible patches from 21 Java APR tools, our results show that xTestCluster is able to reduce the number of patches to review and analyze with a median of 50%. xTestCluster can save a significant amount of time for developers that have to review the multitude of patches generated by apr tools, and provides them with new test cases that expose the differences in behavior between generated patches. | 翻訳日:2024-08-28 20:28:28 公開日:2024-08-27 |
# 多次元量子ウォークと$k$-distinctnessへの応用
Multidimensional Quantum Walks, with Application to $k$-Distinctness ( http://arxiv.org/abs/2208.13492v3 ) ライセンス: Link先を確認 | Stacey Jeffery, Sebastian Zur, | (参考訳) k$-distinctnessの量子クエリ複雑性は、任意の定数$k \geq 4$に対して$O\left(n^{3/4-1/4(2^k-1)}\right)$であることが知られているが、時間複雑性の前の最高の上限は$\widetilde{O}\left(n^{1-1/k}\right)$である。
新しい上限である$\widetilde{O}\left(n^{3/4-1/4(2^k-1)}\right)を時間複雑性に基づいて与え、クエリの複雑さを多変数因子に合わせる。
この上限を達成するために、電気ネットワークフレームワークの拡張である量子ウォーク探索アルゴリズムを設計する新しい手法を提案する。
また、この新しい手法を用いて、$O(n)$クエリと$O(n^2)$タイムで溶接木を解く方法を示し、新しい量子ウォークフレームワークが指数的なスピードアップを達成することを示す。
While the quantum query complexity of $k$-distinctness is known to be $O\left(n^{3/4-1/4(2^k-1)}\right)$ for any constant $k \geq 4$, the best previous upper bound on the time complexity was $\widetilde{O}\left(n^{1-1/k}\right)$. We give a new upper bound of $\widetilde{O}\left(n^{3/4-1/4(2^k-1)}\right)$ on the time complexity, matching the query complexity up to polylogarithmic factors. In order to achieve this upper bound, we give a new technique for designing quantum walk search algorithms, which is an extension of the electric network framework. We also show how to solve the welded trees problem in $O(n)$ queries and $O(n^2)$ time using this new technique, showing that the new quantum walk framework can achieve exponential speedups. | 翻訳日:2024-08-28 20:28:28 公開日:2024-08-27 |
# スタイル認識型自己中間ドメインによる教師なしドメイン適応
Unsupervised Domain Adaptation via Style-Aware Self-intermediate Domain ( http://arxiv.org/abs/2209.01870v2 ) ライセンス: Link先を確認 | Lianyu Wang, Meng Wang, Daoqiang Zhang, Huazhu Fu, | (参考訳) 非教師なしドメイン適応(UDA)は、ラベル豊富なソースドメインから関連するがラベルのないターゲットドメインに知識を伝達する、かなりの注目を集めている。
ドメイン間の差異を減らすことは、特にソースとターゲットドメインの間に大きなギャップがあるタスクにおいて、UDAのパフォーマンスを改善する上で、常に重要な要素である。
そこで本研究では,クラス識別情報の喪失を軽減しつつ,大きなドメインギャップと伝達知識を橋渡しする,SAFF(style-aware feature fusion)手法を提案する。
ヒトの推移的推論と学習能力にインスパイアされた新しいスタイル認識型自己中間ドメイン (SSID) は、中間的に合成された一連の概念を通して、2つの一見無関係な概念を関連付けるために研究される。
具体的には、ソースドメインとターゲットドメインの両方からサンプルをアンカーとして選択し、アンカーのオブジェクトとスタイルの特徴をランダムに融合させ、ラベル付きおよびスタイルリッチな中間特徴を生成するSSIDの新しい学習戦略を提案する。
さらに,クラスの安定な特徴とクラスワイドな特徴を得るために,指定されたラベル付き特徴を記憶・更新するための外部メモリバンクを設計する。
提案したメモリバンクに基づいて,ドメイン内損失関数とドメイン間損失関数は,それぞれ,クラス認識能力と機能互換性を改善するように設計されている。
一方、SSIDのリッチ潜在特徴空間を無限サンプリングと数学的理論による損失関数の収束によりシミュレートする。
最後に,提案したSAFFを複数のバックボーンネットワークと容易に組み合わせて,プラグイン・プラグアウト・モジュールとしての性能を向上できることを示す。
Unsupervised domain adaptation (UDA) has attracted considerable attention, which transfers knowledge from a label-rich source domain to a related but unlabeled target domain. Reducing inter-domain differences has always been a crucial factor to improve performance in UDA, especially for tasks where there is a large gap between source and target domains. To this end, we propose a novel style-aware feature fusion method (SAFF) to bridge the large domain gap and transfer knowledge while alleviating the loss of class-discriminative information. Inspired by the human transitive inference and learning ability, a novel style-aware self-intermediate domain (SSID) is investigated to link two seemingly unrelated concepts through a series of intermediate auxiliary synthesized concepts. Specifically, we propose a novel learning strategy of SSID, which selects samples from both source and target domains as anchors, and then randomly fuses the object and style features of these anchors to generate labeled and style-rich intermediate auxiliary features for knowledge transfer. Moreover, we design an external memory bank to store and update specified labeled features to obtain stable class features and class-wise style features. Based on the proposed memory bank, the intra- and inter-domain loss functions are designed to improve the class recognition ability and feature compatibility, respectively. Meanwhile, we simulate the rich latent feature space of SSID by infinite sampling and the convergence of the loss function by mathematical theory. Finally, we conduct comprehensive experiments on commonly used domain adaptive benchmarks to evaluate the proposed SAFF, and the experimental results show that the proposed SAFF can be easily combined with different backbone networks and obtain better performance as a plug-in-plug-out module. | 翻訳日:2024-08-28 20:28:28 公開日:2024-08-27 |
# Internet-of-Things Enabled Chair を用いた下肢強度の評価
Assessing Lower Limb Strength using Internet-of-Things Enabled Chair ( http://arxiv.org/abs/2209.04042v3 ) ライセンス: Link先を確認 | Chelsea Yeh, Hanna Kaitlin Dy, Phillip Schodinger, Hudson Kaleb Dy, | (参考訳) 本研究は、リハビリテーションやセラピーを行う個人の下肢強度を評価するために、機械学習とInternet-of-Thingsの技術の適用について述べる。
具体的には、椅子に取り付けられたセンサーで個人の進捗を測定して評価し、Google GPU Tensorflow CoLabを通じてデータを処理する。
圧力センサーは椅子の様々な場所に装着されるが、座席、背もたれ、手足、脚に限らない。
立位から立位への遷移と立位への遷移の両方を行う個人からのセンサデータは、椅子の圧力分布と振動運動に関する時系列データセットを提供する。
そして、データセットとタイミング情報を機械学習モデルに入力して、動きのさまざまなフェーズにおける相対的な強度と弱さを推定する。
This project describes the application of the technologies of Machine Learning and Internet-of-Things to assess the lower limb strength of individuals undergoing rehabilitation or therapy. Specifically, it seeks to measure and assess the progress of individuals by sensors attached to chairs and processing the data through Google GPU Tensorflow CoLab. Pressure sensors are attached to various locations on a chair, including but not limited to the seating area, backrest, hand rests, and legs. Sensor data from the individual performing both sit-to-stand transition and stand-to-sit transition provides a time series dataset regarding the pressure distribution and vibratory motion on the chair. The dataset and timing information can then be fed into a machine learning model to estimate the relative strength and weakness during various phases of the movement. | 翻訳日:2024-08-28 20:28:28 公開日:2024-08-27 |
# コンピュータビジョン研究論文のメディア考古学を探求する
Attention is All They Need: Exploring the Media Archaeology of the Computer Vision Research Paper ( http://arxiv.org/abs/2209.11200v3 ) ライセンス: Link先を確認 | Samuel Goree, Gabriel Appleby, David Crandall, Norman Su, | (参考訳) 研究論文は、テキストドキュメントに加えて、研究者がコミュニケーションするデザインされたインターフェースである。
近年、急速な成長により、多くのコンピューティング分野においてそのインターフェースが変化している。
本研究では,この成長がメディア考古学的観点から,研究論文における数字や表の変化を通じて,その影響について考察する。
特に、深層学習革命が学界に前例のない成長をもたらしたため、コンピュータビジョンにおけるこれらの変化を過去10年間に調査した。
我々は、コンピュータービジョン、グラフィックス、可視化にまたがるベテラン研究者とのインタビューを通じて、調査を根拠にしている。
本分析は, 研究論文の要素が, 広告, 測定, 普及にどのように貢献するかを, 研究の注目経済に焦点をあてる。
本研究を通じて,研究論文の発見,読解,執筆などを含む,より大規模な社会技術研究出版システムとともに,研究論文自体の設計に関する今後の議論の動機付けを目指す。
Research papers, in addition to textual documents, are a designed interface through which researchers communicate. Recently, rapid growth has transformed that interface in many fields of computing. In this work, we examine the effects of this growth from a media archaeology perspective, through the changes to figures and tables in research papers. Specifically, we study these changes in computer vision over the past decade, as the deep learning revolution has driven unprecedented growth in the discipline. We ground our investigation through interviews with veteran researchers spanning computer vision, graphics, and visualization. Our analysis focuses on the research attention economy: how research paper elements contribute towards advertising, measuring, and disseminating an increasingly commodified "contribution." Through this work, we seek to motivate future discussion surrounding the design of both the research paper itself as well as the larger sociotechnical research publishing system, including tools for finding, reading, and writing research papers. | 翻訳日:2024-08-28 20:28:28 公開日:2024-08-27 |
# MPC-Pipe: セキュアなマルチパーティ機械学習推論のための効率的なパイプラインスキーム
MPC-Pipe: an Efficient Pipeline Scheme for Secure Multi-party Machine Learning Inference ( http://arxiv.org/abs/2209.13643v2 ) ライセンス: Link先を確認 | Yongqin Wang, Rachit Rajat, Murali Annavaram, | (参考訳) マルチパーティコンピューティング(MPC)は、ここ数年でセキュアなコンピューティングモデルとして人気を集めている。
しかしながら、MPCプロトコルは、特にMLアルゴリズムに適用した場合に、平文と比較してかなりパフォーマンス上のペナルティを被っていることが、以前の研究で証明されている。
オーバーヘッドは計算と通信コストの増大によるものだ。
これまでの研究では、我々の分析と同様に、今日のほとんどのMPCプロトコルが、通信と計算を逐次実行していることがわかった。
参加者はまず自分の株を計算し、次に次の計算ステップに進む前に、新しい秘密株の配布を可能にするためにデータ通信を行う必要がある。
本研究では、特にML計算(畳み込みニューラルネットワークとTransformerベースのモデルの両方)の文脈において、シリアライゼーションは不要であることを示す。
重なり合う計算と通信の手順を慎重に整理することは可能であることを実証する。
MPC-PipeはMLワークロードのトレーニングと推論のための効率的なMPCシステムであり、オンラインフェーズにおけるMPCプロトコルの計算と通信をパイプライン化する。
MPC-Pipe は、ML のオンラインフェーズを半最高多数対逆設定で最適化する3つのパイプラインスキームを提案する。
我々は、オンラインとオフラインのフェーズを分離するCrypTenの修正版を拡張することで、MPC-Pipeを実装します。
我々は、ディープニューラルネットワーク(VGG16, ResNet50)とトランスフォーマーを用いて、異なるネットワーク設定を用いて、MPCのオンラインフェーズのエンドツーエンドシステム性能の利点を評価する。
MPC-PipeはMLワークロードのスループットとレイテンシを向上させることができることを示す。
Multi-party computing (MPC) has been gaining popularity as a secure computing model over the past few years. However, prior works have demonstrated that MPC protocols still pay substantial performance penalties compared to plaintext, particularly when applied to ML algorithms. The overhead is due to added computation and communication costs. Prior studies, as well as our own analysis, found that most MPC protocols today sequentially perform communication and computation. The participating parties must compute on their shares first and then perform data communication to allow the distribution of new secret shares before proceeding to the next computation step. In this work, we show that serialization is unnecessary, particularly in the context of ML computations (both in Convolutional neural networks and in Transformer-based models). We demonstrate that it is possible to carefully orchestrate the computation and communication steps to overlap. We propose MPC-Pipe, an efficient MPC system for both training and inference of ML workloads, which pipelines computations and communications in an MPC protocol during the online phase. MPC-Pipe proposes three pipeline schemes to optimize the online phase of ML in the semi-honest majority adversary setting. We implement MPC-Pipe by augmenting a modified version of CrypTen, which separates online and offline phases. We evaluate the end-to-end system performance benefits of the online phase of MPC using deep neural networks (VGG16, ResNet50) and Transformers using different network settings. We show that MPC-Pipe can improve the throughput and latency of ML workloads. | 翻訳日:2024-08-28 20:28:28 公開日:2024-08-27 |
# ゲートベース量子コンピューティングのための摂動ガジェット:部分空間制限のない非再帰的構成
Perturbative gadgets for gate-based quantum computing: Non-recursive constructions without subspace restrictions ( http://arxiv.org/abs/2210.03099v4 ) ライセンス: Link先を確認 | Simon Cichy, Paul K. Faehrmann, Sumeet Khatri, Jens Eisert, | (参考訳) 摂動ガジェットは、通常低エネルギーの部分空間であるハミルトニアンの一部を別のハミルトニアンに符号化するための道具であり、例えば、局所性を減少させる。
長年にわたり、摂動ガジェットの多くの建設が提案されてきた。
ハミルトンの特定のクラスに適用されるか、局所性を減らすために再帰にかかわるか、あるいはアディアバティック量子コンピューティングの文脈において、ガジェットであるハミルトンの時間発展の研究に限られる。
本研究では、任意の多体ハミルトニアンを3体ハミルトニアンの低エネルギー部分空間に符号化し、ゲートベースの量子コンピューティングに適用できる、多元多体・非再帰的・非断熱的摂動構造を導入することでギャップを埋める。
我々の構成では、$r$項からなる$k$ボディハミルトニアンに対して、$rk$追加キュービットが必要である。
特定のガジェット構築の他に、類似のガジェットを構築するためのレシピも提供しています。
Perturbative gadgets are a tool to encode part of a Hamiltonian, usually the low-energy subspace, into a different Hamiltonian with favorable properties, for instance, reduced locality. Many constructions of perturbative gadgets have been proposed over the years. Still, all of them are restricted in some ways: Either they apply to some specific classes of Hamiltonians, they involve recursion to reduce locality, or they are limited to studying time evolution under the gadget Hamiltonian, e.g., in the context of adiabatic quantum computing, and thus involve subspace restrictions. In this work, we fill the gap by introducing a versatile universal, non-recursive, non-adiabatic perturbative gadget construction without subspace restrictions, that encodes an arbitrary many-body Hamiltonian into the low-energy subspace of a three-body Hamiltonian and is therefore applicable to gate-based quantum computing. Our construction requires $rk$ additional qubits for a $k$-body Hamiltonian comprising $r$ terms. Besides a specific gadget construction, we also provide a recipe for constructing similar gadgets, which can be tailored to different properties, which we discuss. | 翻訳日:2024-08-28 20:28:28 公開日:2024-08-27 |
# 多項式エネルギーの一定エネルギーギャップにもかかわらず指数的に小さな成功確率を示す量子アニール
Quantum annealing showing an exponentially small success probability despite a constant energy gap with polynomial energy ( http://arxiv.org/abs/2212.09995v2 ) ライセンス: Link先を確認 | Hiroshi Hayasaka, Takashi Imoto, Yuichiro Matsuzaki, Shiro Kawabata, | (参考訳) 量子アニール (QA) は組合せ最適化問題の解法である。
断熱条件を用いてQAの計算時間を推定できる。
断熱状態はエネルギーギャップと遷移行列の2つの部分からなる。
これまでのほとんどの研究は、エネルギーギャップと計算時間の関係に焦点を当ててきた。
QAの成功確率は、第1次相転移点における指数関数的に減少するエネルギーギャップにより指数関数的に減少すると考えられている。
本研究では,QAにおけるエネルギーギャップ,遷移行列,計算コストの関係を詳細に解析することにより,多項式エネルギーに基づいて,定数なアニール時間を有するQAが一定エネルギーギャップにもかかわらずフェールする反直観的モデルを構築する方法を提案する。
総ハミルトニアンのエネルギーは最大$\Theta(L)$であり、ここで$L$は量子ビットの数である。
フォーマリズムでは、QA中に指数的に小さなエネルギーギャップを示す既知のモデルを選択し、ハミルトニアンに特定のペナルティ項を加えることでモデルを変更する。
修正されたモデルでは、断熱状態の遷移行列は、量子ビットの数が増加するにつれて指数関数的に大きくなるが、エネルギーギャップは一定である。
さらに,2次高速化を実現し,アディベート状態の改善のための上界を多項式エネルギーで決定する。
例として、断熱的なグロバー探索と$p$-spinモデルを考える。
このような場合、ペナルティ項を追加することで、エネルギーギャップが一定であるにもかかわらず、修正モデルのQAの成功確率は指数関数的に小さくなるが、従来のQAよりもかなり高い成功確率を達成することができる。
さらに,従来のQAに比べて計算コストのスケーリングが2次的に改善されていることを示す。
Quantum annealing (QA) is a method for solving combinatorial optimization problems. We can estimate the computational time for QA using the adiabatic condition. The adiabatic condition consists of two parts: an energy gap and a transition matrix. Most past studies have focused on the relationship between the energy gap and computational time. The success probability of QA is considered to decrease exponentially owing to the exponentially decreasing energy gap at the first-order phase-transition point. In this study, through a detailed analysis of the relationship between the energy gap, transition matrix, and computational cost during QA, we propose a general method for constructing counterintuitive models wherein QA with a constant annealing time fails despite a constant energy gap, based on polynomial energy. We assume that the energy of the total Hamiltonian is at most $\Theta(L)$, where $L$ is the number of qubits. In our formalism, we choose a known model that exhibits an exponentially small energy gap during QA, and modify the model by adding a specific penalty term to the Hamiltonian. In the modified model, the transition matrix in the adiabatic condition becomes exponentially large as the number of qubits increases, while the energy gap remains constant. Moreover, we achieve a quadratic speedup, for which the upper bound for improvement in the adiabatic condition is determined by the polynomial energy. As examples, we consider the adiabatic Grover search and the $p$-spin model. In these cases, with the addition of the penalty term, although the success probability of QA on the modified models becomes exponentially small despite a constant energy gap; we can achieve a success probability considerably higher than that of conventional QA. Moreover, we numerically show the scaling of the computational cost is quadratically improved compared to the conventional QA. | 翻訳日:2024-08-28 20:28:28 公開日:2024-08-27 |
# ディープRプログラミング
Deep R Programming ( http://arxiv.org/abs/2301.01188v4 ) ライセンス: Link先を確認 | Marek Gagolewski, | (参考訳) Deep R Programmingは、データサイエンスの最も人気のある言語の1つである包括的で詳細な入門コースである。
これは野心的な学生、専門家、研究者に、この強力な環境の独立したユーザーになるための知識とスキルを与え、データラングリングや分析、数値計算、統計学、機械学習に関するあらゆる問題に取り組むことができる。
この教科書は非営利プロジェクトです。
オンライン版とPDF版は <https://deepr.gagolewski.com/> で無料で入手できる。
Deep R Programming is a comprehensive and in-depth introductory course on one of the most popular languages for data science. It equips ambitious students, professionals, and researchers with the knowledge and skills to become independent users of this potent environment so that they can tackle any problem related to data wrangling and analytics, numerical computing, statistics, and machine learning. This textbook is a non-profit project. Its online and PDF versions are freely available at <https://deepr.gagolewski.com/>. | 翻訳日:2024-08-28 20:28:28 公開日:2024-08-27 |
# リコメンダシステムのための垂直フェデレーショングラフニューラルネットワーク
Vertical Federated Graph Neural Network for Recommender System ( http://arxiv.org/abs/2303.05786v3 ) ライセンス: Link先を確認 | Peihua Mai, Yan Pang, | (参考訳) 従来のレコメンデーションシステムは、集中データベースを使用してレコメンデーションモデルをトレーニングする必要がある。
しかし、データプライバシの懸念から、マルチパーティがレコメンデーションシステムトレーニングに関わる場合、これは現実的ではないことが多い。
フェデレーション学習は、データ分離とプライバシの問題に対する優れた解決策のように見える。
最近、グラフニューラルネットワーク(GNN)は、フェデレーションレコメンデータシステムにとって有望なアプローチになりつつある。
しかし、重要な課題は、グラフ構造のプライバシを保持しながら埋め込みの伝播を実行することである。
GNNをベースとしたレコメンデーションシステムについてはほとんど研究されていない。
本研究は, VerFedGNN と呼ばれる垂直結合型 GNN ベースのリコメンデータシステムを提案する。
送信するフレームワークを設計します。
(i)ランダムプロジェクションを用いた隣接埋め込みの和、及び
(II)3次量子化機構による公共パラメータの勾配
実証研究によると、VerFedGNNは既存のプライバシー保護GNNフレームワークと競合する予測精度を持ち、ユーザーのインタラクション情報に対するプライバシー保護を強化している。
Conventional recommender systems are required to train the recommendation model using a centralized database. However, due to data privacy concerns, this is often impractical when multi-parties are involved in recommender system training. Federated learning appears as an excellent solution to the data isolation and privacy problem. Recently, Graph neural network (GNN) is becoming a promising approach for federated recommender systems. However, a key challenge is to conduct embedding propagation while preserving the privacy of the graph structure. Few studies have been conducted on the federated GNN-based recommender system. Our study proposes the first vertical federated GNN-based recommender system, called VerFedGNN. We design a framework to transmit: (i) the summation of neighbor embeddings using random projection, and (ii) gradients of public parameter perturbed by ternary quantization mechanism. Empirical studies show that VerFedGNN has competitive prediction accuracy with existing privacy preserving GNN frameworks while enhanced privacy protection for users' interaction information. | 翻訳日:2024-08-28 20:28:28 公開日:2024-08-27 |
# プライベートグラディエント推定はジェネレーティブモデリングに有用である
Private Gradient Estimation is Useful for Generative Modeling ( http://arxiv.org/abs/2305.10662v2 ) ライセンス: Link先を確認 | Bochao Liu, Pengju Wang, Weijia Guo, Yong Li, Liansheng Zhuang, Weiping Wang, Shiming Ge, | (参考訳) 生成モデルは多くの領域で成功したが、実際にはプライバシリークのリスクが生じる可能性がある。
この問題に対処するために、異なる下流タスクのためのプライベートな生成モデルをトレーニングするためのソリューションとして、微分プライベートな生成モデル学習が登場した。
しかし、既存のプライベートな生成モデルアプローチは、そのようなデータモデリングにまつわる固有の複雑さのために、高次元データを生成する上で重大な課題に直面している。
そこで本研究では,標本をハミルトン力学で生成し,よく訓練されたネットワークによって推定されたプライベートデータセットの勾配を推定する,新しいプライベート生成モデルを提案する。
提案手法では,スライスされたスコアマッチングを用いた勾配推定において,投影ベクトルを摂動することで,差分プライバシーを実現する。
さらに、スコアマッチング中に残留拡張モジュールを組み込むことで、モデルの再構築能力を向上させる。
サンプリングのために、よく訓練されたネットワークによって推定された勾配でハミルトン力学を実行し、サンプルデータをプライベートデータセットの多様体に一歩近づくことができる。
このようにして、我々のモデルは256x256の解像度でデータを生成することができる。
大規模な実験と分析により,提案手法の有効性と合理性を明らかにした。
While generative models have proved successful in many domains, they may pose a privacy leakage risk in practical deployment. To address this issue, differentially private generative model learning has emerged as a solution to train private generative models for different downstream tasks. However, existing private generative modeling approaches face significant challenges in generating high-dimensional data due to the inherent complexity involved in modeling such data. In this work, we present a new private generative modeling approach where samples are generated via Hamiltonian dynamics with gradients of the private dataset estimated by a well-trained network. In the approach, we achieve differential privacy by perturbing the projection vectors in the estimation of gradients with sliced score matching. In addition, we enhance the reconstruction ability of the model by incorporating a residual enhancement module during the score matching. For sampling, we perform Hamiltonian dynamics with gradients estimated by the well-trained network, allowing the sampled data close to the private dataset's manifold step by step. In this way, our model is able to generate data with a resolution of 256x256. Extensive experiments and analysis clearly demonstrate the effectiveness and rationality of the proposed approach. | 翻訳日:2024-08-28 20:28:28 公開日:2024-08-27 |
# TFDet:RGB-Tペデストリアン検出のためのターゲット・アウェア・フュージョン
TFDet: Target-Aware Fusion for RGB-T Pedestrian Detection ( http://arxiv.org/abs/2305.16580v4 ) ライセンス: Link先を確認 | Xue Zhang, Xiaohan Zhang, Jiangtao Wang, Jiacheng Ying, Zehua Sheng, Heng Yu, Chunguang Li, Hui-Liang Shen, | (参考訳) 歩行者検出は、交通安全の確保に寄与するため、コンピュータビジョンにおいて重要な役割を果たす。
RGB画像のみに依存する既存の手法は、有用な情報がないため、低照度条件下での性能劣化に悩まされる。
この問題に対処するために、近年のマルチスペクトル検出手法は、相補的な情報を提供するために熱画像を組み合わせて、性能を向上した。
それでも、ノイズのある融合特徴写像によって生じる偽陽性の負の効果に焦点をあてるアプローチはほとんどない。
これらと異なり、検出性能に対する偽陽性の影響を包括的に分析し、特徴コントラストの強化がこれらの偽陽性を著しく減少させることを示した。
本稿では,TFDet と呼ばれる多スペクトル歩行者検出のための新たな目標対応融合戦略を提案する。
TFDetは、KAISTとLLVIPの2つのマルチスペクトル歩行者ベンチマークで最先端のパフォーマンスを達成する。
TFDetは簡単にマルチクラスのオブジェクト検出シナリオに拡張できる。
これは、FLIRとM3FDという2つのマルチスペクトルオブジェクト検出ベンチマークにおいて、以前のベストアプローチよりも優れている。
重要な点として、TFDetは従来の手法に匹敵する推論効率を有し、低照度条件下においても極めて優れた検出性能を有しており、道路安全を確保するための重要な進歩である。
Pedestrian detection plays a critical role in computer vision as it contributes to ensuring traffic safety. Existing methods that rely solely on RGB images suffer from performance degradation under low-light conditions due to the lack of useful information. To address this issue, recent multispectral detection approaches have combined thermal images to provide complementary information and have obtained enhanced performances. Nevertheless, few approaches focus on the negative effects of false positives caused by noisy fused feature maps. Different from them, we comprehensively analyze the impacts of false positives on the detection performance and find that enhancing feature contrast can significantly reduce these false positives. In this paper, we propose a novel target-aware fusion strategy for multispectral pedestrian detection, named TFDet. TFDet achieves state-of-the-art performance on two multispectral pedestrian benchmarks, KAIST and LLVIP. TFDet can easily extend to multi-class object detection scenarios. It outperforms the previous best approaches on two multispectral object detection benchmarks, FLIR and M3FD. Importantly, TFDet has comparable inference efficiency to the previous approaches, and has remarkably good detection performance even under low-light conditions, which is a significant advancement for ensuring road safety. | 翻訳日:2024-08-28 20:28:28 公開日:2024-08-27 |
# SpeechGLUE: 自己監督型音声モデルが言語的知識をいかに捉えることができるか?
SpeechGLUE: How Well Can Self-Supervised Speech Models Capture Linguistic Knowledge? ( http://arxiv.org/abs/2306.08374v2 ) ライセンス: Link先を確認 | Takanori Ashihara, Takafumi Moriya, Kohei Matsuura, Tomohiro Tanaka, Yusuke Ijima, Taichi Asami, Marc Delcroix, Yukinori Honma, | (参考訳) 音声表現のための自己教師付き学習(SSL)は、音声認識や話者認識など、様々な下流タスクにうまく適用されている。
最近では、音声SSLモデルも音声言語理解タスクの進行に有用であることが示され、SSLモデルが音響だけでなく言語情報も学習できる可能性が示唆されている。
本稿では,音声SSL技術が言語知識をうまく捉えることができるかどうかを明らかにすることを目的とする。
本研究では,汎用言語理解評価(GLUE)ベンチマークの音声バージョンであるSpeechGLUEを紹介する。
GLUEは様々な自然言語理解タスクから構成されるため、SpeechGLUEは音声SSLモデルの言語能力の程度を解明することができる。
実験では、テキストベースのSSLモデルに劣らず、音声SSLモデルはベースラインよりも優れた性能を示し、ラベルなしの音声データからある程度の言語知識を得られることを示唆している。
Self-supervised learning (SSL) for speech representation has been successfully applied in various downstream tasks, such as speech and speaker recognition. More recently, speech SSL models have also been shown to be beneficial in advancing spoken language understanding tasks, implying that the SSL models have the potential to learn not only acoustic but also linguistic information. In this paper, we aim to clarify if speech SSL techniques can well capture linguistic knowledge. For this purpose, we introduce SpeechGLUE, a speech version of the General Language Understanding Evaluation (GLUE) benchmark. Since GLUE comprises a variety of natural language understanding tasks, SpeechGLUE can elucidate the degree of linguistic ability of speech SSL models. Experiments demonstrate that speech SSL models, although inferior to text-based SSL models, perform better than baselines, suggesting that they can acquire a certain amount of general linguistic knowledge from just unlabeled speech data. | 翻訳日:2024-08-28 20:18:41 公開日:2024-08-27 |
# DALL.Eを用いた農業環境における画像データセットの作成:AIによる生成型大規模言語モデル
Creating Image Datasets in Agricultural Environments using DALL.E: Generative AI-Powered Large Language Model ( http://arxiv.org/abs/2307.08789v4 ) ライセンス: Link先を確認 | Ranjan Sapkota, Manoj Karkee, | (参考訳) 本研究では,農業におけるデータ生成・可視化技術の発展における人工知能(AI),特にOpenAIによるDALL.Eモデルの役割について検討した。
先進的なAIイメージジェネレータであるDALL.Eは、ChatGPTの言語処理と連携して、テキスト記述や画像ヒントをリアルな映像表現に変換する。
この研究は、画像生成のアプローチとして、テキスト・ツー・イメージと画像・ツー・イメージ(偏差)の両方を用いた。
実生作物の環境を表現した6種類のデータセットを作成した。
これらのAI生成画像は、実際の農業分野のセンサーが捉えた地上の真実画像と比較された。
The comparison was based on Peak Signal-to-Noise Ratio (PSNR) and Feature similarity Index (FSIM) metrics。
画像対画像生成は、テキスト対画像法よりも平均PSNRが5.78%増加し、画像の明瞭度と品質が向上した。
しかし、この手法は平均的なFSIMを10.23%減少させ、元の画像と構造的およびテクスチャ的類似性が低下したことを示している。
これらの手法と同様に、画像から画像までの手法で生成した画像は、テキストから画像へのアプローチで生成した画像よりもリアルであることを示した。
その結果、DALL.Eが現実的な農業用画像データセットを生成する可能性を強調し、画像ベースの精密農業ソリューションの開発と導入を加速させた。
This research investigated the role of artificial intelligence (AI), specifically the DALL.E model by OpenAI, in advancing data generation and visualization techniques in agriculture. DALL.E, an advanced AI image generator, works alongside ChatGPT's language processing to transform text descriptions and image clues into realistic visual representations of the content. The study used both approaches of image generation: text-to-image and image-to image (variation). Six types of datasets depicting fruit crop environment were generated. These AI-generated images were then compared against ground truth images captured by sensors in real agricultural fields. The comparison was based on Peak Signal-to-Noise Ratio (PSNR) and Feature Similarity Index (FSIM) metrics. The image-to-image generation exhibited a 5.78% increase in average PSNR over text-to-image methods, signifying superior image clarity and quality. However, this method also resulted in a 10.23% decrease in average FSIM, indicating a diminished structural and textural similarity to the original images. Similar to these measures, human evaluation also showed that images generated using image-to-image-based method were more realistic compared to those generated with text-to-image approach. The results highlighted DALL.E's potential in generating realistic agricultural image datasets and thus accelerating the development and adoption of imaging-based precision agricultural solutions. | 翻訳日:2024-08-28 20:18:41 公開日:2024-08-27 |
# 摂動型開系の状態と観測可能な状態に対する量子速度制限
Quantum speed limit for states and observables of perturbed open systems ( http://arxiv.org/abs/2307.09118v2 ) ライセンス: Link先を確認 | Benjamin Yadin, Satoya Imai, Otfried Gühne, | (参考訳) 量子速度制限は、量子システムが初期状態から離れることのできる速度の上限を与える。
ここでは、摂動開放系の非摂動軌道からの分岐を記述するために、異なる種類の速度制限を提供する。
弱い結合の場合、分散速度は摂動ハミルトニアンの下での量子フィッシャー情報によってバウンドされ、システムや浴槽の時間スケールから推定できる誤差まで現れる。
速度制限を2つ適用します。
まず、完全に特徴づけられていないデコヒーレンスの存在下で、量子フィッシャー情報の実験的推定を可能にする。
第二に、熱力学系がクエンチの下で急速に平衡から追い出されるためには、大きな量子ワークの変動が必要である。
さらに、開系における可観測物の期待値の摂動に対する応答を束縛するためにも使うことができる。
Quantum speed limits provide upper bounds on the rate with which a quantum system can move away from its initial state. Here, we provide a different kind of speed limit, describing the divergence of a perturbed open system from its unperturbed trajectory. In the case of weak coupling, we show that the divergence speed is bounded by the quantum Fisher information under a perturbing Hamiltonian, up to an error which can be estimated from system and bath timescales. We give two applications of our speed limit. Firstly, it enables experimental estimation of quantum Fisher information in the presence of decoherence that is not fully characterised. Secondly, it implies that large quantum work fluctuations are necessary for a thermal system to be driven quickly out of equilibrium under a quench. Moreover, it can be used to bound the response to perturbations of expectation values of observables in open systems. | 翻訳日:2024-08-28 20:18:41 公開日:2024-08-27 |
# 歯科用点雲の変分自動符号化
Variational Autoencoding of Dental Point Clouds ( http://arxiv.org/abs/2307.10895v4 ) ライセンス: Link先を確認 | Johan Ziruo Ye, Thomas Ørkild, Peter Lempel Søndergaard, Søren Hauberg, | (参考訳) デジタル歯科は大きな進歩を遂げているが、多くの課題が残っている。
本稿では,歯のメッシュと点雲の広範なコレクションであるFDI 16データセットを紹介する。
さらに,変分FoldingNet (VF-Net) という,点群に対する完全確率的変分オートエンコーダを提案する。
特に、点雲に対する先行潜伏変数モデルは、入力点と出力点の間の1対1対応を欠いている。
代わりに、正規化された分布の対応に欠ける計量であるチャムファー距離の最適化に依存しており、確率的モデリングには適さない。
チャンファー距離の明示的な最小化を適切なエンコーダに置き換え、確率的拡張を簡素化しながら計算効率を向上する。
これにより、メッシュ生成、シェイプコンプリート、表現学習など、さまざまなタスクに簡単な適用が可能になる。
歯科補綴および補綴における再建誤差の低い証拠を実証的に提示し,有意義な潜伏表現を同定しながら, 歯科検体生成における最先端性能を示す。
Digital dentistry has made significant advancements, yet numerous challenges remain. This paper introduces the FDI 16 dataset, an extensive collection of tooth meshes and point clouds. Additionally, we present a novel approach: Variational FoldingNet (VF-Net), a fully probabilistic variational autoencoder for point clouds. Notably, prior latent variable models for point clouds lack a one-to-one correspondence between input and output points. Instead, they rely on optimizing Chamfer distances, a metric that lacks a normalized distributional counterpart, rendering it unsuitable for probabilistic modeling. We replace the explicit minimization of Chamfer distances with a suitable encoder, increasing computational efficiency while simplifying the probabilistic extension. This allows for straightforward application in various tasks, including mesh generation, shape completion, and representation learning. Empirically, we provide evidence of lower reconstruction error in dental reconstruction and interpolation, showcasing state-of-the-art performance in dental sample generation while identifying valuable latent representations | 翻訳日:2024-08-28 20:18:41 公開日:2024-08-27 |
# ロバストなFew-Shot学習者としてのSeq2Seqモデルの可能性
Exploiting the Potential of Seq2Seq Models as Robust Few-Shot Learners ( http://arxiv.org/abs/2307.14856v2 ) ライセンス: Link先を確認 | Jihyeon Lee, Dain Kim, Doohae Jung, Boseop Kim, Kyoung-Woon On, | (参考訳) インコンテキスト学習は微調整よりもかなりの利点があるが、主にデコーダのみのモデルで見られ、エンコーダ・デコーダ(seq2seq)モデルは重み更新に依存する手法で優れている。
近年,Seq2seqモデルによる少数ショット学習の実現可能性を示す研究がいくつかあるが,これは要約や翻訳などのSeq2seqアーキテクチャによく適合するタスクに限られている。
これらの初期研究に触発されて、幅広いタスクにおけるデコーダのみおよびエンコーダ-デコーダモデルのコンテキスト内数ショット学習能力の比較を行った。
さらに,Seq2seqモデルにおける文脈内学習能力をより効果的に活用する2つの手法を提案する。
注目すべきことに,本手法はデコーダのみのモデルよりも6倍大きく,従来のSeq2seqモデルに比べて,大幅な性能向上を実現している。
適切な構成とプロンプト設計により、Seq2seqモデルは幅広いアプリケーションに対して非常に効果的な数ショット学習者になり得ると仮定する。
In-context learning, which offers substantial advantages over fine-tuning, is predominantly observed in decoder-only models, while encoder-decoder (i.e., seq2seq) models excel in methods that rely on weight updates. Recently, a few studies have demonstrated the feasibility of few-shot learning with seq2seq models; however, this has been limited to tasks that align well with the seq2seq architecture, such as summarization and translation. Inspired by these initial studies, we provide a first-ever extensive experiment comparing the in-context few-shot learning capabilities of decoder-only and encoder-decoder models on a broad range of tasks. Furthermore, we propose two methods to more effectively elicit in-context learning ability in seq2seq models: objective-aligned prompting and a fusion-based approach. Remarkably, our approach outperforms a decoder-only model that is six times larger and exhibits significant performance improvements compared to conventional seq2seq models across a variety of settings. We posit that, with the right configuration and prompt design, seq2seq models can be highly effective few-shot learners for a wide spectrum of applications. | 翻訳日:2024-08-28 20:18:41 公開日:2024-08-27 |
# 異例の組織:米国の技術産業における職業者における労働活動の台頭
Unlikely Organizers: The Rise of Labor Activism Among Professionals in the U.S. Technology Industry ( http://arxiv.org/abs/2307.15790v2 ) ライセンス: Link先を確認 | JS Tan, Nataliya Nedzhvetskaya, Emily Mazo, | (参考訳) 技術者(ソフトウェアエンジニア、プロダクトマネージャ、UXデザイナなど)は、通常、労働活動とは無関係である。
しかし、2017年以降、このグループの間では労働行動が著しく増加しています。
元々のデータセットを用いて、テックワーカーの場合、職場での激しい社会活動の時代が、後の労働活動の高揚期にどのように先行したかを実証した。
回帰分析により、社会活動への参加は6ヶ月から1年後の会社での労働活動の可能性を高めることが確認される。
この発見は、ファンタジアの合理主義の文化をプロの労働者に広げるものである。
まず、技術系労働者は、社会的に有益な仕事に対する専門的な関心に導かれ、職場の社会的活動に従事します。
これにより、従業員参加者間の連帯が生じるが、経営陣との対立が生じ、職業者間の労働活動が出現する。
Tech workers -- professional workers in the technology industry including software engineers, product managers, UX designers, etc. -- are not normally associated with labor activism. Yet, since 2017, we have seen a significant rise in labor actions among this group. Using an original dataset, we demonstrate how, in the case of tech workers, periods of intense workplace social activism preceded later periods of heightened labor activism. Regression analysis confirms that participation in social activism increases the likelihood of labor activism six months to one year later at the same company. This finding extends Fantasia's cultures of solidarity argument to professional workers. We find that organizing emerges out of collective action and ensuing conflict with management: first, tech workers, guided by their professional interest in socially beneficial work, engage in workplace social activism. This generates solidarity among employee-participants but also creates conflict with management and leads to the emergence of labor activism among professionals. | 翻訳日:2024-08-28 20:18:41 公開日:2024-08-27 |
# 雑音対応変分固有解法:格子ゲージ理論の散逸経路
Noise-aware variational eigensolvers: a dissipative route for lattice gauge theories ( http://arxiv.org/abs/2308.03618v3 ) ライセンス: Link先を確認 | Jesús Cobos, David F. Locher, Alejandro Bermudez, Markus Müller, Enrique Rico, | (参考訳) 量子シミュレータにおける$\mathbb{Z}_2$格子ゲージ理論(LGT)の基底状態構築のための新しい変分アンザッツを提案する。
これは、完全に決定論的スキームにおける散逸的かつユニタリな操作と、考慮された格子の大きさとスケールしない回路深さを組み合わせている。
変分パラメータが極めて少ないため、アンサッツは$>\!
99 %$ エネルギーの精度は、$\mathbb{Z}_2$ LGT の閉じ込められた相と切り離された相の両方にある。
本提案手法はハミルトン変分アンサッツに対して, 目標精度を達成するために必要な変分層数の削減を示すものである。
有限サイズのスケール解析を行った結果, 単元的アンセ「{a}tze」の標準的な状況であるシステムサイズにスケールする多数の層を必要とすることなく, 正確な臨界指数を推定できることが判明した。
さらに, 回路レベルの雑音を受ける変分固有解器の性能について検討し, 層数の増加に有効となる誤差率を補正する変分誤差閾値を決定する。
これらの量と、現在の量子プロセッサでは典型的なゲートエラー$p$に対して、近い将来のデバイスで$\mathbb{Z}_2$ LGTを探索する計画の展望を詳細に評価する。
We propose a novel variational ansatz for the ground-state preparation of the $\mathbb{Z}_2$ lattice gauge theory (LGT) in quantum simulators. It combines dissipative and unitary operations in a completely deterministic scheme with a circuit depth that does not scale with the size of the considered lattice. We find that, with very few variational parameters, the ansatz can achieve $>\!99\%$ precision in energy in both the confined and deconfined phase of the $\mathbb{Z}_2$ LGT. We benchmark our proposal against the unitary Hamiltonian variational ansatz showing a reduction in the required number of variational layers to achieve a target precision. After performing a finite-size scaling analysis, we show that our dissipative variational ansatz can predict accurate critical exponents without requiring a number of layers that scale with the system size, which is the standard situation for unitary ans\"{a}tze. Furthermore, we investigate the performance of this variational eigensolver subject to circuit-level noise, determining variational error thresholds that fix the error rate below which it would be beneficial to increase the number of layers. In light of these quantities and for typical gate errors $p$ in current quantum processors, we provide a detailed assessment of the prospects of our scheme to explore the $\mathbb{Z}_2$ LGT on near-term devices. | 翻訳日:2024-08-28 20:18:41 公開日:2024-08-27 |
# ノイズバウンディングボックスを用いた物体検出のための分布対応校正法
Distribution-Aware Calibration for Object Detection with Noisy Bounding Boxes ( http://arxiv.org/abs/2308.12017v3 ) ライセンス: Link先を確認 | Donghao Zhou, Jialin Li, Jinpeng Li, Jiancheng Huang, Qiang Nie, Yong Liu, Bin-Bin Gao, Qiong Wang, Pheng-Ann Heng, Guangyong Chen, | (参考訳) 大規模に注釈付けされたデータセットは、効果的なオブジェクト検出器のトレーニングにおいて非常に重要である。
しかし、正確なバウンディングボックスのアノテーションを得るには手間がかかる。
残念なことに、ノイズの多いバウンディングボックスは監視信号を破損させ、検出性能を低下させる可能性がある。
実地真実は,通常,ノイズの多い地真実に割り当てられた提案の集合領域に置かれているという観測に感銘されて,ディSCO(Distribution-aware CalibratiOn)を提案し,監視信号の校正のための提案の空間分布をモデル化する。
DISCOでは、オブジェクトの潜在的位置を統計的に抽出するために空間分布モデリングを行う。
モデル分布に基づいて,分布認識提案拡張(DA-Aug),分布認識ボックス改良(DA-Ref),分布認識信頼度推定(DA-Est)の3つの手法を開発し,分類,局所化,解釈性の向上を図る。
大規模ノイズ画像データセット(Pascal VOCとMS-COCO)の大規模な実験により、特に高雑音レベルにおいてdisCOが最先端検出性能を達成できることが示されている。
コードはhttps://github.com/Correr-Zhou/DISCOで入手できる。
Large-scale well-annotated datasets are of great importance for training an effective object detector. However, obtaining accurate bounding box annotations is laborious and demanding. Unfortunately, the resultant noisy bounding boxes could cause corrupt supervision signals and thus diminish detection performance. Motivated by the observation that the real ground-truth is usually situated in the aggregation region of the proposals assigned to a noisy ground-truth, we propose DIStribution-aware CalibratiOn (DISCO) to model the spatial distribution of proposals for calibrating supervision signals. In DISCO, spatial distribution modeling is performed to statistically extract the potential locations of objects. Based on the modeled distribution, three distribution-aware techniques, i.e., distribution-aware proposal augmentation (DA-Aug), distribution-aware box refinement (DA-Ref), and distribution-aware confidence estimation (DA-Est), are developed to improve classification, localization, and interpretability, respectively. Extensive experiments on large-scale noisy image datasets (i.e., Pascal VOC and MS-COCO) demonstrate that DISCO can achieve state-of-the-art detection performance, especially at high noise levels. Code is available at https://github.com/Correr-Zhou/DISCO. | 翻訳日:2024-08-28 20:18:41 公開日:2024-08-27 |
# 肺腺癌亜型診断における放射線の適応的融合と深部像
Adaptive Fusion of Radiomics and Deep Features for Lung Adenocarcinoma Subtype Recognition ( http://arxiv.org/abs/2308.13997v2 ) ライセンス: Link先を確認 | Jing Zhou, Xiaotong Fu, Xirong Li, Ying Ji, | (参考訳) 肺腺癌 (LUAD) は低用量CT検診技術が出現して以来, 発見が進んでいる。
臨床的には, 浸潤性LUAD (pre-invasive LUAD) は定期的なフォローアップケアを必要とするが, 浸潤性LUAD (invasive LUAD) は癌亜型に基づく適切な肺癌切除を即時行う必要がある。
しかし、LUADの診断に関する先行研究は、IA/IAの分類に重点を置いており、IAの異なるサブタイプを識別する技術が欠如している。
本研究では,IAとプレIAを区別するだけでなく,IAの異なるサブタイプを識別するためのマルチヘッド注意機能融合(MHA-FF)モデルを提案する。
それぞれの結節のサブタイプを正確に予測するために,計算トモグラフィ画像から抽出した放射能と深部特徴を併用した。
さらに、これらの特徴はアダプティブ・フュージョン・モジュールを通じて集約され、注意に基づく識別的特徴を学習できる。
提案手法の有用性を,マルチセンターコホートから収集した実世界のデータを用いて実証する。
The most common type of lung cancer, lung adenocarcinoma (LUAD), has been increasingly detected since the advent of low-dose computed tomography screening technology. In clinical practice, pre-invasive LUAD (Pre-IAs) should only require regular follow-up care, while invasive LUAD (IAs) should receive immediate treatment with appropriate lung cancer resection, based on the cancer subtype. However, prior research on diagnosing LUAD has mainly focused on classifying Pre-IAs/IAs, as techniques for distinguishing different subtypes of IAs have been lacking. In this study, we proposed a multi-head attentional feature fusion (MHA-FF) model for not only distinguishing IAs from Pre-IAs, but also for distinguishing the different subtypes of IAs. To predict the subtype of each nodule accurately, we leveraged both radiomics and deep features extracted from computed tomography images. Furthermore, those features were aggregated through an adaptive fusion module that can learn attention-based discriminative features. The utility of our proposed method is demonstrated here by means of real-world data collected from a multi-center cohort. | 翻訳日:2024-08-28 20:18:41 公開日:2024-08-27 |
# 量子ネットワークにおけるレートとフィデリティの最大化のための資源配置
Resource Placement for Rate and Fidelity Maximization in Quantum Networks ( http://arxiv.org/abs/2308.16264v3 ) ライセンス: Link先を確認 | Shahrooz Pouryousef, Hassan Shapourian, Alireza Shabani, Ramana Kompella, Don Towsley, | (参考訳) 既存の光学ネットワークのインフラは、光子損失のために量子ネットワークアプリケーションにすぐには利用できない。
量子ネットワークの実現に向けた第一歩は、光ネットワークへの量子リピータの統合である。
しかし、量子ハードウェア固有のコストと本質的なノイズは、量子リピータとメモリの割り当てを最適化する効率的なデプロイメント戦略の必要性を浮き彫りにする。
本稿では,既存のインフラ間で量子リピータを効率的に分散することを目的とした,ネットワーク計画のための包括的フレームワークを提案する。
本研究では, ダンベルネットワークトポロジの予備例や, SURFnet と ESnet の実例を含むいくつかの事例に適用する。
量子リピータにおける量子メモリ多重化の効果と,メモリコヒーレンス時間の影響について検討する。
さらに,ネットワーク計画に異なる公平性仮定が与える影響について検討し,実時間ネットワーク性能への影響を明らかにする。
Existing classical optical network infrastructure cannot be immediately used for quantum network applications due to photon loss. The first step towards enabling quantum networks is the integration of quantum repeaters into optical networks. However, the expenses and intrinsic noise inherent in quantum hardware underscore the need for an efficient deployment strategy that optimizes the allocation of quantum repeaters and memories. In this paper, we present a comprehensive framework for network planning, aiming to efficiently distributing quantum repeaters across existing infrastructure, with the objective of maximizing quantum network utility within an entanglement distribution network. We apply our framework to several cases including a preliminary illustration of a dumbbell network topology and real-world cases of the SURFnet and ESnet. We explore the effect of quantum memory multiplexing within quantum repeaters, as well as the influence of memory coherence time on quantum network utility. We further examine the effects of different fairness assumptions on network planning, uncovering their impacts on real-time network performance. | 翻訳日:2024-08-28 20:18:41 公開日:2024-08-27 |
# Affective Visual Dialog: 視覚的接地会話に基づく感情推論のための大規模ベンチマーク
Affective Visual Dialog: A Large-Scale Benchmark for Emotional Reasoning Based on Visually Grounded Conversations ( http://arxiv.org/abs/2308.16349v3 ) ライセンス: Link先を確認 | Kilichbek Haydarov, Xiaoqian Shen, Avinash Madasu, Mahmoud Salem, Li-Jia Li, Gamaleldin Elsayed, Mohamed Elhoseiny, | (参考訳) 本稿では,感情の説明・推論タスクであるAffective Visual Dialogを紹介する。
課題は,(1)対話に基づく質問応答,(2)対話に基づく感情予測,(3)対話に基づく感情説明生成の3つのスキルである。
私たちの重要な貢献は、AffectVisDialと呼ばれる大規模なデータセットの収集です。50Kの10ターンの視覚的接地ダイアログと、感情の属性とダイアログのインフォームド感情の説明をまとめ、合計27180時間の作業時間になります。
本稿では、データセットの収集における設計決定について説明し、会話の参加者と関連する質問者および回答者タスクを紹介する。
我々は、最先端のモデルから適応した、堅牢なAffective Visual Dialogベースラインを訓練し、実証する。
注目すべきことに、我々のモデルが生成した反応は、視覚的に接地された会話に応答して、有望な感情的推論能力を示す。
プロジェクトのページはhttps://affective-visual-dialog.github.io.comで公開されている。
We introduce Affective Visual Dialog, an emotion explanation and reasoning task as a testbed for research on understanding the formation of emotions in visually grounded conversations. The task involves three skills: (1) Dialog-based Question Answering (2) Dialog-based Emotion Prediction and (3) Affective emotion explanation generation based on the dialog. Our key contribution is the collection of a large-scale dataset, dubbed AffectVisDial, consisting of 50K 10-turn visually grounded dialogs as well as concluding emotion attributions and dialog-informed textual emotion explanations, resulting in a total of 27,180 working hours. We explain our design decisions in collecting the dataset and introduce the questioner and answerer tasks that are associated with the participants in the conversation. We train and demonstrate solid Affective Visual Dialog baselines adapted from state-of-the-art models. Remarkably, the responses generated by our models show promising emotional reasoning abilities in response to visually grounded conversations. Our project page is available at https://affective-visual-dialog.github.io. | 翻訳日:2024-08-28 20:18:41 公開日:2024-08-27 |
# 非同期時空間グラフ畳み込みネットワークによる不規則交通時系列予測
Irregular Traffic Time Series Forecasting Based on Asynchronous Spatio-Temporal Graph Convolutional Network ( http://arxiv.org/abs/2308.16818v3 ) ライセンス: Link先を確認 | Weijia Zhang, Le Zhang, Jindong Han, Hao Liu, Yanjie Fu, Jingbo Zhou, Yu Mei, Hui Xiong, | (参考訳) 正確な交通予測は知的交通システム(ITS)の発展に不可欠であり、近代都市交通管理において重要な役割を担っている。
しかし、従来の予測手法は、適応的なトラフィック信号制御、非同期空間依存性、不規則な時間依存性、可変長シーケンスの予測といった課題から生じる不規則なトラフィック時系列と競合する。
この目的のために、不規則なトラフィック時系列予測に適した非同期時空間グラフ畳み込み nEtwoRk (ASeer) を提案する。
具体的には、適応的なトラフィック信号によって制御される非同期なトラフィック状態間の空間依存性をキャプチャする非同期グラフ拡散ネットワークを提案する。
その後、不規則なトラフィック状態シーケンス内の時間依存性をキャプチャするために、パーソナライズされたタイムエンコーディングを考案し、連続したタイムシグナルを埋め込む。
そこで本研究では,時間認識型コンボリューションネットワークを提案し,時間認識型コンボリューションを時間認識型コンボリューションに適応させる。
また、状態進化ユニットと半自己回帰予測器からなる半自己回帰予測ネットワークは、可変長のトラフィックシーケンスを効率的かつ効率的に予測するように設計されている。
新たに確立されたベンチマークでの大規模な実験は、ASeerの優位性を示す。
Accurate traffic forecasting is crucial for the development of Intelligent Transportation Systems (ITS), playing a pivotal role in modern urban traffic management. Traditional forecasting methods, however, struggle with the irregular traffic time series resulting from adaptive traffic signal controls, presenting challenges in asynchronous spatial dependency, irregular temporal dependency, and predicting variable-length sequences. To this end, we propose an Asynchronous Spatio-tEmporal graph convolutional nEtwoRk (ASeer) tailored for irregular traffic time series forecasting. Specifically, we first propose an Asynchronous Graph Diffusion Network to capture the spatial dependency between asynchronously measured traffic states regulated by adaptive traffic signals. After that, to capture the temporal dependency within irregular traffic state sequences, a personalized time encoding is devised to embed the continuous time signals. Then, we propose a Transformable Time-aware Convolution Network, which adapts meta-filters for time-aware convolution on the sequences with inconsistent temporal flow. Additionally, a Semi-Autoregressive Prediction Network, comprising a state evolution unit and a semi-autoregressive predictor, is designed to predict variable-length traffic sequences effectively and efficiently. Extensive experiments on a newly established benchmark demonstrate the superiority of ASeer compared with twelve competitive baselines across six metrics. | 翻訳日:2024-08-28 20:18:41 公開日:2024-08-27 |
# ニューラルネットワークの大規模バッチ学習一般化のためのLARSの再検討
Revisiting LARS for Large Batch Training Generalization of Neural Networks ( http://arxiv.org/abs/2309.14053v5 ) ライセンス: Link先を確認 | Khoi Do, Duong Nguyen, Hoa Nguyen, Long Tran-Thanh, Nguyen-Hoang Tran, Quoc-Viet Pham, | (参考訳) 本稿では,レイヤワイド・アダプティブ・スケーリング・比率(LARS)を用いた大規模バッチ・トレーニング手法について検討し,知見を明らかにする。
ウォームアップを伴うLARSアルゴリズムは、冗長比のスケーリングのため、早期にシャープな最小化器に閉じ込められる傾向にある。
さらに、後者のフェーズにおける固定的な急激な減少は、ディープニューラルネットワークがアーリーフェーズのシャープ・ミニマを効果的にナビゲートすることを制限する。
これらの知見に基づいて,初期段階における堅牢なトレーニングのために,ウォームアップを構成可能なシグモイド様関数に置き換える新しいアルゴリズムであるTime Varying LARS(TVLARS)を提案する。
TVLARSは勾配探索を早期に促進し、急激な最適化器を超え、後段の堅牢性のために徐々にLARSに移行する。
広範囲な実験により、TVLARSはLARSとLAMBを一貫して上回り、分類シナリオは最大で2倍改善されている。
特に, 自己指導型学習では, LARS と LAMB が支配的であり, 性能は最大 10 % 向上した。
This paper explores Large Batch Training techniques using layer-wise adaptive scaling ratio (LARS) across diverse settings, uncovering insights. LARS algorithms with warm-up tend to be trapped in sharp minimizers early on due to redundant ratio scaling. Additionally, a fixed steep decline in the latter phase restricts deep neural networks from effectively navigating early-phase sharp minimizers. Building on these findings, we propose Time Varying LARS (TVLARS), a novel algorithm that replaces warm-up with a configurable sigmoid-like function for robust training in the initial phase. TVLARS promotes gradient exploration early on, surpassing sharp optimizers and gradually transitioning to LARS for robustness in later phases. Extensive experiments demonstrate that TVLARS consistently outperforms LARS and LAMB in most cases, with up to 2\% improvement in classification scenarios. Notably, in all self-supervised learning cases, TVLARS dominates LARS and LAMB with performance improvements of up to 10\%. | 翻訳日:2024-08-28 20:18:41 公開日:2024-08-27 |
# アンチマシューFL: マシュー効果に対抗するためのフェデレーション学習におけるパフォーマンスギャップのブリッジ
Anti-Matthew FL: Bridging the Performance Gap in Federated Learning to Counteract the Matthew Effect ( http://arxiv.org/abs/2309.16338v2 ) ライセンス: Link先を確認 | Jiashi Gao, Xin Yao, Xuetao Wei, | (参考訳) フェデレートラーニング(FL)は、さまざまなデータプロバイダから派生した異種および多種多様なデータセット間のモデルトレーニングを促進するパラダイム的なアプローチである。
しかし、従来のFLは一貫したパフォーマンスを達成できないため、データリソースに不利なクライアントのパフォーマンス低下につながる可能性がある。
マシュー効果の影響により、アプリケーションにパフォーマンス不均衡なグローバルモデルを展開することで、不利なクライアントから高品質なデータを生成することがさらに阻害され、クライアント間のデータリソースの格差が悪化する。
本研究ではクライアントレベルでのグローバルモデルに対するアンチマシューフェアネスを提案し,クライアント間での等価な精度と決定バイアスを求める。
反マシューフェアネスの達成と性能最適性の両立を両立させるために,反マシュー効果フェデレート学習(反マシューFL)を多制約多目的最適化(MCMOO)問題として定式化し,パレート最適性を得るための3段階多段階降下アルゴリズムを提案する。
提案アルゴリズムの収束と時間的複雑さを理論的に解析する。
さらに,我々の提案するアンチマシューFLは,クライアント間の性能ギャップを効果的に埋めつつ,高性能なグローバルモデルを実現する上で,他の最先端FLアルゴリズムよりも優れていることを示す。
この研究は、FLやその他の分散学習シナリオにおけるマシュー効果の顕在化に関する貴重な洞察を提供し、より公平な学習メカニズムの設計に寄与し、最終的に社会福祉を育むことを願っている。
Federated learning (FL) stands as a paradigmatic approach that facilitates model training across heterogeneous and diverse datasets originating from various data providers. However, conventional FLs fall short of achieving consistent performance, potentially leading to performance degradation for clients who are disadvantaged in data resources. Influenced by the Matthew effect, deploying a performance-imbalanced global model in applications further impedes the generation of high-quality data from disadvantaged clients, exacerbating the disparities in data resources among clients. In this work, we propose anti-Matthew fairness for the global model at the client level, requiring equal accuracy and equal decision bias across clients. To balance the trade-off between achieving anti-Matthew fairness and performance optimality, we formalize the anti-Matthew effect federated learning (anti-Matthew FL) as a multi-constrained multi-objectives optimization (MCMOO) problem and propose a three-stage multi-gradient descent algorithm to obtain the Pareto optimality. We theoretically analyze the convergence and time complexity of our proposed algorithms. Additionally, through extensive experimentation, we demonstrate that our proposed anti-Matthew FL outperforms other state-of-the-art FL algorithms in achieving a high-performance global model while effectively bridging performance gaps among clients. We hope this work provides valuable insights into the manifestation of the Matthew effect in FL and other decentralized learning scenarios and can contribute to designing fairer learning mechanisms, ultimately fostering societal welfare. | 翻訳日:2024-08-28 20:08:36 公開日:2024-08-27 |
# 運動量による因果構造学習:DAGのマルコフ等価クラス上のサンプリング分布
Causal structure learning with momentum: Sampling distributions over Markov Equivalence Classes of DAGs ( http://arxiv.org/abs/2310.05655v2 ) ライセンス: Link先を確認 | Moritz Schauer, Marcel Wienöbst, | (参考訳) ベイズネットワーク構造(略してDAG)を推定する文脈において、観測等価(マルコフ同値)DAGのクラス上の確率分布を目標とする可逆的連続時間マルコフ連鎖 `Causal Zig-Zag sampler'' を考案する。
クラスは完備部分有向非巡回グラフ(CPDAG)として表される。
非可逆マルコフ連鎖は、ChickeringのGreedy Equivalence Search (GES) で用いられる演算子に依存し、運動量変数が付与され、経験的に示されるように混合が著しく改善される。
可能な対象分布は、事前のDAGとマルコフ同値確率に基づく後続分布を含む。
我々は,GES演算子の動作をリストアップし,カウントし,一様にサンプリングし,適用するための新しいアルゴリズムを開発する,効率的な実装を提供する。
In the context of inferring a Bayesian network structure (directed acyclic graph, DAG for short), we devise a non-reversible continuous time Markov chain, the ``Causal Zig-Zag sampler'', that targets a probability distribution over classes of observationally equivalent (Markov equivalent) DAGs. The classes are represented as completed partially directed acyclic graphs (CPDAGs). The non-reversible Markov chain relies on the operators used in Chickering's Greedy Equivalence Search (GES) and is endowed with a momentum variable, which improves mixing significantly as we show empirically. The possible target distributions include posterior distributions based on a prior over DAGs and a Markov equivalent likelihood. We offer an efficient implementation wherein we develop new algorithms for listing, counting, uniformly sampling, and applying possible moves of the GES operators, all of which significantly improve upon the state-of-the-art run-time. | 翻訳日:2024-08-28 20:08:36 公開日:2024-08-27 |
# Split-and-Denoise: ローカル差分プライバシーによる大規模言語モデル推論の保護
Split-and-Denoise: Protect large language model inference with local differential privacy ( http://arxiv.org/abs/2310.09130v4 ) ライセンス: Link先を確認 | Peihua Mai, Ran Yan, Zhe Huang, Youjia Yang, Yan Pang, | (参考訳) 大規模言語モデル(LLM)は、ベクトル空間内の隠れセマンティクスをキャプチャすることで、自然言語理解において優れている。
このプロセスは、さまざまなダウンストリームタスクに対するテキスト埋め込みの価値を強化し、Embdding-as-a-Service(EaaS)ビジネスモデルを育む。
しかし、サーバへのダイレクトテキスト送信によるプライバシー漏洩のリスクは、依然として重要な懸念事項である。
これを解決するために、最小計算コストでクライアント側でトークン埋め込み層を実行するためにモデルを分割するプライベート推論フレームワークであるSplit-N-Denoise(SnD)を導入する。
これにより、クライアントは、サーバに埋め込みを送信する前にノイズを導入し、その後、下流タスクの摂動された出力埋め込みを受信および復号化することができる。
提案手法は, LLMの推論段階に設計されており, モデルパラメータの変更は不要である。
大規模な実験では、SnDが様々なLLMアーキテクチャとさまざまな下流タスク間でのプライバシーとユーティリティのトレードオフを最適化する効果を実証している。
その結果、クライアントがローカルのプライバシー保護のためにプライバシを保存するソリューションを提供することで、ベースラインが平均で10%以上向上するのに対して、同じプライバシ予算の下でのパフォーマンスが向上することが明らかになった。
Large Language Models (LLMs) excel in natural language understanding by capturing hidden semantics in vector space. This process enriches the value of text embeddings for various downstream tasks, thereby fostering the Embedding-as-a-Service (EaaS) business model. However, the risk of privacy leakage due to direct text transmission to servers remains a critical concern. To address this, we introduce Split-N-Denoise (SnD), an private inference framework that splits the model to execute the token embedding layer on the client side at minimal computational cost. This allows the client to introduce noise prior to transmitting the embeddings to the server, and subsequently receive and denoise the perturbed output embeddings for downstream tasks. Our approach is designed for the inference stage of LLMs and requires no modifications to the model parameters. Extensive experiments demonstrate SnD's effectiveness in optimizing the privacy-utility tradeoff across various LLM architectures and diverse downstream tasks. The results reveal an improvement in performance under the same privacy budget compared to the baselines by over 10\% on average, offering clients a privacy-preserving solution for local privacy protection. | 翻訳日:2024-08-28 20:08:36 公開日:2024-08-27 |
# モンドリアン・ランダム・フォレストからの推測
Inference with Mondrian Random Forests ( http://arxiv.org/abs/2310.09702v2 ) ライセンス: Link先を確認 | Matias D. Cattaneo, Jason M. Klusowski, William G. Underwood, | (参考訳) ランダム・フォレストは回帰分析や分類解析の一般的な手法であり、近年多くの異なる変種が提案されている。
興味深い例としては、モンドリアンのランダムな森があり、基礎となる構成木はモンドリアンのプロセスによって構築されている。
我々は、モンドリアンのランダムな森林回帰推定器に対して、ベリー・エッセイン型中央極限定理とともに、正確なバイアスと分散特性を与える。
これらの結果と, 高精度な分散推定手法を組み合わせることで, 未知回帰関数の統計的推測法を提案する。
これらの手法は、森林における標本サイズ、樹木の複雑度パラメータ、および木数の観点から明らかに特徴付けられた誤差境界を持ち、信頼区間推定器のカバレッジエラー率を含む。
モンドリアン・ランダム・フォレスト(英語版)に対する新しいデバイアス化法は、基礎となるチューニングパラメータが適切に選択されることを条件として、多変量$\beta$-H\"older回帰関数に対して平均2乗誤差で最小最大点推定収束率を達成することを可能にする。
バッチとオンラインの学習環境において,効率的かつ実装可能なアルゴリズムを考案し,モンドリアンのランダムフォレスト実装の計算複雑性を慎重に検討する。
最後に、合成データを用いたシミュレーションは、我々の理論と方法論を検証し、それらの優れた有限サンプル特性を実証する。
Random forests are popular methods for regression and classification analysis, and many different variants have been proposed in recent years. One interesting example is the Mondrian random forest, in which the underlying constituent trees are constructed via a Mondrian process. We give precise bias and variance characterizations, along with a Berry-Esseen-type central limit theorem, for the Mondrian random forest regression estimator. By combining these results with a carefully crafted debiasing approach and an accurate variance estimator, we present valid statistical inference methods for the unknown regression function. These methods come with explicitly characterized error bounds in terms of the sample size, tree complexity parameter, and number of trees in the forest, and include coverage error rates for feasible confidence interval estimators. Our novel debiasing procedure for the Mondrian random forest also allows it to achieve the minimax-optimal point estimation convergence rate in mean squared error for multivariate $\beta$-H\"older regression functions, for all $\beta > 0$, provided that the underlying tuning parameters are chosen appropriately. Efficient and implementable algorithms are devised for both batch and online learning settings, and we carefully study the computational complexity of different Mondrian random forest implementations. Finally, simulations with synthetic data validate our theory and methodology, demonstrating their excellent finite-sample properties. | 翻訳日:2024-08-28 20:08:36 公開日:2024-08-27 |
# FERI: 臓器移植のためのマルチタスク型フェアネス獲得アルゴリズム
FERI: A Multitask-based Fairness Achieving Algorithm with Applications to Fair Organ Transplantation ( http://arxiv.org/abs/2310.13820v2 ) ライセンス: Link先を確認 | Can Li, Dejian Lai, Xiaoqian Jiang, Kai Zhang, | (参考訳) 肝臓移植はしばしば、年齢グループ、性別、人種/民族などのセンシティブな属性によって定義されるサブグループ間で公平な課題に直面している。
結果予測のための機械学習モデルは、さらなるバイアスを導入することができる。
そこで本研究では, 肝移植患者の移植失敗リスクの公平な予測のために, Equitable Rate of Improvement in Multitask Learning (FERI) アルゴリズムを用いてフェアネスを導入する。
FERIは、学習率のバランスとトレーニングプロセスにおけるサブグループ支配の防止により、サブグループ損失を抑える。
その結果,FERIはベースラインモデルに匹敵するAUROCとAUPRCで高い予測精度を維持した。
さらに、FERIは精度を犠牲にすることなく公平性を向上させる能力を示した。
具体的には、性別について、FERIは人口格差を71.74%減らし、年齢層では40.46%減らした。
したがって、FERIアルゴリズムは医療における公平性を考慮した予測モデリングを進化させ、公平な医療システムのための貴重なツールを提供する。
Liver transplantation often faces fairness challenges across subgroups defined by sensitive attributes such as age group, gender, and race/ethnicity. Machine learning models for outcome prediction can introduce additional biases. Therefore, we introduce Fairness through the Equitable Rate of Improvement in Multitask Learning (FERI) algorithm for fair predictions of graft failure risk in liver transplant patients. FERI constrains subgroup loss by balancing learning rates and preventing subgroup dominance in the training process. Our results show that FERI maintained high predictive accuracy with AUROC and AUPRC comparable to baseline models. More importantly, FERI demonstrated an ability to improve fairness without sacrificing accuracy. Specifically, for the gender, FERI reduced the demographic parity disparity by 71.74%, and for the age group, it decreased the equalized odds disparity by 40.46%. Therefore, the FERI algorithm advanced fairness-aware predictive modeling in healthcare and provides an invaluable tool for equitable healthcare systems. | 翻訳日:2024-08-28 20:08:36 公開日:2024-08-27 |
# FPO++:Folier PlenOctreesの解析とエンハンスによる動的ニューラルラディアンスフィールドの効率的なエンコーディングとレンダリング
FPO++: Efficient Encoding and Rendering of Dynamic Neural Radiance Fields by Analyzing and Enhancing Fourier PlenOctrees ( http://arxiv.org/abs/2310.20710v2 ) ライセンス: Link先を確認 | Saskia Rabich, Patrick Stotko, Reinhard Klein, | (参考訳) Fourier PlenOctreesは、動的ニューラルレイディアンス場(NeRF)のリアルタイムレンダリングの効率的な表現であることが示されている。
多くの利点があるにもかかわらず、この手法は静的フレームごとのNeRFモデルをトレーニングするための最新の最先端技術と組み合わせる際に、関連する圧縮によって導入されたアーティファクトに悩まされる。
本稿では,これらのアーティファクトの詳細な分析を行い,得られた知見を活用して,改良された表現を提案する。
特に,Fourierに基づく圧縮を基礎となるボリュームレンダリング法で使用される転送関数の特性に適応させることにより,動的モデルにおけるアーティファクトの大幅な削減を実現する新しい密度符号化を提案する。
さらに,圧縮の周期性仮定を緩和するトレーニングデータの増大を示す。
合成・実世界のシーンにおける定量的・質的評価の範囲における拡張されたFourier PlenOctreesの有効性を実証する。
Fourier PlenOctrees have shown to be an efficient representation for real-time rendering of dynamic Neural Radiance Fields (NeRF). Despite its many advantages, this method suffers from artifacts introduced by the involved compression when combining it with recent state-of-the-art techniques for training the static per-frame NeRF models. In this paper, we perform an in-depth analysis of these artifacts and leverage the resulting insights to propose an improved representation. In particular, we present a novel density encoding that adapts the Fourier-based compression to the characteristics of the transfer function used by the underlying volume rendering procedure and leads to a substantial reduction of artifacts in the dynamic model. Furthermore, we show an augmentation of the training data that relaxes the periodicity assumption of the compression. We demonstrate the effectiveness of our enhanced Fourier PlenOctrees in the scope of quantitative and qualitative evaluations on synthetic and real-world scenes. | 翻訳日:2024-08-28 20:08:36 公開日:2024-08-27 |
# Fairnessがプライバシに出会ったとき - メンバーシップ推論攻撃を通じて、公正なバイナリ分類器でプライバシの脅威を探る
When Fairness Meets Privacy: Exploring Privacy Threats in Fair Binary Classifiers via Membership Inference Attacks ( http://arxiv.org/abs/2311.03865v3 ) ライセンス: Link先を確認 | Huan Tian, Guangsheng Zhang, Bo Liu, Tianqing Zhu, Ming Ding, Wanlei Zhou, | (参考訳) 従来の研究では、特定のサブグループに対する差別的行動を示す偏見付きモデルの公平性手法が開発されてきた。
これらのモデルは、公正な予測を達成する上で有望であることを示しているが、最近の研究では、スコアベースのメンバーシップ推論攻撃(MIA)に対する潜在的な脆弱性を特定している。
これらの攻撃では、モデルの予測スコアを分析して、特定のデータサンプルがトレーニング中に使用されたかどうかを推測することができる。
しかし,これらのスコアベースMIAは,二項分類における公平性向上モデルを対象としている場合,有効ではないことが明らかとなった。
MIAを発射する訓練された攻撃モデルは、単純なしきい値モデルに分解され、攻撃性能は低下した。
一方、フェアネス法は、トレーニングデータの多数部分群の予測性能劣化につながることがしばしばある。
これにより、攻撃の成功への障壁が高まり、メンバーデータと非メンバーデータの間の予測ギャップが拡大する。
これらの知見に基づいて、フェアネス差分結果(FD-MIA)に基づくフェアネス強化モデルに対する効率的なMIA手法を提案する。
オリジナルモデルとフェアネスモデルの両方からの予測の違いを活用し、観測された予測ギャップを攻撃ヒントとして活用する。
また、プライバシー漏洩を緩和するための潜在的戦略についても検討する。
本手法の有効性を検証し,本手法の有効性を検証した。
Previous studies have developed fairness methods for biased models that exhibit discriminatory behaviors towards specific subgroups. While these models have shown promise in achieving fair predictions, recent research has identified their potential vulnerability to score-based membership inference attacks (MIAs). In these attacks, adversaries can infer whether a particular data sample was used during training by analyzing the model's prediction scores. However, our investigations reveal that these score-based MIAs are ineffective when targeting fairness-enhanced models in binary classifications. The attack models trained to launch the MIAs degrade into simplistic threshold models, resulting in lower attack performance. Meanwhile, we observe that fairness methods often lead to prediction performance degradation for the majority subgroups of the training data. This raises the barrier to successful attacks and widens the prediction gaps between member and non-member data. Building upon these insights, we propose an efficient MIA method against fairness-enhanced models based on fairness discrepancy results (FD-MIA). It leverages the difference in the predictions from both the original and fairness-enhanced models and exploits the observed prediction gaps as attack clues. We also explore potential strategies for mitigating privacy leakages. Extensive experiments validate our findings and demonstrate the efficacy of the proposed method. | 翻訳日:2024-08-28 20:08:36 公開日:2024-08-27 |
# PRODIGy: Profile ベースのダイアログ生成データセット
PRODIGy: a PROfile-based DIalogue Generation dataset ( http://arxiv.org/abs/2311.05195v2 ) ライセンス: Link先を確認 | Daniela Occhipinti, Serra Sinem Tekiroglu, Marco Guerini, | (参考訳) プロファイル表現を持つ対話エージェントを提供することで、一貫性と一貫性が向上し、会話の質が向上する。
しかし、このようなエージェントを訓練するための現在のプロファイルベースの対話データセットには、単純で対話特有の明示的なプロファイル表現、あるいは収集が難しい暗黙の表現が含まれる。
本研究では,コミュニケーションスタイル,バイオグラフィ,パーソナリティなどの可能なすべての話者表現と対話が一致した新たなリソースを作成することにより,標準およびより洗練されたプロファイル表現を一体化する統一的なフレームワークを提案する。
このフレームワークは、複数のプロファイル構成を持つ生成言語モデルを使用して構築されたいくつかのベースラインをテストすることができる。
自動評価により、プロファイルベースのモデルは、ドメイン内設定とドメイン間設定の両方で、対話でのみ訓練されたモデルよりも、より優れた一般化能力を有することが示された。
これらの結果は、微調整されたモデルと命令ベースのLLMに一貫性がある。
さらに、人間の評価は、プロファイルとコンテキストの両方に整合した世代に対する明確な選好を示す。
最後に、プライバシー上の懸念を考慮し、すべての実験は、インターキャラクタとイントラキャラクタの2つの構成の下で行われる。
前者では、LMは文字に関する情報を内部表現に格納するが、後者では、LMは個人情報を一切保持せず、推論時にのみ使用する。
Providing dialogue agents with a profile representation can improve their consistency and coherence, leading to better conversations. However, current profile-based dialogue datasets for training such agents contain either explicit profile representations that are simple and dialogue-specific, or implicit representations that are difficult to collect. In this work, we propose a unified framework in which we bring together both standard and more sophisticated profile representations by creating a new resource where each dialogue is aligned with all possible speaker representations such as communication style, biographies, and personality. This framework allows to test several baselines built using generative language models with several profile configurations. The automatic evaluation shows that profile-based models have better generalisation capabilities than models trained on dialogues only, both in-domain and cross-domain settings. These results are consistent for fine-tuned models and instruction-based LLMs. Additionally, human evaluation demonstrates a clear preference for generations consistent with both profile and context. Finally, to account for possible privacy concerns, all experiments are done under two configurations: inter-character and intra-character. In the former, the LM stores the information about the character in its internal representation, while in the latter, the LM does not retain any personal information but uses it only at inference time. | 翻訳日:2024-08-28 20:08:36 公開日:2024-08-27 |
# 機械学習技術を用いたセンチネル-1 SARデータを用いた温帯森林の光学的植生指標と生物物理変数の推定:チェコを事例として
Estimating optical vegetation indices and biophysical variables for temperate forests with Sentinel-1 SAR data using machine learning techniques: A case study for Czechia ( http://arxiv.org/abs/2311.07537v2 ) ライセンス: Link先を確認 | Daniel Paluba, Bertrand Le Saux, Přemysl Stych, | (参考訳) 森林生態系をモニタリングするための現在の光学的植生指標(VIs)は、様々な用途でよく確立され広く利用されているが、雲のような大気の影響によって制限される可能性がある。
対照的に、合成開口レーダ(SAR)のデータは、雲や昼夜の画像取得による信号の侵入により、完全な時系列(TS)を備えた洞察に富んだ、体系的な森林モニタリングを提供することができる。
本研究の目的は、機械学習(ML)による森林の光VIs推定の代替手段として、SARデータを用いて光学衛星データの限界に対処することである。
このアプローチは直接的ではなく、MLの力によってのみ実現可能であるが、VIを正確に推定するために十分な関連情報がSAR信号に含まれるかどうかという科学的疑問を提起する。
本研究は,マルチテンポラルセンチネル-1 SARとアシラリーデータを用いて,4つのVI(LAI, FAPAR, EVI, NDVI)のTSを推定する。
この研究は、2021年のチェコの健康と乱れた温帯の森林地域の両方に焦点をあて、Sentinel-2マルチスペクトルデータから地中真理ラベルを作成した。
これは、Google Earth Engine(GEE)にペア化されたマルチモーダルTSデータセットを作成することで実現された。
DEM由来の補助的特徴と追加の気象情報を含めることで、さらなる結果が得られた。
MLモデルの比較において、従来のMLアルゴリズムであるRFRとXGBoostは、すべてのVIに対してAutoMLアプローチであるAuto-sklearnをわずかに上回り、高い精度(R^2$から70-86%)と低いエラー(MAEの0.055-0.29)を達成した。
一般に、SARベースのVIを高精度に推定し、年間240回測定し、空間分解能を20mまで向上することができる。
SARベースのVIの大きな利点は、急激な森林変動を週単位の時間的精度で検出できることである。
Current optical vegetation indices (VIs) for monitoring forest ecosystems are well established and widely used in various applications, but can be limited by atmospheric effects such as clouds. In contrast, synthetic aperture radar (SAR) data can offer insightful and systematic forest monitoring with complete time series (TS) due to signal penetration through clouds and day and night image acquisitions. This study aims to address the limitations of optical satellite data by using SAR data as an alternative for estimating optical VIs for forests through machine learning (ML). While this approach is less direct and likely only feasible through the power of ML, it raises the scientific question of whether enough relevant information is contained in the SAR signal to accurately estimate VIs. This work covers the estimation of TS of four VIs (LAI, FAPAR, EVI and NDVI) using multitemporal Sentinel-1 SAR and ancillary data. The study focused on both healthy and disturbed temperate forest areas in Czechia for the year 2021, while ground truth labels generated from Sentinel-2 multispectral data. This was enabled by creating a paired multi-modal TS dataset in Google Earth Engine (GEE), including temporally and spatially aligned Sentinel-1, Sentinel-2, DEM, weather and land cover datasets. The inclusion of DEM-derived auxiliary features and additional meteorological information, further improved the results. In the comparison of ML models, the traditional ML algorithms, RFR and XGBoost slightly outperformed the AutoML approach, auto-sklearn, for all VIs, achieving high accuracies ($R^2$ between 70-86%) and low errors (0.055-0.29 of MAE). In general, up to 240 measurements per year and a spatial resolution of 20 m can be achieved using estimated SAR-based VIs with high accuracy. A great advantage of the SAR-based VI is the ability to detect abrupt forest changes with sub-weekly temporal accuracy. | 翻訳日:2024-08-28 20:08:36 公開日:2024-08-27 |
# グラフGOSPA測度:異なる大きさのグラフ間の差を測定するための測度
Graph GOSPA metric: a metric to measure the discrepancy between graphs of different sizes ( http://arxiv.org/abs/2311.07596v2 ) ライセンス: Link先を確認 | Jinhao Gu, Ángel F. García-Fernández, Robert E. Firth, Lennart Svensson, | (参考訳) 本稿では,ノード数が異なる可能性のあるグラフ間の相似性を測定する指標を提案する。
提案した計量は、集合の計量である一般化最適部分パターン割り当て(GOSPA)をグラフに拡張する。
提案したグラフGOSPAメトリクスは、適切に割り当てられたノード、ミスノード、偽ノード、グラフ間のエッジミスマッチに対するノード属性エラーに関連するコストを含む。
この計量の計算は、2つのグラフのノード間の最適な割り当てを見つけることに基づいており、ノードのいくつかは割り当てられていない可能性がある。
また、グラフの計量であり、線形計画法を用いて多項式時間で計算可能な計量に対する下界も提案する。
この計量は、まず無向非重み付きグラフに対して導出され、それから有向グラフと重み付きグラフに拡張される。
計量の性質は、シミュレートされた経験的なデータセットを通して示される。
This paper proposes a metric to measure the dissimilarity between graphs that may have a different number of nodes. The proposed metric extends the generalised optimal subpattern assignment (GOSPA) metric, which is a metric for sets, to graphs. The proposed graph GOSPA metric includes costs associated with node attribute errors for properly assigned nodes, missed and false nodes and edge mismatches between graphs. The computation of this metric is based on finding the optimal assignments between nodes in the two graphs, with the possibility of leaving some of the nodes unassigned. We also propose a lower bound for the metric, which is also a metric for graphs and is computable in polynomial time using linear programming. The metric is first derived for undirected unweighted graphs and it is then extended to directed and weighted graphs. The properties of the metric are demonstrated via simulated and empirical datasets. | 翻訳日:2024-08-28 20:08:36 公開日:2024-08-27 |
# LQ-LoRA:効率的な言語モデルファインタニングのための低ランク・量子行列分解
LQ-LoRA: Low-rank Plus Quantized Matrix Decomposition for Efficient Language Model Finetuning ( http://arxiv.org/abs/2311.12023v4 ) ライセンス: Link先を確認 | Han Guo, Philip Greengard, Eric P. Xing, Yoon Kim, | (参考訳) 本稿では,事前学習言語モデルのメモリ効率向上のための簡単な手法を提案する。
提案手法では,事前学習した行列を高精度の低ランク成分とメモリ効率の量子化成分に分解するために反復アルゴリズムを用いる。
微調整中、量子化コンポーネントは固定され、ローランクコンポーネントのみが更新される。
本稿では,各行列に対する量子化パラメータ(例えば,ビット幅,ブロックサイズ)の動的構成を可能にする量子化成分の整数線形計画法について述べる。
さらに、行列分解時の再構成目的を重み付けするために、フィッシャー情報行列の近似を用いたアルゴリズムのデータ認識バージョンについて検討する。
RoBERTa と LLaMA-2 (7B, 70B) の微調整実験により,我々の低ランク+量子化行列分解法 (LQ-LoRA) が強い QLoRA と GPTQ-LoRA ベースラインを上回り,性能劣化の少ない sub-3 ビットへのアグレッシブ量子化を可能にすることを示した。
この設定では、2.75ビットのLLaMA-2-70Bモデル(低ランクのコンポーネントを含めると平均2.85ビットで、27GBのGPUメモリを必要とする)は16ビットのベースラインと比較してきちんと動作します。
We propose a simple approach for memory-efficient adaptation of pretrained language models. Our approach uses an iterative algorithm to decompose each pretrained matrix into a high-precision low-rank component and a memory-efficient quantized component. During finetuning, the quantized component remains fixed and only the low-rank component is updated. We present an integer linear programming formulation of the quantization component which enables dynamic configuration of quantization parameters (e.g., bit-width, block size) for each matrix given an overall target memory budget. We further explore a data-aware version of the algorithm which uses an approximation of the Fisher information matrix to weight the reconstruction objective during matrix decomposition. Experiments on finetuning RoBERTa and LLaMA-2 (7B and 70B) demonstrate that our low-rank plus quantized matrix decomposition approach (LQ-LoRA) outperforms strong QLoRA and GPTQ-LoRA baselines and enables aggressive quantization to sub-3 bits with only minor performance degradations. When finetuned on a language modeling calibration dataset, LQ-LoRA can also be used for model compression; in this setting our 2.75-bit LLaMA-2-70B model (which has 2.85 bits on average when including the low-rank components and requires 27GB of GPU memory) performs respectably compared to the 16-bit baseline. | 翻訳日:2024-08-28 20:08:36 公開日:2024-08-27 |
# ODDR: 対側パッチに対する外乱検出・次元削減に基づく防御
ODDR: Outlier Detection & Dimension Reduction Based Defense Against Adversarial Patches ( http://arxiv.org/abs/2311.12084v2 ) ライセンス: Link先を確認 | Nandish Chattopadhyay, Amira Guesmi, Muhammad Abdullah Hanif, Bassem Ouni, Muhammad Shafique, | (参考訳) 敵攻撃は、特にパッチベースの攻撃が強力であることから、マシンラーニングモデルの信頼性の高いデプロイに重大な課題をもたらす。
これらの攻撃は、画像の局所的な領域における敵の摂動をもたらし、十分に訓練されたモデルさえも無視する。
本稿では,先進的な統計的手法を用いて,パッチベースの敵攻撃に対抗するために設計された総合的な防衛戦略である,外乱検出・次元削減(ODDR)を提案する。
提案手法は, 画像データの内在分布から自然的, 合成的, いずれにせよ, 逆パッチに対応する入力特徴を抽出し, 外れ値として同定する。
ODDRは、フラグメンテーション、セグレゲーション、中立化という、堅牢な3段階のパイプラインを運用する。
このモデルに依存しないフレームワークは、画像分類、オブジェクト検出、深さ推定など様々なタスクに対して保護を提供し、CNNベースのアーキテクチャとTransformerベースのアーキテクチャの両方で有効であることが証明されている。
フラグメンテーション段階では、画像サンプルは小さなセグメントに分割され、セグレゲーション段階に向けて準備され、高度な外乱検出技術により、対向的摂動に関連する異常な特徴を分離する。
中立化段階は、これらの外れ値に次元還元技術を適用し、機械学習タスクの重要な情報を保持しながら、敵の影響を効果的に中和する。
最先端の敵パッチに対するベンチマークデータセットの広範囲な評価は、ODDRの有効性を裏付けるものである。
GoogleAp攻撃時のモデル精度は39.26%から79.1%に向上し、LGS(53.86%)、柔術(60%)、ジェダイ(64.34%)などの先進防衛よりも優れていた。
Adversarial attacks present a significant challenge to the dependable deployment of machine learning models, with patch-based attacks being particularly potent. These attacks introduce adversarial perturbations in localized regions of an image, deceiving even well-trained models. In this paper, we propose Outlier Detection and Dimension Reduction (ODDR), a comprehensive defense strategy engineered to counteract patch-based adversarial attacks through advanced statistical methodologies. Our approach is based on the observation that input features corresponding to adversarial patches-whether naturalistic or synthetic-deviate from the intrinsic distribution of the remaining image data and can thus be identified as outliers. ODDR operates through a robust three-stage pipeline: Fragmentation, Segregation, and Neutralization. This model-agnostic framework is versatile, offering protection across various tasks, including image classification, object detection, and depth estimation, and is proved effective in both CNN-based and Transformer-based architectures. In the Fragmentation stage, image samples are divided into smaller segments, preparing them for the Segregation stage, where advanced outlier detection techniques isolate anomalous features linked to adversarial perturbations. The Neutralization stage then applies dimension reduction techniques to these outliers, effectively neutralizing the adversarial impact while preserving critical information for the machine learning task. Extensive evaluation on benchmark datasets against state-of-the-art adversarial patches underscores the efficacy of ODDR. Our method enhances model accuracy from 39.26% to 79.1% under the GoogleAp attack, outperforming leading defenses such as LGS (53.86%), Jujutsu (60%), and Jedi (64.34%). | 翻訳日:2024-08-28 20:08:36 公開日:2024-08-27 |
# 臨界非エルミート位相誘起量子センシング
Critical non-Hermitian topology induced quantum sensing ( http://arxiv.org/abs/2311.12756v2 ) ライセンス: Link先を確認 | Saubhik Sarkar, Francesco Ciccarello, Angelo Carollo, Abolfazl Bayat, | (参考訳) 非エルミート物理学は、例外点や非エルミートスキン効果のようなユニークな位相的特徴を持つ開量子系力学を予測する。
この新しいトポロジカルシステムのパラダイムは、ハイゼンベルクスケーリングに到達した量子増強感度を持つバルクハミルトンパラメータのプローブとして機能することを示す。
このようなエンハンスメントはスペクトルトポロジカル相転移に近づき、スペクトル全体が非局在化遷移を起こす。
エルミートエネルギーギャップを全く含まない真に非エルミートエネルギーギャップである点ギャップの閉包に基づくこの高感度化について説明する。
これにより、非エルミート領域におけるエネルギーギャップ閉包と量子化の直接接続が確立される。
本研究は,様々な次元におけるいくつかのパラダイム的非エルミート的トポロジカルモデルと潜在的な実験的実装によって実証された。
Non-Hermitian physics predicts open quantum system dynamics with unique topological features such as exceptional points and the non-Hermitian skin effect. We show that this new paradigm of topological systems can serve as probes for bulk Hamiltonian parameters with quantum-enhanced sensitivity reaching Heisenberg scaling. Such enhancement occurs close to a spectral topological phase transition, where the entire spectrum undergoes a delocalization transition. We provide an explanation for this enhanced sensitivity based on the closing of point gap, which is a genuinely non-Hermitian energy gap with no Hermitian counterpart. This establishes a direct connection between energy-gap closing and quantum enhancement in the non-Hermitian realm. Our findings are demonstrated through several paradigmatic non-Hermitian topological models in various dimensions and potential experimental implementations. | 翻訳日:2024-08-28 20:08:36 公開日:2024-08-27 |
# SiCP:コネクテッド・オートマチック車両における3次元物体検出のための同時的個人・協調的知覚
SiCP: Simultaneous Individual and Cooperative Perception for 3D Object Detection in Connected and Automated Vehicles ( http://arxiv.org/abs/2312.04822v2 ) ライセンス: Link先を確認 | Deyuan Qu, Qi Chen, Tianyu Bai, Hongsheng Lu, Heng Fan, Hao Zhang, Song Fu, Qing Yang, | (参考訳) 連結車両と自動車両の協調認識は、伝統的に2台以上の車両の特徴マップの融合によって達成される。
しかし、他の車両から共有される特徴マップがないことは、スタンドアロンの3次元検出モデルと比較して、協調認識モデルにおける3次元物体検出性能が著しく低下する可能性がある。
この欠点は、車両資源が2つの知覚モデルを同時に使用するには不十分なため、協調的な知覚の採用を妨げる。
この課題に対処するために、我々は、多種多様な最先端のスタンドアロンの知覚バックボーンをサポートし、個人および協調的な知覚を促進するために設計された新しいデュアル知覚ネットワーク(DP-Net)でそれらを強化する汎用フレームワークである、同時個人協調知覚(SiCP)を提示する。
0.13Mパラメータしか持たない軽量な性質に加えて、DP-Netは堅牢であり、特徴マップの融合時に重要な勾配情報を保持する。
DP-NetによるV2V4RealとOPV2Vデータセットの包括的な評価で示されているように、SiCPはスタンドアロンの知覚ソリューションのパフォーマンスを維持しながら、最先端の協調認識ソリューションを超越している。
Cooperative perception for connected and automated vehicles is traditionally achieved through the fusion of feature maps from two or more vehicles. However, the absence of feature maps shared from other vehicles can lead to a significant decline in 3D object detection performance for cooperative perception models compared to standalone 3D detection models. This drawback impedes the adoption of cooperative perception as vehicle resources are often insufficient to concurrently employ two perception models. To tackle this issue, we present Simultaneous Individual and Cooperative Perception (SiCP), a generic framework that supports a wide range of the state-of-the-art standalone perception backbones and enhances them with a novel Dual-Perception Network (DP-Net) designed to facilitate both individual and cooperative perception. In addition to its lightweight nature with only 0.13M parameters, DP-Net is robust and retains crucial gradient information during feature map fusion. As demonstrated in a comprehensive evaluation on the V2V4Real and OPV2V datasets, thanks to DP-Net, SiCP surpasses state-of-the-art cooperative perception solutions while preserving the performance of standalone perception solutions. | 翻訳日:2024-08-28 19:58:52 公開日:2024-08-27 |
# 生成学習のための条件確率補間
Conditional Stochastic Interpolation for Generative Learning ( http://arxiv.org/abs/2312.05579v2 ) ライセンス: Link先を確認 | Ding Huang, Jian Huang, Ting Li, Guohao Shen, | (参考訳) 条件分布を学習するための条件確率補間法(CSI)を提案する。
CSIは、基準分布を目標条件分布に伝達する確率フロー方程式または確率微分方程式を推定する。
これは、まずCSIに基づいて条件ドリフトとスコア関数を学習し、通常の微分方程式や条件サンプリングの拡散過程によって支配される決定論的過程を構築するのに使用される。
提案手法では,拡散過程に生じる不安定性問題に適応拡散項を組み込む。
条件付きドリフトとスコア関数の明示的な表現を条件付き期待の観点から導き、自然にこれらの関数を推定するための非パラメトリック回帰アプローチを導出する。
さらに,対象条件分布を学習するための漸近誤差境界を確立する。
ベンチマーク画像データセットを用いた画像生成におけるCSIの適用について述べる。
We propose a conditional stochastic interpolation (CSI) method for learning conditional distributions. CSI is based on estimating probability flow equations or stochastic differential equations that transport a reference distribution to the target conditional distribution. This is achieved by first learning the conditional drift and score functions based on CSI, which are then used to construct a deterministic process governed by an ordinary differential equation or a diffusion process for conditional sampling. In our proposed approach, we incorporate an adaptive diffusion term to address the instability issues arising in the diffusion process. We derive explicit expressions of the conditional drift and score functions in terms of conditional expectations, which naturally lead to an nonparametric regression approach to estimating these functions. Furthermore, we establish nonasymptotic error bounds for learning the target conditional distribution. We illustrate the application of CSI on image generation using a benchmark image dataset. | 翻訳日:2024-08-28 19:58:52 公開日:2024-08-27 |
# ハードウェア効率訓練によるゲート型リニアアテンション変圧器
Gated Linear Attention Transformers with Hardware-Efficient Training ( http://arxiv.org/abs/2312.06635v6 ) ライセンス: Link先を確認 | Songlin Yang, Bailin Wang, Yikang Shen, Rameswar Panda, Yoon Kim, | (参考訳) 線形アテンションを持つトランスフォーマーは、効率的な並列トレーニングを可能にするが、2D隠れ状態を持つRNNとして同時に定式化することができ、線形時間推論の複雑さを享受できる。
しかし、一般に線形の注意は通常のソフトマックスの注意を過小評価する。
さらに, 線形アテンションの現在の実装はI/O認識に欠けており, ソフトマックスアテンションの高度に最適化された実装よりも遅い。
本研究は、並列化性に対してメモリ移動をオフにする線形注意のためのハードウェア効率のアルゴリズムについて述べる。
その結果、FLASHLINEARATTENTIONと呼ばれる実装は、FLASHATTENTION-2 (Dao, 2023) よりも短いシーケンス長 (eg , 1K) であってもスタンドアロン層として高速になった。
次に、このアルゴリズムを、データ依存ゲートを用いたより表現力豊かな線形アテンションに一般化する。
トランスフォーマーの標準アテンション層の代わりに使用される場合、結果として生じるゲート型リニアアテンション(GLA)トランスフォーマーは、LLaMA-architecture Transformer (Touvron et al , 2023) や、RetNet (Sun et al , 2023a) やMamba (Gu & Dao, 2023) といった最近の線形時間推論ベースラインと、中規模言語モデリング実験において競合的に動作する。
GLA変換器は、特に長さの一般化に有効であり、2Kで訓練されたモデルは、大きなパープレキシティ劣化を伴わずに20K以上のシーケンスに一般化することができる。
トレーニング速度では、GLA Transformerは同様のサイズのMambaモデルよりもスループットが高い。
Transformers with linear attention allow for efficient parallel training but can simultaneously be formulated as an RNN with 2D (matrix-valued) hidden states, thus enjoying linear-time inference complexity. However, linear attention generally underperforms ordinary softmax attention. Moreover, current implementations of linear attention lack I/O-awareness and are thus slower than highly optimized implementations of softmax attention. This work describes a hardware-efficient algorithm for linear attention that trades off memory movement against parallelizability. The resulting implementation, dubbed FLASHLINEARATTENTION, is faster than FLASHATTENTION-2 (Dao, 2023) as a standalone layer even on short sequence lengths (e.g., 1K). We then generalize this algorithm to a more expressive variant of linear attention with data-dependent gates. When used as a replacement for the standard attention layer in Transformers, the resulting gated linear attention (GLA) Transformer is found to perform competitively against the LLaMA-architecture Transformer (Touvron et al., 2023) as well recent linear-time-inference baselines such as RetNet (Sun et al., 2023a) and Mamba (Gu & Dao, 2023) on moderate-scale language modeling experiments. GLA Transformer is especially effective at length generalization, enabling a model trained on 2K to generalize to sequences longer than 20K without significant perplexity degradations. For training speed, the GLA Transformer has higher throughput than a similarly-sized Mamba model. | 翻訳日:2024-08-28 19:58:52 公開日:2024-08-27 |
# 電力線絶縁体自動検査における異常検出モデルの改良
An Improved Anomaly Detection Model for Automated Inspection of Power Line Insulators ( http://arxiv.org/abs/2312.11470v2 ) ライセンス: Link先を確認 | Laya Das, Blazhe Gjorgiev, Giovanni Sansavini, | (参考訳) 電力系統の信頼性を確保するためには絶縁体の検査が重要である。
深層学習は、物体検出モデルを利用してドローンが捉えた空中画像を分析することで、検査プロセスを自動化するためにますます活用されている。
しかし、純粋にオブジェクト検出に基づくアプローチは、クラス不均衡によって引き起こされるパフォーマンスの低下に悩まされ、頻繁で検出が難しい初期障害に対してアクセントを付けることができる。
本稿では, 異常検出とオブジェクト検出の2段階的アプローチによるデータ効率のよい異常検出手法を提案する。
異常検出には説明可能な畳み込み一級分類器が用いられる。
1級の定式化により,故障した絶縁体画像への依存度が低くなり,その説明可能性も業界による採用を促進することが期待されている。
既存のモデルによる計算や解釈可能性の問題に対処し、他の損失を統合できる改良された損失関数が開発されている。
MVTec-ADデータセットを用いて、新規損失関数の優位性を実証した。
モデルは、教師なしおよび半教師なしの設定で、2つのデータセット -- データバウンダントとデータスカースシナリオを表す -- でインシュレータインスペクションのためにトレーニングされている。
その結果、トレーニングデータセットの5つの実際の異常を含むと、モデルの性能が大幅に向上し、絶縁体で稀に発生する異常を確実に検出できることが示唆された。
Inspection of insulators is important to ensure reliable operation of the power system. Deep learning is being increasingly exploited to automate the inspection process by leveraging object detection models to analyse aerial images captured by drones. A purely object detection-based approach, however, suffers from class imbalance-induced poor performance, which can be accentuated for infrequent and hard-to-detect incipient faults. This article proposes the use of anomaly detection along with object detection in a two-stage approach for incipient fault detection in a data-efficient manner. An explainable convolutional one-class classifier is adopted for anomaly detection. The one-class formulation reduces the reliance on plentifully available images of faulty insulators, while the explainability of the model is expected to promote adoption by the industry. A modified loss function is developed that addresses computational and interpretability issues with the existing model, also allowing for the integration of other losses. The superiority of the novel loss function is demonstrated with MVTec-AD dataset. The models are trained for insulator inspection with two datasets -- representing data-abundant and data-scarce scenarios -- in unsupervised and semi-supervised settings. The results suggest that including as few as five real anomalies in the training dataset significantly improves the model's performance and enables reliable detection of rarely occurring incipient faults in insulators. | 翻訳日:2024-08-28 19:58:52 公開日:2024-08-27 |
# 量子複雑度対古典複雑度:サーベイ
Quantum Complexity vs Classical Complexity: A Survey ( http://arxiv.org/abs/2312.14075v4 ) ライセンス: Link先を確認 | Arash Vaezi, Seyed Mohammad Hussein Kazemi, Negin Bagheri Noghrehy, Seyed Mohsen Kazemi, Ali Movaghar, Mohammad Ghodsi, | (参考訳) 科学者は、量子コンピューティングが計算課題に対処するための新しいアプローチを提示したことを実証している。
量子コンピューティングの潜在能力を最大限活用するためには、問題解決戦略の適応が不可欠である。
それでも、量子コンピューティングの能力には境界が定義されている。
本稿では,量子コンピューティングによる複雑な古典的計算問題を解くことを目的とした先行研究の集約に焦点をあてる。
目的は、これらのソリューションの網羅的な在庫を体系的にコンパイルし、さらなる探索を待つ必要のあるオープン問題の集合を分類し、さらに探索を待つ必要のあるオープン問題の集合を分類することである。
Scientists have demonstrated that quantum computing has presented novel approaches to address computational challenges, each varying in complexity. Adapting problem-solving strategies is crucial to harness the full potential of quantum computing. Nonetheless, there are defined boundaries to the capabilities of quantum computing. This paper concentrates on aggregating prior research efforts dedicated to solving intricate classical computational problems through quantum computing. The objective is to systematically compile an exhaustive inventory of these solutions and categorize a collection of demanding open problems that await further exploration.hese solutions and categorize a collection of demanding open problems that await further exploration. | 翻訳日:2024-08-28 19:58:52 公開日:2024-08-27 |
# 拡張潜在多視点サブスペースクラスタリング
Enhanced Latent Multi-view Subspace Clustering ( http://arxiv.org/abs/2312.14763v2 ) ライセンス: Link先を確認 | Long Shi, Lei Cao, Jun Wang, Badong Chen, | (参考訳) 潜在的マルチビューサブスペースクラスタリングは、望ましいクラスタリング性能を有することが示されている。
しかし、元の潜在表現法は、データ行列を複数のビューから次元方向に沿って1つの行列に垂直に結合し、潜在表現行列を復元し、不完全な情報回復をもたらす可能性がある。
本稿では,潜在空間表現を完全に回復するために,拡張潜在多視点サブスペースクラスタリング(ELMSC)法を提案する。
ELMSC法はマルチビューデータの表現を強化する拡張データ行列の構築を含む。
具体的には、様々なビューから得られたデータ行列を拡張行列のブロック対角位置に積み重ねて、補完的な情報を利用する。
一方、非ブロック対角的エントリは、異なるビュー間の類似性に基づいて構成され、一貫性のある情報をキャプチャする。
さらに,拡張自己表現行列の非対角ブロックに対するスパース正規化を適用し,一貫性情報の冗長な計算を回避する。
最後に,ALMM(Alternating Direction Method of Multipliers)の枠組みに基づく新しい反復アルゴリズムを開発し,EMMSCの最適化問題を解く。
実世界のデータセットに対する大規模な実験により,提案したELMSCは,最先端のマルチビュークラスタリング手法よりも高いクラスタリング性能を実現することができることが示された。
Latent multi-view subspace clustering has been demonstrated to have desirable clustering performance. However, the original latent representation method vertically concatenates the data matrices from multiple views into a single matrix along the direction of dimensionality to recover the latent representation matrix, which may result in an incomplete information recovery. To fully recover the latent space representation, we in this paper propose an Enhanced Latent Multi-view Subspace Clustering (ELMSC) method. The ELMSC method involves constructing an augmented data matrix that enhances the representation of multi-view data. Specifically, we stack the data matrices from various views into the block-diagonal locations of the augmented matrix to exploit the complementary information. Meanwhile, the non-block-diagonal entries are composed based on the similarity between different views to capture the consistent information. In addition, we enforce a sparse regularization for the non-diagonal blocks of the augmented self-representation matrix to avoid redundant calculations of consistency information. Finally, a novel iterative algorithm based on the framework of Alternating Direction Method of Multipliers (ADMM) is developed to solve the optimization problem for ELMSC. Extensive experiments on real-world datasets demonstrate that our proposed ELMSC is able to achieve higher clustering performance than some state-of-art multi-view clustering methods. | 翻訳日:2024-08-28 19:58:52 公開日:2024-08-27 |
# マルチレベル需要経路を考慮した多輪車経路問題に対する深部強化学習
Deep Reinforcement Learning for Multi-Truck Vehicle Routing Problems with Multi-Leg Demand Routes ( http://arxiv.org/abs/2401.08669v2 ) ライセンス: Link先を確認 | Joshua Levin, Randall Correll, Takanori Ide, Takafumi Suzuki, Takaho Saito, Alan Arai, | (参考訳) 深部強化学習(RL)は、特にエンコーダ・デコーダのアテンション機構によって生成されたポリシーを使用する場合、車両ルーティング問題(VRP)の近似解を生成するのに有効であることが示されている。
これらの手法は比較的単純な問題に対して非常に成功したが、まだ未研究で非常に複雑なVRP変種があり、有効なRL法は示されていない。
この作業では、複数のトラックとマルチレグルーティング要求を含む、そのようなVRPの亜種に焦点を当てます。
これらの問題では、開始ノードから終了ノードへだけではなく、ノードのシーケンスに沿って移動する必要がある。
産業規模のサプライチェーンロジスティクスの実現を目標として,既存のエンコーダ・デコーダのアテンションモデルの拡張を開発し,複数のトラックとマルチレグルーティング要求を処理できるようにした。
私たちのモデルには、少数のトラックやノードに対してトレーニングを行い、大きなサプライチェーンに組み込んで、多数のトラックやノードに対するソリューションを提供するという利点があります。
自動車部品メーカーのAisin Corporationの事業におけるサプライチェーン環境に対するアプローチを検証した結果,Aisinのこれまでのベストソリューションよりも優れたアルゴリズムが得られた。
Deep reinforcement learning (RL) has been shown to be effective in producing approximate solutions to some vehicle routing problems (VRPs), especially when using policies generated by encoder-decoder attention mechanisms. While these techniques have been quite successful for relatively simple problem instances, there are still under-researched and highly complex VRP variants for which no effective RL method has been demonstrated. In this work we focus on one such VRP variant, which contains multiple trucks and multi-leg routing requirements. In these problems, demand is required to move along sequences of nodes, instead of just from a start node to an end node. With the goal of making deep RL a viable strategy for real-world industrial-scale supply chain logistics, we develop new extensions to existing encoder-decoder attention models which allow them to handle multiple trucks and multi-leg routing requirements. Our models have the advantage that they can be trained for a small number of trucks and nodes, and then embedded into a large supply chain to yield solutions for larger numbers of trucks and nodes. We test our approach on a real supply chain environment arising in the operations of Japanese automotive parts manufacturer Aisin Corporation, and find that our algorithm outperforms Aisin's previous best solution. | 翻訳日:2024-08-28 19:58:52 公開日:2024-08-27 |
# PressProtect:ジャーナリストがオンラインハラスメントに直面してソーシャルメディアをナビゲートする
PressProtect: Helping Journalists Navigate Social Media in the Face of Online Harassment ( http://arxiv.org/abs/2401.11032v2 ) ライセンス: Link先を確認 | Catherine Han, Anne Li, Deepak Kumar, Zakir Durumeric, | (参考訳) ソーシャルメディアは、ジャーナリストが自分の仕事を広め、聴衆と関わり、情報源と結びつくための重要なツールとなっている。
残念なことに、ジャーナリストは、個人攻撃からドックス、身体的危害の脅威まで、ソーシャルメディアプラットフォームにおける重要なオンラインハラスメントを定期的に耐えている。
本稿では,常にデジタルハラスメントに直面しているジャーナリストに対して,ソーシャルメディアの活用方法を理解することを目的とする。
まず,アジア系アメリカ人や太平洋諸島のジャーナリストに対して,既存のプラットフォームツールやニュースルームのリソースが,ジャーナリストの適切な保護に不足している状況を理解するために,必要なインタビューを行う。
PressProtectは、ジャーナリストがTwitter/Xで読者とやりとりするときに、より大きなエージェンシーを提供するインターフェースです。
8人のジャーナリストによるユーザテストを通じて、PressProtectを評価し、参加者はハラスメントから効果的に保護されていると感じ、他の可視的で脆弱なグループに役立てることができることに気付きました。
我々は、オンラインハラスメントに直面しているジャーナリストのデフォルトを守りたいと願う、ソーシャルプラットフォームに対する私たちの発見と推奨に関する議論で締めくくります。
Social media has become a critical tool for journalists to disseminate their work, engage with their audience, and connect with sources. Unfortunately, journalists also regularly endure significant online harassment on social media platforms, ranging from personal attacks to doxxing to threats of physical harm. In this paper, we seek to understand how to make social media usable for journalists who face constant digital harassment. To begin, we conduct a set of need-finding interviews with Asian American and Pacific Islander journalists to understand where existing platform tools and newsroom resources fall short in adequately protecting journalists, especially those of marginalized identities. We map journalists' unmet needs to concrete design goals, which we use to build PressProtect, an interface that provides journalists greater agency when engaging with readers on Twitter/X. Through user testing with eight journalists, we evaluate PressProtect and find that participants felt it effectively protected them against harassment and could also generalize to serve other visible and vulnerable groups. We conclude with a discussion of our findings and recommendations for social platforms hoping to build defensive defaults for journalists facing online harassment. | 翻訳日:2024-08-28 19:58:52 公開日:2024-08-27 |
# ランク・パッケージ・アローブ:参加予算における投票方法
Rank, Pack, or Approve: Voting Methods in Participatory Budgeting ( http://arxiv.org/abs/2401.12423v4 ) ライセンス: Link先を確認 | Lodewijk Gelauff, Ashish Goel, | (参考訳) 参加型予算編成は、地方自治体による予算決定に住民を巻き込む一般的な方法である。
スタンフォード参加予算プラットフォーム(Stanford Participatory Budgeting Platform)は、150以上の予算プロセスで住民を巻き込むために使用されているオンラインプラットフォームである。
ここでは,K-approval,K- rank,knapsackプライマリ・バロットを用いて,これらのプロセスから匿名化された予算意見のデータセットを提示する。
有権者のサブセットには、同じプロセスで異なる勧誘方法によるペア投票が含まれる。
投票者、プロジェクト、設定はすべて、有権者が実際に関心を持っている実世界の決定に関係している。
予備投票のデータから、投票の複雑さ(選択するプロジェクト数、選択するプロジェクト数、投票の長さ)は有権者が費やした中央値の時間と相関するが、高い放棄率とは相関しないことがわかった。
投票方法が異なる投票方法を用いた投票ペアを用いて,選択したプロジェクトのコストに対する投票方法の効果を,従来よりも包括的に分析する。
ほとんどの選挙では、有権者はknapsackよりもK-approvalを使ったコストの高いプロジェクトを選択している。
この効果は、個々の投票者だけでなく、集計レベルでも起こり、投票方法の暗黙の制約と投票インターフェースの明示的な制約の両方に影響される。
最後に、knapsack 投票のための紙代替手段として K 級の elicitation の使用を検証する。
Participatory budgeting is a popular method to engage residents in budgeting decisions by local governments. The Stanford Participatory Budgeting platform is an online platform that has been used to engage residents in more than 150 budgeting processes. We present a data set with anonymized budget opinions from these processes with K-approval, K-ranking or knapsack primary ballots. For a subset of the voters, it includes paired votes with a different elicitation method in the same process. This presents a unique data set, as the voters, projects and setting are all related to real-world decisions that the voters have an actual interest in. With data from primary ballots we find that while ballot complexity (number of projects to choose from, number of projects to select and ballot length) is correlated with a higher median time spent by voters, it is not correlated with a higher abandonment rate. We use vote pairs with different voting methods to analyze the effect of voting methods on the cost of selected projects, more comprehensively than was previously possible. In most elections, voters selected significantly more expensive projects using K-approval than using knapsack, although we also find a small number of examples with a significant effect in the opposite direction. This effect happens at the aggregate level as well as for individual voters, and is influenced both by the implicit constraints of the voting method and the explicit constraints of the voting interface. Finally, we validate the use of K-ranking elicitation to offer a paper alternative for knapsack voting. | 翻訳日:2024-08-28 19:58:52 公開日:2024-08-27 |
# フラストレーションのあるランダムウォーク:ハイパーグラフ上のノード距離を高速に計算する方法
Frustrated Random Walks: A Fast Method to Compute Node Distances on Hypergraphs ( http://arxiv.org/abs/2401.13054v3 ) ライセンス: Link先を確認 | Enzhi Li, Scott Nickleach, Bilal Fadlallah, | (参考訳) ハイパーグラフ(英: hypergraph)は、実体間の属性共有を考えると自然に現れるグラフの一般化である。
グラフと比較すると、ハイパーグラフは明示的なコミュニティを含むという明確な利点があり、操作に便利である。
ハイパーグラフ研究におけるオープンな問題は、ハイパーグラフ上のノード距離を正確に効率的に計算する方法である。
ノード距離を推定することで,提案システムやターゲット広告などの分野において重要な応用分野である,ノードの近接する隣人を見つけることができる。
本稿では,ハイパーグラフノード距離を計算するために,ランダムウォークのヒット時間を用いて提案する。
簡単なランダムウォーク (SRW) は、非常に複雑な実世界のハイパーグラフ上のノード距離を正確に計算できないので、このタスクにフラストレーション付きランダムウォーク (FRW) を導入する動機がある。
さらに、DeepWalkに対して我々の手法をベンチマークし、後者が同等の結果が得られる一方で、FRWはターゲット数がかなり小さい場合において、計算上の優位性があることを示す。
このような場合、FRWはDeepWalkよりもはるかに短い時間で実行されることを示す。
最後に,本手法の時間的複雑さを解析し,大小のハイパーグラフの場合,その複雑さは概ね線形であり,DeepWalk法よりも優れていることを示す。
A hypergraph is a generalization of a graph that arises naturally when attribute-sharing among entities is considered. Compared to graphs, hypergraphs have the distinct advantage that they contain explicit communities and are more convenient to manipulate. An open problem in hypergraph research is how to accurately and efficiently calculate node distances on hypergraphs. Estimating node distances enables us to find a node's nearest neighbors, which has important applications in such areas as recommender system, targeted advertising, etc. In this paper, we propose using expected hitting times of random walks to compute hypergraph node distances. We note that simple random walks (SRW) cannot accurately compute node distances on highly complex real-world hypergraphs, which motivates us to introduce frustrated random walks (FRW) for this task. We further benchmark our method against DeepWalk, and show that while the latter can achieve comparable results, FRW has a distinct computational advantage in cases where the number of targets is fairly small. For such cases, we show that FRW runs in significantly shorter time than DeepWalk. Finally, we analyze the time complexity of our method, and show that for large and sparse hypergraphs, the complexity is approximately linear, rendering it superior to the DeepWalk alternative. | 翻訳日:2024-08-28 19:58:52 公開日:2024-08-27 |
# SelectLLM: LLMはアノテーションに重要な命令を選択できるか?
SelectLLM: Can LLMs Select Important Instructions to Annotate? ( http://arxiv.org/abs/2401.16553v7 ) ライセンス: Link先を確認 | Ritik Sachin Parkar, Jaehyung Kim, Jong Inn Park, Dongyeop Kang, | (参考訳) インストラクションチューニングは、大規模で多様なデータセットから恩恵を受けるが、そのようなデータセットを作成するには、人間のラベル付けのコストが高い。
大規模言語モデル(LLM)によって生成された合成データセットはこの問題を部分的に解決しているが、低品質のデータを含んでいることが多い。
効果的な解決策の1つは、特にラベルなしの命令やテキストを様々なソースから比較的容易に取得できることを考えると、ラベルなしの命令を選択的に注釈付けすることである。
しかし、特にLLMの文脈では、乱れのない命令をどうやって選択するかはよく研究されていない。
そこで本稿では,ラベルなし命令をより効果的に選択するための LLM の機能を活用した代替フレームワークである SelectLLM を紹介する。
具体的には、SelectLLMは2つの重要なステップで構成されている。コアセットベースのクラスタリングで、多様性を拡大するための非ラベリング命令と、各クラスタ内で最も有益な命令を識別するLLMの促進である。
我々は,AlpacaEval2およびMT-Bench上のSelectLLMを評価し,Alpagasusのような最先端手法よりも優れた性能を示す。
さらに、SelectLLMの性能と互換性をChatGPT、LLaMA-3.1-70B、Gemma-2-27bなど様々なLLMと比較する。
SelectLLMの適応性と堅牢性は、人間と合成データセットの両方で高いパフォーマンスを維持する能力によってさらに証明されている。
すべてのコードとデータが公開されている(https://github.com/minnesotanlp/select-llm)。
Instruction tuning benefits from large and diverse datasets; however, creating such datasets involves a high cost of human labeling. While synthetic datasets generated by large language models (LLMs) have partly solved this issue, they often contain low-quality data. One effective solution is selectively annotating unlabelled instructions, especially given the relative ease of acquiring unlabeled instructions or texts from various sources. However, how to select unlabelled instructions is not well-explored, especially in the context of LLMs. Therefore, we introduce SelectLLM, an alternative framework that leverages the capabilities of LLMs to select unlabeled instructions more effectively. Specifically, SelectLLM consists of two key steps: Coreset-based clustering of unlabelled instructions for enlarging diversity and prompting of LLM to identify the most beneficial instructions within each cluster. We evaluate SelectLLM on AlpacaEval2 and MT-Bench, demonstrating its ability to outperform state-of-the-art methods like Alpagasus. In addition, we compare the performance and compatibility of SelectLLM with various LLMs, such as ChatGPT, LLaMA-3.1-70B, and Gemma-2-27b. SelectLLM's adaptability and robustness are further evidenced by its ability to maintain high performance across both human and synthetic datasets. All code and data are publicly available (https://github.com/minnesotanlp/select-llm). | 翻訳日:2024-08-28 19:58:52 公開日:2024-08-27 |
# OWSM v3.1:E-Branchformerに基づくより良く高速なオープンウィスパースタイル音声モデル
OWSM v3.1: Better and Faster Open Whisper-Style Speech Models based on E-Branchformer ( http://arxiv.org/abs/2401.16658v3 ) ライセンス: Link先を確認 | Yifan Peng, Jinchuan Tian, William Chen, Siddhant Arora, Brian Yan, Yui Sudo, Muhammad Shakeel, Kwanghee Choi, Jiatong Shi, Xuankai Chang, Jee-weon Jung, Shinji Watanabe, | (参考訳) 最近の研究は、完全にオープンな基礎モデルの重要性を強調している。
Open Whisperスタイルの音声モデル(OWSM)は、公開データとオープンソースツールキットを使用してOpenAI Whisperを再現するための最初のステップである。
しかし、OWSM (v1 から v3) の以前のバージョンは依然として標準の Transformer をベースとしており、最先端の音声エンコーダアーキテクチャと比較して性能が劣る可能性がある。
この研究は、追加データなしでOWSMの性能と効率を改善することを目的としている。
OWSM v3.1 は100M から 1B のパラメータを含む一連の E-Branchformer ベースのモデルを示す。
OWSM v3.1は、ほとんどの評価ベンチマークにおいて、以前のOWSM v3よりも優れ、推論速度は25%向上した。
さらに、ゼロショット文脈バイアス音声認識におけるOWSM v3.1の創発的能力を明らかにする。
また、ライセンス制限の低いデータのサブセットでトレーニングされたモデルも提供します。
コード、事前トレーニングされたモデル、ログのトレーニングを公開します。
Recent studies have highlighted the importance of fully open foundation models. The Open Whisper-style Speech Model (OWSM) is an initial step towards reproducing OpenAI Whisper using public data and open-source toolkits. However, previous versions of OWSM (v1 to v3) are still based on standard Transformer, which might lead to inferior performance compared to state-of-the-art speech encoder architectures. This work aims to improve the performance and efficiency of OWSM without additional data. We present a series of E-Branchformer-based models named OWSM v3.1, ranging from 100M to 1B parameters. OWSM v3.1 outperforms its predecessor, OWSM v3, in most evaluation benchmarks, while showing an improved inference speed of up to 25%. We further reveal the emergent ability of OWSM v3.1 in zero-shot contextual biasing speech recognition. We also provide a model trained on a subset of data with low license restrictions. We will publicly release the code, pre-trained models, and training logs. | 翻訳日:2024-08-28 19:58:52 公開日:2024-08-27 |
# マルチモーダルで説明可能なAI駆動型チャットボット学習システムにおける信頼と倫理的考察:ルービックキューブを協調的に解く場合
Trust and ethical considerations in a multi-modal, explainable AI-driven chatbot tutoring system: The case of collaboratively solving Rubik's Cube ( http://arxiv.org/abs/2402.01760v2 ) ライセンス: Link先を確認 | Kausik Lakkaraju, Vedant Khandelwal, Biplav Srivastava, Forest Agostinelli, Hengtao Tang, Prathamjeet Singh, Dezhi Wu, Matt Irvin, Ashish Kundu, | (参考訳) 人工知能(AI)は、学生の学習パターンに関する膨大なデータから洞察を明らかにする力で、教育を変革する可能性がある。
しかし、AIに対する倫理的で信頼できる懸念は提起されているが、未解決である。
高校のAI教育における著名な倫理的問題は、データのプライバシー、情報漏洩、虐待的言語、公平性である。
本稿では,高校生がAIと協力してルービックキューブを解くための多モード協調プラットフォーム(ALLUREチャットボット)において,倫理的かつ信頼性の高い懸念に対処するために構築された技術コンポーネントについて述べる。
データプライバシでは、子どもや親、教師のインフォームドコンセントが、管理されるデータの中心にあることを確実にしたいと思っています。
子どもが関与しているため、テキスト、音声、視覚といった言語は、ユーザーとAIの両方から受け入れられる。
また、情報管理において、時間とともに改善を学習しながらも、あるグループから別のグループにユーザーに関する情報を漏らさないようにしたいと考えている。
Artificial intelligence (AI) has the potential to transform education with its power of uncovering insights from massive data about student learning patterns. However, ethical and trustworthy concerns of AI have been raised but are unsolved. Prominent ethical issues in high school AI education include data privacy, information leakage, abusive language, and fairness. This paper describes technological components that were built to address ethical and trustworthy concerns in a multi-modal collaborative platform (called ALLURE chatbot) for high school students to collaborate with AI to solve the Rubik's cube. In data privacy, we want to ensure that the informed consent of children, parents, and teachers, is at the center of any data that is managed. Since children are involved, language, whether textual, audio, or visual, is acceptable both from users and AI and the system can steer interaction away from dangerous situations. In information management, we also want to ensure that the system, while learning to improve over time, does not leak information about users from one group to another. | 翻訳日:2024-08-28 19:49:00 公開日:2024-08-27 |
# 関数型リンクニューラルネットワークによる非線形部分空間クラスタリング
Nonlinear subspace clustering by functional link neural networks ( http://arxiv.org/abs/2402.02051v2 ) ライセンス: Link先を確認 | Long Shi, Lei Cao, Zhongpu Chen, Badong Chen, Yu Zhao, | (参考訳) フィードフォワードニューラルネットワークに基づく非線形サブスペースクラスタリングは、いくつかの高度なサブスペースクラスタリングアルゴリズムよりも優れたクラスタリング精度を提供することを示した。
このアプローチは印象的な結果を示すが、有効性と計算コストのバランスが伴う。
本研究では,データサンプルを非線形領域に変換するために,関数型リンクニューラルネットワークを用いる。
その後、マッピングされたサンプルの上に構築された学習機構を用いて自己表現行列を取得する。
機能的リンクニューラルネットワークは単層ニューラルネットワークであるため,提案手法はクラスタリング性能を確保しつつ高い計算効率を実現する。
局所的類似性正規化を取り入れてグループ化効果を高めることにより,クラスタリング結果の品質をさらに向上する。
さらに,線形サブスペースクラスタリング法と関数型ニューラルネットワークサブスペースクラスタリング手法を組み合わせた凸結合サブスペースクラスタリング手法を提案する。
この組み合わせアプローチは線型表現と非線形表現の動的バランスを可能にする。
大規模な実験により,本手法の進歩が確認された。
ソースコードはhttps://lshi91.github.io/でリリースされる。
Nonlinear subspace clustering based on a feed-forward neural network has been demonstrated to provide better clustering accuracy than some advanced subspace clustering algorithms. While this approach demonstrates impressive outcomes, it involves a balance between effectiveness and computational cost. In this study, we employ a functional link neural network to transform data samples into a nonlinear domain. Subsequently, we acquire a self-representation matrix through a learning mechanism that builds upon the mapped samples. As the functional link neural network is a single-layer neural network, our proposed method achieves high computational efficiency while ensuring desirable clustering performance. By incorporating the local similarity regularization to enhance the grouping effect, our proposed method further improves the quality of the clustering results. Additionally, we introduce a convex combination subspace clustering scheme, which combining a linear subspace clustering method with the functional link neural network subspace clustering approach. This combination approach allows for a dynamic balance between linear and nonlinear representations. Extensive experiments confirm the advancement of our methods. The source code will be released on https://lshi91.github.io/ soon. | 翻訳日:2024-08-28 19:49:00 公開日:2024-08-27 |
# ANLS* -- 生成可能な大規模言語モデルのためのユニバーサルドキュメント処理メトリクス
ANLS* -- A Universal Document Processing Metric for Generative Large Language Models ( http://arxiv.org/abs/2402.03848v7 ) ライセンス: Link先を確認 | David Peer, Philemon Schöpf, Volckmar Nebendahl, Alexander Rietzler, Sebastian Stabinger, | (参考訳) 伝統的に、差別モデルが文書分類や情報抽出といったタスクの主要な選択肢となっている。
これらのモデルは、限定された定義済みのクラスに該当する予測を行い、バイナリ真または偽の評価を容易にし、F1スコアのようなメトリクスの直接計算を可能にする。
しかし、ジェネレーティブな大規模言語モデル(GLLM)の最近の進歩は、下流のデータセットや計算コストのかかる微調整の必要性をなくすため、ゼロショット能力の強化により、この分野のシフトを引き起こしている。
しかし、GLLM の評価は、識別モデルに使用される二項真偽の評価が GLLM の予測には適用できないため、課題となる。
本稿では,情報抽出や分類タスクを含む多種多様なタスクを評価するために,ANLS*と呼ばれる生成モデルのための新しい指標を提案する。
ANLS*メトリックは、既存のANLSメトリクスをドロップ・イン・リプレースとして拡張し、以前報告されたANLSスコアと互換性がある。
また,ANLS*メトリックを用いた3つの異なるプロンプト法とともに,7つの異なるデータセットと10以上の異なるGLLMの評価を行い,提案手法の重要性を実証した。
また、SFTと呼ばれる文書のプロンプトを生成する新しい手法を、LATINなどの他のプロンプト技術に対してベンチマークする。
ほぼすべてのケースにおいて、SFTは他の技術よりも優れ、最先端の技術を改善し、時には最大10ドルの割合で改善する。
ソースはhttps://github.com/deepopinion/anls_star_metricにある。
Traditionally, discriminative models have been the predominant choice for tasks like document classification and information extraction. These models make predictions that fall into a limited number of predefined classes, facilitating a binary true or false evaluation and enabling the direct calculation of metrics such as the F1 score. However, recent advancements in generative large language models (GLLMs) have prompted a shift in the field due to their enhanced zero-shot capabilities, which eliminate the need for a downstream dataset and computationally expensive fine-tuning. However, evaluating GLLMs presents a challenge as the binary true or false evaluation used for discriminative models is not applicable to the predictions made by GLLMs. This paper introduces a new metric for generative models called ANLS* for evaluating a wide variety of tasks, including information extraction and classification tasks. The ANLS* metric extends existing ANLS metrics as a drop-in-replacement and is still compatible with previously reported ANLS scores. An evaluation of 7 different datasets, and more than 10 different GLLMs together with 3 different prompting methods using the ANLS* metric is also provided, demonstrating the importance of the proposed metric. We also benchmark a novel approach to generate prompts for documents, called SFT, against other prompting techniques such as LATIN. In almost all cases, SFT outperforms other techniques and improves the state-of-the-art, sometimes by as much as $10$ percentage points. Sources are available at https://github.com/deepopinion/anls_star_metric | 翻訳日:2024-08-28 19:49:00 公開日:2024-08-27 |
# 人工呼吸器のクロスドメイン政策移行に関する総合的調査
A Comprehensive Survey of Cross-Domain Policy Transfer for Embodied Agents ( http://arxiv.org/abs/2402.04580v2 ) ライセンス: Link先を確認 | Haoyi Niu, Jianming Hu, Guyue Zhou, Xianyuan Zhan, | (参考訳) ロボット学習と具現化されたAIの急成長は、大量のデータに対する需要の高まりを引き起こしている。
しかし、コストのかかるデータ収集プロセスと厳格な安全要件のために、ターゲットドメインから十分なバイアスのないデータを集めることは、依然として課題である。
その結果、研究者はコスト効率の良いデータ取得と迅速なモデル反復のために、シミュレーションや実験室環境などの容易にアクセス可能なソースドメインからのデータを利用することが多い。
それでも、これらのソースドメインの環境と具体化は、対象のドメインとは大きく異なり、効果的なクロスドメインポリシー転送アプローチの必要性を強調できる。
本稿では,既存のドメイン間政策伝達手法の体系的レビューを行う。
ドメインギャップの微妙な分類を通じて、各問題設定の全体的洞察と設計上の考慮をカプセル化する。
また、ドメイン間政策伝達問題における鍵となる方法論について高レベルな議論を行う。
最後に、現在のパラダイムの能力を超えたオープンな課題を要約し、この分野の将来的な方向性について論じる。
The burgeoning fields of robot learning and embodied AI have triggered an increasing demand for large quantities of data. However, collecting sufficient unbiased data from the target domain remains a challenge due to costly data collection processes and stringent safety requirements. Consequently, researchers often resort to data from easily accessible source domains, such as simulation and laboratory environments, for cost-effective data acquisition and rapid model iteration. Nevertheless, the environments and embodiments of these source domains can be quite different from their target domain counterparts, underscoring the need for effective cross-domain policy transfer approaches. In this paper, we conduct a systematic review of existing cross-domain policy transfer methods. Through a nuanced categorization of domain gaps, we encapsulate the overarching insights and design considerations of each problem setting. We also provide a high-level discussion about the key methodologies used in cross-domain policy transfer problems. Lastly, we summarize the open challenges that lie beyond the capabilities of current paradigms and discuss potential future directions in this field. | 翻訳日:2024-08-28 19:49:00 公開日:2024-08-27 |
# 自然言語対話のための音声を用いた大規模言語モデルにおけるパラ言語学の統合
Integrating Paralinguistics in Speech-Empowered Large Language Models for Natural Conversation ( http://arxiv.org/abs/2402.05706v2 ) ライセンス: Link先を確認 | Heeseung Kim, Soonshin Seo, Kyeongseok Jeong, Ohsung Kwon, Soyoon Kim, Jungwhan Kim, Jaehong Lee, Eunwoo Song, Myungwoo Oh, Jung-Woo Ha, Sungroh Yoon, Kang Min Yoo, | (参考訳) 最近の研究は、音声を直接理解し合成する大規模言語モデル(LLM)の能力を拡大する有望な成果を示している。
しかし、LLMに基づく音声対話のモデル化戦略はいまだ解明されていないため、さらなる調査が求められている。
本稿では,与えられた入力音声に関連する自然な韻律的特徴を持つコヒーレント音声応答を,明示的な自動音声認識(ASR)やテキスト音声合成(TTS)システムに頼らずに生成することを目的とした,広範な音声テキストLLMフレームワークである統一音声対話モデル(USDM)を提案する。
意味情報を主成分とする音声トークンに韻律が組み込まれていることを検証するとともに,この基盤を用いて韻律を注入した音声テキストモデルを構築した。
さらに,クロスモーダルなセマンティクスの獲得を促進する汎用的な音声テキスト事前学習手法を提案する。
USDMを構築するために,マルチステップ音声対話テンプレートを用いて音声対話データ上で音声テキストモデルを微調整する。
DailyTalkデータセットにおける自動評価と人的評価は,本手法が従来およびそれ以前のベースラインを超越した自然な音声応答を効果的に生成することを示す。
コードとチェックポイントを公開します。
Recent work shows promising results in expanding the capabilities of large language models (LLM) to directly understand and synthesize speech. However, an LLM-based strategy for modeling spoken dialogs remains elusive, calling for further investigation. This paper introduces an extensive speech-text LLM framework, the Unified Spoken Dialog Model (USDM), designed to generate coherent spoken responses with naturally occurring prosodic features relevant to the given input speech without relying on explicit automatic speech recognition (ASR) or text-to-speech (TTS) systems. We have verified the inclusion of prosody in speech tokens that predominantly contain semantic information and have used this foundation to construct a prosody-infused speech-text model. Additionally, we propose a generalized speech-text pretraining scheme that enhances the capture of cross-modal semantics. To construct USDM, we fine-tune our speech-text model on spoken dialog data using a multi-step spoken dialog template that stimulates the chain-of-reasoning capabilities exhibited by the underlying LLM. Automatic and human evaluations on the DailyTalk dataset demonstrate that our approach effectively generates natural-sounding spoken responses, surpassing previous and cascaded baselines. We will make our code and checkpoints publicly available. | 翻訳日:2024-08-28 19:49:00 公開日:2024-08-27 |
# 導波管結合キャビティを用いた高効率高忠実光スイッチ
Efficient, High-Fidelity Single-Photon Switch Based on Waveguide-Coupled Cavities ( http://arxiv.org/abs/2402.05714v2 ) ライセンス: Link先を確認 | Mateusz Duda, Luke Brunswick, Luke R. Wilson, Pieter Kok, | (参考訳) 導波路内に伝播する光子に対する高効率で高忠実な量子スイッチとして, 2レベルエミッタを埋め込んだ導波路結合キャビティが作用できることを理論的に実証した。
スイッチは弱いエミッタ-キャビティ結合状態の光子を反射し、強い結合状態の光子を伝達する。
量子光学の入力出力形式と伝達行列アプローチを用いて透過スペクトルと反射スペクトルを計算することにより、両状態におけるスイッチの忠実度と効率を得る。
導波管を結合した単一共振器は、導波管幅が共振器モードの直線幅よりも小さい場合、入力光子ウェーブレットをほぼ均一な効率と忠実度でルーティングすることができる。
また、複数の導波管結合キャビティを用いることで、スイッチング帯域が増加し、より広い導波管を高効率かつ忠実にルーティングできることがわかった。
例えば、3つの導波管結合キャビティの配列は、効率E_r = 96.4%、忠実F_r = 97.7%、忠実F_t = 99.8%の半最大1nm(数ピコ秒パルスに対応する)の入力ガウス波束を反射するか、効率E_t = 99.7%、忠実F_t = 99.8%で送信することができる。
このような効率的で高忠実な単一光子ルーティングは、スケーラブルなフォトニック量子技術に不可欠である。
We demonstrate theoretically that waveguide-coupled cavities with embedded two-level emitters can act as a highly efficient, high-fidelity quantum switch for photons propagating in the waveguide. The switch reflects photons in the weak emitter-cavity coupling regime and transmits photons in the strong coupling regime. By calculating transmission and reflection spectra using the input-output formalism of quantum optics and the transfer matrix approach, we obtain the fidelity and efficiency of the switch in both regimes. We find that a single waveguide-coupled cavity can route input photon wavepackets with near-unity efficiency and fidelity if the wavepacket width is smaller than the cavity mode linewidth. We also find that using multiple waveguide-coupled cavities increases the switching bandwidth, allowing wider wavepackets to be routed with high efficiency and fidelity. For example, an array of three waveguide-coupled cavities can reflect an input Gaussian wavepacket with a full width at half-maximum of 1 nm (corresponding to a few-picosecond pulse) with an efficiency E_r = 96.4% and a fidelity F_r = 97.7%, or transmit the wavepacket with an efficiency E_t = 99.7% and a fidelity F_t = 99.8%. Such efficient, high-fidelity single-photon routing is essential for scalable photonic quantum technologies. | 翻訳日:2024-08-28 19:49:00 公開日:2024-08-27 |
# 変数から安定性へ:RecSysベンチマークの実践を促進する
From Variability to Stability: Advancing RecSys Benchmarking Practices ( http://arxiv.org/abs/2402.09766v2 ) ライセンス: Link先を確認 | Valeriy Shevchenko, Nikita Belousov, Alexey Vasilev, Vladimir Zholobov, Artyom Sosedka, Natalia Semenova, Anna Volodkevich, Andrey Savchenko, Alexey Zaytsev, | (参考訳) 急速に進化するRecommender Systems(RecSys)のドメインでは、任意の選択されたデータセットの限られたセットに対する評価に基づいて、新しいアルゴリズムはしばしば最先端のパフォーマンスを主張する。
しかし、アルゴリズムの性能にデータセット特性が大きな影響を与えるため、このアプローチは、その効果を総じて反映することができないかもしれない。
本稿では,RecSysアルゴリズムの公平かつ堅牢な比較を容易にするため,新しいベンチマーク手法を提案する。
この研究で導入された2つを含む30ドルのオープンデータセットの多種多様なセットを活用し、9ドルのメトリクスにわたる11ドルのコラボレーティブフィルタリングアルゴリズムを評価することで、データセット特性がアルゴリズムのパフォーマンスに与える影響を批判的に検証する。
さらに、複数のデータセットから統合されたランキングへの集約結果の実現可能性について検討する。
厳密な実験分析を通じて、データセットの変動性の下での方法論の信頼性を検証し、品質と計算要求のバランスをとるベンチマーク戦略を提供する。
この手法は、RecSysアルゴリズムを評価するための公平で効果的な手段を可能にし、将来の研究に有用なガイダンスを提供する。
In the rapidly evolving domain of Recommender Systems (RecSys), new algorithms frequently claim state-of-the-art performance based on evaluations over a limited set of arbitrarily selected datasets. However, this approach may fail to holistically reflect their effectiveness due to the significant impact of dataset characteristics on algorithm performance. Addressing this deficiency, this paper introduces a novel benchmarking methodology to facilitate a fair and robust comparison of RecSys algorithms, thereby advancing evaluation practices. By utilizing a diverse set of $30$ open datasets, including two introduced in this work, and evaluating $11$ collaborative filtering algorithms across $9$ metrics, we critically examine the influence of dataset characteristics on algorithm performance. We further investigate the feasibility of aggregating outcomes from multiple datasets into a unified ranking. Through rigorous experimental analysis, we validate the reliability of our methodology under the variability of datasets, offering a benchmarking strategy that balances quality and computational demands. This methodology enables a fair yet effective means of evaluating RecSys algorithms, providing valuable guidance for future research endeavors. | 翻訳日:2024-08-28 19:49:00 公開日:2024-08-27 |
# エンプティ・ジェイルブレイクのためのストロングREJECT
A StrongREJECT for Empty Jailbreaks ( http://arxiv.org/abs/2402.10260v2 ) ライセンス: Link先を確認 | Alexandra Souly, Qingyuan Lu, Dillon Bowen, Tu Trinh, Elvis Hsieh, Sana Pandey, Pieter Abbeel, Justin Svegliato, Scott Emmons, Olivia Watkins, Sam Toyer, | (参考訳) ほとんどのジェイルブレイク論文は、彼らが提案するジェイルブレイクは非常に効果的であり、しばしば攻撃の成功率のほぼ100%を誇っていると主張している。
しかし、Jailbreak開発者がジェイルブレイクの有効性を著しく誇張しないよりは、おそらくより一般的である。
私たちは、ジェイルブレイク研究者がジェイルブレイクのパフォーマンスを評価するための標準で高品質なベンチマークを欠いているため、この問題が生じることを示唆している。
ベンチマークを作成するには、研究者は、被害者モデルが反応するであろう禁止されたプロンプトのデータセットと、被害者モデルの応答の有害性を評価する評価方法を選択する必要がある。
既存のベンチマークは重大な欠点に悩まされており、これらの問題に対処するためにStrongREJECTベンチマークを導入している。
StrongREJECTのデータセットには、被害者のモデルが特定の有害な情報に答えなければならないというプロンプトが含まれている。
そうすることで、StrongREJECT評価者は、ジェイルブレイクの有効性の人間の判断と最先端の合意を達成できる。
特に,既存の評価手法は,人的判断やStrongREJECT評価器に比べて脱獄効果を著しく上回ることがわかった。
ジェイルブレイクは、被害者モデルの安全性を微調整することで、その能力を低下させる傾向がある。
今回の発見は、新たなジェイルブレイク攻撃の開発において、StrongREJECTのような高品質なベンチマークを使用する必要性を裏付けるものです。
StrongREJECTのコードとデータはhttps://strong-reject.readthedocs.io/en/latest/で公開しています。
Most jailbreak papers claim the jailbreaks they propose are highly effective, often boasting near-100% attack success rates. However, it is perhaps more common than not for jailbreak developers to substantially exaggerate the effectiveness of their jailbreaks. We suggest this problem arises because jailbreak researchers lack a standard, high-quality benchmark for evaluating jailbreak performance, leaving researchers to create their own. To create a benchmark, researchers must choose a dataset of forbidden prompts to which a victim model will respond, along with an evaluation method that scores the harmfulness of the victim model's responses. We show that existing benchmarks suffer from significant shortcomings and introduce the StrongREJECT benchmark to address these issues. StrongREJECT's dataset contains prompts that victim models must answer with specific, harmful information, while its automated evaluator measures the extent to which a response gives useful information to forbidden prompts. In doing so, the StrongREJECT evaluator achieves state-of-the-art agreement with human judgments of jailbreak effectiveness. Notably, we find that existing evaluation methods significantly overstate jailbreak effectiveness compared to human judgments and the StrongREJECT evaluator. We describe a surprising and novel phenomenon that explains this discrepancy: jailbreaks bypassing a victim model's safety fine-tuning tend to reduce its capabilities. Together, our findings underscore the need for researchers to use a high-quality benchmark, such as StrongREJECT, when developing new jailbreak attacks. We release the StrongREJECT code and data at https://strong-reject.readthedocs.io/en/latest/. | 翻訳日:2024-08-28 19:49:00 公開日:2024-08-27 |
# コヒーレントで効率的な1次元原子の実現
Realisation of a Coherent and Efficient One-Dimensional Atom ( http://arxiv.org/abs/2402.12568v2 ) ライセンス: Link先を確認 | Natasha Tomm, Nadia O. Antoniadis, Marcelo Janovitch, Matteo Brunelli, Rüdiger Schott, Sascha R. Valentin, Andreas D. Wieck, Arne Ludwig, Patrick Potts, Alisa Javadi, Richard J. Warburton, | (参考訳) 単一光学モードにおける光子と相互作用する量子エミッタは1次元原子を構成する。
コヒーレントで効率的に結合された1次元原子は大きな非線形性を提供し、フォトニック量子ゲートを可能にする。
高い結合効率($-factor)と低いデフォーカスを達成することは難しい。
ここでは、1次元原子の実装として、オープンマイクロキャビティ内の半導体量子ドットを用いる。
弱いレーザー入力により、送信における99.2\%$の消滅と、光子統計における$g^{(2)}(0) = 587$の混束を達成し、単一光子成分の反射とコヒーレント入力の多重光子成分の透過を示す。
マイクロキャビティのチューニング可能な性質により、$\beta$は調整でき、強い束縛から反膨らみまでの光子統計と送信された光子の位相を制御できる。
単一モードのJaynes-Cummingsモデルを超えることによって、実験と理論の間に優れた一致が得られる。
この結果は、エキゾチックなフォトニック状態と2光子相ゲートの創出への道を開くものである。
A quantum emitter interacting with photons in a single optical-mode constitutes a one-dimensional atom. A coherent and efficiently coupled one-dimensional atom provides a large nonlinearity, enabling photonic quantum gates. Achieving a high coupling efficiency ($\beta$-factor) and low dephasing is challenging. Here, we use a semiconductor quantum dot in an open microcavity as an implementation of a one-dimensional atom. With a weak laser input, we achieve an extinction of $99.2\%$ in transmission and a concomitant bunching in the photon statistics of $g^{(2)}(0) = 587$, showcasing the reflection of the single-photon component and the transmission of the multi-photon components of the coherent input. The tunable nature of the microcavity allows $\beta$ to be adjusted and gives control over the photon statistics -- from strong bunching to anti-bunching -- and the phase of the transmitted photons. We obtain excellent agreement between experiment and theory by going beyond the single-mode Jaynes-Cummings model. Our results pave the way towards the creation of exotic photonic states and two-photon phase gates. | 翻訳日:2024-08-28 19:49:00 公開日:2024-08-27 |
# OWSM-CTC: 音声認識・翻訳・言語識別のためのオープンエンコーダ専用音声基礎モデル
OWSM-CTC: An Open Encoder-Only Speech Foundation Model for Speech Recognition, Translation, and Language Identification ( http://arxiv.org/abs/2402.12654v3 ) ライセンス: Link先を確認 | Yifan Peng, Yui Sudo, Muhammad Shakeel, Shinji Watanabe, | (参考訳) 単一のモデルで複数のタスクを実行できる大規模音声モデルへの関心が高まっている。
このようなモデルは通常、エンコーダ・デコーダまたはデコーダ・オン・アーキテクチャを採用する。
しかし、自己回帰モデルは、非自己回帰モデルと比較して推論中に遅くなり、幻覚の危険性もある。
従来の研究では、特定のタスクに対して、小さなスケールで非自己回帰モデルの有望な結果が見られたが、様々な言語やタスクにおいて、音声からテキストへの生成にスケールできるかどうかは不明である。
The Open Whisper-style Speech Model (OWSM) project, we propose OWSM-CTC, a novel encoder-only speech foundation model based on Connectionist Temporal Classification (CTC)。
これは、多言語自動音声認識(ASR)、音声翻訳(ST)、言語識別(LID)のための180k時間の公開音声データに基づいて訓練される。
エンコーダデコーダOWSMと比較して、OWSM-CTCはASRとSTの24%の相対的改善を達成し、より堅牢で推論の3倍から4倍高速である。
OWSM-CTCは20倍のスピードアップで長めのASR結果も改善する。
音声基礎モデルにおけるオープンサイエンスを促進するために、コード、事前訓練されたモデル、およびログのトレーニングを公開します。
There has been an increasing interest in large speech models that can perform multiple tasks in a single model. Such models usually adopt an encoder-decoder or decoder-only architecture due to their popularity and good performance in many domains. However, autoregressive models can be slower during inference compared to non-autoregressive models and also have potential risks of hallucination. Though prior studies observed promising results of non-autoregressive models for certain tasks at small scales, it remains unclear if they can be scaled to speech-to-text generation in diverse languages and tasks. Inspired by the Open Whisper-style Speech Model (OWSM) project, we propose OWSM-CTC, a novel encoder-only speech foundation model based on Connectionist Temporal Classification (CTC). It is trained on 180k hours of public audio data for multilingual automatic speech recognition (ASR), speech translation (ST), and language identification (LID). Compared to encoder-decoder OWSM, our OWSM-CTC achieves competitive results on ASR and up to 24% relative improvement on ST, while it is more robust and 3 to 4 times faster for inference. OWSM-CTC also improves the long-form ASR result with 20x speed-up. We will publicly release our code, pre-trained model, and training logs to promote open science in speech foundation models. | 翻訳日:2024-08-28 19:49:00 公開日:2024-08-27 |
# 対称性インフォームド量子メトロジーの第一原理構築
First-principles construction of symmetry-informed quantum metrologies ( http://arxiv.org/abs/2402.16410v4 ) ライセンス: Link先を確認 | Jesús Rubio, | (参考訳) 量子とベイズ原理の組み合わせは、メトロジーにおいて最適性をもたらすが、関連する最適化方程式はしばしば解決が難しい。
この研究は、この問題を、位置パラメータに同型な量の測定戦略の新たなクラスで緩和し、閉形式最適化が認められることを示した。
得られたフレームワークはパラメータ範囲、事前情報、状態を認め、関連する推定器は有限標本に適用される。
一例として、相対重みの距離論は第一原理から定式化され、双曲的誤差を必要とすることが示されている。
このアプローチの最大の利点は、その単純化力である: 対称性が最大の無知不変な状態を残しているかを特定するための良い戦略の探索を減らすことである。
これにより量子力学の基本的な物理学への応用が促進され、そこでは対称性が重要な役割を果たす。
Combining quantum and Bayesian principles leads to optimality in metrology, but the optimisation equations involved are often hard to solve. This work mitigates this problem with a novel class of measurement strategies for quantities isomorphic to location parameters, which are shown to admit a closed-form optimisation. The resulting framework admits any parameter range, prior information, or state, and the associated estimators apply to finite samples. As an example, the metrology of relative weights is formulated from first principles and shown to require hyperbolic errors. The primary advantage of this approach lies in its simplifying power: it reduces the search for good strategies to identifying which symmetry leaves a state of maximum ignorance invariant. This will facilitate the application of quantum metrology to fundamental physics, where symmetries play a key role. | 翻訳日:2024-08-28 19:39:16 公開日:2024-08-27 |
# 位置検証のための自然関数に対する線形ゲート境界
Linear gate bounds against natural functions for position-verification ( http://arxiv.org/abs/2402.18648v2 ) ライセンス: Link先を確認 | Vahid Asadi, Richard Cleve, Eric Culf, Alex May, | (参考訳) 量子位置検証スキームは、証明者の空間的位置を検証しようとする。
証明者は量子および古典的な入力で挑戦され、適切なタイミングで応答しなければならない。
我々は、$f$-routing(英語版)と$f$-BB84(英語版)として知られる2つのよく研究された位置検証スキームを考える。
どちらのスキームも、古典関数 $f$ の長さ $n$ の入力を局所的に計算し、$O(1)$ サイズの量子システムを操作することを要求する。
共有絡み付き同時メッセージパッシングモデルにおいて、f$の通信複雑性により、量子ゲートの個数と、関数を実装するのに必要となる単一量子ビットの測定値が線形に低くなることを証明した。
内部積関数として$f(x,y)=\sum_i x_i y_i$ とすると、量子ゲート上の下界に$\Omega(n)$ が与えられる。
このスキームは、線形古典的資源と$O(1)$量子資源を持つ証明者に対して実現可能であり、サブ線形量子資源に対して安全である。
A quantum position-verification scheme attempts to verify the spatial location of a prover. The prover is issued a challenge with quantum and classical inputs and must respond with appropriate timings. We consider two well-studied position-verification schemes known as $f$-routing and $f$-BB84. Both schemes require an honest prover to locally compute a classical function $f$ of inputs of length $n$, and manipulate $O(1)$ size quantum systems. We prove the number of quantum gates plus single qubit measurements needed to implement a function $f$ is lower bounded linearly by the communication complexity of $f$ in the simultaneous message passing model with shared entanglement. Taking $f(x,y)=\sum_i x_i y_i$ to be the inner product function, we obtain a $\Omega(n)$ lower bound on quantum gates plus single qubit measurements. The scheme is feasible for a prover with linear classical resources and $O(1)$ quantum resources, and secure against sub-linear quantum resources. | 翻訳日:2024-08-28 19:39:16 公開日:2024-08-27 |
# デュアルユニタリ量子カオスの構造安定性仮説
Structural Stability Hypothesis of Dual Unitary Quantum Chaos ( http://arxiv.org/abs/2402.19096v2 ) ライセンス: Link先を確認 | Jonathon Riddell, Curt von Keyserlingk, Tomaž Prosen, Bruno Bertini, | (参考訳) 十分なエネルギースケールの小さなスペクトル相関をランダム行列理論によって記述することは、量子カオス系の最も一般的な特徴と見なされる。
この性質は一般的な多体系に対して解析的に証明することは極めて困難であるが、空間と時間の交換時に一元的に残る局所量子回路の特別なクラスである二重ユニタリ回路に対して厳密な証明が達成されている。
ここでは、この性質の運命を、2点相関のフーリエ変換(Fourier transform of the two-unitary to generic quantum circuits focuss on the \emph{spectral form factor})を考える。
従来の研究と一致して、双対ユニタリ物理学が安定であり、スペクトル相関が依然としてランダム行列理論によって記述されるようなパラメータ空間に有限領域が存在することを示唆する数値的な調査から始める。
摂動理論で生じる条件が比較的単純な仮定に従えば、ランダム行列理論の予測を復元する。
次に、これらの仮定を支持する数値的な証拠とヒューリスティックな分析的議論を提供する。
Having spectral correlations that, over small enough energy scales, are described by random matrix theory is regarded as the most general defining feature of quantum chaotic systems as it applies in the many-body setting and away from any semiclassical limit. Although this property is extremely difficult to prove analytically for generic many-body systems, a rigorous proof has been achieved for dual-unitary circuits -- a special class of local quantum circuits that remain unitary upon swapping space and time. Here we consider the fate of this property when moving from dual-unitary to generic quantum circuits focussing on the \emph{spectral form factor}, i.e., the Fourier transform of the two-point correlation. We begin with a numerical survey that, in agreement with previous studies, suggests that there exists a finite region in parameter space where dual-unitary physics is stable and spectral correlations are still described by random matrix theory, although up to a maximal quasienergy scale. To explain these findings, we develop a perturbative expansion: it recovers the random matrix theory predictions, provided the terms occurring in perturbation theory obey a relatively simple set of assumptions. We then provide numerical evidence and a heuristic analytical argument supporting these assumptions. | 翻訳日:2024-08-28 19:39:16 公開日:2024-08-27 |
# 構造化深層ニューラルネットワークによるラグランジアン系のバックステッピング軌道追従制御
Structured Deep Neural Networks-Based Backstepping Trajectory Tracking Control for Lagrangian Systems ( http://arxiv.org/abs/2403.00381v2 ) ライセンス: Link先を確認 | Jiajun Qian, Liang Xu, Xiaoqiang Ren, Xiaofan Wang, | (参考訳) 深層ニューラルネットワーク(DNN)は、優れた近似能力のため、コントローラの学習にますます利用されている。
しかしながら、ブラックボックスの性質は閉ループ安定性保証と性能解析に重大な課題をもたらす。
本稿では,ラグランジアンシステムの軌跡追従制御のための構造的DNN制御手法を提案する。
ニューラルネットワーク構造を適切に設計することにより、ニューラルネットワークパラメータのクローズループ安定性を確保することができる。
さらに、ニューラルネットワークパラメータをより最適化することで、制御性能を向上させることができる。
また,制御パラメータを適切に選択することで,所望のトラッキング性能を実現することができる。
さらに,システムモデルが不明な場合,システムダイナミクスを学習し,コントローラの設計を行うために,改良されたラグランジアンニューラルネットワーク(LNN)構造を提案する。
モデル近似誤差や外乱の存在下では、閉ループ安定性と追従制御性能が保証されることが示されている。
提案手法の有効性をシミュレーションにより示す。
Deep neural networks (DNN) are increasingly being used to learn controllers due to their excellent approximation capabilities. However, their black-box nature poses significant challenges to closed-loop stability guarantees and performance analysis. In this paper, we introduce a structured DNN-based controller for the trajectory tracking control of Lagrangian systems using backing techniques. By properly designing neural network structures, the proposed controller can ensure closed-loop stability for any compatible neural network parameters. In addition, improved control performance can be achieved by further optimizing neural network parameters. Besides, we provide explicit upper bounds on tracking errors in terms of controller parameters, which allows us to achieve the desired tracking performance by properly selecting the controller parameters. Furthermore, when system models are unknown, we propose an improved Lagrangian neural network (LNN) structure to learn the system dynamics and design the controller. We show that in the presence of model approximation errors and external disturbances, the closed-loop stability and tracking control performance can still be guaranteed. The effectiveness of the proposed approach is demonstrated through simulations. | 翻訳日:2024-08-28 19:39:16 公開日:2024-08-27 |
# AdS$_3$アインシュタイン重力における量子2Dリウヴィル経路内接は測地線の和である
Quantum 2D Liouville Path-Integral Is a Sum over Geometries in AdS$_3$ Einstein Gravity ( http://arxiv.org/abs/2403.03179v2 ) ライセンス: Link先を確認 | Lin Chen, Ling-Yan Hung, Yikun Jiang, Bing-Xin Lao, | (参考訳) モジュラーブートストラップの有名な解があり、UV完全量子リウヴィル理論を定義する。
我々は、任意の2次元曲面 $\mathcal{M}$ 上のこのリウヴィル CFT の経路積分を、この特別な CFT に対して縮小可能な境界条件を提案した。
これは本質的には、非自明な境界条件を持つ$\mathcal{U}_q(SL(2,\mathbb{R}))$の量子6j記号で構築された3Dトポロジカル理論の状態和を解釈するテンソルネットワークであり、アインシュタイン・ヒルベルト作用によって重み付けられた3Dジオメトリの和を、大きな$c$でリードオーダーに還元する。
量子リウヴィル理論の境界条件は、CFT経路積分を忠実に再現するためのバルク幾何学上の非常に特別な和を規定する。
三角測量は6jシンボルで満たされた五角形アイデンティティと直交条件を利用して変更可能なAdSバルク内の測地線のネットワークを生成し、正確なホログラフィックテンソルネットワークに配置するのと一致する。
There is a renowned solution of the modular bootstrap that defines the UV complete quantum Liouville theory. We triangulate the path-integral of this Liouville CFT on any 2D surface $\mathcal{M}$, by proposing a shrinkable boundary condition for this special CFT that allows small holes to close, analogous to the proposal in rational CFTs [1-3]. This is essentially a tensor network that admits an interpretation of a state-sum of a 3D topological theory constructed with quantum 6j symbols of $\mathcal{U}_q(SL(2,\mathbb{R}))$ with non-trivial boundary conditions, and it reduces to a sum over 3D geometries weighted by the Einstein-Hilbert action to leading order in large $c$. The boundary conditions of quantum Liouville theory specifies a very special sum over bulk geometries to faithfully reproduce the CFT path-integral. The triangulation coincides with producing a network of geodesics in the AdS bulk, which can be changed making use of the pentagon identity and orthogonality condition satisfied by the 6j symbols, and arranged into a precise holographic tensor network. | 翻訳日:2024-08-28 19:39:16 公開日:2024-08-27 |
# DIVERSE: データプログラミングモデルによるYouTubeビデオコメントスタンスのデータセット
DIVERSE: A Dataset of YouTube Video Comment Stances with a Data Programming Model ( http://arxiv.org/abs/2403.03334v2 ) ライセンス: Link先を確認 | Iain J. Cruickshank, Amir Soofi, Lynnette Hui Xian Ng, | (参考訳) ソーシャルメディアテキストのスタンス検出は、マーケティングキャンペーンの評価、政治政策や候補者の評価、情報環境の評価など、多くの現実世界のアプリケーションにおいて重要な要素である。
しかし、自動的なスタンスラベリングシステムを作成するには、面倒でリソース集約的なスタンスを手動でアノテーションする必要がある。
本稿では,文のトーンの弱い信号を利用したスタンスラベリング手法を導入し,最後のスタンスラベリングのためのデータプログラミングモデルと統合する。
国際紛争のとき、国家軍に対する世論の理解は徴兵に不可欠である。
米軍のYouTubeビデオに対するスタンスを含むデータセットであるDIVERSEを紹介します(Datasetはhttps://doi.org/10.5281/zenodo.10493803)。
平均すると、ビデオには200のコメントがあり、そのスタンスは米軍とビデオの両方の「アゲインスト」の特徴にわずかに向けられている。
Stance detection of social media text is a key component of many real-world applications like evaluating marketing campaigns, evaluating political policies or candidates, or evaluating information environments. However, creating automatic stance labeling systems requires the manual annotation of stances, which is both tedious and resource-intensive. This paper introduces a stance labeling method that makes use of weak signals of sentence tone, then consolidating these signals with a Data Programmingmodel for the final stance label. In a time of international conflict, understanding the public opinion towards the country's military is crucial for recruitment. We present DIVERSE, a dataset involve stances towards YouTube videos of the US military (Dataset available at https://doi.org/10.5281/zenodo.10493803). On average, the videos have 200 comments each, and the stances skew slightly towards the "against" characterization for both the US army and the video. | 翻訳日:2024-08-28 19:39:16 公開日:2024-08-27 |
# 複数言語モデルによる協調的復号化の学習
Learning to Decode Collaboratively with Multiple Language Models ( http://arxiv.org/abs/2403.03870v2 ) ライセンス: Link先を確認 | Shannon Zejiang Shen, Hunter Lang, Bailin Wang, Yoon Kim, David Sontag, | (参考訳) 本稿では,複数の大規模言語モデル (LLM) に,トークンレベルで世代間をインターリーブすることで協調する手法を提案する。
LLMが次のトークンを潜在変数として生成する決定をモデル化する。
潜在変数モデルの下でのトレーニングセットの限界確率を最適化することにより、ベースLLMは、いつ生成するか、いつ‘assistant’言語モデルの1つを呼び出すのかを、直接の監督なしに自動的に学習する。
復号化中のトークンレベルのコラボレーションは、各モデルの専門知識を、手元にある特定のタスクに合わせて統合することを可能にする。
我々のコラボレーティブデコーディングは、ジェネリストベースLLMがドメインエキスパートモデルを呼び出すことを学習するクロスドメイン設定で特に有用である。
命令追従、ドメイン固有のQA、推論タスクにおいて、関節システムの性能が個々のモデルよりも優れていることを示す。
学習した潜伏決定の質的分析を通じて,本手法で訓練したモデルに,テンプレート充足などの興味深い協調パターンがいくつか示された。
私たちのコードはhttps://github.com/clinicalml/co-llm.comで利用可能です。
We propose a method to teach multiple large language models (LLM) to collaborate by interleaving their generations at the token level. We model the decision of which LLM generates the next token as a latent variable. By optimizing the marginal likelihood of a training set under our latent variable model, the base LLM automatically learns when to generate itself and when to call on one of the ``assistant'' language models to generate, all without direct supervision. Token-level collaboration during decoding allows for a fusion of each model's expertise in a manner tailored to the specific task at hand. Our collaborative decoding is especially useful in cross-domain settings where a generalist base LLM learns to invoke domain expert models. On instruction-following, domain-specific QA, and reasoning tasks, we show that the performance of the joint system exceeds that of the individual models. Through qualitative analysis of the learned latent decisions, we show models trained with our method exhibit several interesting collaboration patterns, e.g., template-filling. Our code is available at https://github.com/clinicalml/co-llm. | 翻訳日:2024-08-28 19:39:16 公開日:2024-08-27 |
# 熱操作における触媒変換
Catalytic transformations for thermal operations ( http://arxiv.org/abs/2403.04845v2 ) ライセンス: Link先を確認 | Jakub Czartowski, A. de Oliveira Junior, | (参考訳) 量子系間の熱力学的変換を支援する触媒の基本的な限界と利点は何ですか。
本研究は, システム, 触媒, 熱環境間の最も一般的なエネルギー保存相互作用の下でのエネルギー不整合状態間の変換に着目し, この問題に答えるものである。
唯一の制約は、触媒は他のサブシステムと非飽和で非相関な状態に戻さなければならないことである。
より正確には、与えられた初期状態が熱力学的に(触媒可能な未来)に進化できる状態の集合や、より厳密な触媒の助けを借りて(触媒可能な過去)進化できる状態の集合を最初に上界とする。
第2に、触媒の温度過程における存在に必要な寸法の低い境界と触媒の状態形成に関する境界を導出する。
最後に,触媒可能な未来の体積の観点から触媒の利点を定量化し,熱資源を用いた量子系の絡み合いと冷却の模範的タスクにおいてその有用性を実証する。
What are the fundamental limits and advantages of using a catalyst to aid thermodynamic transformations between quantum systems? In this work, we answer this question by focusing on transformations between energy-incoherent states under the most general energy-conserving interactions among the system, the catalyst, and a thermal environment. The sole constraint is that the catalyst must return unperturbed and uncorrelated with the other subsystems. More precisely, we first upper bound the set of states to which a given initial state can thermodynamically evolve (the catalysable future) or from which it can evolve (the catalysable past) with the help of a strict catalyst. Secondly, we derive lower bounds on the dimensionality required for the existence of catalysts under thermal process, along with bounds on the catalyst's state preparation. Finally, we quantify the catalytic advantage in terms of the volume of the catalysable future and demonstrate its utility in an exemplary task of generating entanglement and cooling a quantum system using thermal resources. | 翻訳日:2024-08-28 19:39:16 公開日:2024-08-27 |
# ロボット運動学習のためのリーマンフローマッチングポリシー
Riemannian Flow Matching Policy for Robot Motion Learning ( http://arxiv.org/abs/2403.10672v2 ) ライセンス: Link先を確認 | Max Braun, Noémie Jaquier, Leonel Rozo, Tamim Asfour, | (参考訳) 本稿では,ロボットビジュモータポリシの学習と合成のための新しいモデルであるRiemannian Flow Matching Policies (RFMP)を紹介する。
RFMPはフローマッチング手法の効率的なトレーニングと推論機能を利用する。
RFMPは、ロボットタスクでよく見られる高次元マルチモーダル分布をエンコードする能力と、非常にシンプルで高速な推論プロセスという、フローマッチングの強みを継承する。
状態ベースロボットと視覚条件ロボットの動作ポリシーに対するRFMPの適用性を示す。
特に、ロボットの状態がリーマン多様体上に存在するため、RFMPは本質的に幾何学的認識を取り入れており、これは現実的なロボット作業に不可欠である。
RFMPを評価するために,2つの概念実証実験を行い,その性能を拡散法と比較した。
その結果,RFMPはよりスムーズな動作トラジェクトリを提供し,推論時間を大幅に短縮できることがわかった。
We introduce Riemannian Flow Matching Policies (RFMP), a novel model for learning and synthesizing robot visuomotor policies. RFMP leverages the efficient training and inference capabilities of flow matching methods. By design, RFMP inherits the strengths of flow matching: the ability to encode high-dimensional multimodal distributions, commonly encountered in robotic tasks, and a very simple and fast inference process. We demonstrate the applicability of RFMP to both state-based and vision-conditioned robot motion policies. Notably, as the robot state resides on a Riemannian manifold, RFMP inherently incorporates geometric awareness, which is crucial for realistic robotic tasks. To evaluate RFMP, we conduct two proof-of-concept experiments, comparing its performance against Diffusion Policies. Although both approaches successfully learn the considered tasks, our results show that RFMP provides smoother action trajectories with significantly lower inference times. | 翻訳日:2024-08-28 19:39:16 公開日:2024-08-27 |
# 集積フォトニクスを用いた3ユーザ量子ネットワーク上での実験量子ビザンチン合意
Experimental Quantum Byzantine Agreement on a Three-User Quantum Network with Integrated Photonics ( http://arxiv.org/abs/2403.11441v2 ) ライセンス: Link先を確認 | Xu Jing, Cheng Qian, Chen-Xun Weng, Bing-Hong Li, Zhe Chen, Chen-Quan Wang, Jie Tang, Xiao-Wen Gu, Yue-Chan Kong, Tang-Sheng Chen, Hua-Lei Yin, Dong Jiang, Bin Niu, Liang-Liang Lu, | (参考訳) 量子通信ネットワークは、セキュアな通信と暗号化されたネットワークタスクの両方に不可欠である。
量子通信ネットワークをスケーラブルで費用効率のよい方法で構築することは、その普及に不可欠であり、その中では、安定かつ小型化された高品質な量子光源が鍵となる。
ここでは、信頼できないサービスプロバイダが管理するブラッグ反射導波路量子源と、エンドユーザーには1つの単一光子検出器しか必要としない合理化偏光解析モジュールを備えた完全偏光絡み型完全接続ネットワークを確立する。
我々は、連続的に動作する量子絡み合い分布を実行し、ユーザ間で相関ビット列を作成する。
一時期の普遍的ハッシュの枠組みの中で、私的増幅の必要性を回避する不完全な鍵を用いて、ソース非依存の量子デジタルシグネチャを初めて実験的に実装する。
さらに重要なことは、ビザンチン協定における1/3のフォールトトレランスを破り、高度な技術に頼らずに無条件のセキュリティを達成したことです。
我々の結果は、新興量子ネットワークの状況におけるコンセンサス問題に対処するための、安価で実用的な方法を提供する。
Quantum communication networks are crucial for both secure communication and cryptographic networked tasks. Building quantum communication networks in a scalable and cost-effective way is essential for their widespread adoption, among which a stable and miniaturized high-quality quantum light source is a key component. Here, we establish a complete polarization entanglement-based fully connected network, which features an ultrabright integrated Bragg reflection waveguide quantum source, managed by an untrusted service provider, and a streamlined polarization analysis module, which requires only one single-photon detector for each end user. We perform a continuously working quantum entanglement distribution and create correlated bit strings between users. Within the framework of one-time universal hashing, we provide the first experimental implementation of source-independent quantum digital signatures using imperfect keys circumventing the necessity for private amplification. More importantly, we further beat the 1/3 fault-tolerance bound in Byzantine agreement, achieving unconditional security without relying on sophisticated techniques. Our results offer an affordable and practical route for addressing consensus challenges within the emerging quantum network landscape. | 翻訳日:2024-08-28 19:39:16 公開日:2024-08-27 |
# メディアミックスモデリングのパッケージング - Robyn氏のオープンソースアプローチ入門
Packaging Up Media Mix Modeling: An Introduction to Robyn's Open-Source Approach ( http://arxiv.org/abs/2403.14674v2 ) ライセンス: Link先を確認 | Julian Runge, Igor Skokan, Gufeng Zhou, | (参考訳) プライバシーに焦点を絞った変更がデジタル広告のランドスケープを形作るにつれ、決定論的帰属と広告関連ユーザーの行動測定はますます制約されている。
これに対し、メディアやマーケティングミックスモデリング(m/MMM)といった従来の確率的計測技術の使用は、特にデジタルファーストの広告主の間で復活している。
しかし、中小企業はしばしば高度なプロプライエタリなモデリングシステムを実装するためのリソースを欠いている。
このギャップに対処するため、Metaのマーケティングデータサイエンティストは、デジタル広告測定におけるm/MMMの採用を促進するために設計されたオープンソースの計算パッケージRobinnを開発した。
本稿では、Robinn氏を支えている計算コンポーネントと設計の選択について、組織的受容を促進し、共通のバイアスを軽減するために、どのようにm/MMMをパッケージ化するかを強調します。
広く採用され、積極的にメンテナンスされているオープンソースツールとして、Robinnは継続的な進化を続けている。
したがって、ここで述べられている解決策は決定的あるいは決定的なものではなく、ロビン共同体が導入した経路の概要と見なすべきである。
この記事では、これらの進化するプラクティスに関する構造化された紹介を提供することを目標とし、フィードバックと対話を奨励し、Robinn氏の開発がより広範なデータサイエンスコミュニティのニーズに合致することを保証します。
As privacy-centric changes reshape the digital advertising landscape, deterministic attribution and measurement of advertising-related user behavior is increasingly constrained. In response, there has been a resurgence in the use of traditional probabilistic measurement techniques, such as media and marketing mix modeling (m/MMM), particularly among digital-first advertisers. However, small and midsize businesses often lack the resources to implement advanced proprietary modeling systems, which require specialized expertise and significant team investments. To address this gap, marketing data scientists at Meta have developed the open-source computational package Robyn, designed to facilitate the adoption of m/MMM for digital advertising measurement. This article explores the computational components and design choices that underpin Robyn, emphasizing how it "packages up" m/MMM to promote organizational acceptance and mitigate common biases. As a widely adopted and actively maintained open-source tool, Robyn is continually evolving. Consequently, the solutions described here should not be seen as definitive or conclusive but as an outline of the pathways that the Robyn community has embarked on. This article aims to provide a structured introduction to these evolving practices, encouraging feedback and dialogue to ensure that Robyn's development aligns with the needs of the broader data science community. | 翻訳日:2024-08-28 19:39:16 公開日:2024-08-27 |
# 統合的経路安定性選択
Integrated path stability selection ( http://arxiv.org/abs/2403.15877v2 ) ライセンス: Link先を確認 | Omar Melikechi, Jeffrey W. Miller, | (参考訳) 安定性の選択は、特徴選択アルゴリズムを改善する一般的な方法である。
その重要な属性の1つは、期待される偽陽性数 E(FP) に関する理論上界を提供し、実際は偽陽性の制御を可能にすることである。
しかし、安定性の選択は、しばしば非常に少数の特徴を選択し、結果として感度が低下する。
これは、E(FP) 上の既存の境界は比較的ゆるいため、安定性の選択は偽陽性の数を過大評価する。
本稿では,安定性を最大化するのではなく,安定経路の統合に基づく新しい安定性選択手法を提案する。
これにより、以前の境界よりも桁違いに強いE(FP)上の上界が得られ、実際には同じ対象 E(FP) に対してかなり真の正となる。
さらに,本手法では,元の安定性選択アルゴリズムと同じ量の計算を行ない,対象のE(FP)かターゲットの偽発見率のどちらかである1つのユーザ特定パラメータしか必要としない。
本手法は前立腺癌および大腸癌研究のシミュレーションと実データを用いて実証する。
Stability selection is a popular method for improving feature selection algorithms. One of its key attributes is that it provides theoretical upper bounds on the expected number of false positives, E(FP), enabling control of false positives in practice. However, stability selection often selects very few features, resulting in low sensitivity. This is because existing bounds on E(FP) are relatively loose, causing stability selection to overestimate the number of false positives. In this paper, we introduce a novel approach to stability selection based on integrating stability paths rather than maximizing over them. This yields upper bounds on E(FP) that are orders of magnitude stronger than previous bounds, leading to significantly more true positives in practice for the same target E(FP). Furthermore, our method takes the same amount of computation as the original stability selection algorithm, and only requires one user-specified parameter, which can be either the target E(FP) or target false discovery rate. We demonstrate the method on simulations and real data from prostate and colon cancer studies. | 翻訳日:2024-08-28 19:29:21 公開日:2024-08-27 |
# CNN変換器を用いた単パルス電気刺激応答からの静電オンセットゾーンの定位
Localising the Seizure Onset Zone from Single-Pulse Electrical Stimulation Responses with a CNN Transformer ( http://arxiv.org/abs/2403.20324v3 ) ライセンス: Link先を確認 | Jamie Norris, Aswin Chari, Dorien van Blooijs, Gerald Cooray, Karl Friston, Martin Tisdall, Richard Rosch, | (参考訳) てんかんは最も一般的な神経疾患の1つで、薬が発作を制御できない場合に外科的治療を必要とすることが多い。
効果的な外科的結果を得るためには、てんかん原性焦点の正確な局所化は、しばしばセイズーレ・オンセット・ゾーン(SOZ)を通して近似されるが、依然として重要な課題である。
電気刺激による能動的プローブは、すでにてんかん原性領域を特定するための標準的な臨床実践である。
本研究は,Single-Pulse Electro Stimulation (SPES) 応答を用いたSOZローカライゼーションのための深層学習の応用を推進し,2つの重要な貢献を行った。
まず,2つのSPES分析パラダイム(発散と収束)を比較するために,既存のディープラーニングモデルを実装した。
これらのパラダイムは、それぞれ外向きと内向きの効果的な接続を評価する。
本研究は, 維持試験セットを用いて, 患者と電極配置の一般性を評価するものである。
AUROC:0.574) から収束アプローチ (AUROC: 0.666) への移行において顕著な改善が見られ, この文脈で後者を最初に適用した。
第2に、異種電極配置処理におけるCNN変換器の有効性を実証し、AUROCを0.730に向上させた。
これらの所見は,SPESにおける患者特異的脳波電極配置をモデル化するための重要なステップである。
今後は、これらのモデルを臨床意思決定プロセスに統合して、ディープラーニング研究と実用的な医療応用のギャップを埋めていく予定だ。
Epilepsy is one of the most common neurological disorders, often requiring surgical intervention when medication fails to control seizures. For effective surgical outcomes, precise localisation of the epileptogenic focus - often approximated through the Seizure Onset Zone (SOZ) - is critical yet remains a challenge. Active probing through electrical stimulation is already standard clinical practice for identifying epileptogenic areas. Our study advances the application of deep learning for SOZ localisation using Single-Pulse Electrical Stimulation (SPES) responses, with two key contributions. Firstly, we implement an existing deep learning model to compare two SPES analysis paradigms: divergent and convergent. These paradigms evaluate outward and inward effective connections, respectively. We assess the generalisability of these models to unseen patients and electrode placements using held-out test sets. Our findings reveal a notable improvement in moving from a divergent (AUROC: 0.574) to a convergent approach (AUROC: 0.666), marking the first application of the latter in this context. Secondly, we demonstrate the efficacy of CNN Transformers with cross-channel attention in handling heterogeneous electrode placements, increasing the AUROC to 0.730. These findings represent a significant step in modelling patient-specific intracranial EEG electrode placements in SPES. Future work will explore integrating these models into clinical decision-making processes to bridge the gap between deep learning research and practical healthcare applications. | 翻訳日:2024-08-28 19:29:21 公開日:2024-08-27 |
# 歌詞類似性知覚の計算解析
A Computational Analysis of Lyric Similarity Perception ( http://arxiv.org/abs/2404.02342v2 ) ライセンス: Link先を確認 | Haven Kim, Taketo Akama, | (参考訳) ボーカルを含む音楽作品では、歌詞は芸術的な表現に大きく貢献する。
その結果、これまでの研究では、ユーザの好みやパーソナライズされた好みに似た歌詞を推奨するレコメンデーションシステムの概念を導入し、数百万曲の歌詞の発見を支援した。
しかしながら、これらのシステムの多くは、主にこの分野の限られた研究のために、歌詞の類似性に対する人間の認識を完全には考慮していない。
このギャップを埋めるために、人間の知覚と歌詞の類似性をモデル化するための計算手法の比較分析を行った。
以上の結果から,事前学習したBERTモデルからの埋め込み,歌詞が導出される音声,知覚的歌詞の類似性を示す音声成分の類似性に基づく計算モデルが示唆された。
この発見は、歌詞の類似性に関する人間の知覚において、意味的、スタイリスティック、および音声的類似性の重要性を浮き彫りにしている。
我々は,ニューラルネットワーク開発のための擬似ラベルを提供し,客観的評価指標を導入することで,類似性に基づく歌詞推薦システムの開発を促進することを期待する。
In musical compositions that include vocals, lyrics significantly contribute to artistic expression. Consequently, previous studies have introduced the concept of a recommendation system that suggests lyrics similar to a user's favorites or personalized preferences, aiding in the discovery of lyrics among millions of tracks. However, many of these systems do not fully consider human perceptions of lyric similarity, primarily due to limited research in this area. To bridge this gap, we conducted a comparative analysis of computational methods for modeling lyric similarity with human perception. Results indicated that computational models based on similarities between embeddings from pre-trained BERT-based models, the audio from which the lyrics are derived, and phonetic components are indicative of perceptual lyric similarity. This finding underscores the importance of semantic, stylistic, and phonetic similarities in human perception about lyric similarity. We anticipate that our findings will enhance the development of similarity-based lyric recommendation systems by offering pseudo-labels for neural network development and introducing objective evaluation metrics. | 翻訳日:2024-08-28 19:29:21 公開日:2024-08-27 |
# 推論時間ルール消去器:蒸留およびバイアスドルールの除去による公正な認識
Inference-Time Rule Eraser: Fair Recognition via Distilling and Removing Biased Rules ( http://arxiv.org/abs/2404.04814v4 ) ライセンス: Link先を確認 | Yi Zhang, Dongyuan Lu, Jitao Sang, | (参考訳) 機械学習モデルは、性別、人種、その他の社会的属性などのバイアスのある特徴に基づいて予測を行い、特に雇用、銀行、刑事司法といった社会的な応用において重要な公正性リスクを生じさせる。
この問題に対処する従来のアプローチは、公正さを意識した最適化目標を持つニューラルネットワークの再トレーニングや微調整を含む。
しかし、これらの手法は計算資源、複雑な工業試験、および関連するCO2フットプリントのために実用的ではない。
さらに,モデルパラメータへのアクセスが欠如しているため,正規ユーザはモデル修正に失敗することが多い。本論文では,モデル重みを変更することなく,モデルに配置されたモデルからバイアスのある決定ルールを取り除き,公平性に対処する新しい手法である推論時ルール消去器(Eraser)を紹介する。
まず、ベイズ解析により偏りのある規則を除去するためにモデル出力を変更する理論的基礎を確立する。
次に、(1)デプロイされたモデルから追加のパッチモデルにバイアスされたルールを蒸留し、(2)推論中にデプロイされたモデルの出力からバイアスされたルールを除去する。
大規模な実験により,AIシステムにおける公平性の懸念に対処する上で,その優れた性能を示すとともに,提案手法の有効性を検証した。
Machine learning models often make predictions based on biased features such as gender, race, and other social attributes, posing significant fairness risks, especially in societal applications, such as hiring, banking, and criminal justice. Traditional approaches to addressing this issue involve retraining or fine-tuning neural networks with fairness-aware optimization objectives. However, these methods can be impractical due to significant computational resources, complex industrial tests, and the associated CO2 footprint. Additionally, regular users often fail to fine-tune models because they lack access to model parameters In this paper, we introduce the Inference-Time Rule Eraser (Eraser), a novel method designed to address fairness concerns by removing biased decision-making rules from deployed models during inference without altering model weights. We begin by establishing a theoretical foundation for modifying model outputs to eliminate biased rules through Bayesian analysis. Next, we present a specific implementation of Eraser that involves two stages: (1) distilling the biased rules from the deployed model into an additional patch model, and (2) removing these biased rules from the output of the deployed model during inference. Extensive experiments validate the effectiveness of our approach, showcasing its superior performance in addressing fairness concerns in AI systems. | 翻訳日:2024-08-28 19:29:21 公開日:2024-08-27 |
# LLMプログラム修復におけるFact Selection問題
The Fact Selection Problem in LLM-Based Program Repair ( http://arxiv.org/abs/2404.05520v3 ) ライセンス: Link先を確認 | Nikhil Parasaram, Huijie Yan, Boyu Yang, Zineb Flahy, Abriele Qudsi, Damian Ziaber, Earl Barr, Sergey Mechtaev, | (参考訳) 最近の研究によると、スタックトレースやGitHubの問題といったバグ関連の事実をインクルードすることで、大規模言語モデル(LLM)のバグ修正機能を強化している。
バグを正しく修正する可能性を最大化するためのプロンプトに、何つの事実を含めるべきなのか?
この質問に答えるために、我々は大規模な調査を行い、BugsInPyベンチマーク内のオープンソースのPythonプロジェクトから314のバグを修正するために、7つのさまざまな事実の組み合わせを含む19K以上のプロンプトを使用しました。
以上の結果から,コードコンテキストのような単純な構文情報から,エンジェル値などのLLMの文脈で探索されていない意味情報まで,それぞれの事実が有用であることが判明した。
具体的には、各事実は未解決のまま、あるいは未解決で低い成功率でしか修正されないバグを修正するのに役立ちます。
重要なことに、プログラム修復プロンプトの有効性は、使用済み事実の数よりも非単調であることが判明した。
これらの知見は、与えられたタスクインスタンス上でのLCMのパフォーマンスを最大化するプロンプトに含めるための事象の最適セットを決定するという、事実選択の問題を定義した。
バグ修正には,すべての事実に適合するものが存在しないことが分かりました。
そこで我々は,特定のバグに特異的な事実を抽出し,プロンプトに含める基本統計モデルManipleを開発した。
このモデルは、最も一般的な事実セットのパフォーマンスを大幅に上回る。
事実選択問題の重要性を明らかにするために,我々は,現在最先端のゼロショット,非会話型LPMによるバグ修復手法に対して,Manipleをベンチマークした。
157のバグからなるテストデータセットで、Manipleは88のバグを修復します。
Recent research has shown that incorporating bug-related facts, such as stack traces and GitHub issues, into prompts enhances the bug-fixing capabilities of large language models (LLMs). Considering the ever-increasing context window of these models, a critical question arises: what and how many facts should be included in prompts to maximise the chance of correctly fixing bugs? To answer this question, we conducted a large-scale study, employing over 19K prompts featuring various combinations of seven diverse facts to rectify 314 bugs from open-source Python projects within the BugsInPy benchmark. Our findings revealed that each fact, ranging from simple syntactic details like code context to semantic information previously unexplored in the context of LLMs such as angelic values, is beneficial. Specifically, each fact aids in fixing some bugs that would remain unresolved or only be fixed with a low success rate without it. Importantly, we discovered that the effectiveness of program repair prompts is non-monotonic over the number of used facts; using too many facts leads to subpar outcomes. These insights led us to define the fact selection problem: determining the optimal set of facts for inclusion in a prompt to maximise LLM's performance on a given task instance. We found that there is no one-size-fits-all set of facts for bug repair. Therefore, we developed a basic statistical model, named Maniple, which selects facts specific to a given bug to include in the prompt. This model significantly surpasses the performance of the best generic fact set. To underscore the significance of the fact selection problem, we benchmarked Maniple against the state-of-the-art zero-shot, non-conversational LLM-based bug repair methods. On our testing dataset of 157 bugs, Maniple repairs 88 bugs, 17% above the best configuration. | 翻訳日:2024-08-28 19:29:21 公開日:2024-08-27 |
# Stiefel Manifold 上の Isometries 学習による量子ネットワークトモグラフィ
Quantum Network Tomography via Learning Isometries on Stiefel Manifold ( http://arxiv.org/abs/2404.06988v3 ) ライセンス: Link先を確認 | Ze-Tong Li, Xin-Lin He, Cong-Cong Zheng, Yu-Qian Dong, Tian Luan, Xu-Tao Yu, Zai-Chen Zhang, | (参考訳) 量子ネットワークの数学的再構成は、量子情報科学の発展に重要な役割を果たしている。
しかし、膨大なパラメータ要求と物理的制約の実装は、計算的に無視できない存在になっている。
本研究では,Stiefel多様体上のアイソメトリーを学習し,量子ネットワークトモグラフィーの効率的な手法を提案する。
量子ネットワーク再構築の課題は、パラメータが大幅に少ない一連の制約のない最適化問題を解くことで解決される。
ステップワイズアイソメトリ推定は、トモグラフィを処理しながら、切り捨てられた量子ネットワークの情報を提供する能力を示す。
顕著なことに、この方法では、有界誤差で等長線のアシル次元を減少させることで、次元還元量子ネットワークトモグラフィーを可能にする。
その結果,提案手法は精度と効率性が高いことがわかった。
Explicit mathematical reconstructions of quantum networks play a significant role in developing quantum information science. However, tremendous parameter requirements and physical constraint implementations have become computationally non-ignorable encumbrances. In this work, we propose an efficient method for quantum network tomography by learning isometries on the Stiefel manifold. Tasks of reconstructing quantum networks are tackled by solving a series of unconstrained optimization problems with significantly fewer parameters. The stepwise isometry estimation shows the capability for providing information of the truncated quantum network while processing the tomography. Remarkably, this method enables the dimension-reduced quantum network tomography by reducing the ancillary dimensions of isometries with bounded error. As a result, our proposed method exhibits high accuracy and efficiency. | 翻訳日:2024-08-28 19:29:21 公開日:2024-08-27 |
# FaceCat: 統一拡散モデルによる顔認識セキュリティの強化
FaceCat: Enhancing Face Recognition Security with a Unified Diffusion Model ( http://arxiv.org/abs/2404.09193v2 ) ライセンス: Link先を確認 | Jiawei Chen, Xiao Yang, Yinpeng Dong, Hang Su, Zhaoxia Yin, | (参考訳) 対面防止(FAS)と対向検出(FAD)は、顔認識システムの安全性を確保するための重要な技術であると考えられている。
しかし、実用性や複雑な展開、計算オーバーヘッドの増大により、統合されたフレームワーク内で両方の検出技術を実装する必要がある。
本稿では,2つの障害を突破することで,この目標を達成することを目的とする。
1) 顔下特徴表現及び特徴表現
2)トレーニングデータの不足。
顔拡散モデルの豊富な構造的・詳細な特徴を動機として,既存の特徴表現による限られた性能に対処するため,FASとFADの性能を同時に向上するために拡散モデルを利用した最初のアプローチであるFaceCatを提案する。
特に、FaceCatは拡散モデルの豊かな顔の意味的特徴を捉えるために階層的な融合機構を精巧に設計している。
これらの機能は、FASとFADを同時に実行するように設計された軽量ヘッドの堅牢な基盤として機能する。
単一モードの画像データにのみ依存することによる特徴表現の制限により、テキストプロンプトを利用して特徴表現を豊かにする新しい多モードアライメント戦略が提案され、性能が向上する。
データ不足に対処するため、幅広い28種類の攻撃タイプを持つ包括的なデータセットを構築しました。
大規模な実験により、FaceCatの有効性は大幅に向上し、一般的な入力変換に対して優れた堅牢性が得られる。
Face anti-spoofing (FAS) and adversarial detection (FAD) have been regarded as critical technologies to ensure the safety of face recognition systems. However, due to limited practicality, complex deployment, and the additional computational overhead, it is necessary to implement both detection techniques within a unified framework. This paper aims to achieve this goal by breaking through two primary obstacles: 1) the suboptimal face feature representation and 2) the scarcity of training data. To address the limited performance caused by existing feature representations, motivated by the rich structural and detailed features of face diffusion models, we propose FaceCat, the first approach leveraging the diffusion model to simultaneously enhance the performance of FAS and FAD. Specifically, FaceCat elaborately designs a hierarchical fusion mechanism to capture rich face semantic features of the diffusion model. These features then serve as a robust foundation for a lightweight head, designed to execute FAS and FAD simultaneously. Due to the limitations in feature representation that arise from relying solely on single-modality image data, we further propose a novel text-guided multi-modal alignment strategy that utilizes text prompts to enrich feature representation, thereby enhancing performance. To combat data scarcity, we build a comprehensive dataset with a wide range of 28 attack types, offering greater potential for a unified framework in facial security. Extensive experiments validate the effectiveness of FaceCat generalizes significantly better and obtains excellent robustness against common input transformations. | 翻訳日:2024-08-28 19:29:21 公開日:2024-08-27 |
# バンド内絡み込みによる量子トランスダクションの基本的限界を克服する
Overcoming the fundamental limit of quantum transduction via intraband entanglement ( http://arxiv.org/abs/2404.09441v2 ) ライセンス: Link先を確認 | Haowei Shi, Quntao Zhuang, | (参考訳) 量子トランスデューサは、入力信号を、量子ネットワークおよび分散量子センシング及び計算に不可欠な高忠実度な量子情報を維持しつつ、遠隔周波数帯域の出力プローブに変換する。
マイクロ波光量子トランスダクションの観点では、最先端の量子トランスデューサは弱い非線形結合から低いトランスダクション効率を損なうため、ポンプ電力を増やして効率を高めることで加熱の熱ノイズを必然的に引き起こす。
さらに, キャビティの電気光学・電気光学変換器の効率帯域幅積は, キャビティ工学の努力によらず, ポンプパワーと非線形結合係数によって基本的に制限されていることを明らかにした。
この基本的限界を克服するために、帯域内絡み込み(例えば、マイクロ波や光光学の絡み合い)を消費することで、非雑音で伝送効率を向上することを提案する。
このプロトコルは、圧縮器-カップラー-アンティースケザーサンドイッチ構造により、任意に弱いポンプと非線形結合が与えられた理想的なロスレスケースにおいて、ユニタリへのトランスダクション効率を高める。
実用空洞システムでは, エンタングルメント支援プロトコルは効率帯域積の非補助的基本限界を超越し, 正の量子容量に対するしきい値の協調性を2モードのスクイーズゲインに比例して減少させる。
固定的な協調性を考えると、我々の手法はブロードバンド量子容量を桁違いに増大させる。
A quantum transducer converts an input signal to an output probe at a distant frequency band while maintaining the quantum information with high fidelity, which is crucial for quantum networking and distributed quantum sensing and computing. In terms of microwave-optical quantum transduction, the state-of-the-art quantum transducers suffer low transduction efficiency from weak nonlinear coupling, wherein increasing pump power to enhance efficiency inevitably leads to thermal noise from heating. Moreover, we reveal that the efficiency-bandwidth product of a cavity electro-optical or electro-optomechanical transducer is fundamentally limited by pump power and nonlinear coupling coefficient, irrespective of cavity engineering efforts. To overcome this fundamental limit, we propose to noiselessly boost the transduction efficiency by consuming intraband entanglement (e.g., microwave-microwave or optical-optical entanglement in the case of microwave-optical transduction). Via a squeezer-coupler-antisqueezer sandwich structure, the protocol enhances the transduction efficiency to unity in the ideal lossless case, given an arbitrarily weak pump and nonlinear coupling. In practical cavity systems, our entanglement-assisted protocol surpasses the non-assisted fundamental limit of the efficiency-bandwidth product and reduces the threshold cooperativity for positive quantum capacity by a factor proportional to two-mode squeezing gain. Given a fixed cooperativity, our approach increases the broadband quantum capacity by orders of magnitude. | 翻訳日:2024-08-28 19:29:21 公開日:2024-08-27 |
# 生成モデルを用いた圧縮強化学習
Compressed Federated Reinforcement Learning with a Generative Model ( http://arxiv.org/abs/2404.10635v5 ) ライセンス: Link先を確認 | Ali Beikmohammadi, Sarit Khirirat, Sindri Magnússon, | (参考訳) 強化学習は近年、前例のない人気を得たが、それでもサンプルの非効率さに悩まされている。
この課題に対処するため、フェデレーション強化学習(FedRL)が出現し、エージェントは局所的な推定を集約することで単一のポリシーを協調的に学習する。
しかし、この集約ステップは、かなりの通信コストを発生させる。
本稿では,通信効率のよいFedRL手法であるCompFedRLを提案する。
具体的には、中央サーバがローカルエージェントから圧縮された$Q$-estimatesを定期的に集約することにより、最適な$Q$-functionを学習する生成モデルセットアップを用いて、圧縮された$Q$-learningを検討する。
提案アルゴリズムの有限時間解析により, 直接圧縮と誤りフィードバック圧縮のどちらを用いても強い収束挙動を示すことにより, この2つのメカニズムの影響を初めて特徴づけた。
我々の限界は、通信コストを同時に低減しつつ、エージェント数やその他の連合ハイパーパラメータに関する解の精度の向上を示している。
我々の理論を裏付けるために、我々は、Top-K$およびSparsified-K$スペーシフィケーション作用素を考慮し、詳細な数値実験も行います。
Reinforcement learning has recently gained unprecedented popularity, yet it still grapples with sample inefficiency. Addressing this challenge, federated reinforcement learning (FedRL) has emerged, wherein agents collaboratively learn a single policy by aggregating local estimations. However, this aggregation step incurs significant communication costs. In this paper, we propose CompFedRL, a communication-efficient FedRL approach incorporating both \textit{periodic aggregation} and (direct/error-feedback) compression mechanisms. Specifically, we consider compressed federated $Q$-learning with a generative model setup, where a central server learns an optimal $Q$-function by periodically aggregating compressed $Q$-estimates from local agents. For the first time, we characterize the impact of these two mechanisms (which have remained elusive) by providing a finite-time analysis of our algorithm, demonstrating strong convergence behaviors when utilizing either direct or error-feedback compression. Our bounds indicate improved solution accuracy concerning the number of agents and other federated hyperparameters while simultaneously reducing communication costs. To corroborate our theory, we also conduct in-depth numerical experiments to verify our findings, considering Top-$K$ and Sparsified-$K$ sparsification operators. | 翻訳日:2024-08-28 19:29:21 公開日:2024-08-27 |
# 光ファイバーにおける古典的通信と共存する量子テレポーテーション
Quantum teleportation coexisting with classical communications in optical fiber ( http://arxiv.org/abs/2404.10738v3 ) ライセンス: Link先を確認 | Jordan M. Thomas, Fei I. Yeh, Jim Hao Chen, Joe J. Mambretti, Scott J. Kohlert, Gregory S. Kanter, Prem Kumar, | (参考訳) 量子ネットワークと従来のネットワークが同一の光ファイバーで動作できることは、量子ネットワーク技術の大規模展開に役立つだろう。
量子テレポーテーション(quantum teleportation)は、量子ネットワークにおける基本的な操作であるが、高出力の従来の光学信号を持つファイバではまだ実証されていない。
ここでは、従来の電気通信網を通したファイバー上での量子テレポーテーションの最初の実演について、我々の知る限り、報告する。
量子状態伝達は、400GbpsのCバンドの古典的なトラフィックを担い、ファイバー中間点でベル状態測定を行う30.2kmのファイバー上で達成される。
自然発振ラマン散乱ノイズから量子忠実性を保護するために、最適なOバンド量子チャネル、狭いスペクトル時間フィルタリング、複数光子同時検出を用いる。
忠実度は18.7dBmのCバンドの古典的パワーで良好に維持されていることが示されており、これは複数の古典的チャネルをサポートし、多くのテラビット/s集合データレートをサポートすることができる。
これらの結果は、統合ファイバ基盤内で動作する高度な量子および古典的ネットワークアプリケーションの実現可能性を示している。
The ability for quantum and conventional networks to operate in the same optical fibers would aid the deployment of quantum network technology on a large scale. Quantum teleportation is a fundamental operation in quantum networking, but has yet to be demonstrated in fibers populated with high-power conventional optical signals. Here we report to the best of our knowledge the first demonstration of quantum teleportation over fibers carrying conventional telecommunications traffic. Quantum state transfer is achieved over a 30.2-km fiber carrying 400-Gbps C-band classical traffic with a Bell state measurement performed at the fiber midpoint. To protect quantum fidelity from spontaneous Raman scattering noise, we use optimal O-band quantum channels, narrow spectro-temporal filtering, and multi-photon coincidence detection. Fidelity is shown to be well maintained with an elevated C-band classical power of 18.7 dBm, which could support multiple classical channels totaling many terabits/s aggregate data rates. These results show the feasibility of advanced quantum and classical network applications operating within a unified fiber infrastructure. | 翻訳日:2024-08-28 19:29:21 公開日:2024-08-27 |
# Data Privacy Vocabulary (DPV) -- Version 2
Data Privacy Vocabulary (DPV) -- Version 2 ( http://arxiv.org/abs/2404.13426v3 ) ライセンス: Link先を確認 | Harshvardhan J. Pandit, Beatriz Esteves, Georg P. Krog, Paul Ryan, Delaram Golpayegani, Julian Flake, | (参考訳) Data Privacy Vocabulary (DPV)は、W3C Data Privacy Vocabularies and Controls Community Group (DPVCG)によって開発された、個人データの処理を記述するための機械可読性、相互運用性、標準ベースの表現の作成を可能にする。
また、EUのGDPRのような立法要件をサポートするための特定のアプリケーションを記述するために、DPVの拡張も公開している。
DPVは、W3C ODRLなどの既存の標準と併用し、特定のユースケースやドメインに適応するためにカスタマイズおよび拡張可能な語彙を提供することによって、最先端における重要なニッチを埋める。
この記事では、DPVのバージョン2イテレーションについて、その内容、方法論、現在の採用と利用、将来の可能性について説明する。
また、さまざまな規制(EUのDGAおよびAI法など)と世界中のコミュニティイニシアチブ(例えばSolid)をサポートするための共通の語彙として機能する上でのDPVの関連性と役割についても説明している。
The Data Privacy Vocabulary (DPV), developed by the W3C Data Privacy Vocabularies and Controls Community Group (DPVCG), enables the creation of machine-readable, interoperable, and standards-based representations for describing the processing of personal data. The group has also published extensions to the DPV to describe specific applications to support legislative requirements such as the EU's GDPR. The DPV fills a crucial niche in the state of the art by providing a vocabulary that can be embedded and used alongside other existing standards such as W3C ODRL, and which can be customised and extended for adapting to specifics of use-cases or domains. This article describes the version 2 iteration of the DPV in terms of its contents, methodology, current adoptions and uses, and future potential. It also describes the relevance and role of DPV in acting as a common vocabulary to support various regulatory (e.g. EU's DGA and AI Act) and community initiatives (e.g. Solid) emerging across the globe. | 翻訳日:2024-08-28 19:29:21 公開日:2024-08-27 |
# 点雲を用いたシーンフローの攻撃
Attack on Scene Flow using Point Clouds ( http://arxiv.org/abs/2404.13621v5 ) ライセンス: Link先を確認 | Haniyeh Ehsani Oskouie, Mohammad-Shahram Moin, Shohreh Kasaei, | (参考訳) 深層ニューラルネットワークは、ビデオ分析、アクション認識、ナビゲーションといった多くのアプリケーションにとって不可欠であるポイントクラウドを使用して、シーンフローを正確に推定する上で、大きな進歩を遂げている。
しかし、これらの手法の堅牢性は、特に多くのドメインで最先端のディープニューラルネットワークを騙すことが証明された敵の攻撃に直面して懸念されている。
驚くべきことに、このような攻撃に対するシーンフローネットワークの堅牢性は、十分に調査されていない。
この問題に対処するため,提案手法は,シーンフローネットワークに特化して,敵のホワイトボックス攻撃を導入することで,このギャップを埋めることを目的としている。
実験結果から,KITTIおよびFlyingThings3Dデータセットの平均終点誤差が最大33.7の相対劣化が得られることがわかった。
この研究は、一次元または色チャネルの点雲を標的とする攻撃が、平均的な端点誤差に与える影響も明らかにしている。
シーンフローネットワークとその2次元光フローネットワークの変種に対するこれらの攻撃の成功と失敗を分析すると、光学フローネットワークの脆弱性が高いことが分かる。
コードはhttps://github.com/aheldis/Attack-on-Scene-Flow-using-Point-Clouds.gitで公開されている。
Deep neural networks have made significant advancements in accurately estimating scene flow using point clouds, which is vital for many applications like video analysis, action recognition, and navigation. The robustness of these techniques, however, remains a concern, particularly in the face of adversarial attacks that have been proven to deceive state-of-the-art deep neural networks in many domains. Surprisingly, the robustness of scene flow networks against such attacks has not been thoroughly investigated. To address this problem, the proposed approach aims to bridge this gap by introducing adversarial white-box attacks specifically tailored for scene flow networks. Experimental results show that the generated adversarial examples obtain up to 33.7 relative degradation in average end-point error on the KITTI and FlyingThings3D datasets. The study also reveals the significant impact that attacks targeting point clouds in only one dimension or color channel have on average end-point error. Analyzing the success and failure of these attacks on the scene flow networks and their 2D optical flow network variants shows a higher vulnerability for the optical flow networks. Code is available at https://github.com/aheldis/Attack-on-Scene-Flow-using-Point-Clouds.git. | 翻訳日:2024-08-28 19:19:38 公開日:2024-08-27 |
# 反復多モード核融合によるコミックのゼロショット文字同定と話者予測
Zero-Shot Character Identification and Speaker Prediction in Comics via Iterative Multimodal Fusion ( http://arxiv.org/abs/2404.13993v3 ) ライセンス: Link先を確認 | Yingxuan Li, Ryota Hinami, Kiyoharu Aizawa, Yusuke Matsui, | (参考訳) 文字の認識と対話の話者の予測は、音声生成や翻訳といった漫画処理作業に不可欠である。
しかし、キャラクターは漫画のタイトルによって異なるため、漫画のタイトルごとに特定のアノテーションを必要とする文字分類器の訓練のような教師あり学習アプローチは実現不可能である。
これにより、機械が文字を識別し、注釈のない漫画画像のみに基づいて話者名を予測できるゼロショット方式が提案される。
現実の応用において重要であるにもかかわらず、これらのタスクはストーリー理解とマルチモーダル統合の課題のために、ほとんど探索されていないままである。
近年の大規模言語モデル (LLM) はテキスト理解と推論に優れた能力を示し, マルチモーダルコンテンツ解析への応用は依然として未解決の課題である。
そこで本研究では,文字識別と話者予測の両方にマルチモーダル情報を用いた反復型マルチモーダルフレームワークを提案する。
提案手法の有効性を実証し,これらの課題に対するロバストなベースラインを確立する。
さらに,本手法ではトレーニングデータやアノテーションは必要としないため,どんなコミックシリーズでもそのまま使用することができる。
Recognizing characters and predicting speakers of dialogue are critical for comic processing tasks, such as voice generation or translation. However, because characters vary by comic title, supervised learning approaches like training character classifiers which require specific annotations for each comic title are infeasible. This motivates us to propose a novel zero-shot approach, allowing machines to identify characters and predict speaker names based solely on unannotated comic images. In spite of their importance in real-world applications, these task have largely remained unexplored due to challenges in story comprehension and multimodal integration. Recent large language models (LLMs) have shown great capability for text understanding and reasoning, while their application to multimodal content analysis is still an open problem. To address this problem, we propose an iterative multimodal framework, the first to employ multimodal information for both character identification and speaker prediction tasks. Our experiments demonstrate the effectiveness of the proposed framework, establishing a robust baseline for these tasks. Furthermore, since our method requires no training data or annotations, it can be used as-is on any comic series. | 翻訳日:2024-08-28 19:19:38 公開日:2024-08-27 |
# TAAT: Text2Motionにおける任意テキストの考え方と行為
TAAT: Think and Act from Arbitrary Texts in Text2Motion ( http://arxiv.org/abs/2404.14745v3 ) ライセンス: Link先を確認 | Runqi Wang, Caoyuan Ma, Guopeng Li, Zheng Wang, | (参考訳) Text to Motionは、テキストから人間の動きを生成することを目的としている。
既存の設定では、テキストにはアクションラベルが含まれており、実用的なシナリオでは柔軟性が制限される。
本稿では,テキストが任意であるというより現実的な仮定で,この課題を拡張した。
特に、我々の設定では、任意のテキストはアクションラベルからなる既存のアクションテキストを含み、明示的なアクションラベルなしでシーンテキストを導入します。
この現実的な問題に対処するため、シーンテキストを付加することにより、HUMANML3Dデータセット内のアクションテキストを拡張し、新しいデータセットであるHUMANML3D++を作成する。
同時に,Large Language Model (LLM) を用いて任意のテキストから行動表現を抽出し,その後に動きを生成するシンプルなフレームワークを提案する。
さらに,既存の評価手法を改良し,その不確実性に対処する。
既存のデータセットと提案されたデータセットに対するフレームワークの有効性を検証するため、さまざまなアプリケーションシナリオの下で大規模な実験が実施されている。
その結果、この現実的な環境でのテキスト・トゥ・モーションは極めて困難であり、この実践的な方向への新しい研究を促進することが示唆された。
データセットとコードはリリースされます。
Text to Motion aims to generate human motions from texts. Existing settings assume that texts include action labels, which limits flexibility in practical scenarios. This paper extends this task with a more realistic assumption that the texts are arbitrary. Specifically, in our setting, arbitrary texts include existing action texts composed of action labels and introduce scene texts without explicit action labels. To address this practical issue, we extend the action texts in the HUMANML3D dataset by incorporating additional scene texts, thereby creating a new dataset, HUMANML3D++. Concurrently, we propose a simple framework that extracts action representations from arbitrary texts using a Large Language Model (LLM) and subsequently generates motions. Furthermore, we enhance the existing evaluation methodologies to address their inadequacies. Extensive experiments are conducted under different application scenarios to validate the effectiveness of the proposed framework on existing and proposed datasets. The results indicate that Text to Motion in this realistic setting is very challenging, fostering new research in this practical direction. Our dataset and code will be released. | 翻訳日:2024-08-28 19:19:38 公開日:2024-08-27 |
# カスタムミューテーション合成によるファジングMLIRコンパイラ
Fuzzing MLIR Compilers with Custom Mutation Synthesis ( http://arxiv.org/abs/2404.16947v2 ) ライセンス: Link先を確認 | Ben Limpanukorn, Jiyuan Wang, Hong Jin Kang, Eric Zitong Zhou, Miryung Kim, | (参考訳) ディープラーニングとドメイン固有のハードウェアアクセラレーションにおけるコンパイラ技術は、より効率的な開発を容易にするために、MLIR(Multi-Level Intermediate Representation)のような拡張可能なコンパイラフレームワークの採用が増えている。
MLIRを使用すると、コンパイラ開発者は独自のカスタムIRをMLIR方言として簡単に定義できる。
しかし、そのようなカスタムIRの多様性と急速な進化により、各方言のカスタムテストジェネレータを手作業で書くことは不可能である。
この問題に対処するために,文法ベースのファジィとカスタム突然変異合成を組み合わせたSynTHFUZZと呼ばれる新しいテストジェネレータを設計する。
SynTHFUZZの重要な内容は2つある: 1) パラメータ化されたコンテキスト依存のカスタム突然変異を既存のテストケースから自動的に推論する。
2)k-ancestorおよびpre(post)fix matchingを実行することで、ターゲットコンテキストに応じて変異の内容が増加し、無効な編集を挿入する可能性を低減する。
SynTHFUZZは、各方言のカスタム突然変異演算子を手動で定義する必要がない。
我々はSynTHFUZをGrammarinator, MLIRSmith, NeuRIの3つのベースラインと比較する。
4つの異なるMLIRプロジェクトについて包括的な比較を行う。
各プロジェクトはMLIR方言の新たなセットを定義しており、手動でカスタムテストジェネレータを書くのに数週間かかる。
評価の結果,SynTHFUZはMLIRの方言対のカバレッジを1.75倍改善し,ブランチのカバレッジを1.22倍向上させることがわかった。
さらに、我々の文脈依存的なカスタム突然変異は有効検査の割合を最大1.11倍に増加させ、SynTHFUZはターゲットの文脈に関してパラメータ化された突然変異を正しく増加させることを示す。
突然変異のパラメータ化は、基本MLIRの制約に違反するテストの比率を0.57倍に減らし、方言固有のコードに時間を費やす。
Compiler technologies in deep learning and domain-specific hardware acceleration are increasingly adopting extensible compiler frameworks such as Multi-Level Intermediate Representation (MLIR) to facilitate more efficient development. With MLIR, compiler developers can easily define their own custom IRs in the form of MLIR dialects. However, the diversity and rapid evolution of such custom IRs make it impractical to manually write a custom test generator for each dialect. To address this problem, we design a new test generator called SYNTHFUZZ that combines grammar-based fuzzing with custom mutation synthesis. The key essence of SYNTHFUZZ is two fold: (1) It automatically infers parameterized context-dependent custom mutations from existing test cases. (2) It then concretizes the mutation's content depending on the target context and reduces the chance of inserting invalid edits by performing k-ancestor and pre(post)fix matching. SYNTHFUZZ obviates the need to manually define custom mutation operators for each dialect. We compare SYNTHFUZZ to three baselines: Grammarinator, MLIRSmith, and NeuRI. We conduct this comprehensive comparison on four different MLIR projects. Each project defines a new set of MLIR dialects where manually writing a custom test generator would take weeks of effort. Our evaluation shows that SYNTHFUZZ on average improves MLIR dialect pair coverage by 1.75 times, which increases branch coverage by 1.22 times. Further, we show that our context dependent custom mutation increases the proportion of valid tests by up to 1.11 times, indicating that SYNTHFUZZ correctly concretizes its parameterized mutations with respect to the target context. Parameterization of the mutations reduces the fraction of tests violating the base MLIR constraints by 0.57 times, increasing the time spent fuzzing dialect-specific code. | 翻訳日:2024-08-28 19:19:38 公開日:2024-08-27 |
# トリコーム密度測定によるトマトの栄養状態評価のためのスマートフォンによる方法
A Smartphone-Based Method for Assessing Tomato Nutrient Status through Trichome Density Measurement ( http://arxiv.org/abs/2404.19513v2 ) ライセンス: Link先を確認 | Sho Ueda, Xujun Ye, | (参考訳) トマトにおける肥料によるストレスの早期検出は, タイムリーな作物管理介入と収量最適化に不可欠である。
従来の光学的手法は、若い葉の肥料ストレスを困難に検出する。
本研究は,スマートフォンを用いた若葉植物表面のトリコム伸長性毛髪状構造の密度を定量化するための新しい非侵襲的手法を提案する。
本手法は, 検出遅延が優れ, トマトの肥料ストレスの早期かつより正確な同定が可能となる。
提案手法は,拡張現実技術と画像処理アルゴリズムを組み合わせて,特殊な計測用紙のスマートフォン画像の解析を行う。
この測定用紙はトマト葉に塗布され、トリコマーを接着剤表面に転写する。
キャプチャされた画像は、関心領域抽出、視点変換、照明補正を含むパイプラインを通して処理される。
これらの前処理画像のトリコーム検出と空間分布解析により,ロバストな密度測定値が得られる。
肥料濃度の異なる水耕栽培トマトの実験により,本法の有効性を検証した。
LOOCV (Left-one-out Cross-validation) を用いて,0.641の受信特性曲線と0.824の精度リコール曲線の平均値を求める。
LOOCVを用いた定量分析の結果, 硝酸イオン濃度を含むトリトリホーム密度と説明変数の関係が強く, 変動の62.48%(R^2 = 0.625$)が説明できた。
予測と実際の三重項密度は強く相関していた(r = 0.794$)。
この単純で費用対効果の高い方法は、従来の技術の限界を克服し、植物栄養診断にスマートフォンを使うことの可能性を示している。
Early detection of fertilizer-induced stress in tomato plants is crucial for timely crop management interventions and yield optimization. Conventional optical methods detect fertilizer stress in young leaves with difficulty. This study proposes a novel, noninvasive technique for quantifying the density of trichomes-elongated hair-like structures found on plant surfaces-on young leaves using a smartphone. This method exhibits superior detection latency, enabling earlier and more accurate identification of fertilizer stress in tomato plants. Our approach combines augmented reality technology and image processing algorithms to analyze smartphone images of a specialized measurement paper. This measurement paper is applied to a tomato leaf to transfer trichomes onto its adhesive surface. The captured images are then processed through a pipeline involving region of interest extraction, perspective transformation, and illumination correction. Trichome detection and spatial distribution analysis of these preprocessed images yield a robust density metric. We validated our method through experiments on hydroponically grown tomatoes under varying fertilizer concentrations. Using leave-one-out cross-validation (LOOCV), our model achieves a mean area under the precision-recall curve of 0.824 and a receiver operating characteristic curve of 0.641 for predicting additional fertilization needs. Based on LOOCV, quantitative analysis revealed a strong relationship between trichome density and explanatory variables, including nitrate ion concentration, explaining 62.48% of the variation ($R^2 = 0.625$). The predicted and actual trichome densities were strongly correlated ($r = 0.794$). This straightforward and cost-effective method overcomes the limitations of traditional techniques, demonstrating the potential of using smartphones for practical plant nutrition diagnosis. | 翻訳日:2024-08-28 19:19:38 公開日:2024-08-27 |
# ハーフウェイエスケープ最適化:一般最適化問題に対する量子インスパイアされた解法
Halfway Escape Optimization: A Quantum-Inspired Solution for General Optimization Problems ( http://arxiv.org/abs/2405.02850v4 ) ライセンス: Link先を確認 | Jiawen Li, Anwar PP Abdul Majeed, Pascal Lefevre, | (参考訳) 本稿ではまず,高次収束率で高次元の地形を特徴とする一般最適化問題に対処するために,量子インスパイアされたメタヒューリスティックであるHalfway Escape Optimization (HEO)アルゴリズムを提案する。
本研究では,粒子群最適化 (PSO), 遺伝的アルゴリズム (GA), 人工魚群アルゴリズム (AFSA), グレイウルフ最適化 (GWO), 量子行動群最適化 (QPSO) など,確立された最適化アルゴリズムに対するHEOの性能を総合的に比較した。
一次解析は、次元30の14のベンチマーク関数を含み、一般的な最適化ランドスケープをナビゲートする際のHEOの有効性と適応性を示し、その性能に関する貴重な洞察を提供する。
圧力容器設計および管状カラム設計におけるHEOの試験は、その実現可能性とリアルタイム応用の可能性について推測する。
Osmancik-97とCammeo Rice Classificationのさらなる検証により、HEOの有効性が証明され、高い精度の記録が得られる。
This paper first proposes the Halfway Escape Optimization (HEO) algorithm, a quantum-inspired metaheuristic designed to address general optimization problems characterized by rugged landscapes and high-dimensionality with an efficient convergence rate. The study presents a comprehensive comparative evaluation of HEO's performance against established optimization algorithms, including Particle Swarm Optimization (PSO), Genetic Algorithm (GA), Artificial Fish Swarm Algorithm (AFSA), Grey Wolf Optimizer (GWO), and Quantum behaved Particle Swarm Optimization (QPSO). The primary analysis encompasses 14 benchmark functions with dimension 30, demonstrating HEO's effectiveness and adaptability in navigating general optimization landscapes and providing valuable insights into its performance. The test of HEO in Pressure Vessel Design and Tubular Column Design infers its feasibility and potential in real-time applications. Further validation in Osmancik-97 and Cammeo Rice Classification proves the effectiveness of HEO and achieves a higher accuracy record. | 翻訳日:2024-08-28 19:19:38 公開日:2024-08-27 |
# 聞き, 遠方, 制御:制御可能な音声駆動音声ヘッド生成
Listen, Disentangle, and Control: Controllable Speech-Driven Talking Head Generation ( http://arxiv.org/abs/2405.07257v2 ) ライセンス: Link先を確認 | Changpeng Cai, Guinan Guo, Jiao Li, Junhao Su, Chenghao He, Jing Xiao, Yuanxu Chen, Lei Dai, Feiyu Zhu, | (参考訳) 発話顔生成に関する最も初期の研究は、唇の動きと音声内容の同期に焦点を当てている。
しかしながら、人間の頭部のポーズと顔の感情は、自然の人間の顔の同様に重要な特徴である。
音声による発話顔生成は顕著な進歩を見せているが、既存の方法は顔の感情を見落としているか、特定の個人に限られており、任意の対象に適用できない。
本稿では、感情的・姿勢的制御を可能にして、一般のトーキング・フェイス・ジェネレーションと区別するワンショットトーキング・ヘッド・ジェネレーション・フレームワーク(SPEAK)を提案する。
具体的には、人間の顔の特徴を3つの潜在空間に分離するIRFD(Inter-Reconstructed Feature Disentanglement)手法を提案する。
次に、音声コンテンツと顔の潜時符号を1つの潜時空間に修正する顔編集モジュールを設計する。
次に、編集モジュールから派生した修正潜在コードを用いて、表情の合成における感情表現、頭部ポーズ、音声内容の制御を行う新しい生成器を提案する。
本手法は, 唇の動き, 顔の表情, スムーズな頭部の動きを調整して, リアルな話し声を生成できることを, 広範囲にわたる試行錯誤により実証した。
デモビデオは匿名リンクで公開されている。 https://anonymous.4open.science/r/SPEAK-F56E
Most earlier investigations on talking face generation have focused on the synchronization of lip motion and speech content. However, human head pose and facial emotions are equally important characteristics of natural human faces. While audio-driven talking face generation has seen notable advancements, existing methods either overlook facial emotions or are limited to specific individuals and cannot be applied to arbitrary subjects. In this paper, we propose a one-shot Talking Head Generation framework (SPEAK) that distinguishes itself from general Talking Face Generation by enabling emotional and postural control. Specifically, we introduce the Inter-Reconstructed Feature Disentanglement (IRFD) method to decouple human facial features into three latent spaces. We then design a face editing module that modifies speech content and facial latent codes into a single latent space. Subsequently, we present a novel generator that employs modified latent codes derived from the editing module to regulate emotional expression, head poses, and speech content in synthesizing facial animations. Extensive trials demonstrate that our method can generate realistic talking head with coordinated lip motions, authentic facial emotions, and smooth head movements. The demo video is available at the anonymous link: https://anonymous.4open.science/r/SPEAK-F56E | 翻訳日:2024-08-28 19:19:38 公開日:2024-08-27 |
# Kolmogorov-Arnoldネットワークを用いたフレキシブルEHDポンプの予測モデリング
Predictive Modeling of Flexible EHD Pumps using Kolmogorov-Arnold Networks ( http://arxiv.org/abs/2405.07488v2 ) ライセンス: Link先を確認 | Yanhong Peng, Yuxin Wang, Fangchao Hu, Miao He, Zebing Mao, Xia Huang, Jun Ding, | (参考訳) 我々は,コルモゴロフ・アルノルドネットワークを用いて,フレキシブル電気流体ポンプの圧力と流量を予測する新しい手法を提案する。
コルモゴロフ・アルノルドの表現定理に着想を得たカンは、固定活性化関数を学習可能なスプラインベースの活性化関数に置き換え、多層パーセプトロンやランダムフォレストのような従来のモデルよりもより効率的に複素非線形関数を近似することができる。
フレキシブルEHDポンプパラメータのデータセットを用いてkanを評価し,その性能をRFモデルとMPPモデルと比較した。
カンは予測精度が優れ、平均正方形誤差は12.186、圧力と流量の予測は0.001である。
kanから抽出した記号式は入力パラメータとポンプ性能の非線形関係に関する洞察を与える。
これらの結果から,kanは例外的な精度と解釈可能性を示し,電気流体ポンプの予測モデルとして有望な選択肢であることがわかった。
We present a novel approach to predicting the pressure and flow rate of flexible electrohydrodynamic pumps using the Kolmogorov-Arnold Network. Inspired by the Kolmogorov-Arnold representation theorem, KAN replaces fixed activation functions with learnable spline-based activation functions, enabling it to approximate complex nonlinear functions more effectively than traditional models like Multi-Layer Perceptron and Random Forest. We evaluated KAN on a dataset of flexible EHD pump parameters and compared its performance against RF, and MLP models. KAN achieved superior predictive accuracy, with Mean Squared Errors of 12.186 and 0.001 for pressure and flow rate predictions, respectively. The symbolic formulas extracted from KAN provided insights into the nonlinear relationships between input parameters and pump performance. These findings demonstrate that KAN offers exceptional accuracy and interpretability, making it a promising alternative for predictive modeling in electrohydrodynamic pumping. | 翻訳日:2024-08-28 19:19:38 公開日:2024-08-27 |
# 非線形システム同定ベンチマークのベースライン結果
Baseline Results for Selected Nonlinear System Identification Benchmarks ( http://arxiv.org/abs/2405.10779v2 ) ライセンス: Link先を確認 | Max D. Champneys, Gerben I. Beintema, Roland Tóth, Maarten Schoukens, Timothy J. Rogers, | (参考訳) 非線形システム同定は、研究や学界で重要な課題である。
毎年、多数の新しいアプローチが公開され、それぞれが既存の方法の改良や拡張を提示している。
したがって、これらの競合するモデルをどのように選ぶかを考えるのは自然である。
ベンチマークデータセットは、この問題にアプローチする方法の1つを提供する。
しかし、ベンチマーク性能に基づいた有意義な推論を行うためには、新しい手法が十分に確立された手法で得られる結果と比較して、いかにうまく機能するかを理解することが重要である。
本稿では,5つのベンチマークにおいて,10種類のベースライン手法とその相対的性能について述べる。
本研究の目的は,識別手法の客観的比較に関する思考と議論を刺激することである。
Nonlinear system identification remains an important open challenge across research and academia. Large numbers of novel approaches are seen published each year, each presenting improvements or extensions to existing methods. It is natural, therefore, to consider how one might choose between these competing models. Benchmark datasets provide one clear way to approach this question. However, to make meaningful inference based on benchmark performance it is important to understand how well a new method performs comparatively to results available with well-established methods. This paper presents a set of ten baseline techniques and their relative performances on five popular benchmarks. The aim of this contribution is to stimulate thought and discussion regarding objective comparison of identification methodologies. | 翻訳日:2024-08-28 19:19:38 公開日:2024-08-27 |
# 直接識別による局所因果発見
Local Causal Discovery for Structural Evidence of Direct Discrimination ( http://arxiv.org/abs/2405.14848v2 ) ライセンス: Link先を確認 | Jacqueline Maasch, Kyra Gan, Violet Chen, Agni Orfanoudaki, Nil-Jana Akpinar, Fei Wang, | (参考訳) 不公平な因果経路を特定することは、政策設計とアルゴリズムによる意思決定を改善するための重要な目標である。
因果フェアネス分析における先行研究は、しばしば因果グラフの知識を必要とし、複雑な領域や低知識領域における実践的応用を妨げる。
さらに、データから因果構造を学習するグローバルな発見手法は、有限サンプルで不安定な性能をもたらす可能性があり、矛盾する公平性の結論につながる可能性がある。
これらの問題を緩和するために,直接識別のための局所的な発見(LD3)を導入する。これは,結果変数の因果親を特定することによって,直接識別の構造的証拠を明らかにする方法である。
LD3は、可変セットサイズに対する条件付き独立テストの線形数を実行し、結果の親が潜伏しないような十分な条件下で潜伏することを可能にする。
LD3は、直接識別の質的指標である重み付け制御された直接効果に対して、新しいグラフィカルな基準の下で有効な調整セット(VAS)を返すことを示す。
LD3は不当な調整を制限し、不公平さを評価するための解釈可能なVASを提供する。
我々はLD3を用いて2つの複雑な意思決定システム、すなわち犯罪再犯予測と肝移植割当の因果フェアネスを分析する。
LD3は、実行に46倍から5870倍の時間を要するベースラインよりも、より時間効率が高く、実際のデータに対してより妥当な結果を返す。
Identifying the causal pathways of unfairness is a critical objective in improving policy design and algorithmic decision-making. Prior work in causal fairness analysis often requires knowledge of the causal graph, hindering practical applications in complex or low-knowledge domains. Moreover, global discovery methods that learn causal structure from data can result in unstable performance with finite samples, potentially leading to contradictory fairness conclusions. To mitigate these issues, we introduce local discovery for direct discrimination (LD3): a method that uncovers structural evidence of direct discrimination by identifying the causal parents of an outcome variable. LD3 performs a linear number of conditional independence tests relative to variable set size, and allows for latent confounding under the sufficient condition that no parent of the outcome is latent. We show that LD3 returns a valid adjustment set (VAS) under a new graphical criterion for the weighted controlled direct effect, a qualitative indicator of direct discrimination. LD3 limits unnecessary adjustment, providing interpretable VAS for assessing unfairness. We use LD3 to analyze causal fairness in two complex decision systems: criminal recidivism prediction and liver transplant allocation. LD3 was more time-efficient and returned more plausible results on real-world data than baselines, which took 46x to 5870x longer to execute. | 翻訳日:2024-08-28 19:19:38 公開日:2024-08-27 |
# グラウバー生成モデル:二項分類による離散拡散モデル
Glauber Generative Model: Discrete Diffusion Models via Binary Classification ( http://arxiv.org/abs/2405.17035v3 ) ライセンス: Link先を確認 | Harshit Varma, Dheeraj Nagaraj, Karthikeyan Shanmugam, | (参考訳) 離散拡散モデルの新たなクラスであるGlauber Generative Model (GGM)を導入し、離散空間から与えられた分布から新しいサンプルを得る。
GGMは、熱浴力学(またはグラウバー力学)と呼ばれる離散マルコフ連鎖を展開させ、離散トークンの連成分布からサンプルにノイズトークンの列を分解する。
我々の新しい概念的枠組みは、マルコフ連鎖を二項分類タスクのクラスを解くために学習するタスクを正確に削減するものである。
より具体的には、モデルは与えられたトークンをノイズシーケンスで信号またはノイズとして分類することを学ぶ。
対照的に、離散拡散モデルに関する先行研究は、回帰問題を解くか、重要度を学習するか、あるいは変分近似によって与えられる損失関数を最小化する。
本稿では,言語モデリングや画像生成にGGMを適用し,VQGANなどの画像トークンを用いて画像の識別を行う。
言語生成において既存の離散拡散モデルより優れており、データセット固有の画像トークンーザを使わずに、画像生成に強い性能を示す。
また,本モデルでは,テキストや画像の入力などのゼロショット制御設定でも良好に動作可能であることを示す。
We introduce the Glauber Generative Model (GGM), a new class of discrete diffusion models, to obtain new samples from a distribution given samples from a discrete space. GGM deploys a discrete Markov chain called the heat bath dynamics (or the Glauber dynamics) to denoise a sequence of noisy tokens to a sample from a joint distribution of discrete tokens. Our novel conceptual framework provides an exact reduction of the task of learning the denoising Markov chain to solving a class of binary classification tasks. More specifically, the model learns to classify a given token in a noisy sequence as signal or noise. In contrast, prior works on discrete diffusion models either solve regression problems to learn importance ratios, or minimize loss functions given by variational approximations. We apply GGM to language modeling and image generation, where images are discretized using image tokenizers like VQGANs. We show that it outperforms existing discrete diffusion models in language generation, and demonstrates strong performance for image generation without using dataset-specific image tokenizers. We also show that our model is capable of performing well in zero-shot control settings like text and image infilling. | 翻訳日:2024-08-28 19:19:38 公開日:2024-08-27 |
# Jump-Teaching: ノイズラベルによる超効率的かつロバストな学習
Jump-teaching: Ultra Efficient and Robust Learning with Noisy Label ( http://arxiv.org/abs/2405.17137v4 ) ライセンス: Link先を確認 | Kangye Ji, Fei Cheng, Zeqing Wang, Bohu Huang, | (参考訳) サンプル選択はラベルノイズに対処する最も簡単な手法であり、トレーニング中に誤ラベル付きサンプルを識別し、モデルの堅牢性の低下を避けることを目的としている。
ワークフローでは、$\textit{selecting potentially clean data}$と$\textit{model update}$が反復的である。
しかし、それらの相互作用と本質的な特徴は、ノイズラベルによる学習の堅牢性と効率を損なう。
1) モデルが選択バイアスでクリーンなデータを選択し, モデル更新におけるエラーの蓄積につながる。
2)ほとんどの選択戦略はパートナーネットワークや補助情報を利用してラベルの破損を軽減し,計算資源の増大とスループットの低下を図っている。
そこで我々は,ジャンプ方式の更新を施した1つのネットワークのみを用いて,対話を分離し,より正確な選択のために,損失からより多くの意味情報をマイニングする。
具体的には、各モデル更新のためのクリーンなデータの選択は、前回のイテレーションを除いて、前のモデルの1つに基づいています。
モデル更新の戦略は、フォームでジャンプ動作を示す。
さらに,ネットワークとラベルの出力をそれぞれ同じ意味的特徴空間にマッピングする。
この空間では、より効果的にクリーンサンプルを識別するために、詳細で単純な損失分布が生成される。
提案手法は,ピークメモリフットプリントを最大2.53\times$スピードアップ,0.46\times$ピークメモリフットプリントを実現し,各種ノイズ設定による最先端作業よりも優れたロバスト性を実現する。
Sample selection is the most straightforward technique to combat label noise, aiming to distinguish mislabeled samples during training and avoid the degradation of the robustness of the model. In the workflow, $\textit{selecting possibly clean data}$ and $\textit{model update}$ are iterative. However, their interplay and intrinsic characteristics hinder the robustness and efficiency of learning with noisy labels: 1) The model chooses clean data with selection bias, leading to the accumulated error in the model update. 2) Most selection strategies leverage partner networks or supplementary information to mitigate label corruption, albeit with increased computation resources and lower throughput speed. Therefore, we employ only one network with the jump manner update to decouple the interplay and mine more semantic information from the loss for a more precise selection. Specifically, the selection of clean data for each model update is based on one of the prior models, excluding the last iteration. The strategy of model update exhibits a jump behavior in the form. Moreover, we map the outputs of the network and labels into the same semantic feature space, respectively. In this space, a detailed and simple loss distribution is generated to distinguish clean samples more effectively. Our proposed approach achieves almost up to $2.53\times$ speedup, $0.46\times$ peak memory footprint, and superior robustness over state-of-the-art works with various noise settings. | 翻訳日:2024-08-28 19:19:38 公開日:2024-08-27 |
# コンフォーマルデプレッション予測
Conformal Depression Prediction ( http://arxiv.org/abs/2405.18723v3 ) ライセンス: Link先を確認 | Yonghong Li, Xiuzhuang Zhou, | (参考訳) 深層学習に基づく既存の抑うつ予測手法は将来性を示すが、それらの実践的応用は信頼性の欠如によって妨げられている。
うつ病予測のようなリスクの高い臨床応用では、不確実性定量化は意思決定に不可欠である。
本稿では,共形予測(CP)に基づく不確定な量化を伴う抑うつ予測手法である共形抑うつ予測(CDP)を導入する。
CDPはプラグ・アンド・プレイのモジュールで、モデルの再トレーニングも、うつ病データ分布の仮定も必要としない。
CDPは、入力毎の性能保証よりも、全ての入力に対する平均カバレッジ保証しか提供しないため、近似条件付き共形予測であるCDP-ACCも提案する。
CDP-ACCは、まず、近傍緩和により予測分布を推定し、次に、特定の入力に適応したより厳密な予測間隔を提供するために、ネストシーケンスを構成することで、共形スコア関数を導入する。
AVEC 2013 と AVEC 2014 データセットに対する CDP-ACC の有効性と優位性を実証的に示す。
私たちのコードはhttps://github.com/PushineLee/CDP.comで公開されています。
While existing depression prediction methods based on deep learning show promise, their practical application is hindered by the lack of trustworthiness, as these deep models are often deployed as black box models, leaving us uncertain on the confidence of their predictions. For high-risk clinical applications like depression prediction, uncertainty quantification is essential in decision-making. In this paper, we introduce conformal depression prediction (CDP), a depression prediction method with uncertainty quantification based on conformal prediction (CP), giving valid confidence intervals with theoretical coverage guarantees for the model predictions. CDP is a plug-and-play module that requires neither model retraining nor an assumption about the depression data distribution. As CDP provides only an average coverage guarantee across all inputs rather than per-input performance guarantee, we further propose CDP-ACC, an improved conformal prediction with approximate conditional coverage. CDP-ACC firstly estimates the prediction distribution through neighborhood relaxation, and then introduces a conformal score function by constructing nested sequences, so as to provide a tighter prediction interval adaptive to specific input. We empirically demonstrate the application of CDP in uncertainty-aware facial depression prediction, as well as the effectiveness and superiority of CDP-ACC on the AVEC 2013 and AVEC 2014 datasets. Our code is publicly available at https://github.com/PushineLee/CDP. | 翻訳日:2024-08-28 19:09:27 公開日:2024-08-27 |
# 能動学習とモデル選択の相乗化による対人テスト時間適応の探索
Exploring Human-in-the-Loop Test-Time Adaptation by Synergizing Active Learning and Model Selection ( http://arxiv.org/abs/2405.18911v2 ) ライセンス: Link先を確認 | Yushu Li, Yongyi Su, Xulei Yang, Kui Jia, Xun Xu, | (参考訳) 既存のテスト時間適応(TTA)アプローチは、ラベルのないテストデータストリームでモデルに適応することが多い。
近年の研究では,Human-In-the-Loop Test-Time Adaptation (HILTTA)と呼ばれる,限定的な人間のアノテーションを導入することで,仮説を緩和した。
既存のHILTTA研究の焦点は、最も情報に富むサンプル、すなわちアクティブラーニングの選択にある。
本研究では,TTAの落とし穴,すなわちハイパーパラメータに対する感受性に動機付けられ,能動的学習とモデル選択の相乗化によってHILTTAにアプローチすることを提案する。
具体的には、まず人間のアノテーション(能動的学習)のサンプルを選択し、次にラベル付きデータを用いて最適なハイパーパラメータ(モデル選択)を選択する。
モデル選択プロセスが局所分布に過度に適合するのを防止するため,複数の正則化手法を用いて検証対象を補完する。
アクティブラーニングとモデル選択の目的とのバランスを考慮し、サンプル選択戦略をさらに調整する。
提案手法は市販のTTA手法と互換性があり,その組み合わせは最先端のHILTTA手法よりも大幅に優れていることを示す。
重要な点として,本提案手法は,市販のTTA方式で常に最悪の過度パラメータの選択を防止できる。
ソースコードは公開時に公開される。
Existing test-time adaptation (TTA) approaches often adapt models with the unlabeled testing data stream. A recent attempt relaxed the assumption by introducing limited human annotation, referred to as Human-In-the-Loop Test-Time Adaptation (HILTTA) in this study. The focus of existing HILTTA studies lies in selecting the most informative samples to label, a.k.a. active learning. In this work, we are motivated by a pitfall of TTA, i.e. sensitivity to hyper-parameters, and propose to approach HILTTA by synergizing active learning and model selection. Specifically, we first select samples for human annotation (active learning) and then use the labeled data to select optimal hyper-parameters (model selection). To prevent the model selection process from overfitting to local distributions, multiple regularization techniques are employed to complement the validation objective. A sample selection strategy is further tailored by considering the balance between active learning and model selection purposes. We demonstrate on 5 TTA datasets that the proposed HILTTA approach is compatible with off-the-shelf TTA methods and such combinations substantially outperform the state-of-the-art HILTTA methods. Importantly, our proposed method can always prevent choosing the worst hyper-parameters on all off-the-shelf TTA methods. The source code will be released upon publication. | 翻訳日:2024-08-28 19:09:27 公開日:2024-08-27 |
# 空間データ知能基礎モデルに関する研究
Research on the Spatial Data Intelligent Foundation Model ( http://arxiv.org/abs/2405.19730v4 ) ライセンス: Link先を確認 | Shaohua Wang, Xing Xie, Yong Li, Danhuai Guo, Zhi Cai, Yu Liu, Yang Yue, Xiao Pan, Feng Lu, Huayi Wu, Zhipeng Gui, Zhiming Ding, Bolong Zheng, Fuzheng Zhang, Jingyuan Wang, Zhengchao Chen, Hao Lu, Jiayi Li, Peng Yue, Wenhao Yu, Yao Yao, Leilei Sun, Yong Zhang, Longbiao Chen, Xiaoping Du, Xiang Li, Xueying Zhang, Kun Qin, Zhaoya Gong, Weihua Dong, Xiaofeng Meng, | (参考訳) 本報告では、これらのモデルの原理、手法、最先端の応用を探求する、空間データインテリジェントな大規模モデルに焦点を当てる。
これは、空間データインテリジェントな大規模モデルの定義、開発履歴、現状、トレンド、そしてそれらが直面する課題について、詳細な議論を提供する。
本報告では, 都市環境, 航空宇宙リモートセンシング, 地理, 交通, その他のシナリオにおける空間データ知能大規模モデルの重要技術とその応用を体系的に解明する。
さらに,都市開発,マルチモーダルシステム,リモートセンシング,スマートトランスポート,資源環境といったテーマにおける空間データインテリジェントな大規模モデルの適用事例をまとめた。
最後に、このレポートは、空間データインテリジェントな大規模モデルの開発展望の概要と展望をまとめて締めくくっている。
This report focuses on spatial data intelligent large models, delving into the principles, methods, and cutting-edge applications of these models. It provides an in-depth discussion on the definition, development history, current status, and trends of spatial data intelligent large models, as well as the challenges they face. The report systematically elucidates the key technologies of spatial data intelligent large models and their applications in urban environments, aerospace remote sensing, geography, transportation, and other scenarios. Additionally, it summarizes the latest application cases of spatial data intelligent large models in themes such as urban development, multimodal systems, remote sensing, smart transportation, and resource environments. Finally, the report concludes with an overview and outlook on the development prospects of spatial data intelligent large models. | 翻訳日:2024-08-28 19:09:27 公開日:2024-08-27 |
# 多言語テキストスタイル変換:インド語のデータセットとモデル
Multilingual Text Style Transfer: Datasets & Models for Indian Languages ( http://arxiv.org/abs/2405.20805v3 ) ライセンス: Link先を確認 | Sourabrata Mukherjee, Atul Kr. Ojha, Akanksha Bansal, Deepak Alok, John P. McCrae, Ondřej Dušek, | (参考訳) テキストスタイル転送(TST)は、中核コンテンツを保持しながら、テキストの言語スタイルを変更することを含む。
本稿では,ヒンディー語,マガヒ語,マラヤラム語,マラタイ語,パンジャービ語,オディア語,テルグ語,ウルドゥー語などのインド諸言語における感情伝達について述べる。
これらの8言語それぞれに対して、1000の正と1000の負のスタイルパラレル文からなる専用データセットを導入する。
次に,Llama2およびGPT-3.5大言語モデル(LLM)を含む並列,非並列,クロスランガル,共有学習アプローチに分類した各種ベンチマークモデルの性能評価を行った。
実験では,TSTにおける並列データの重要性を強調し,非並列手法におけるMasked Style Filling(MSF)アプローチ(Mukherjee et al , 2023)の有効性を実証した。
さらに、言語横断学習と共同学習は有望であり、特定の言語やタスク要求に合わせて最適なモデルを選択するための洞察を提供する。
我々の知る限りでは、この研究はTSTタスクを様々な言語にまたがる感情伝達として包括的に調査した初めての例である。
Text style transfer (TST) involves altering the linguistic style of a text while preserving its core content. This paper focuses on sentiment transfer, a popular TST subtask, across a spectrum of Indian languages: Hindi, Magahi, Malayalam, Marathi, Punjabi, Odia, Telugu, and Urdu, expanding upon previous work on English-Bangla sentiment transfer (Mukherjee et al., 2023). We introduce dedicated datasets of 1,000 positive and 1,000 negative style-parallel sentences for each of these eight languages. We then evaluate the performance of various benchmark models categorized into parallel, non-parallel, cross-lingual, and shared learning approaches, including the Llama2 and GPT-3.5 large language models (LLMs). Our experiments highlight the significance of parallel data in TST and demonstrate the effectiveness of the Masked Style Filling (MSF) approach (Mukherjee et al., 2023) in non-parallel techniques. Moreover, cross-lingual and joint multilingual learning methods show promise, offering insights into selecting optimal models tailored to the specific language and task requirements. To the best of our knowledge, this work represents the first comprehensive exploration of the TST task as sentiment transfer across a diverse set of languages. | 翻訳日:2024-08-28 19:09:27 公開日:2024-08-27 |
# メディアパイプと畳み込みニューラルネットワーク(CNN)による手話検出の強化
Enhancing Sign Language Detection through Mediapipe and Convolutional Neural Networks (CNN) ( http://arxiv.org/abs/2406.03729v2 ) ライセンス: Link先を確認 | Aditya Raj Verma, Gagandeep Singh, Karnim Meghwal, Banawath Ramji, Praveen Kumar Dadheech, | (参考訳) 本研究ではMediaPipeとCNNを組み合わせて,手話のリアルタイム検出のためのASLデータセットの効率的かつ正確な解釈を行う。
ここで提示されたシステムは、リアルタイムで手の動きをキャプチャして処理する。
目的は、何かに触れる必要なく、非常に簡単で正確で高速なコマンド入力方法を作ることであった。MediaPipeは、リアルタイムハンドトラッキング機能において強力なフレームワークの1つをサポートし、手の動きをキャプチャし、前処理することが可能で、ジェスチャー認識システムの精度が向上する。
実際、CNNとMediaPipeの統合により、リアルタイム処理モデルの使用効率が向上し、ASLデータセット上でのモデルによる精度は99.12\%となる。
このモデルはAmerican Sign Language (ASL)データセットを用いてテストされた。
その結果,確立した評価手法を用いて,既存の評価手法と比較した。
このシステムは、コミュニケーション、教育、アクセシビリティードメインに応用される。
この論文で述べられているようなシステムの構築は、聴力障害のある人々を支援し、それらにアクセスできるようにする。
ASLデータセットの認識と翻訳性能を検証し,メディアパイプとCNNを用いて,アメリカの標識がWebカメラから撮影した手画像を用いて認識する文字を特定することを目的とした。
This research combines MediaPipe and CNNs for the efficient and accurate interpretation of ASL dataset for the real-time detection of sign language. The system presented here captures and processes hands' gestures in real time. the intended purpose was to create a very easy, accurate, and fast way of entering commands without the necessity of touching something.MediaPipe supports one of the powerful frameworks in real-time hand tracking capabilities for the ability to capture and preprocess hand movements, which increases the accuracy of the gesture recognition system. Actually, the integration of CNN with the MediaPipe results in higher efficiency in using the model of real-time processing.The accuracy achieved by the model on ASL datasets is 99.12\%.The model was tested using American Sign Language (ASL) datasets. The results were then compared to those of existing methods to evaluate how well it performed, using established evaluation techniques. The system will have applications in the communication, education, and accessibility domains. Making systems such as described in this paper even better will assist people with hearing impairment and make things accessible to them. We tested the recognition and translation performance on an ASL dataset and achieved better accuracy over previous models.It is meant to the research is to identify the characters that American signs recognize using hand images taken from a web camera by based on mediapipe and CNNs | 翻訳日:2024-08-28 19:09:27 公開日:2024-08-27 |
# 大規模言語モデルは本当にテキストスタイルの転送が得意か?
Are Large Language Models Actually Good at Text Style Transfer? ( http://arxiv.org/abs/2406.05885v2 ) ライセンス: Link先を確認 | Sourabrata Mukherjee, Atul Kr. Ojha, Ondřej Dušek, | (参考訳) テキストスタイル転送(TST)における大規模言語モデル(LLM)の性能を解析し、特に3言語(英語、ヒンディー語、ベンガル語)の感情伝達とテキストデトキシ化に着目した。
テキストスタイル転送は、中核的な内容を保持しながら、テキストの言語スタイルを変更することを含む。
我々は、ゼロショットと少数ショットのプロンプトと、公開されているデータセットに対するパラメータ効率の微調整を用いて、事前訓練されたLLMの能力を評価する。
自動測定, GPT-4, 人体評価を用いて評価した結果, LLMは英語でよく機能するものもあるが, 他の言語(ヒンディー語, ベンガル語)での性能は依然として平均的であることがわかった。
しかし、ファインタニングはゼロショットや少数ショットのプロンプトに比べて結果が大幅に改善され、従来の最先端に匹敵する。
このことは、効率的なTSTのための専用のデータセットと特別なモデルの必要性を浮き彫りにしている。
We analyze the performance of large language models (LLMs) on Text Style Transfer (TST), specifically focusing on sentiment transfer and text detoxification across three languages: English, Hindi, and Bengali. Text Style Transfer involves modifying the linguistic style of a text while preserving its core content. We evaluate the capabilities of pre-trained LLMs using zero-shot and few-shot prompting as well as parameter-efficient finetuning on publicly available datasets. Our evaluation using automatic metrics, GPT-4 and human evaluations reveals that while some prompted LLMs perform well in English, their performance in on other languages (Hindi, Bengali) remains average. However, finetuning significantly improves results compared to zero-shot and few-shot prompting, making them comparable to previous state-of-the-art. This underscores the necessity of dedicated datasets and specialized models for effective TST. | 翻訳日:2024-08-28 19:09:27 公開日:2024-08-27 |
# Kerr系におけるノイズと非線形性の合同推定
Joint estimation of noise and nonlinearity in Kerr systems ( http://arxiv.org/abs/2406.10226v2 ) ライセンス: Link先を確認 | Michele N. Notarnicola, Stefano Olivares, Matteo G. A. Paris, | (参考訳) 我々は、コヒーレントプローブを用いたセルフケラー相互作用の存在下での損失チャネルと劣化チャネルのキャラクタリゼーションに対処する。
特に,損失・非線形性の合同推定における精度の究極的限界と,劣化・非線形性について検討する。
この目的のために、量子フィッシャー情報行列(QFIM)を評価し、対称量子Cram\'er-Rao境界(QCR)と、実現可能な量子測定のフィッシャー情報行列(FIM)、すなわちホモダインおよびダブルホモジン検出のバウンドと比較する。
損失Kerrチャネルの場合, 損失特性はKerr非線形性の存在, 特に小さな損失と低い入力エネルギーの関連限界において向上する一方, 損失の有無によって非線形性自体が必然的に劣化することを示す。
低エネルギー状態において、適切に最適化された二次構造のホモダイン検出は、ほぼ最適な測定値である。
ウルマン曲率(英語版)は消滅しないので、損失と非線形性は内在的な量子ノイズを加えることで、共同で推定できる。
カーチャネルを劣化させるためには、2つのパラメータのQFIは非線形性とは独立であり、拡張は観測されない。
ホモダインおよびダブルホモダイン検出は、デファス化の推定に最適であり、非線形性にはほぼ最適である。
また、この場合、ウルマン曲率はゼロではないので、パラメータが最大精度で共同で推定できないことが証明される。
We address characterization of lossy and dephasing channels in the presence of self-Kerr interaction using coherent probes. In particular, we investigate the ultimate bounds to precision in the joint estimation of loss and nonlinearity and of dephasing and nonlinearity. To this aim, we evaluate the quantum Fisher information matrix (QFIM), and compare the symmetric quantum Cram\'er-Rao bound (QCR) to the bound obtained with Fisher information matrix (FIM) of feasible quantum measurements, i.e., homodyne and double-homodyne detection. For lossy Kerr channels, our results show the loss characterization is enhanced in the presence of Kerr nonlinearity, especially in the relevant limit of small losses and low input energy, whereas the estimation of nonlinearity itself is unavoidably degraded by the presence of loss. In the low energy regime, homodyne detection of a suitably optimized quadrature represents a nearly optimal measurement. The Uhlmann curvature does not vanish, therefore loss and nonlinearity can be jointly estimated only with the addition of intrinsic quantum noise. For dephasing Kerr channels, the QFIs of the two parameters are independent of the nonlinearity, and therefore no enhancement is observed. Homodyne and double-homodyne detection are suboptimal for the estimation of dephasing and nearly optimal for nonlinearity. Also in this case, the Uhlmann curvature is nonzero, proving that the parameters cannot be jointly estimated with maximum precision. | 翻訳日:2024-08-28 19:09:27 公開日:2024-08-27 |
# LLMを用いた分類誘導ゼロショット勧告
Taxonomy-Guided Zero-Shot Recommendations with LLMs ( http://arxiv.org/abs/2406.14043v2 ) ライセンス: Link先を確認 | Yueqing Liang, Liangwei Yang, Chen Wang, Xiongxiao Xu, Philip S. Yu, Kai Shu, | (参考訳) 大規模言語モデル(LLM)が出現し、様々なタスクを実行できるようになり、レコメンデータシステム(RecSys)での応用が約束されている。
しかし、LLMをRecSysにデプロイする際には、制限されたプロンプト長、構造化されていないアイテム情報、制約のないレコメンデーションの生成など、重大な課題に直面しており、それによってサブ最適性能がもたらされる。
これらの問題に対処するために,分類辞書を用いた新しい手法を提案する。
項目の分類と整理を行うための体系的な枠組みを提供し、項目情報の明確さと構造を改善する。
分類辞書をLSMプロンプトに組み込むことで,効率的なトークン利用と制御された特徴生成を実現し,より正確で文脈的に関係のあるレコメンデーションを実現する。
分類誘導勧告 (TaxRec) アプローチでは, ドメイン固有の微調整を必要とせず, ゼロショットレコメンデーションを可能にする一段階の分類分類分類とLCMに基づくレコメンデーションという2段階のプロセスが特徴である。
実験の結果,TaxRecは従来のゼロショットアプローチと比較してリコメンデーション品質を著しく向上させ,LLMを用いた個人レコメンデーションとしての有効性を示した。
コードはhttps://github.com/yueqingliang1/TaxRec.comで入手できる。
With the emergence of large language models (LLMs) and their ability to perform a variety of tasks, their application in recommender systems (RecSys) has shown promise. However, we are facing significant challenges when deploying LLMs into RecSys, such as limited prompt length, unstructured item information, and un-constrained generation of recommendations, leading to sub-optimal performance. To address these issues, we propose a novel method using a taxonomy dictionary. This method provides a systematic framework for categorizing and organizing items, improving the clarity and structure of item information. By incorporating the taxonomy dictionary into LLM prompts, we achieve efficient token utilization and controlled feature generation, leading to more accurate and contextually relevant recommendations. Our Taxonomy-guided Recommendation (TaxRec) approach features a two-step process: one-time taxonomy categorization and LLM-based recommendation, enabling zero-shot recommendations without the need for domain-specific fine-tuning. Experimental results demonstrate TaxRec significantly enhances recommendation quality compared to traditional zero-shot approaches, showcasing its efficacy as personal recommender with LLMs. Code is available at https://github.com/yueqingliang1/TaxRec. | 翻訳日:2024-08-28 19:09:27 公開日:2024-08-27 |
# リスク回避によるマルコフゲームにおけるトラクタブル平衡計算
Tractable Equilibrium Computation in Markov Games through Risk Aversion ( http://arxiv.org/abs/2406.14156v2 ) ライセンス: Link先を確認 | Eric Mazumdar, Kishan Panaganti, Laixi Shi, | (参考訳) 原理化されたマルチエージェント強化学習の発展への重要な障害は、ナッシュ平衡のような望まれる解の概念が計算しやすくなるという事実である。
この障害を克服するために、行動経済学からインスピレーションを得て、リスク回避や有界合理性といった人間の意思決定の重要な特徴を持つエージェントを入力することで、リスク逆量子応答平衡(RQE)のクラスが、すべての$n$プレーヤ行列と有限ホリゾンマルコフゲームで計算可能であることを示す。
特に,ゲームに適度に調整されたバージョンにおいて,ノンレグレット学習の終点として現れることを示す。
重要なことに、計算的に抽出可能なRQEのクラスは、基礎となるゲーム構造とは独立であり、エージェントのリスク回避と有界有理性(bounded rationality)の度合いにのみ依存する。
このクラスのソリューション概念の豊かさを検証するために、実験経済学で以前に研究されていた2人プレイマトリクスゲームにおいて、人々の遊びのパターンを捉えていることを示す。
さらに、有限水平マルコフゲームにおいて、これらの平衡を計算する際のサンプルの複雑さを、生成モデルにアクセスできる場合に初めて解析し、単純なマルチエージェント強化学習ベンチマークで結果を検証する。
A significant roadblock to the development of principled multi-agent reinforcement learning is the fact that desired solution concepts like Nash equilibria may be intractable to compute. To overcome this obstacle, we take inspiration from behavioral economics and show that -- by imbuing agents with important features of human decision-making like risk aversion and bounded rationality -- a class of risk-averse quantal response equilibria (RQE) become tractable to compute in all $n$-player matrix and finite-horizon Markov games. In particular, we show that they emerge as the endpoint of no-regret learning in suitably adjusted versions of the games. Crucially, the class of computationally tractable RQE is independent of the underlying game structure and only depends on agents' degree of risk-aversion and bounded rationality. To validate the richness of this class of solution concepts we show that it captures peoples' patterns of play in a number of 2-player matrix games previously studied in experimental economics. Furthermore, we give a first analysis of the sample complexity of computing these equilibria in finite-horizon Markov games when one has access to a generative model and validate our findings on a simple multi-agent reinforcement learning benchmark. | 翻訳日:2024-08-28 19:09:27 公開日:2024-08-27 |
# ニューラルネットの解き放つニュートン法について
On Newton's Method to Unlearn Neural Networks ( http://arxiv.org/abs/2406.14507v2 ) ライセンス: Link先を確認 | Nhung Bui, Xinyang Lu, Rachael Hwee Ling Sim, See-Kiong Ng, Bryan Kian Hsiang Low, | (参考訳) パーソナルデータに基づいてトレーニングされたニューラルネットワーク(NN)の広範な応用により、個人が個人データの所有権、特にトレーニングされたNNから「忘れられる権利」を行使できるようにするために、機械学習がますます重要になっている。
リトレーニングは計算コストがかかるので、同じモデルを再学習したオラクルに返すNNのための近似的アンラーニングアルゴリズムを求める。
ニュートンの手法は、ほとんど未学習の線形モデルにうまく使われてきたが、ニュートンの更新を計算不能にする退化ヘッセンにより、NNに適応することは困難である。
さらに、一般的な手法と組み合わせてデジェネリティーを解決する場合、ニュートンの手法は攻撃的に大きな規範更新を引き起こし、学習後のモデル性能を実証的に劣化させる。
これらの課題に対処するために、ヘッセンの縮退を効果的に扱うために立方正則化を利用する原理的アプローチであるCureNewton法を提案する。
追加された正規化器は、手作業による微調整の必要性を排除し、未学習のコンテキスト内で自然な解釈を提供する。
異なるモデルとデータセットをまたいだ実験により、我々の手法は、理論上は正当化され、実行時に効率的でありながら、実際の未学習環境で最先端のアルゴリズムと競合する未学習のパフォーマンスを達成できることが示される。
With the widespread applications of neural networks (NNs) trained on personal data, machine unlearning has become increasingly important for enabling individuals to exercise their personal data ownership, particularly the "right to be forgotten" from trained NNs. Since retraining is computationally expensive, we seek approximate unlearning algorithms for NNs that return identical models to the retrained oracle. While Newton's method has been successfully used to approximately unlearn linear models, we observe that adapting it for NN is challenging due to degenerate Hessians that make computing Newton's update impossible. Additionally, we show that when coupled with popular techniques to resolve the degeneracy, Newton's method often incurs offensively large norm updates and empirically degrades model performance post-unlearning. To address these challenges, we propose CureNewton's method, a principle approach that leverages cubic regularization to handle the Hessian degeneracy effectively. The added regularizer eliminates the need for manual finetuning and affords a natural interpretation within the unlearning context. Experiments across different models and datasets show that our method can achieve competitive unlearning performance to the state-of-the-art algorithm in practical unlearning settings, while being theoretically justified and efficient in running time. | 翻訳日:2024-08-28 19:09:27 公開日:2024-08-27 |
# Dr.Eは、単語を通して大きな言語モデルでグラフをブリッジする
Dr.E Bridges Graphs with Large Language Models through Words ( http://arxiv.org/abs/2406.15504v2 ) ライセンス: Link先を確認 | Zipeng Liu, Likang Wu, Ming He, Zhong Guan, Hongke Zhao, Nan Feng, | (参考訳) 強力なLarge Language Models(LLM)を様々なモダリティと統合すること、特に言語、ビジョン、オーディオデータの融合に重点を置いている。
しかし、本来は構造やドメイン固有の知識に富んでいるグラフ構造化データは、まだLLMに優雅に適応していない。
既存の手法では、グラフを生のテキストで記述し、グラフ構造情報の喪失に苦しむか、説明可能なプロンプトセマンティクスを失うコストでLLMにグラフニューラルネットワーク(GNN)を埋め込むかのいずれかである。
このギャップを埋めるために、LLMグラフアライメントのためのエンドツーエンドのモダリティアライメントフレームワーク、Dr.Eを導入する。
提案手法は LLM とのトークンレベルアライメントを容易にするために設計されており,グラフの内在的な '言語' を理解可能な自然言語に効果的に翻訳することを可能にする。
また,LLMのグラフに対するより堅牢な構造的理解を,周囲のノードを様々な距離で複数のビューに組み込むことで強化する。
標準的なグラフタスクに対する実験的な評価は、他のSOTA(State-of-the-art)アプローチと競合する性能を示す。
さらに,LLMとGNN間のトークンレベルのアライメントを実現するための,将来有望な取り組みとして,視覚的解釈可能性,効率性,堅牢性を保証する。
私たちのコードは、https://anonymous.4open.science/r/dre-817で利用可能です。
Significant efforts have been dedicated to integrating the powerful Large Language Models (LLMs) with diverse modalities, particularly focusing on the fusion of language, vision and audio data. However, the graph-structured data, which is inherently rich in structural and domain-specific knowledge, has not yet been gracefully adapted to LLMs. Existing methods either describe the graph with raw text, suffering the loss of graph structural information, or feed Graph Neural Network (GNN) embeddings into LLMs at the cost of losing explainable prompt semantics. To bridge this gap, we introduce an end-to-end modality-aligning framework for LLM-graph alignment: Dual-Residual Vector Quantized-Variational AutoEncoder, namely Dr.E. Our approach is purposefully designed to facilitate token-level alignment with LLMs, enabling an effective translation of the intrinsic `language' of graphs into comprehensible natural language. We also manage to enhance LLMs' more robust structural understanding of graphs by incorporating multiple views of the central nodes based on their surrounding nodes at various distances. Our experimental evaluations on standard graph tasks demonstrate competitive performance against other state-of-the-art (SOTA) approaches. Additionally, our framework ensures certain visual interpretability, efficiency, and robustness, marking the promising successful endeavor to achieve token-level alignment between LLMs and GNNs. Our code is available at: https://anonymous.4open.science/r/dre-817. | 翻訳日:2024-08-28 19:09:27 公開日:2024-08-27 |
# BayTTA:ベイズモデル平均化を用いたテスト時間拡張による不確かさを意識した医用画像分類
BayTTA: Uncertainty-aware medical image classification with optimized test-time augmentation using Bayesian model averaging ( http://arxiv.org/abs/2406.17640v2 ) ライセンス: Link先を確認 | Zeinab Sherkatghanad, Moloud Abdar, Mohammadreza Bakhtyari, Pawel Plawiak, Vladimir Makarenkov, | (参考訳) TTA(Test-time Augmentation)は、コンピュータビジョンタスクのテストフェーズでよく使われるテクニックである。
入力データの複数の拡張バージョンを集約する。
単純な平均定式化を用いた予測の組み合わせは、TTAの実行後、一般的で簡単なアプローチである。
本稿では,ベイズモデル平均化(BMA)に基づく,ベイズベースTTA(Bayesian-based TTA)と呼ばれる,TTAを最適化するための新しいフレームワークを提案する。
まず、TTAによって生成された入力データの様々なバリエーションに関連する予測リストを生成する。
次に,BMAを用いて,各後部確率の重み付けした予測を組み合わせる。
このようなアプローチにより、モデルの不確実性を考慮して、関連する機械学習やディープラーニングモデルの予測性能を高めることができる。
皮膚癌,乳癌,胸部X線画像を含む3つの医用画像データセットと,CRISPORとGUIDE-seqの2つの有名な遺伝子編集データセットを含む,各種公開データを用いたBayTTAの性能評価を行った。
VGG-16, MobileNetV2, DenseNet201, ResNet152V2, InceptionRes-NetV2などのCNNモデルにBayTTAを組み込むことで, 精度と堅牢性の向上が期待できる。
提案された BayTTA メソッドのソースコードは、次のように自由に入手できる。
Test-time augmentation (TTA) is a well-known technique employed during the testing phase of computer vision tasks. It involves aggregating multiple augmented versions of input data. Combining predictions using a simple average formulation is a common and straightforward approach after performing TTA. This paper introduces a novel framework for optimizing TTA, called BayTTA (Bayesian-based TTA), which is based on Bayesian Model Averaging (BMA). First, we generate a prediction list associated with different variations of the input data created through TTA. Then, we use BMA to combine predictions weighted by the respective posterior probabilities. Such an approach allows one to take into account model uncertainty, and thus to enhance the predictive performance of the related machine learning or deep learning model. We evaluate the performance of BayTTA on various public data, including three medical image datasets comprising skin cancer, breast cancer, and chest X-ray images and two well-known gene editing datasets, CRISPOR and GUIDE-seq. Our experimental results indicate that BayTTA can be effectively integrated into state-of-the-art deep learning models used in medical image analysis as well as into some popular pre-trained CNN models such as VGG-16, MobileNetV2, DenseNet201, ResNet152V2, and InceptionRes-NetV2, leading to the enhancement in their accuracy and robustness performance. The source code of the proposed BayTTA method is freely available at: \underline {https://github.com/Z-Sherkat/BayTTA}. | 翻訳日:2024-08-28 19:09:27 公開日:2024-08-27 |
# AlphaForge: フォーミュラ的なアルファファクタのマイニングと動的結合のためのフレームワーク
AlphaForge: A Framework to Mine and Dynamically Combine Formulaic Alpha Factors ( http://arxiv.org/abs/2406.18394v3 ) ライセンス: Link先を確認 | Hao Shi, Weili Song, Xinting Zhang, Jiahe Shi, Cuicui Luo, Xiang Ao, Hamid Arian, Luis Seco, | (参考訳) 金融データの複雑さは、その変動性と低信号-雑音比を特徴とし、性能と解釈性の両方を優先する量的投資の先進的な手法を必要としており、早期手動抽出から遺伝的プログラミングへの移行により、アルファファクターマイニング領域における最も先進的なアプローチは、現在、一連の組み合わせ因子を固定重量でマイニングするために強化学習を採用している。
しかし、結果として得られるアルファ因子のパフォーマンスは不整合を示し、固定因子重みの柔軟性は金融市場のダイナミックな性質に適応するには不十分である。
そこで本研究では,α因子マイニングと因子結合のための2段階式アルファ生成フレームワークAlphaForgeを提案する。
このフレームワークは、生成予測ニューラルネットワークを使用して要素を生成し、多様性を同時に保存しながら、ディープラーニングに固有の堅牢な空間探索能力を活用する。
フレームワーク内の組み合わせモデルは、選択のための要因の時間的性能を取り入れ、各成分のアルファ因子に割り当てられた重みを動的に調整する。
実世界のデータセットを用いて行った実験により,我々の提案したモデルは,定式的アルファファクターマイニングにおいて,同時代のベンチマークより優れていることが示された。
さらに,本モデルでは,量的投資とリアルマネー投資の領域内で,ポートフォリオリターンの顕著な向上を示す。
The complexity of financial data, characterized by its variability and low signal-to-noise ratio, necessitates advanced methods in quantitative investment that prioritize both performance and interpretability.Transitioning from early manual extraction to genetic programming, the most advanced approach in the alpha factor mining domain currently employs reinforcement learning to mine a set of combination factors with fixed weights. However, the performance of resultant alpha factors exhibits inconsistency, and the inflexibility of fixed factor weights proves insufficient in adapting to the dynamic nature of financial markets. To address this issue, this paper proposes a two-stage formulaic alpha generating framework AlphaForge, for alpha factor mining and factor combination. This framework employs a generative-predictive neural network to generate factors, leveraging the robust spatial exploration capabilities inherent in deep learning while concurrently preserving diversity. The combination model within the framework incorporates the temporal performance of factors for selection and dynamically adjusts the weights assigned to each component alpha factor. Experiments conducted on real-world datasets demonstrate that our proposed model outperforms contemporary benchmarks in formulaic alpha factor mining. Furthermore, our model exhibits a notable enhancement in portfolio returns within the realm of quantitative investment and real money investment. | 翻訳日:2024-08-28 18:59:20 公開日:2024-08-27 |
# DiffuseHigh: 構造誘導による無訓練プログレッシブ高分解能画像合成
DiffuseHigh: Training-free Progressive High-Resolution Image Synthesis through Structure Guidance ( http://arxiv.org/abs/2406.18459v5 ) ライセンス: Link先を確認 | Younghyun Kim, Geunmin Hwang, Junyu Zhang, Eunbyung Park, | (参考訳) テキストから画像への拡散モデルのような大規模生成モデルは、創造的で高忠実な画像生成のため、様々な領域で広く注目を集めている。
それにもかかわらず、既存の大規模拡散モデルは、1K解像度の画像を生成することに限られており、これは現代の商業的応用の要求を満たすには程遠い。
高解像度画像を直接サンプリングすると、オブジェクトの繰り返しや歪んだ形状といった成果物によってマージされることが多い。
上記の問題に対処するには、通常、高解像度データセットのトレーニングや微調整が必要になります。
しかし、これは大規模な高解像度画像とかなりの計算資源の収集が困難であるため、非常に難しい課題である。
以前のいくつかの作品では、面倒なトレーニングプロセスをバイパスする代替案が提案されているが、しばしば説得力のある結果が得られない。
本研究では,高分解能な拡散モデルの生成能力について検討し,生成した低分解能画像をフル活用して高分解能画像の生成を導く新しいプログレッシブアプローチを提案する。
本手法は,計算コストを大幅に削減する追加トレーニングや微調整の必要性を回避している。
その結果,本手法の有効性と有効性について検討した。
プロジェクトページ: https://yhyun225.github.io/DiffuseHigh/
Large-scale generative models, such as text-to-image diffusion models, have garnered widespread attention across diverse domains due to their creative and high-fidelity image generation. Nonetheless, existing large-scale diffusion models are confined to generating images of up to 1K resolution, which is far from meeting the demands of contemporary commercial applications. Directly sampling higher-resolution images often yields results marred by artifacts such as object repetition and distorted shapes. Addressing the aforementioned issues typically necessitates training or fine-tuning models on higher-resolution datasets. However, this poses a formidable challenge due to the difficulty in collecting large-scale high-resolution images and substantial computational resources. While several preceding works have proposed alternatives to bypass the cumbersome training process, they often fail to produce convincing results. In this work, we probe the generative ability of diffusion models at higher resolution beyond their original capability and propose a novel progressive approach that fully utilizes generated low-resolution images to guide the generation of higher-resolution images. Our method obviates the need for additional training or fine-tuning which significantly lowers the burden of computational costs. Extensive experiments and results validate the efficiency and efficacy of our method. Project page: https://yhyun225.github.io/DiffuseHigh/ | 翻訳日:2024-08-28 18:59:20 公開日:2024-08-27 |
# LLM4GEN:テキスト・画像生成のためのLLMのセマンティック表現の活用
LLM4GEN: Leveraging Semantic Representation of LLMs for Text-to-Image Generation ( http://arxiv.org/abs/2407.00737v2 ) ライセンス: Link先を確認 | Mushui Liu, Yuhang Ma, Yang Zhen, Jun Dan, Yunlong Yu, Zeng Zhao, Zhipeng Hu, Bai Liu, Changjie Fan, | (参考訳) 拡散モデルはテキスト・画像生成において大きな成功を収めている。
しかしながら、複数のオブジェクト、属性バインディング、長い記述を含む複雑で高密度なプロンプトを扱う場合、しばしば課題に遭遇する。
本稿では,大規模言語モデル(LLM)の表現を活用することで,テキストから画像への拡散モデルのセマンティック理解を深めるフレームワークである「textbf{LLM4GEN}」を提案する。
様々な拡散モデルにプラグイン・アンド・プレイコンポーネントとしてシームレスに組み込むことができる。
特別に設計されたクロスアダプタモジュール(CAM)は、テキスト・ツー・イメージ・モデルのオリジナルテキスト機能とLLM機能を統合することで、テキスト・ツー・イメージ・ジェネレーションを向上する。
さらに、テキストプロンプトにおけるエンティティ-属性関係を容易にし、補正するために、生成性能をさらに向上させるために、エンティティ-ガイダンス正則化損失を開発する。
また、DensePromptsを導入し、7000ドルの高密度なプロンプトを組み、テキスト・画像生成タスクの総合的な評価を提供する。
実験の結果、LSM4GENはSD1.5とSDXLのセマンティックアライメントを著しく改善し、それぞれT2I-CompBenchの色の9.69\%と12.90\%の増加を示すことが示された。
さらに、サンプル品質、画像テキストアライメント、人的評価の点で、既存のモデルを上回っている。
Diffusion models have exhibited substantial success in text-to-image generation. However, they often encounter challenges when dealing with complex and dense prompts involving multiple objects, attribute binding, and long descriptions. In this paper, we propose a novel framework called \textbf{LLM4GEN}, which enhances the semantic understanding of text-to-image diffusion models by leveraging the representation of Large Language Models (LLMs). It can be seamlessly incorporated into various diffusion models as a plug-and-play component. A specially designed Cross-Adapter Module (CAM) integrates the original text features of text-to-image models with LLM features, thereby enhancing text-to-image generation. Additionally, to facilitate and correct entity-attribute relationships in text prompts, we develop an entity-guided regularization loss to further improve generation performance. We also introduce DensePrompts, which contains $7,000$ dense prompts to provide a comprehensive evaluation for the text-to-image generation task. Experiments indicate that LLM4GEN significantly improves the semantic alignment of SD1.5 and SDXL, demonstrating increases of 9.69\% and 12.90\% in color on T2I-CompBench, respectively. Moreover, it surpasses existing models in terms of sample quality, image-text alignment, and human evaluation. | 翻訳日:2024-08-28 18:59:20 公開日:2024-08-27 |
# 言語モデルにおける推論強化のためのロジットコントラストを用いたチェーン・オブ・サートの拡張
Chain-of-Thought Augmentation with Logit Contrast for Enhanced Reasoning in Language Models ( http://arxiv.org/abs/2407.03600v2 ) ライセンス: Link先を確認 | Jay Shim, Grant Kruttschnitt, Alyssa Ma, Daniel Kim, Benjamin Chek, Athul Anand, Kevin Zhu, Sean O'Brien, | (参考訳) モデルスケールの急激な増加と、チェーン・オブ・ソート・プロンプトのようなステアリング手法が組み合わさって、言語モデル推論の大幅な改善につながった。
同時に、モデルは構成的一般化に苦しむが、多くの推論ベースのベンチマークでは人間のパフォーマンスには程遠い。
チェーン・オブ・シークレット・プロンプトの成功を生かし、文脈認識デコード(CAD)からインスピレーションを得て、インプットベースのコントラスト手法を探求し、チェーン・オブ・シークレット・プロンプトによって引き起こされる推論のタイプをさらに促進する。
データセットやモデル間でこれらの結果を安定化する作業は継続するが、文脈を考慮した推論のための入力ベースのステアリング手法に関するさらなる調査が保証されている。
Rapidly increasing model scales coupled with steering methods such as chain-of-thought prompting have led to drastic improvements in language model reasoning. At the same time, models struggle with compositional generalization and are far from human performance on many reasoning-based benchmarks. Leveraging the success of chain-of-thought prompting, and also taking inspiration from context-aware decoding (CAD), we explore input-based contrasting methods to further encourage the type of reasoning induced by chain-of-thought prompting. While work remains to stabilize these results across datasets and models, the improvements we find warrant further investigation into input-based steering methods for context-aware reasoning. | 翻訳日:2024-08-28 18:59:20 公開日:2024-08-27 |
# Breaking-Good: ビルド分析による依存関係更新のブレークスルー
Breaking-Good: Explaining Breaking Dependency Updates with Build Analysis ( http://arxiv.org/abs/2407.03880v2 ) ライセンス: Link先を確認 | Frank Reyes, Benoit Baudry, Martin Monperrus, | (参考訳) 依存関係の更新は、新しい依存関係バージョンが既存のクライアントコードと互換性のない変更を導入したときに、コンパイルエラーを引き起こすことが多い。
依存関係の更新を壊すことは、その根本原因が依存関係ツリーの奥深くに隠されるため、非常に難しい。
Breaking-Goodは、更新を壊すための説明を自動的に生成するツールです。
Breaking-Goodはコンパイルエラーの詳細な分類を提供し、直接および間接依存関係の変更、Javaバージョン間の非互換性、クライアント固有の設定に関連するいくつかの要因を特定する。
breaking-Goodは、ログと依存性ツリーのブレンド分析によって、ブレークスルー毎に詳細な説明を生成する。
これらの説明は、開発者はブレークスルーアップデートの原因を理解し、ブレークスルーを修正するためのアクションを提案するのに役立つ。
実世界の243件の依存性更新についてBreaking-Goodを評価した。
以上の結果から,Breaking-Goodは根本原因を正確に同定し,その70%の自動説明を生成することがわかった。
私たちのユーザ調査では、生成された説明が開発者の役に立つことが示されています。
Breaking-Goodは、依存関係の更新が原因を自動的に識別し、それに従って障害を説明する最初のテクニックである。
Dependency updates often cause compilation errors when new dependency versions introduce changes that are incompatible with existing client code. Fixing breaking dependency updates is notoriously hard, as their root cause can be hidden deep in the dependency tree. We present Breaking-Good, a tool that automatically generates explanations for breaking updates. Breaking-Good provides a detailed categorization of compilation errors, identifying several factors related to changes in direct and indirect dependencies, incompatibilities between Java versions, and client-specific configuration. With a blended analysis of log and dependency trees, Breaking-Good generates detailed explanations for each breaking update. These explanations help developers understand the causes of the breaking update, and suggest possible actions to fix the breakage. We evaluate Breaking-Good on 243 real-world breaking dependency updates. Our results indicate that Breaking-Good accurately identifies root causes and generates automatic explanations for 70% of these breaking updates. Our user study demonstrates that the generated explanations help developers. Breaking-Good is the first technique that automatically identifies causes of a breaking dependency update and explains the breakage accordingly. | 翻訳日:2024-08-28 18:59:20 公開日:2024-08-27 |
# 領域不変点クラウド認識のための3次元適応型構造畳み込みネットワーク
3D Adaptive Structural Convolution Network for Domain-Invariant Point Cloud Recognition ( http://arxiv.org/abs/2407.04833v3 ) ライセンス: Link先を確認 | Younggun Kim, Beomsik Cho, Seonghoon Ryoo, Soomok Lee, | (参考訳) 自動運転車のポイントクラウドデータ認識にディープラーニングネットワークを適用することは、データセットやセンサー技術の変化による課題に直面し、さまざまな条件で正確性を維持するための適応技術の必要性を強調している。
本稿では,3Dポイントクラウド認識のための最先端フレームワークである3D Adaptive Structure Convolution Network (3D-ASCN)を紹介する。
3次元畳み込みカーネル、構造木構造、および効果的な幾何学的特徴抽出のための適応近傍サンプリングを組み合わせる。
本手法はドメイン不変性を取得し,様々なポイントクラウドデータセット上で堅牢で適応可能な性能を示し,パラメータ調整を必要とせず,多様なセンサ構成間の互換性を確保する。
このことは、自動運転車技術の信頼性と効率を大幅に向上させる可能性を強調している。
Adapting deep learning networks for point cloud data recognition in self-driving vehicles faces challenges due to the variability in datasets and sensor technologies, emphasizing the need for adaptive techniques to maintain accuracy across different conditions. In this paper, we introduce the 3D Adaptive Structural Convolution Network (3D-ASCN), a cutting-edge framework for 3D point cloud recognition. It combines 3D convolution kernels, a structural tree structure, and adaptive neighborhood sampling for effective geometric feature extraction. This method obtains domain-invariant features and demonstrates robust, adaptable performance on a variety of point cloud datasets, ensuring compatibility across diverse sensor configurations without the need for parameter adjustments. This highlights its potential to significantly enhance the reliability and efficiency of self-driving vehicle technology. | 翻訳日:2024-08-28 18:59:20 公開日:2024-08-27 |
# TAPVid-3D: 任意の点を3Dで追跡するためのベンチマーク
TAPVid-3D: A Benchmark for Tracking Any Point in 3D ( http://arxiv.org/abs/2407.05921v2 ) ライセンス: Link先を確認 | Skanda Koppula, Ignacio Rocco, Yi Yang, Joe Heyward, João Carreira, Andrew Zisserman, Gabriel Brostow, Carl Doersch, | (参考訳) TAPVid-3Dは,3Dにおける長距離追跡任意の点(TAP-3D)の課題を評価するための新しいベンチマークである。
2次元の点追跡(TAP)は、TAPVid-DAVISのような実世界のビデオのパフォーマンスを計測する多くのベンチマークを持つが、3次元の点追跡は存在しない。
この目的のために、既存の映像を活用して、さまざまなオブジェクトタイプ、モーションパターン、屋内および屋外環境にまたがる3つの異なるデータソースからなる、4000以上の実世界のビデオを含む3Dポイントトラッキングのための新しいベンチマークを構築した。
TAP-3D タスクの性能を測定するために,TAP で使用される Jaccard ベースのメトリクスを拡張したメトリクスの集合を定式化し,モデル,オクルージョン,多トラック時空間のスムーズさといった不明瞭な深度スケールの複雑さに対処する。
トラジェクトリの大規模なサンプルを手動で検証し,既存の追跡モデルを用いて競合ベースラインを構築することにより,TAP-3Dタスクの現況を評価する。
我々は、このベンチマークが、モノクロビデオから正確な3次元の動きと表面の変形を理解する能力を改善するためのガイドポストになることを期待している。
データセットのダウンロード、生成、モデル評価のためのコードはhttps://tapvid3d.github.ioで公開されている。
We introduce a new benchmark, TAPVid-3D, for evaluating the task of long-range Tracking Any Point in 3D (TAP-3D). While point tracking in two dimensions (TAP) has many benchmarks measuring performance on real-world videos, such as TAPVid-DAVIS, three-dimensional point tracking has none. To this end, leveraging existing footage, we build a new benchmark for 3D point tracking featuring 4,000+ real-world videos, composed of three different data sources spanning a variety of object types, motion patterns, and indoor and outdoor environments. To measure performance on the TAP-3D task, we formulate a collection of metrics that extend the Jaccard-based metric used in TAP to handle the complexities of ambiguous depth scales across models, occlusions, and multi-track spatio-temporal smoothness. We manually verify a large sample of trajectories to ensure correct video annotations, and assess the current state of the TAP-3D task by constructing competitive baselines using existing tracking models. We anticipate this benchmark will serve as a guidepost to improve our ability to understand precise 3D motion and surface deformation from monocular video. Code for dataset download, generation, and model evaluation is available at https://tapvid3d.github.io | 翻訳日:2024-08-28 18:59:20 公開日:2024-08-27 |
# sLLMに基づくDPOを用いた効率よく正確な記憶可能会話モデル
Efficient and Accurate Memorable Conversation Model using DPO based on sLLM ( http://arxiv.org/abs/2407.06537v2 ) ライセンス: Link先を確認 | Youngkyung Seo, Yoonseok Heo, Jun-Seok Koh, Du-Seong Chang, | (参考訳) マルチセッションダイアログシステムでは、セッションが進行するにつれてメモリを継続的に更新することが不可欠である。
メモリを蓄積するだけでは、限られた入力文サイズのため、推論のための会話の内容に焦点を合わせるのが難しくなる。
したがって,会話履歴を連続的に反映するメモリ管理が可能な,効率的かつ正確な会話モデルが必要である。
本稿では,セッション進行時にメモリを効率的に管理し,SFT,DPO,DPOの3つの手法を用いて,会話履歴を正確に反映する会話モデルを提案する。
DPOアルゴリズムを用いたモデルでは,BERTScoreのメモリ精度が約0.0591向上し,メモリを反映する応答率も向上した。
また、応答生成性能は約4.292回、コヒーレンス3.935回、一貫性2.896回向上した。
本稿では,モデルサイズが小さい場合でも,パラメータサイズが2倍以上のモデルよりも優れた性能を示す訓練手法について述べる。
したがって,本モデルでは,精度だけでなく資源利用においても効率性を示す。
In multi-session dialog system, it is essential to continuously update the memory as the session progresses. Simply accumulating memory can make it difficult to focus on the content of the conversation for inference due to the limited input sentence size. Therefore, efficient and accurate conversation model that is capable of managing memory to reflect the conversation history continuously is necessary. This paper presents a conversation model that efficiently manages memory as sessions progress and incorporates this into the model to reflect the conversation history accurately with 3 methodologies: SFT, DPO and DPO with SFT model. Our model using DPO algorithm shows an improvement about 0.0591 of BERTScore in memory accuracy, and the rate of responses reflecting the memory increased as well. Also, response generation performance enhanced about 4.292 in fluency, 3.935 in coherence, and 2.896 in consistency. This paper describes a training method that yields better performance than models with more than twice the parameter size, even when the model size is smaller. Thus, our model demonstrates efficiency not only in terms of accuracy but also in resource utilization. | 翻訳日:2024-08-28 18:59:20 公開日:2024-08-27 |
# SLAMにおける適応的特徴抽出のためのニューロシンボリックアプローチ
A Neurosymbolic Approach to Adaptive Feature Extraction in SLAM ( http://arxiv.org/abs/2407.06889v3 ) ライセンス: Link先を確認 | Yasra Chandio, Momin A. Khan, Khotso Selialia, Luis Garcia, Joseph DeGol, Fatima M. Anwar, | (参考訳) 自律ロボット、自動運転車、および混合現実のヘッドセットを身に着けている人間は、現実世界の環境を動的に変化させる際に、安全クリティカルなアプリケーションのために正確で信頼性の高い追跡サービスを必要とします。
しかし、SLAMのような既存の追跡手法は、広範囲な手動チューニングにもかかわらず、環境変化や境界条件に順応しない。
一方、ディープラーニングベースのアプローチは環境の変化に適応できるが、トレーニングにはかなりのデータが必要であり、新しいドメインに適応する柔軟性に欠けることが多い。
そこで本研究では,ニューロシンボリックプログラム合成手法を用いて,従来のSLAMアプローチからのドメイン知識を統合し,複雑な関係を学習するデータを活用する適応型SLAMパイプラインを構築することを提案する。
このアプローチはエンドツーエンドのSLAMパイプラインを合成できるが、機能抽出モジュールの合成に重点を置いている。
まずドメイン固有の言語(DSL)を考案し、特徴抽出の重要な属性と様々な特徴抽出器の実際の性能についてドメインの知識をカプセル化する。
我々のニューロシンボリックアーキテクチャは適応的特徴抽出を行い、最も適した特徴抽出器を選択するためにシンボリック推論を用いて学習を通してパラメータを最適化する。
評価の結果,神経シンボル的特徴抽出(nFEX)は高品質な特徴をもたらすことが示された。
また、最先端のベースライン特徴抽出器ORBとSIFTで観測されるポーズ誤差を最大90%、最大66%削減し、新しい環境へのシステムの効率性と適応性を向上する。
Autonomous robots, autonomous vehicles, and humans wearing mixed-reality headsets require accurate and reliable tracking services for safety-critical applications in dynamically changing real-world environments. However, the existing tracking approaches, such as Simultaneous Localization and Mapping (SLAM), do not adapt well to environmental changes and boundary conditions despite extensive manual tuning. On the other hand, while deep learning-based approaches can better adapt to environmental changes, they typically demand substantial data for training and often lack flexibility in adapting to new domains. To solve this problem, we propose leveraging the neurosymbolic program synthesis approach to construct adaptable SLAM pipelines that integrate the domain knowledge from traditional SLAM approaches while leveraging data to learn complex relationships. While the approach can synthesize end-to-end SLAM pipelines, we focus on synthesizing the feature extraction module. We first devise a domain-specific language (DSL) that can encapsulate domain knowledge on the important attributes for feature extraction and the real-world performance of various feature extractors. Our neurosymbolic architecture then undertakes adaptive feature extraction, optimizing parameters via learning while employing symbolic reasoning to select the most suitable feature extractor. Our evaluations demonstrate that our approach, neurosymbolic Feature EXtraction (nFEX), yields higher-quality features. It also reduces the pose error observed for the state-of-the-art baseline feature extractors ORB and SIFT by up to 90% and up to 66%, respectively, thereby enhancing the system's efficiency and adaptability to novel environments. | 翻訳日:2024-08-28 18:59:20 公開日:2024-08-27 |
# PEER:マルチエージェントフレームワークとチューニングメソッドによるドメイン特化タスクのエキスパート化
PEER: Expertizing Domain-Specific Tasks with a Multi-Agent Framework and Tuning Methods ( http://arxiv.org/abs/2407.06985v3 ) ライセンス: Link先を確認 | Yiying Wang, Xiaojing Li, Binzhu Wang, Yueyang Zhou, Yingru Lin, Han Ji, Hong Chen, Jinshi Zhang, Fei Yu, Zewei Zhao, Song Jin, Renji Gong, Wanqing Xu, | (参考訳) ドメイン固有のアプリケーションでは、正確なプロンプトを付加したGPT-4(Retrieval-Augmented Generation (RAG))が顕著な可能性を示しているが、パフォーマンス、コスト、データプライバシの重大な三重項に直面している。
ハイパフォーマンスには高度な処理技術が必要だが、複雑なワークフロー内で複数のエージェントを管理することは、しばしばコストと困難さを証明している。
これを解決するために、PEER(Plan, Execute, Express, Review)マルチエージェントフレームワークを紹介します。
これは、正確な質問分解、高度な情報検索、包括的な要約、厳密な自己評価を統合することで、ドメイン固有のタスクを体系化する。
コストとデータのプライバシに関する懸念から、企業は、GPT-4のようなプロプライエタリなモデルからカスタムモデルに移行し、コスト、セキュリティ、パフォーマンスのバランスを保っている。
我々は、効率的なモデルチューニングのためのオンラインデータとユーザフィードバックを活用する産業プラクティスを開発した。
本研究は、ドメイン固有の問題解決にマルチエージェントシステムを適用し、効果的なエージェントチューニング戦略を実装するためのベストプラクティスガイドラインを提供する。
GPT-4の性能は95.0%で、コストを効果的に管理し、データのプライバシーを確保する。
In domain-specific applications, GPT-4, augmented with precise prompts or Retrieval-Augmented Generation (RAG), shows notable potential but faces the critical tri-lemma of performance, cost, and data privacy. High performance requires sophisticated processing techniques, yet managing multiple agents within a complex workflow often proves costly and challenging. To address this, we introduce the PEER (Plan, Execute, Express, Review) multi-agent framework. This systematizes domain-specific tasks by integrating precise question decomposition, advanced information retrieval, comprehensive summarization, and rigorous self-assessment. Given the concerns of cost and data privacy, enterprises are shifting from proprietary models like GPT-4 to custom models, striking a balance between cost, security, and performance. We developed industrial practices leveraging online data and user feedback for efficient model tuning. This study provides best practice guidelines for applying multi-agent systems in domain-specific problem-solving and implementing effective agent tuning strategies. Our empirical studies, particularly in the financial question-answering domain, demonstrate that our approach achieves 95.0% of GPT-4's performance, while effectively managing costs and ensuring data privacy. | 翻訳日:2024-08-28 18:59:20 公開日:2024-08-27 |
# STD-PLM:PLMを用いた時空間データの空間的・時間的特性の理解
STD-PLM: Understanding Both Spatial and Temporal Properties of Spatial-Temporal Data with PLM ( http://arxiv.org/abs/2407.09096v2 ) ライセンス: Link先を確認 | YiHeng Huang, Xiaowei Mao, Shengnan Guo, Yubin Chen, Junfeng Shen, Tiankuo Li, Youfang Lin, Huaiyu Wan, | (参考訳) 時空間予測と計算は現実世界のインテリジェントシステムにとって重要である。
既存のほとんどの手法は個々の予測や計算作業に向いているが、どちらも設計されていない。
さらに、ゼロショット学習や少数ショット学習では効果が低い。
プレトレーニング言語モデル (PLM) は, ほとんどショット学習やゼロショット学習など様々なタスクにおいて強いパターン認識と推論能力を示してきたが, 時間的相関, 空間的接続性, 時間的相関関係, 時間的相関関係, 時間的相関関係, 時間的相関関係, 時間的相関関係, 時間的相関関係, 時間的相関関係など, 空間的時間的データ理解におけるそれらの応用は不十分なモデリングによって制約されてきた。
本稿では,空間的時間的予測タスクとインプットタスクの両方を実装可能なSTD-PLMを提案する。
STD-PLMは、明示的に設計された空間的および時間的トークン化器を通して空間的時間的相関を理解する。
トポロジ対応ノード埋め込みは、PLMがデータのトポロジ構造を帰納的に理解し、活用するために設計されている。
さらに, PLM が導入した効率問題を緩和するため, 砂時計注意モジュール (SGA) と特定の制約損失関数を組み合わせて設計し, 性能を確保しつつモデルの効率を著しく改善する。
大規模な実験により、STD-PLMは様々なデータセット上の予測および計算タスクにまたがる競争性能と一般化能力を示すことが示された。
さらに、STD-PLMは、少数ショットとゼロショットの両方のタスクで有望な結果が得られる。
Spatial-temporal forecasting and imputation are important for real-world intelligent systems. Most existing methods are tailored for individual forecasting or imputation tasks but are not designed for both. Additionally, they are less effective for zero-shot and few-shot learning. While pre-trained language model (PLM) have exhibited strong pattern recognition and reasoning abilities across various tasks, including few-shot and zero-shot learning, their applications in spatial-temporal data understanding has been constrained by insufficient modeling of complex correlations such as the temporal correlations, spatial connectivity, non-pairwise and high-order spatial-temporal correlations within data. In this paper, we propose STD-PLM for understanding both spatial and temporal properties of \underline{S}patial-\underline{T}emporal \underline{D}ata with \underline{PLM}, which is capable of implementing both spatial-temporal forecasting and imputation tasks. STD-PLM understands spatial-temporal correlations via explicitly designed spatial and temporal tokenizers. Topology-aware node embeddings are designed for PLM to comprehend and exploit the topology structure of data in inductive manner. Furthermore, to mitigate the efficiency issues introduced by the PLM, we design a sandglass attention module (SGA) combined with a specific constrained loss function, which significantly improves the model's efficiency while ensuring performance. Extensive experiments demonstrate that STD-PLM exhibits competitive performance and generalization capabilities across the forecasting and imputation tasks on various datasets. Moreover, STD-PLM achieves promising results on both few-shot and zero-shot tasks. | 翻訳日:2024-08-28 18:59:20 公開日:2024-08-27 |
# 知識グラフクエリ埋め込み学習による$SROI^-$オントロジの生成
Generating $SROI^-$ Ontologies via Knowledge Graph Query Embedding Learning ( http://arxiv.org/abs/2407.09212v4 ) ライセンス: Link先を確認 | Yunjie He, Daniel Hernandez, Mojtaba Nayyeri, Bo Xiong, Yuqicheng Zhu, Evgeny Kharlamov, Steffen Staab, | (参考訳) クエリ埋め込みアプローチは、エンティティ、リレーション、クエリの低次元ベクトル表現を計算し操作することで、不完全知識グラフ(KG)上の複雑な論理的クエリに答える。
しかし、現在のクエリ埋め込みモデルは過度にパラメータ化されたニューラルネットワークに依存しており、グラフから学んだ知識を説明できない。
本稿では,このグラフから得られた知識を,SROI^-$記述論理の公理の形で説明し,従来のアプローチよりもパラメータ効率がよい新しいクエリ埋め込み手法AConEを提案する。
AConEはクエリを$SROI^-$記述ロジックの概念に関連付ける。
任意の$SROI^-$概念は複素ベクトル空間の錐として埋め込まれ、それぞれの$SROI^-$関係は錐を回転させ拡大する変換として埋め込まれる。
理論的には、AConEは$SROI^-$公理を学習でき、演算が1から$SROI^-$記述論理の概念を構成する代数学を定義する。
複数のクエリデータセットに関する実証研究により、AConEはパラメータが少なく、以前のベースラインよりも優れた結果が得られることが示された。
特にWN18RRデータセットでは、AConEはベースラインモデルよりも大幅に改善されている。
我々は,公理を表現する能力が問合せ応答の結果に肯定的な影響を及ぼすことを示す包括的分析を行った。
Query embedding approaches answer complex logical queries over incomplete knowledge graphs (KGs) by computing and operating on low-dimensional vector representations of entities, relations, and queries. However, current query embedding models heavily rely on excessively parameterized neural networks and cannot explain the knowledge learned from the graph. We propose a novel query embedding method, AConE, which explains the knowledge learned from the graph in the form of $SROI^-$ description logic axioms while being more parameter-efficient than most existing approaches. AConE associates queries to a $SROI^-$ description logic concept. Every $SROI^-$ concept is embedded as a cone in complex vector space, and each $SROI^-$ relation is embedded as a transformation that rotates and scales cones. We show theoretically that AConE can learn $SROI^-$ axioms, and defines an algebra whose operations correspond one to one to $SROI^-$ description logic concept constructs. Our empirical study on multiple query datasets shows that AConE achieves superior results over previous baselines with fewer parameters. Notably on the WN18RR dataset, AConE achieves significant improvement over baseline models. We provide comprehensive analyses showing that the capability to represent axioms positively impacts the results of query answering. | 翻訳日:2024-08-28 18:59:20 公開日:2024-08-27 |
# テーブル量子LCMの高速行列乗算法
Fast Matrix Multiplications for Lookup Table-Quantized LLMs ( http://arxiv.org/abs/2407.10960v2 ) ライセンス: Link先を確認 | Han Guo, William Brandon, Radostin Cholakov, Jonathan Ragan-Kelley, Eric P. Xing, Yoon Kim, | (参考訳) 大規模言語モデル(LLM)のデプロイメントは、しばしばメモリ帯域幅によって制限される。主なボトルネックは、モデルパラメータをGPUのグローバルメモリからレジスタに転送するコストである。
量子化と行列演算を融合させるカスタムカーネルと組み合わせることで、メモリ移動量を減らすことで、より高速な推論が可能になる。
しかし、重み量子化LDMのための高性能カーネルの開発は、特に重みが一様でないルックアップテーブル(LUT)量子化によって、一様でないビット幅(例えば3ビット)に圧縮される場合、大きな課題となる。
本稿では,LUT量子化LLMのためのフレキシブルなルックアップテーブルエンジンであるFLUTEについて述べる。これは,量子化重み行列のオフライン再構成を用いて,アンパックに伴うビット操作を最小化し,ルックアップテーブルのベクトル化と複製により,共有メモリ帯域幅の制約を緩和する。
32以下のバッチサイズと128の量子化グループサイズ(典型的にはLLM推論)では、FLUTEカーネルは既存のGEMMカーネルよりも2-4倍高速である。
FLUTEの応用として、テーブルベースのNormalFloat量子化への簡単な拡張を検討し、LLaMA3を様々な構成に量子化し、1.5倍から2倍のスループット向上を達成しつつ、強力なベースラインに対する競合量子化性能を得る。
The deployment of large language models (LLMs) is often constrained by memory bandwidth, where the primary bottleneck is the cost of transferring model parameters from the GPU's global memory to its registers. When coupled with custom kernels that fuse the dequantization and matmul operations, weight-only quantization can thus enable faster inference by reducing the amount of memory movement. However, developing high-performance kernels for weight-quantized LLMs presents substantial challenges, especially when the weights are compressed to non-evenly-divisible bit widths (e.g., 3 bits) with non-uniform, lookup table (LUT) quantization. This paper describes FLUTE, a flexible lookup table engine for LUT-quantized LLMs, which uses offline restructuring of the quantized weight matrix to minimize bit manipulations associated with unpacking, and vectorization and duplication of the lookup table to mitigate shared memory bandwidth constraints. At batch sizes < 32 and quantization group size of 128 (typical in LLM inference), the FLUTE kernel can be 2-4x faster than existing GEMM kernels. As an application of FLUTE, we explore a simple extension to lookup table-based NormalFloat quantization and apply it to quantize LLaMA3 to various configurations, obtaining competitive quantization performance against strong baselines while obtaining an end-to-end throughput increase of 1.5 to 2 times. | 翻訳日:2024-08-28 18:59:20 公開日:2024-08-27 |
# Kolmogorov Arnold Networks (KAN) に関する総合調査
A Comprehensive Survey on Kolmogorov Arnold Networks (KAN) ( http://arxiv.org/abs/2407.11075v4 ) ライセンス: Link先を確認 | Yuntian Hou, Di Zhang, | (参考訳) Kolmogorov-Arnold Networks (KAN) の包括的調査を通じて、我々はその理論的基盤、アーキテクチャ設計、アプリケーションシナリオ、そして現在の研究の進捗を深く理解した。
Kanは独自のアーキテクチャと柔軟なアクティベーション機能を備え、複雑なデータパターンと非線形関係の処理に優れ、幅広いアプリケーションの可能性を示している。
課題は残るが、kanは様々な分野における革新的なソリューションの道を切り開いており、複雑な計算問題にどのようにアプローチするかに革命をもたらす可能性がある。
Through this comprehensive survey of Kolmogorov-Arnold Networks(KAN), we have gained a thorough understanding of its theoretical foundation, architectural design, application scenarios, and current research progress. KAN, with its unique architecture and flexible activation functions, excels in handling complex data patterns and nonlinear relationships, demonstrating wide-ranging application potential. While challenges remain, KAN is poised to pave the way for innovative solutions in various fields, potentially revolutionizing how we approach complex computational problems. | 翻訳日:2024-08-28 18:49:32 公開日:2024-08-27 |
# 複雑な果樹園環境における果汁の検出・計数におけるYOLOv10, YOLOv9, YOLOv8の総合的性能評価
Comprehensive Performance Evaluation of YOLOv10, YOLOv9 and YOLOv8 on Detecting and Counting Fruitlet in Complex Orchard Environments ( http://arxiv.org/abs/2407.12040v3 ) ライセンス: Link先を確認 | Ranjan Sapkota, Zhichao Meng, Martin Churuvija, Xiaoqiang Du, Zenghong Ma, Manoj Karkee, | (参考訳) 本研究は, 商業用果樹園における果肉検出のためのYOLOv8, YOLOv9, YOLOv10オブジェクト検出アルゴリズムの全構成について, 広範囲にわたる評価を行った。
さらに,5種類のリンゴ品種(Scifresh,Scilate,Honeycrisp,Cosmic crisp,Golden delicious)において,iPhoneおよびマシンビジョンセンサーを用いて,果実のフィールド内数を測定し,検証した。
この全17の異なる構成(YOLOv8 5、YOLOv9 6、YOLOv10 6)の総合的な調査により、YOLOv9はmAP@50でYOLOv10とYOLOv8より優れており、YOLOv10xは精度とリコールでテストされた17の構成全てより優れていた。
具体的には、YOLOv9 Gelan-eは0.935の最高mAP@50を達成し、YOLOv10nの0.921とYOLOv8sの0.924を上回った。
精度の面では、YOLOv10xは0.908の最高精度を達成し、試験された他の構成(例えば YOLOv9 Gelan-c の 0.903 と YOLOv8m の 0.897 の精度)よりも優れた物体識別精度を示した。
リコールに関しては、YOLOv10sはシリーズ最高(0.872)、YOLOv9 GelanmはYOLOv9構成(0.899)、YOLOv8nはYOLOv8構成(0.883)で最高(0.883)であった。
一方、YOLOv10の3つの構成: YOLOv10b、YOLOv10l、YOLOv10xは1.5ミリ秒の処理後速度で、YOLOv9およびYOLOv8ファミリー内の他のすべての構成より優れていた。
具体的には、YOLOv9 Gelan-eは後処理速度1.9ミリ秒を記録し、YOLOv8mは2.1ミリ秒を達成した。
さらに、YOLOv8nはテストされた全ての構成の中で最も高い推論速度を示し、4.1ミリ秒の処理時間を実現し、YOLOv9 Gelan-tとYOLOv10nは、それぞれ9.3msと5.5msの比較的遅い推論速度を示した。
This study performed an extensive evaluation of the performances of all configurations of YOLOv8, YOLOv9, and YOLOv10 object detection algorithms for fruitlet (of green fruit) detection in commercial orchards. Additionally, this research performed and validated in-field counting of fruitlets using an iPhone and machine vision sensors in 5 different apple varieties (Scifresh, Scilate, Honeycrisp, Cosmic crisp & Golden delicious). This comprehensive investigation of total 17 different configurations (5 for YOLOv8, 6 for YOLOv9 and 6 for YOLOv10) revealed that YOLOv9 outperforms YOLOv10 and YOLOv8 in terms of mAP@50, while YOLOv10x outperformed all 17 configurations tested in terms of precision and recall. Specifically, YOLOv9 Gelan-e achieved the highest mAP@50 of 0.935, outperforming YOLOv10n's 0.921 and YOLOv8s's 0.924. In terms of precision, YOLOv10x achieved the highest precision of 0.908, indicating superior object identification accuracy compared to other configurations tested (e.g. YOLOv9 Gelan-c with a precision of 0.903 and YOLOv8m with 0.897. In terms of recall, YOLOv10s achieved the highest in its series (0.872), while YOLOv9 Gelan m performed the best among YOLOv9 configurations (0.899), and YOLOv8n performed the best among the YOLOv8 configurations (0.883). Meanwhile, three configurations of YOLOv10: YOLOv10b, YOLOv10l, and YOLOv10x achieved superior post-processing speeds of 1.5 milliseconds, outperforming all other configurations within the YOLOv9 and YOLOv8 families. Specifically, YOLOv9 Gelan-e recorded a post-processing speed of 1.9 milliseconds, and YOLOv8m achieved 2.1 milliseconds. Furthermore, YOLOv8n exhibited the highest inference speed among all configurations tested, achieving a processing time of 4.1 milliseconds while YOLOv9 Gelan-t and YOLOv10n also demonstrated comparatively slower inference speeds of 9.3 ms and 5.5 ms, respectively. | 翻訳日:2024-08-28 18:49:32 公開日:2024-08-27 |
# Kerrパラメトリック発振器における量子センシング
Quantum sensing in Kerr parametric oscillators ( http://arxiv.org/abs/2407.14590v2 ) ライセンス: Link先を確認 | Jorge Chávez-Carlos, Daniela Garrido-Ramírez, A. J. Vega Carmona, Victor S. Batista, Carlos A. Trallero-Herrero, Francisco Pérez-Bernal, M. A. Bastarrachea-Magnani, Lea F. Santos, | (参考訳) 量子位相遷移(QPT)は、量子センシングと弱い信号検出を改善するために研究される。
QPTにおける基底状態の変化は、量子フィッシャー情報のようなパラメータ推定の指標を強化する。
ここでは、QPTを欠いたシステムでは、励起状態の量子相転移(ESQPT)により、量子感度を向上できることを示す。
解析は,2つのESQPTを持つKerrパラメトリック発振器において,双曲点の開始と古典的極限における局所的最大値とを関連付ける。
これらの点がシステムの位相空間構造を変化させ、量子フィッシャー情報の増幅と制御パラメータの特定の値における位置の不確実性のスクイーズが発生する。
本研究は、励起子-偏光子凝縮体および超伝導回路における非古典的量子臨界現象と潜在的な実験的応用との相関を示す。
Quantum phase transitions (QPTs) are explored to improve quantum sensing and weak signal detection. Changes in the ground state at a QPT enhance indicators of parameter estimation, such as the quantum Fischer information. Here, we show that in systems that lack a QPT, quantum sensitivity can still be enhanced due to excited-state quantum phase transitions (ESQPTs). Our analysis is done for a Kerr parametric oscillator with two ESQPTs associated with the onset of a hyperbolic point and a local maximum in the classical limit. These points change the system's phase space structure, which results in the amplification of the quantum Fisher information and the squeezing of the uncertainty in position at specific values of the control parameter. Our study showcases the relationship between non-conventional quantum critical phenomena and quantum sensing with potential experimental applications in exciton-polariton condensates and superconducting circuits. | 翻訳日:2024-08-28 18:49:32 公開日:2024-08-27 |
# STAMP: 安定したメモリリプレイによるアウトリーチ対応のテスト時間適応
STAMP: Outlier-Aware Test-Time Adaptation with Stable Memory Replay ( http://arxiv.org/abs/2407.15773v2 ) ライセンス: Link先を確認 | Yongcan Yu, Lijun Sheng, Ran He, Jian Liang, | (参考訳) テスト時間適応(TTA)は、トレーニングデータとテストデータの間の分散シフトに、未ラベルのデータのみを用いて対処することを目的としている。
既存のTTAメソッドは、トレーニングセット内のクラスに関連するテストデータに特化して、認識性能の向上に重点を置いていることが多い。
しかし、オープンワールド推論プロセスの間、未知のクラスから必然的にデータインスタンスをテストする。
本稿では,サンプル認識とオフリエ拒絶の両方を行う問題に注意を払っている。
そこで我々は,STAble Memory rePlay (STAMP) と呼ばれる新しい手法を提案する。
特に、低エントロピー及びラベル一貫性サンプルをクラスバランスで選択することにより、メモリバンクを動的に更新する。
さらに,低エントロピーサンプルに高重みを割り当てる自己重み付きエントロピー最小化戦略を開発した。
以上の結果から,STAMPは既存のTTA法よりも,認識性能と外乱検出性能の両方で優れていた。
コードはhttps://github.com/yuyongcan/STAMPで公開されている。
Test-time adaptation (TTA) aims to address the distribution shift between the training and test data with only unlabeled data at test time. Existing TTA methods often focus on improving recognition performance specifically for test data associated with classes in the training set. However, during the open-world inference process, there are inevitably test data instances from unknown classes, commonly referred to as outliers. This paper pays attention to the problem that conducts both sample recognition and outlier rejection during inference while outliers exist. To address this problem, we propose a new approach called STAble Memory rePlay (STAMP), which performs optimization over a stable memory bank instead of the risky mini-batch. In particular, the memory bank is dynamically updated by selecting low-entropy and label-consistent samples in a class-balanced manner. In addition, we develop a self-weighted entropy minimization strategy that assigns higher weight to low-entropy samples. Extensive results demonstrate that STAMP outperforms existing TTA methods in terms of both recognition and outlier detection performance. The code is released at https://github.com/yuyongcan/STAMP. | 翻訳日:2024-08-28 18:49:32 公開日:2024-08-27 |
# 単一画像超解像に対するチャネル分割ウィンドウ注意と周波数学習
Channel-Partitioned Windowed Attention And Frequency Learning for Single Image Super-Resolution ( http://arxiv.org/abs/2407.16232v2 ) ライセンス: Link先を確認 | Dinh Phu Tran, Dao Duy Hung, Daeyoung Kim, | (参考訳) 近年、特にSingle Image Super-Resolution (SISR)において、ウィンドウベースのアテンション手法がコンピュータビジョンタスクに大きな可能性を示している。
しかし、長距離の依存関係と遠いトークン間の関係を捉えるには不足する可能性がある。
さらに,空間領域での学習は画像の周波数を伝達しないことが明らかとなった。
これらの課題に対処するために,特徴マップの高さと幅に沿ってウィンドウを順次拡張することにより,長距離依存をよりよく捉えるためのチャネル分割注意変換器 (CPAT) を提案する。
さらに、空間・周波数相互作用モジュール(Spatial-Frequency Interaction Module, SFIM)を提案する。
これには、周波数内容に関する情報が含まれ、画像全体にわたって受容野を強化する。
実験により,提案したモジュールとアーキテクチャの有効性が示された。
特にCPATは、Urban100上のx2 SRにおいて、最先端の手法を0.31dBまで上回っている。
Recently, window-based attention methods have shown great potential for computer vision tasks, particularly in Single Image Super-Resolution (SISR). However, it may fall short in capturing long-range dependencies and relationships between distant tokens. Additionally, we find that learning on spatial domain does not convey the frequency content of the image, which is a crucial aspect in SISR. To tackle these issues, we propose a new Channel-Partitioned Attention Transformer (CPAT) to better capture long-range dependencies by sequentially expanding windows along the height and width of feature maps. In addition, we propose a novel Spatial-Frequency Interaction Module (SFIM), which incorporates information from spatial and frequency domains to provide a more comprehensive information from feature maps. This includes information about the frequency content and enhances the receptive field across the entire image. Experimental findings show the effectiveness of our proposed modules and architecture. In particular, CPAT surpasses current state-of-the-art methods by up to 0.31dB at x2 SR on Urban100. | 翻訳日:2024-08-28 18:49:32 公開日:2024-08-27 |
# 多目的セッションベースレコメンダシステムのパレートフロント近似
Pareto Front Approximation for Multi-Objective Session-Based Recommender Systems ( http://arxiv.org/abs/2407.16828v2 ) ライセンス: Link先を確認 | Timo Wilm, Philipp Normann, Felix Stepprath, | (参考訳) これは、トランスフォーマーニューラルネットワークを使用した多目的セッションベースレコメンデータシステムにパレートフロント近似技術を適用するアプローチである。
提案手法は, 選好ベクトルの学習により, クリックスルーや変換率といった重要な指標間のトレードオフを最適化する。
トレーニング後の大きな利点は、単一のモデルがパレートフロント全体にアクセスでき、目的を重み付けする追加の入力ベクトルを調整することで、異なる利害関係者の要求を満たすように調整できることである。
大規模なオフラインおよびオンライン評価を通じて、モデルの性能を検証する。
より広範なアプリケーションと研究のために、ソースコードはhttps://github.com/otto-de/MultiTRONで公開されている。
結果は、モデルが複数の推奨目標を効果的に管理する能力を確認し、多様なビジネスニーズに対して柔軟なツールを提供する。
This work introduces MultiTRON, an approach that adapts Pareto front approximation techniques to multi-objective session-based recommender systems using a transformer neural network. Our approach optimizes trade-offs between key metrics such as click-through and conversion rates by training on sampled preference vectors. A significant advantage is that after training, a single model can access the entire Pareto front, allowing it to be tailored to meet the specific requirements of different stakeholders by adjusting an additional input vector that weights the objectives. We validate the model's performance through extensive offline and online evaluation. For broader application and research, the source code is made available at https://github.com/otto-de/MultiTRON. The results confirm the model's ability to manage multiple recommendation objectives effectively, offering a flexible tool for diverse business needs. | 翻訳日:2024-08-28 18:49:32 公開日:2024-08-27 |
# 半古典部分空間、非同期法等
Semi-Classical Subspaces, The No Synchronization Law, and More ( http://arxiv.org/abs/2407.18201v3 ) ライセンス: Link先を確認 | Samuel Epstein, | (参考訳) 本稿では,アルゴリズム情報理論と物理,すなわち量子力学,熱力学,ブラックホールの交わりについて考察する。
量子世界と古典的領域の間の障壁を特徴づける定理について議論する。
半古典的な部分空間」の概念が導入される。
部分信号と部分的クローニングは半古典的部分空間の量子状態上で実行される。
No Synchronization Law (No Synchronization Law) の詳細は、時間とともに進化する分離された物理的システムは、シンクしている熱力学的アルゴリズムのエントロピーを持つことができない、と述べている。
我々は、ブラックホールのコルモゴロフ複雑性に関する今後の研究について考察する。
This paper looks at the intersection of algorithmic information theory and physics, namely quantum mechanics, thermodynamics, and black holes. We discuss theorems which characterize the barrier between the quantum world and the classical realm. The notion of a ``semi-classical subspace'' is introduced. Partial signals and partial cloning can be executed on quantum states in semi-classical subspaces. The No Synchronization Law is detailed, which says separate and isolated physical systems evolving over time cannot have thermodynamic algorithmic entropies that are in synch. We look at future work involving the Kolmogorov complexity of black holes. | 翻訳日:2024-08-28 18:49:32 公開日:2024-08-27 |
# 深度優先型下水画像超解像とその軽量ネットワーク
Sewer Image Super-Resolution with Depth Priors and Its Lightweight Network ( http://arxiv.org/abs/2407.19271v2 ) ライセンス: Link先を確認 | Gang Pan, Chen Wang, Zhijie Sui, Shuai Guo, Yaozhi Lv, Honglie Li, Di Sun, Zixia Xia, | (参考訳) クイックビュー(Quick-view, QV)技術は、下水道システム内の欠陥を検出する主要な方法である。
しかし、QVの有効性はハードウェアの視覚範囲の制限によって阻害され、その結果、下水道網の遠方部分の最適画像品質が低下する。
画像超解像は画像品質を改善する効果的な方法であり、様々な場面で応用されている。
しかし, 下水道画像の超高分解能化に関する研究はいまだに未検討である。
そこで本研究では,QV画像内に存在する固有深度関係を活用し,DSRNetと呼ばれる新しい深度誘導型参照型超解法フレームワークを提案する。
深度抽出モジュールと深度情報マッチングモジュール(DMM)の2つのコアコンポーネントから構成される。
DSRNetは、低解像度画像の隣接フレームを基準画像として利用し、相関に基づいてテクスチャ情報を復元する。
これらのモジュールを組み合わせることで、深度事前の統合は視覚的品質とパフォーマンスのベンチマークの両方を大幅に強化する。
また, 計算効率とコンパクト性を追求するために, 注意機構に基づく超解像知識蒸留モデルを導入する。
このメカニズムは,DSRNetの軽量バージョンである,より複雑な教師モデルと合理化された学生モデルとの間の特徴的類似性の獲得を促進する。
実験の結果,DSRNetはPSNRとSSIMを他の手法と比較して有意に改善した。
また, 下水道欠陥セマンティックセグメンテーション, オブジェクト検出, およびPipeデータセットと下水道MLデータセットの分類について実験を行った。
実験により, これらの課題において, 低解像度下水道画像の性能を向上させることができることがわかった。
The Quick-view (QV) technique serves as a primary method for detecting defects within sewerage systems. However, the effectiveness of QV is impeded by the limited visual range of its hardware, resulting in suboptimal image quality for distant portions of the sewer network. Image super-resolution is an effective way to improve image quality and has been applied in a variety of scenes. However, research on super-resolution for sewer images remains considerably unexplored. In response, this study leverages the inherent depth relationships present within QV images and introduces a novel Depth-guided, Reference-based Super-Resolution framework denoted as DSRNet. It comprises two core components: a depth extraction module and a depth information matching module (DMM). DSRNet utilizes the adjacent frames of the low-resolution image as reference images and helps them recover texture information based on the correlation. By combining these modules, the integration of depth priors significantly enhances both visual quality and performance benchmarks. Besides, in pursuit of computational efficiency and compactness, a super-resolution knowledge distillation model based on an attention mechanism is introduced. This mechanism facilitates the acquisition of feature similarity between a more complex teacher model and a streamlined student model, with the latter being a lightweight version of DSRNet. Experimental results demonstrate that DSRNet significantly improves PSNR and SSIM compared with other methods. This study also conducts experiments on sewer defect semantic segmentation, object detection, and classification on the Pipe dataset and Sewer-ML dataset. Experiments show that the method can improve the performance of low-resolution sewer images in these tasks. | 翻訳日:2024-08-28 18:49:32 公開日:2024-08-27 |
# 分類事項:クラス別注意による映像行動検出の改善
Classification Matters: Improving Video Action Detection with Class-Specific Attention ( http://arxiv.org/abs/2407.19698v2 ) ライセンス: Link先を確認 | Jinsung Lee, Taeoh Kim, Inwoong Lee, Minho Shim, Dongyoon Wee, Minsu Cho, Suha Kwak, | (参考訳) ビデオアクション検出(VAD)は、アクターを検出し、そのアクションをビデオで分類することを目的としている。
VADはアクターのローカライゼーションよりも分類に苦しむ。
そこで,本研究では,一般的な手法が分類のための特徴をどう形成するかを分析し,それらがアクター領域を優先するが,正確な分類に必要なコンテキスト情報を見越すことが多い。
そこで我々は,アクターに対する偏見を減らし,各アクションクラスに関連する文脈に注意を払うことを提案する。
クラス指定クエリを各アクションクラスに割り当てることで、モデルが効果的に分類する場所を動的に決定できる。
提案モデルでは,パラメータが大幅に少なく,計算量も少ない3つのベンチマークにおいて,優れた性能を示す。
Video action detection (VAD) aims to detect actors and classify their actions in a video. We figure that VAD suffers more from classification rather than localization of actors. Hence, we analyze how prevailing methods form features for classification and find that they prioritize actor regions, yet often overlooking the essential contextual information necessary for accurate classification. Accordingly, we propose to reduce the bias toward actor and encourage paying attention to the context that is relevant to each action class. By assigning a class-dedicated query to each action class, our model can dynamically determine where to focus for effective classification. The proposed model demonstrates superior performance on three challenging benchmarks with significantly fewer parameters and less computation. | 翻訳日:2024-08-28 18:49:32 公開日:2024-08-27 |
# 変圧器を用いたインクリメンタルオブジェクト検出のための動的オブジェクトクエリ
Dynamic Object Queries for Transformer-based Incremental Object Detection ( http://arxiv.org/abs/2407.21687v2 ) ライセンス: Link先を確認 | Jichuan Zhang, Wei Li, Shuang Cheng, Ya-Li Li, Shengjin Wang, | (参考訳) インクリメンタルオブジェクト検出(IOD)は、新しいクラスを逐次学習することを目的としている。
トレーニングデータが新しいクラスでのみアノテーションと共にやってくると、IODは破滅的な忘れに苦しむ。
それまでの方法論は主に、知識の蒸留と模範的な再生を通じて忘れられる問題に取り組み、限られたモデル能力と知識の増加の間の矛盾を無視していた。
本稿では,Transformer アーキテクチャ上に構築されたインクリメンタルオブジェクト検出のための textit{dynamic object query} について検討する。
本稿では, 安定性と塑性のトレードオフを実現するために, モデル表現能力を漸進的に拡張する, \textbf{Dy}namic object \textbf{Q}uery-based \textbf{DE}tection \textbf{TR}ansformer (DyQ-DETR)を提案する。
まず、新しいクラスを表現するために、学習可能な新しいオブジェクトクエリのセットがデコーダに入力される。
これらの新しいオブジェクトクエリは、古い知識と新しい知識の両方をうまく適応させるために、以前のフェーズのクエリと集約されます。
第2に,不整合自己意図に基づく,異なる位相のオブジェクトクエリに対する分離された二部マッチングを提案する。
異なるフェーズにおけるオブジェクトクエリ間の相互作用を排除し、クラス間の混乱を減らす。
オブジェクトクエリに対する個別の監視と計算により、リスクバランスの取れた部分キャリブレーションを有効に再現する。
大規模な実験により、DyQ-DETRはパラメータのオーバーヘッドが限られ、最先端の手法を大幅に上回っていることが示された。
コードは公開されます。
Incremental object detection (IOD) aims to sequentially learn new classes, while maintaining the capability to locate and identify old ones. As the training data arrives with annotations only with new classes, IOD suffers from catastrophic forgetting. Prior methodologies mainly tackle the forgetting issue through knowledge distillation and exemplar replay, ignoring the conflict between limited model capacity and increasing knowledge. In this paper, we explore \textit{dynamic object queries} for incremental object detection built on Transformer architecture. We propose the \textbf{Dy}namic object \textbf{Q}uery-based \textbf{DE}tection \textbf{TR}ansformer (DyQ-DETR), which incrementally expands the model representation ability to achieve stability-plasticity tradeoff. First, a new set of learnable object queries are fed into the decoder to represent new classes. These new object queries are aggregated with those from previous phases to adapt both old and new knowledge well. Second, we propose the isolated bipartite matching for object queries in different phases, based on disentangled self-attention. The interaction among the object queries at different phases is eliminated to reduce inter-class confusion. Thanks to the separate supervision and computation over object queries, we further present the risk-balanced partial calibration for effective exemplar replay. Extensive experiments demonstrate that DyQ-DETR significantly surpasses the state-of-the-art methods, with limited parameter overhead. Code will be made publicly available. | 翻訳日:2024-08-28 18:49:32 公開日:2024-08-27 |
# Tora:ビデオ生成のための軌道指向拡散変換器
Tora: Trajectory-oriented Diffusion Transformer for Video Generation ( http://arxiv.org/abs/2407.21705v2 ) ライセンス: Link先を確認 | Zhenghao Zhang, Junchao Liao, Menghao Li, Zuozhuo Dai, Bingxue Qiu, Siyu Zhu, Long Qin, Weizhi Wang, | (参考訳) 拡散変換器(DiT)の最近の進歩は,高品質な映像コンテンツの製作に顕著な熟練性を示している。
それでも、制御可能なモーションで映像を効果的に生成するトランスフォーマーベースの拡散モデルの可能性は、探索の限られた領域に留まっている。
本稿では,テキスト・ビジュアル・トラジェクティブ・コンディションを同時に統合した最初のトラジェクトリ指向型DiTフレームワークであるToraを紹介する。
具体的には、トラジェクティブ・エクストラクタ(TE)、空間的テンポラル・DiT、モーションガイダンス・フーザー(MGF)から構成される。
TEは、任意の軌道を階層的な時空運動パッチに3Dビデオ圧縮ネットワークで符号化する。
MGFはモーションパッチをDiTブロックに統合し、指定された軌跡を正確に追従する一貫したビデオを生成する。
我々の設計はDiTのスケーラビリティとシームレスに一致し、様々な期間、アスペクト比、解像度で映像コンテンツのダイナミクスを正確に制御できる。
広範囲にわたる実験は、Toraが高い運動の忠実さを達成するのに優れており、物理的世界の複雑な動きを巧みにシミュレートしていることを示している。
Recent advancements in Diffusion Transformer (DiT) have demonstrated remarkable proficiency in producing high-quality video content. Nonetheless, the potential of transformer-based diffusion models for effectively generating videos with controllable motion remains an area of limited exploration. This paper introduces Tora, the first trajectory-oriented DiT framework that concurrently integrates textual, visual, and trajectory conditions, thereby enabling scalable video generation with effective motion guidance. Specifically, Tora consists of a Trajectory Extractor(TE), a Spatial-Temporal DiT, and a Motion-guidance Fuser(MGF). The TE encodes arbitrary trajectories into hierarchical spacetime motion patches with a 3D video compression network. The MGF integrates the motion patches into the DiT blocks to generate consistent videos that accurately follow designated trajectories. Our design aligns seamlessly with DiT's scalability, allowing precise control of video content's dynamics with diverse durations, aspect ratios, and resolutions. Extensive experiments demonstrate Tora's excellence in achieving high motion fidelity, while also meticulously simulating the intricate movement of the physical world. | 翻訳日:2024-08-28 18:49:32 公開日:2024-08-27 |
# 深層学習を用いた心エコー図の局所的品質推定
Regional quality estimation for echocardiography using deep learning ( http://arxiv.org/abs/2408.00591v2 ) ライセンス: Link先を確認 | Gilles Van De Vyver, Svein-Erik Måsøy, Håvard Dalen, Bjørnar Leangen Grenne, Espen Holte, Sindre Hellum Olaisen, John Nyberg, Andreas Østvik, Lasse Løvstakken, Erik Smistad, | (参考訳) 心臓超音波画像の画質の自動推定は、オペレーターを誘導し、臨床測定の精度を確保するのに有用である。
過去の研究はしばしば、心エコー図の視線精度と画質の区別に失敗する。
さらに、過去の研究では、その実用性を制限する、グローバルな画像品質の値しか提供していない。
本研究では,画像品質を推定する3つの手法を開発し,比較した。
1) 拡張コントラスト-ノイズ比(gCNR)のような古典的画素ベースメトリクスは、心筋セグメントを興味領域として、左室ルーメンを背景として、U-Netセグメンテーションを用いて取得する。
2)Bモード画像からのコヒーレンスを予測するU-Netモデルから得られた局所画像のコヒーレンス
3)各領域の質をエンドツーエンドで直接予測する深層畳み込みネットワーク。
3人の経験者による手動画像品質アノテーションに対する各手法の評価を行った。
その結果, gCNR測定値の低下が示され, スピアマンとrho=0.24のアノテーションとの相関が認められた。
エンド・ツー・エンドの学習モデルでは、最も良い結果である rho = 0.69 が、サーバ間の相関である rho = 0.63 に匹敵する。
最後に、rho = 0.58 のコヒーレンス法は古典的指標よりも優れ、エンドツーエンドの手法よりも一般的である。
Automatic estimation of cardiac ultrasound image quality can be beneficial for guiding operators and ensuring the accuracy of clinical measurements. Previous work often fails to distinguish the view correctness of the echocardiogram from the image quality. Additionally, previous studies only provide a global image quality value, which limits their practical utility. In this work, we developed and compared three methods to estimate image quality: 1) classic pixel-based metrics like the generalized contrast-to-noise ratio (gCNR) on myocardial segments as region of interest and left ventricle lumen as background, obtained using a U-Net segmentation 2) local image coherence derived from a U-Net model that predicts coherence from B-Mode images 3) a deep convolutional network that predicts the quality of each region directly in an end-to-end fashion. We evaluate each method against manual regional image quality annotations by three experienced cardiologists. The results indicate poor performance of the gCNR metric, with Spearman correlation to the annotations of rho = 0.24. The end-to-end learning model obtains the best result, rho = 0.69, comparable to the inter-observer correlation, rho = 0.63. Finally, the coherence-based method, with rho = 0.58, outperformed the classical metrics and is more generic than the end-to-end approach. | 翻訳日:2024-08-28 18:49:32 公開日:2024-08-27 |
# RAGEval:シナリオ固有のRAG評価データセット生成フレームワーク
RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework ( http://arxiv.org/abs/2408.01262v3 ) ライセンス: Link先を確認 | Kunlun Zhu, Yifan Luo, Dingling Xu, Ruobing Wang, Shi Yu, Shuo Wang, Yukun Yan, Zhenghao Liu, Xu Han, Zhiyuan Liu, Maosong Sun, | (参考訳) Retrieval-Augmented Generation (RAG) システムは,Large Language Models (LLM) の幻覚を緩和する上で,その利点を実証している。
既存のRAGベンチマークは主に、LLMが一般的な知識に正しく答えられるかどうかを評価することに焦点を当てている。
しかし、異なる垂直領域のデータを扱う場合、RAGシステムの有効性は評価できない。
本稿では,異なるシナリオにおける異なるLLMの知識利用能力を評価するために,評価データセットを自動生成するフレームワークであるRAGEvalを紹介する。
具体的には、RAGEvalはシードドキュメントからスキーマを要約し、さまざまなドキュメントを生成するために構成を適用し、記事と構成の両方に応じて質問応答ペアを構築する。
LLMが生み出す応答を慎重に評価するために, 完全性, 幻覚, 不適切性の3つの新しい指標を提案する。
RAGEvalは、垂直領域のRAGモデルをベンチマークすることで、LCMの知識使用能力をよりよく評価する能力を持ち、既存のQAデータセットにおける知識の源泉に関する混乱を避ける。
コードとデータセットがリリースされる。
Retrieval-Augmented Generation (RAG) systems have demonstrated their advantages in alleviating the hallucination of Large Language Models (LLMs). Existing RAG benchmarks mainly focus on evaluating whether LLMs can correctly answer the general knowledge. However, they are unable to evaluate the effectiveness of the RAG system in dealing with the data from different vertical domains. This paper introduces RAGEval, a framework for automatically generating evaluation datasets to evaluate the knowledge usage ability of different LLMs in different scenarios. Specifically, RAGEval summarizes a schema from seed documents, applies the configurations to generate diverse documents, and constructs question-answering pairs according to both articles and configurations. We propose three novel metrics, Completeness, Hallucination, and Irrelevance, to carefully evaluate the responses generated by LLMs. By benchmarking RAG models in vertical domains, RAGEval has the ability to better evaluate the knowledge usage ability of LLMs, which avoids the confusion regarding the source of knowledge in answering question in existing QA datasets--whether it comes from parameterized memory or retrieval. The code and dataset will be released. | 翻訳日:2024-08-28 18:49:32 公開日:2024-08-27 |
# 仮想CAT:スイスの強制教育におけるアルゴリズム的思考評価ツール
The virtual CAT: A tool for algorithmic thinking assessment in Swiss compulsory education ( http://arxiv.org/abs/2408.01263v2 ) ライセンス: Link先を確認 | Giorgia Adorni, Alberto Piatti, | (参考訳) 今日のデジタル時代において、アルゴリズム思考(AT)スキルを保持することは、コンピュータ科学の分野だけでなく、重要なことである。
これらの能力により、個人は複雑な問題をより管理可能なステップに分解し、解決するための一連のアクションを作成することができる。
教育環境におけるATアセスメントの需要の増加と現行手法の限界に対処するため,スイスの強制教育におけるアルゴリズムスキルの評価を目的とした非プラグ型アセスメント活動のデジタル適応である仮想クロスアレータスク(CAT)を紹介した。
このツールはスケーラブルで自動化されたアセスメントを提供し、人間の関与を減らし、潜在的なデータ収集エラーを軽減する。
このプラットフォームはジェスチャーベースおよび視覚ブロックベースのプログラミングインタフェースを備えており、多様な学習者に対するユーザビリティを確保し、さらに多言語機能によってサポートされている。
仮想CATプラットフォームを評価するため,スイスで異種学生グループによるパイロット評価を行った。
この結果から, 多様な年齢, 開発段階, 教育的背景を持つ学生のATスキルを評価するためのプラットフォームの有用性, 習熟度, 適性, および大規模データ収集の可能性が示唆された。
In today's digital era, holding algorithmic thinking (AT) skills is crucial, not only in computer science-related fields. These abilities enable individuals to break down complex problems into more manageable steps and create a sequence of actions to solve them. To address the increasing demand for AT assessments in educational settings and the limitations of current methods, this paper introduces the virtual Cross Array Task (CAT), a digital adaptation of an unplugged assessment activity designed to evaluate algorithmic skills in Swiss compulsory education. This tool offers scalable and automated assessment, reducing human involvement and mitigating potential data collection errors. The platform features gesture-based and visual block-based programming interfaces, ensuring its usability for diverse learners, further supported by multilingual capabilities. To evaluate the virtual CAT platform, we conducted a pilot evaluation in Switzerland involving a heterogeneous group of students. The findings show the platform's usability, proficiency and suitability for assessing AT skills among students of diverse ages, development stages, and educational backgrounds, as well as the feasibility of large-scale data collection. | 翻訳日:2024-08-28 18:38:45 公開日:2024-08-27 |
# Kan-RCBEVDepth:自律運転のための物体検出のための多モード融合アルゴリズム
KAN-RCBEVDepth: A multi-modal fusion algorithm in object detection for autonomous driving ( http://arxiv.org/abs/2408.02088v3 ) ライセンス: Link先を確認 | Zhihao Lai, Chuanhao Liu, Shihui Sheng, Zhiqiang Zhang, | (参考訳) 自動運転車における正確な3D物体検出は、閉塞、さまざまな物体の大きさ、複雑な都市環境のために、非常に難しい。
本稿では,カメラ,LiDAR,ミリ波レーダからのマルチモーダルセンサデータを融合させることにより,3次元物体検出の高度化をめざした革新的なアプローチであるkan-RCBEVDepth法を提案する。
我々のBird's Eye Viewベースのアプローチは、多様なセンサー入力をシームレスに統合し、空間関係の理解を洗練し、計算手順を最適化することにより、検出精度と効率を大幅に改善する。
実験結果から,提案手法は複数の検出指標にまたがって既存の手法よりも優れており,平均距離AP(0.389, 23\%改善),NDスコア(0.485, 17.1\%改善),評価時間(71.28s, 8\%高速化)が向上した。
さらに、Kan-RCBEVDepth法は、BEVDepthと比較してエラーを著しく低減し、低い変換エラー(0.6044, 13.8\%改善)、スケールエラー(0.2780, 2.6\%改善)、オリエンテーションエラー(0.5830, 7.6\%改善)、ベロシティエラー(0.4244, 28.3\%改善)、アトリビュートエラー(0.2129, 3.2\%改善)がある。
これらの結果から,提案手法は精度,信頼性,効率性を向上し,動的かつ要求の高い自動運転シナリオに適していることが示唆された。
コードは \url{https://github.com/laitiamo/RCBEVDepth-KAN} でリリースされる。
Accurate 3D object detection in autonomous driving is critical yet challenging due to occlusions, varying object sizes, and complex urban environments. This paper introduces the KAN-RCBEVDepth method, an innovative approach aimed at enhancing 3D object detection by fusing multimodal sensor data from cameras, LiDAR, and millimeter-wave radar. Our unique Bird's Eye View-based approach significantly improves detection accuracy and efficiency by seamlessly integrating diverse sensor inputs, refining spatial relationship understanding, and optimizing computational procedures. Experimental results show that the proposed method outperforms existing techniques across multiple detection metrics, achieving a higher Mean Distance AP (0.389, 23\% improvement), a better ND Score (0.485, 17.1\% improvement), and a faster Evaluation Time (71.28s, 8\% faster). Additionally, the KAN-RCBEVDepth method significantly reduces errors compared to BEVDepth, with lower Transformation Error (0.6044, 13.8\% improvement), Scale Error (0.2780, 2.6\% improvement), Orientation Error (0.5830, 7.6\% improvement), Velocity Error (0.4244, 28.3\% improvement), and Attribute Error (0.2129, 3.2\% improvement). These findings suggest that our method offers enhanced accuracy, reliability, and efficiency, making it well-suited for dynamic and demanding autonomous driving scenarios. The code will be released in \url{https://github.com/laitiamo/RCBEVDepth-KAN}. | 翻訳日:2024-08-28 18:38:45 公開日:2024-08-27 |
# IPAdapter-Instruct:Instruct Promptsを用いた画像ベースコンディショニングにおける曖昧性の解消
IPAdapter-Instruct: Resolving Ambiguity in Image-based Conditioning using Instruct Prompts ( http://arxiv.org/abs/2408.03209v2 ) ライセンス: Link先を確認 | Ciara Rowles, Shimon Vainer, Dante De Nigris, Slava Elizarov, Konstantin Kutsy, Simon Donné, | (参考訳) 拡散モデルは、常に最先端の画像生成の境界を押し上げるが、その過程はいかなるニュアンスでも制御することは困難である。
ControlNetとIPAdapterは、画像に生成プロセスを条件付けすることでこの欠点に対処するが、個々のインスタンスは単一の条件付き後部モデリングに限られる。
IPAdapter-Instructは、自然像条件と ``Instruct'' プロンプトを組み合わせることで、同じ条件画像の解釈(スタイル転送、オブジェクト抽出、両方、あるいは他のもの)を交換する。
IPAdapterInstructは、タスクごとの専用モデルと比較して、品質が最小限に抑えられた複数のタスクを効率的に学習する。
Diffusion models continuously push the boundary of state-of-the-art image generation, but the process is hard to control with any nuance: practice proves that textual prompts are inadequate for accurately describing image style or fine structural details (such as faces). ControlNet and IPAdapter address this shortcoming by conditioning the generative process on imagery instead, but each individual instance is limited to modeling a single conditional posterior: for practical use-cases, where multiple different posteriors are desired within the same workflow, training and using multiple adapters is cumbersome. We propose IPAdapter-Instruct, which combines natural-image conditioning with ``Instruct'' prompts to swap between interpretations for the same conditioning image: style transfer, object extraction, both, or something else still? IPAdapterInstruct efficiently learns multiple tasks with minimal loss in quality compared to dedicated per-task models. | 翻訳日:2024-08-28 18:38:45 公開日:2024-08-27 |
# 量子チャネルの量子容量における相転移
Phase Transition in the Quantum Capacity of Quantum Channels ( http://arxiv.org/abs/2408.05733v2 ) ライセンス: Link先を確認 | Shayan Roofeh, Vahid Karimipour, | (参考訳) 量子チャネルに関する長年の研究にもかかわらず、その容量を決定することは、基本的重要性であるにもかかわらず、極端に難しい問題である。
これらの容量の正確な下限と上限を確立することは困難であることが証明されており、チャネルの量子容量が消滅する条件を少なくとも特定することが不可欠である。
本稿では、量子チャネル$\Lambda$の量子容量が、$x\geq \frac{1}{2}$のとき、$\Lambda_x(\rho):=(1-x)\Lambda(\rho)+\frac{x}{d}I_d$がゼロとなるように、ホワイトノイズによって汚染されると証明する。
これを証明するために、まず、$x\geq \frac{1}{2}$ の脱分極チャネルが反分解可能であることを示す。
このチャネルに対して確立したゼロ容量領域は、次元に依存して$x\geq \frac{d}{d+1}$で与えられる、既知のエンタングルメント結合しきい値よりもはるかに大きい。
Despite years of extensive research into quantum channels, determining their capacities remains an extraordinarily challenging problem, even though it is of fundamental importance. Establishing precise lower and upper bounds for these capacities has proven to be difficult, making it essential to at least identify conditions under which the quantum capacity of a channel vanishes. In this paper, we prove that the quantum capacity of any quantum channel $\Lambda$, when contaminated by white noise, as described by $\Lambda_x (\rho):=(1-x)\Lambda(\rho)+\frac{x}{d}I_d$ becomes zero when $x\geq \frac{1}{2}$. To prove this, we first show that the depolarizing channel with $x\geq \frac{1}{2}$ is anti-degradable, and we provide the exact form of the channel that connects it to its complement. The zero-capacity region we establish for this channel is significantly larger than the previously known entanglement-binding threshold, which depends on dimension and is given by $x\geq \frac{d}{d+1}$. | 翻訳日:2024-08-28 18:38:45 公開日:2024-08-27 |
# Polyp SAM 2: 大腸癌検出におけるゼロショットポリープセグメンテーションの促進
Polyp SAM 2: Advancing Zero shot Polyp Segmentation in Colorectal Cancer Detection ( http://arxiv.org/abs/2408.05892v3 ) ライセンス: Link先を確認 | Mobina Mansoori, Sajjad Shahabodini, Jamshid Abouei, Konstantinos N. Plataniotis, Arash Mohammadi, | (参考訳) ポリープ分画は大腸癌の早期発見と診断において重要な役割を担っている。
しかし、正確なセグメンテーションを得るには、しばしば労働集約的なアノテーションと専門的なモデルが必要である。
最近、Meta AI Researchは、いくつかのセグメンテーションタスクで有望なパフォーマンスを示す一般的なセグメンテーションモデル2(SAM2)をリリースした。
そこで本論文では,各種刺激条件下でのセグメンテーションポリプにおけるSAM2の性能評価を行った。
このレポートは,ポリプセグメンテーションの分野を前進させ,将来より興味深い研究を促進するための洞察を提供することを期待している。
このプロジェクトはhttps://github.com/sajjad-sh33/Polyp-SAM-2で公開されている。
Polyp segmentation plays a crucial role in the early detection and diagnosis of colorectal cancer. However, obtaining accurate segmentations often requires labor-intensive annotations and specialized models. Recently, Meta AI Research released a general Segment Anything Model 2 (SAM 2), which has demonstrated promising performance in several segmentation tasks. In this manuscript, we evaluate the performance of SAM 2 in segmenting polyps under various prompted settings. We hope this report will provide insights to advance the field of polyp segmentation and promote more interesting work in the future. This project is publicly available at https://github.com/ sajjad-sh33/Polyp-SAM-2. | 翻訳日:2024-08-28 18:38:45 公開日:2024-08-27 |
# 非線形多スケール状態空間モデルにおけるベイズ学習
Bayesian Learning in a Nonlinear Multiscale State-Space Model ( http://arxiv.org/abs/2408.06425v5 ) ライセンス: Link先を確認 | Nayely Vélez-Cruz, Manfred D. Laubichler, | (参考訳) 複雑なシステムにおけるマルチスケール相互作用の普遍性はよく認識されており、発達と遺伝性は、異なる時間スケールのプロセスが相互にどのように影響するかを示す主要な例である。
この研究は、異なる時間スケールで相互作用するシステム間の動的相互作用を、各スケール間のフィードバックで探索する、新しいマルチスケール状態空間モデルを導入している。
本稿では,このマルチスケールモデルにおける未知のプロセスノイズ共分散を学習することにより,未知の状態の推定を行うためのベイズ学習フレームワークを提案する。
本研究では,提案手法の有効性をシミュレーションし,提案手法の有効性を実証するPGASアルゴリズムを開発した。
The ubiquity of multiscale interactions in complex systems is well-recognized, with development and heredity serving as a prime example of how processes at different temporal scales influence one another. This work introduces a novel multiscale state-space model to explore the dynamic interplay between systems interacting across different time scales, with feedback between each scale. We propose a Bayesian learning framework to estimate unknown states by learning the unknown process noise covariances within this multiscale model. We develop a Particle Gibbs with Ancestor Sampling (PGAS) algorithm for inference and demonstrate through simulations the efficacy of our approach. | 翻訳日:2024-08-28 18:38:45 公開日:2024-08-27 |
# 定常状態における創発的ゲージ場と"Choi-Spin Liquids"
Emergent Gauge Fields and the "Choi-Spin Liquids" in Steady States ( http://arxiv.org/abs/2408.07125v2 ) ライセンス: Link先を確認 | Kaixiang Su, Yimu Bao, Cenke Xu, | (参考訳) 我々は、リンドブラディアンのクラスの進化の定常状態が、二重ヒルベルト空間の「グッツウィラー射影」波動関数、すなわちチェイ・ジャミルコフスキー同型を通じて密度行列の表現に写像できることを示した。
グッツウィラー射影はスピン液体状態を構成する標準的なアプローチである。
例えば、ギャップのない自由フェルミオン純量子状態から始めると、二重ヒルベルト空間におけるリンドブラディアン進化の定常状態は、代数スピン液体のアナログであり、これは「ホイスピン液体」と呼ばれる。
チョイスピン液体は、選択後の強い測定によって製造することもできる。
スピン液体の理解に基づいて,Choi-spin液の予測を行うことができ,これらの予測をテストするための実験的プロトコルを設計する。
チャーン絶縁体から始めると、理論はリンドブラディアン進化の定常状態が自然に「強弱」なU(1)対称性の破れを持つと予想され、これは二重ヒルベルト空間の超伝導体に対応する。
We demonstrate that the steady states of the evolution of a class of Lindbladians can be mapped to the "Gutzwiller projected" wave functions in the doubled Hilbert space, i.e. the representation of the density matrix through the Choi-Jamiolkowski isomorphism. A Gutzwiller projection is a standard approach of constructing spin liquid states. For example, if one starts with a gapless free fermion pure quantum state, the steady state of the Lindbladian evolution in the doubled Hilbert space is an analog of an algebraic spin liquid, which is dubbed the "Choi-spin liquid". The Choi-spin liquid can also be produced through strong measurement without post-selection. Predictions of the Choi-spin liquids can be made based on the understanding on spin liquids, and we will design the experimental protocol to test these predictions. If one starts with a Chern insulator, theory predicts that the steady state of the Lindbladian evolution is expected to have a spontaneous "strong-to-weak" U(1) symmetry breaking, which corresponds to a superconductor in the doubled Hilbert space. | 翻訳日:2024-08-28 18:38:45 公開日:2024-08-27 |
# アイドリング面符号パッチにおける安定化器計測ラウンドの最適数
Optimal number of stabilizer measurement rounds in an idling surface code patch ( http://arxiv.org/abs/2408.07529v2 ) ライセンス: Link先を確認 | Áron Márton, János K. Asbóth, | (参考訳) 論理量子ビットは、多くの物理量子ビットの非常に絡み合った状態に符号化し、安定化器の測定によって動的に介入することで、環境騒音に対して保護することができる。
本研究では,表面コードパッチに符号化された論理量子ビットの安定化器計測ラウンド数と,所定の時間アイドリング回数と,これらの介入の速度を数値的に最適化する。
我々は、ゲート誤差、読み出し誤差、振幅、位相減衰を含む回路レベルの環境騒音をモデル化する。
定性的には、安定した測定ラウンドの最適な数は、より良いキュービットのために小さくなり、より良いゲートやより大きなコードサイズのために大きくなっています。
この結果が、主要なアーキテクチャ、超伝導量子ビット、中性原子にもたらす影響について論じる。
Logical qubits can be protected against environmental noise by encoding them into a highly entangled state of many physical qubits and actively intervening in the dynamics with stabilizer measurements. In this work, we numerically optimize the rate of these interventions: the number of stabilizer measurement rounds for a logical qubit encoded in a surface code patch and idling for a given time. We model the environmental noise on the circuit level, including gate errors, readout errors, amplitude and phase damping. We find, qualitatively, that the optimal number of stabilizer measurement rounds is getting smaller for better qubits and getting larger for better gates or larger code sizes. We discuss the implications of our results to some of the leading architectures, superconducting qubits, and neutral atoms. | 翻訳日:2024-08-28 18:38:45 公開日:2024-08-27 |
# 大規模言語モデルに基づく韓国トリアージ・アクアリティ尺度(KTAS)に基づく救急部門におけるトライアージ・治療計画支援システムの開発
Development of a Large Language Model-based Multi-Agent Clinical Decision Support System for Korean Triage and Acuity Scale (KTAS)-Based Triage and Treatment Planning in Emergency Departments ( http://arxiv.org/abs/2408.07531v2 ) ライセンス: Link先を確認 | Seungjun Han, Wongyung Choi, | (参考訳) 救急部門(ED)の過密化と、救急医療における急激な意思決定の複雑さは、世界中の医療システムにとって重大な課題となっている。
臨床意思決定支援システム(CDSS)は将来性を示しているが、大規模言語モデル(LLM)の統合は、トリアージ精度と臨床意思決定を向上する新たな可能性を提供する。
本研究は, 患者トリアージ, 治療計画, 救急医療管理全般において, ED医師や看護師を支援するためのLCM駆動型CDSSを提案する。
We developed a multi-agent CDSS using Llama-3-70b as the base LLM, together by CrewAI and Langchain。
このシステムは、Triage Nuurse、救急医、薬剤師、EDコーディネーターの4つのAIエージェントで構成されている。
トリアージアセスメントにはKTAS(Korea Triage and Acuity Scale)が組み込まれ、医薬品管理にはRxNorm APIが組み込まれている。
このモデルをAsclepiusデータセットを用いて評価し,臨床救急医療の専門家による評価を行った。
CDSSは単エージェントシステムのベースラインと比較してトリアージ決定において高い精度を示した。
さらに, 本システムでは, 一次診断, 臨界発見同定, 配置決定, 治療計画, 資源配分など, 重要な領域で高い性能を示した。
マルチエージェントCDSSは,包括的救急医療支援に有意な可能性を秘めている。
最先端のAI技術を活用することで、このシステムはスケーラブルで適応可能なツールを提供し、救急医療のデリバリを強化し、ED過密を緩和し、患者の結果を改善する可能性がある。
この研究は、救急医療におけるAI応用の進展に寄与し、将来の研究と臨床実践に有望な方向性を提供する。
Emergency department (ED) overcrowding and the complexity of rapid decision-making in critical care settings pose significant challenges to healthcare systems worldwide. While clinical decision support systems (CDSS) have shown promise, the integration of large language models (LLMs) offers new possibilities for enhancing triage accuracy and clinical decision-making. This study presents an LLM-driven CDSS designed to assist ED physicians and nurses in patient triage, treatment planning, and overall emergency care management. We developed a multi-agent CDSS utilizing Llama-3-70b as the base LLM, orchestrated by CrewAI and Langchain. The system comprises four AI agents emulating key ED roles: Triage Nurse, Emergency Physician, Pharmacist, and ED Coordinator. It incorporates the Korean Triage and Acuity Scale (KTAS) for triage assessment and integrates with the RxNorm API for medication management. The model was evaluated using the Asclepius dataset, with performance assessed by a clinical emergency medicine specialist. The CDSS demonstrated high accuracy in triage decision-making compared to the baseline of a single-agent system. Furthermore, the system exhibited strong performance in critical areas, including primary diagnosis, critical findings identification, disposition decision-making, treatment planning, and resource allocation. Our multi-agent CDSS demonstrates significant potential for supporting comprehensive emergency care management. By leveraging state-of-the-art AI technologies, this system offers a scalable and adaptable tool that could enhance emergency medical care delivery, potentially alleviating ED overcrowding and improving patient outcomes. This work contributes to the growing field of AI applications in emergency medicine and offers a promising direction for future research and clinical implementation. | 翻訳日:2024-08-28 18:38:45 公開日:2024-08-27 |
# 量子スーパーマップのベイズ的回帰
Bayesian retrodiction of quantum supermaps ( http://arxiv.org/abs/2408.07885v2 ) ライセンス: Link先を確認 | Ge Bai, | (参考訳) ペッツ写像はベイズの法則の量子版として確立されている。
これは、前方量子プロセス後に観測された量子状態の概念的信念更新規則と、最終状態が更新された信念と等しい状態に回復する操作的逆過程を統一し、前方のプロセスに反する。
本稿では,量子ベイズ則の高次一般化について,量子スーパーマップに基づく量子過程を考慮して検討する。
量子チャネルの信念を更新するためのルールは、逆の量子スーパーマップ(retrodiction supermap)と呼ばれ、量子クラウドコンピューティングにおけるエラー修正のような応用を可能にする。
これらの家族に分析ソリューションが提供され、任意の初期信念のレシピはまだ見つからない。
The Petz map has been established as a quantum version of the Bayes' rule. It unifies the conceptual belief update rule of a quantum state observed after a forward quantum process, and the operational reverse process that brings the final state to a recovered state equal to the updated belief, counteracting the forward process. Here, we study a higher-order generalization of the quantum Bayes' rule by considering a quantum process undergoing a quantum supermap. For a few families of initial beliefs, we show that a similar unification is possible -- the rules to update the belief of quantum channels can be implemented via a "reverse" quantum supermap, which we call the retrodiction supermap, allowing for applications such as error correction in quantum cloud computing. Analytical solutions are provided for those families, while a recipe for arbitrary initial beliefs is yet to be found. | 翻訳日:2024-08-28 18:38:45 公開日:2024-08-27 |
# I-SHEEP:反復的自己拡張パラダイムによるLCMのスクラッチからの自己アライメント
I-SHEEP: Self-Alignment of LLM from Scratch through an Iterative Self-Enhancement Paradigm ( http://arxiv.org/abs/2408.08072v2 ) ライセンス: Link先を確認 | Yiming Liang, Ge Zhang, Xingwei Qu, Tianyu Zheng, Jiawei Guo, Xinrun Du, Zhenzhu Yang, Jiaheng Liu, Chenghua Lin, Lei Ma, Wenhao Huang, Jiajun Zhang, | (参考訳) 大規模言語モデル(LLM)は大きな進歩を遂げてきたが、共通学習パラダイムはLLMを受動的情報リポジトリとして扱い、アクティブな学習とアライメントの可能性を無視している。
一部のアプローチでは、独自の合成データを用いてLSMを訓練し、アクティブアライメントの可能性を探る。
しかし、この1回アライメント法と人間の連続的な自動アライメントの間にはまだ大きなギャップがある。
本稿では, テキストbf{I-SHEEP}, an \textbf{I}terative \textbf{S}elf-En\textbf{H}anc\textbf{E}m\textbf{E}nt \textbf{P}aradigmを紹介する。
In this paper, I-SHEEP can significantly enhance capacity on Qwen and Llama model。
I-SHEEPは、Alpaca Evalの78.2\%の最大相対改善、MT Benchの24.0\%、Qwen-1.5 72Bモデルでのその後のイテレーションに比べて、IFEvalの精度が8.88\%の絶対的に向上する。
さらに、I-SHEEPは様々な標準ベンチマーク生成タスクのベースモデルを超え、コード生成タスクの24.77\%、TrivialQAの12.04\%、SQuADの20.29\%の平均的な改善を実現している。
実験結果に基づいた新たな洞察も提供する。
私たちのコード、データセット、モデルは、 \textbf{https://anonymous.4open.science/r/I-SHEEP}で利用可能です。
Large Language Models (LLMs) have achieved significant advancements, however, the common learning paradigm treats LLMs as passive information repositories, neglecting their potential for active learning and alignment. Some approaches train LLMs using their own generated synthetic data, exploring the possibility of active alignment. However, there is still a huge gap between these one-time alignment methods and the continuous automatic alignment of humans. In this paper, we introduce \textbf{I-SHEEP}, an \textbf{I}terative \textbf{S}elf-En\textbf{H}anc\textbf{E}m\textbf{E}nt \textbf{P}aradigm.This human-like paradigm enables LLMs to \textbf{continuously self-align from scratch with nothing}. Compared to the one-time alignment method Dromedary \cite{sun2023principledriven}, which refers to the first iteration in this paper, I-SHEEP can significantly enhance capacities on both Qwen and Llama models. I-SHEEP achieves a maximum relative improvement of 78.2\% in the Alpaca Eval, 24.0\% in the MT Bench, and an absolute increase of 8.88\% in the IFEval accuracy over subsequent iterations in Qwen-1.5 72B model. Additionally, I-SHEEP surpasses the base model in various standard benchmark generation tasks, achieving an average improvement of 24.77\% in code generation tasks, 12.04\% in TrivialQA, and 20.29\% in SQuAD. We also provide new insights based on the experiment results. Our codes, datasets, and models are available at \textbf{https://anonymous.4open.science/r/I-SHEEP}. | 翻訳日:2024-08-28 18:28:54 公開日:2024-08-27 |
# 5%>100%:視覚認知課題におけるフルファインチューニングのパフォーマンスの欠如
5%>100%: Breaking Performance Shackles of Full Fine-Tuning on Visual Recognition Tasks ( http://arxiv.org/abs/2408.08345v2 ) ライセンス: Link先を確認 | Dongshuo Yin, Leiyi Hu, Bin Li, Youqun Zhang, Xue Yang, | (参考訳) 事前トレーニングと微調整は、視覚タスクの転送効率と性能を高めることができる。
最近のデルタチューニング手法は、視覚的分類タスクにより多くの選択肢を提供する。
彼らの成功にもかかわらず、既存の視覚デルタ調整技術は、オブジェクト検出やセグメンテーションといった困難なタスクに対する完全な微調整の上限を超えることができません。
そこで本研究では,マルチ認知型ビジュアルアダプタ(Mona)チューニング方式を提案する。
まず,複数の視覚に優しいフィルタを導入し,視覚信号の処理能力を高め,従来の手法は言語に優しい線形フィルタに大きく依存していた。
次に,適応器に拡張正規化層を追加し,視覚フィルタの入力特徴の分布を調節する。
モナの実用性と汎用性を実証するため,COCOのインスタンスセグメンテーション,ADE20Kのセマンティックセグメンテーション,Pascal VOCのオブジェクト検出,DOTA/STARのオブジェクト指向オブジェクト検出,3つの共通データセットのイメージ分類など,複数の視覚的タスクについて実験を行った。
興奮的な結果は、モナがこれら全てのタスクで完全な微調整を超越していることを示し、上記の様々なタスクで完全な微調整を行う唯一のデルタ微調整法である。
例えば、完全な微調整に比べて、MonaはCOCOデータセットで1%のパフォーマンス向上を達成した。
総合的な結果は、モナチューニングは完全な微調整よりも事前訓練されたモデルの能力を維持・活用するのに適していることを示唆している。
コードはhttps://github.com/Leiyi-Hu/mona.comで公開される。
Pre-training & fine-tuning can enhance the transferring efficiency and performance in visual tasks. Recent delta-tuning methods provide more options for visual classification tasks. Despite their success, existing visual delta-tuning art fails to exceed the upper limit of full fine-tuning on challenging tasks like object detection and segmentation. To find a competitive alternative to full fine-tuning, we propose the Multi-cognitive Visual Adapter (Mona) tuning, a novel adapter-based tuning method. First, we introduce multiple vision-friendly filters into the adapter to enhance its ability to process visual signals, while previous methods mainly rely on language-friendly linear filters. Second, we add the scaled normalization layer in the adapter to regulate the distribution of input features for visual filters. To fully demonstrate the practicality and generality of Mona, we conduct experiments on multiple representative visual tasks, including instance segmentation on COCO, semantic segmentation on ADE20K, object detection on Pascal VOC, oriented object detection on DOTA/STAR, and image classification on three common datasets. Exciting results illustrate that Mona surpasses full fine-tuning on all these tasks, and is the only delta-tuning method outperforming full fine-tuning on the above various tasks. For example, Mona achieves 1% performance gain on the COCO dataset compared to full fine-tuning. Comprehensive results suggest that Mona-tuning is more suitable for retaining and utilizing the capabilities of pre-trained models than full fine-tuning. The code will be released at https://github.com/Leiyi-Hu/mona. | 翻訳日:2024-08-28 18:28:54 公開日:2024-08-27 |
# 予測モデル性能と一般化可能性の文脈におけるクロスモデル神経相関の探索
Exploring Cross-model Neuronal Correlations in the Context of Predicting Model Performance and Generalizability ( http://arxiv.org/abs/2408.08448v3 ) ライセンス: Link先を確認 | Haniyeh Ehsani Oskouie, Lionel Levine, Majid Sarrafzadeh, | (参考訳) 人工知能(AI)モデルが重要なシステムに統合されるにつれて、AIの信頼性を確立するための堅牢なフレームワークの必要性がますます高まっている。
共同作業はそのようなフレームワークの概念的な基盤を確立してきましたが、AIモデルの品質とパフォーマンスを評価する技術的に堅牢な方法を開発する上で、依然として大きなギャップがあります。
モデルの妥当性と一般化性を評価する従来の方法における重大な欠点は、内部の開発者データセットに依存していることだ。
本稿では,ニューラルネットワーク間の相関関係を計算し,他の既知のモデルに基づく新たなトレーニングモデルの性能評価手法を提案する。
提案手法は,1つのネットワーク内の各ニューロンに対して,類似の出力を生成する他のネットワークにニューロンが存在するかどうかを判定することにより相関性を評価する。
このアプローチはメモリ効率に影響を及ぼし、異なるサイズのネットワーク間で高い相関関係が存在する場合、より小さなネットワークを使用することができる。
さらに、本手法はロバスト性に関する洞察を提供し、2つの高相関ネットワークを比較し、本番環境で運用する場合にロバスト性を示すとすると、他方も同様のロバスト性を示す可能性が高いことを示唆している。
このコントリビューションは、責任あるAIのための技術ツールキットを推進し、より包括的でニュアンスなAIモデルの評価をサポートし、安全で効果的なデプロイメントを保証する。
コードはhttps://github.com/aheldis/Cross-model-correlation.gitで公開されている。
As Artificial Intelligence (AI) models are increasingly integrated into critical systems, the need for a robust framework to establish the trustworthiness of AI is increasingly paramount. While collaborative efforts have established conceptual foundations for such a framework, there remains a significant gap in developing concrete, technically robust methods for assessing AI model quality and performance. A critical drawback in the traditional methods for assessing the validity and generalizability of models is their dependence on internal developer datasets, rendering it challenging to independently assess and verify their performance claims. This paper introduces a novel approach for assessing a newly trained model's performance based on another known model by calculating correlation between neural networks. The proposed method evaluates correlations by determining if, for each neuron in one network, there exists a neuron in the other network that produces similar output. This approach has implications for memory efficiency, allowing for the use of smaller networks when high correlation exists between networks of different sizes. Additionally, the method provides insights into robustness, suggesting that if two highly correlated networks are compared and one demonstrates robustness when operating in production environments, the other is likely to exhibit similar robustness. This contribution advances the technical toolkit for responsible AI, supporting more comprehensive and nuanced evaluations of AI models to ensure their safe and effective deployment. Code is available at https://github.com/aheldis/Cross-model-correlation.git. | 翻訳日:2024-08-28 18:28:54 公開日:2024-08-27 |
# DAC: テキストからSQLへの自動修正の分解
DAC: Decomposed Automation Correction for Text-to-SQL ( http://arxiv.org/abs/2408.08779v2 ) ライセンス: Link先を確認 | Dingzirui Wang, Longxu Dou, Xuanliang Zhang, Qingfu Zhu, Wanxiang Che, | (参考訳) Text-to-SQLは、SQLクエリを自動的に生成することで、データベースから情報を取得するのに役立つ重要なタスクである。
優れたパフォーマンスを考えると、Large Language Models(LLM)に基づくアプローチが、テキストからSQLへの主流となっている。
これらの手法のうち、自動補正は、生成された結果の誤りを修正することによって、パフォーマンスをさらに向上する効果的な手法である。
既存の修正手法では、LLMが生成したSQLを直接修正する必要があるが、以前の研究では、LLMはミスを検出する方法を知らないことが示されており、性能が低下している。
そこで本研究では,テキストからSQLへの変換性能を向上させるために,分割補正を用いることを提案する。
まず,分解されたサブタスクの結果がSQLよりも容易であることから,分解されたサブタスクの誤りの検出と修正が直接修正より優れていることを示す。
この分析に基づいて、テキストからSQLへの分解をエンティティリンクとスケルトン解析に分解することでSQLを修正するDecomposed Automation Correction (DAC)を導入する。
DACはまず、質問に対応するエンティティとスケルトンを生成し、最初のSQLと生成されたエンティティとスケルトンの違いを修正のためのフィードバックとして比較する。
実験結果から,本手法はベースライン法と比較して,スパイダー,バード,カグルDBQAの平均値が3.7 % 向上し,DACの有効性が示された。
Text-to-SQL is an important task that helps people obtain information from databases by automatically generating SQL queries. Considering the brilliant performance, approaches based on Large Language Models (LLMs) become the mainstream for text-to-SQL. Among these approaches, automated correction is an effective approach that further enhances performance by correcting the mistakes in the generated results. The existing correction methods require LLMs to directly correct with generated SQL, while previous research shows that LLMs do not know how to detect mistakes, leading to poor performance. Therefore, in this paper, we propose to employ the decomposed correction to enhance text-to-SQL performance. We first demonstrate that decomposed correction outperforms direct correction since detecting and fixing mistakes with the results of the decomposed sub-tasks is easier than with SQL. Based on this analysis, we introduce Decomposed Automation Correction (DAC), which corrects SQL by decomposing text-to-SQL into entity linking and skeleton parsing. DAC first generates the entity and skeleton corresponding to the question and then compares the differences between the initial SQL and the generated entities and skeleton as feedback for correction. Experimental results show that our method improves performance by $3.7\%$ on average of Spider, Bird, and KaggleDBQA compared with the baseline method, demonstrating the effectiveness of DAC. | 翻訳日:2024-08-28 18:28:54 公開日:2024-08-27 |
# FLEXTAF: フレキシブルなタブラルフォーマットによるテーブル推論の強化
FLEXTAF: Enhancing Table Reasoning with Flexible Tabular Formats ( http://arxiv.org/abs/2408.08841v2 ) ライセンス: Link先を確認 | Xuanliang Zhang, Dingzirui Wang, Longxu Dou, Baoxin Wang, Dayong Wu, Qingfu Zhu, Wanxiang Che, | (参考訳) テーブル推論タスクは、与えられたテーブルに従って質問に答えることを目的としている。
現在、Large Language Models (LLMs) はテーブル推論の主要な手法である。
既存のほとんどのメソッドはテーブルを表現するために固定された表形式を採用しており、パフォーマンスを制限できる。
各インスタンスがさまざまな機能を必要とし、モデルがさまざまな能力を持っていることを考慮すれば、異なるインスタンスとモデルは異なる表形式に適合する、と私たちは主張する。
実験結果の定量的解析により, 様々な表形式を用いて, 異なるインスタンスやモデルで異なる性能を達成できることを示す。
本稿では,フレキシブルな表形式を用いてテーブル推論性能を向上させるためにFLEXTAF-SingleとFLEXTAF-Voteを提案する。
具体的には
i)FLEXTAF-Singleは、インスタンスとLLMに基づいて最も適切な表形式を予測するために分類器を訓練する。
(ii)FLEXTAF-Voteは、結果を異なるフォーマットで統合する。
WikiTableQuestions と TabFact に関する実験では,グリージーデコーディングと自己整合デコーディングによる固定表形式を用いて達成した最高のパフォーマンスと比較して,平均2.3%,4.8%向上した。
The table reasoning task aims to answer the question according to the given table. Currently, using Large Language Models (LLMs) is the predominant method for table reasoning. Most existing methods employ a fixed tabular format to represent the table, which could limit the performance. Given that each instance requires different capabilities and models possess varying abilities, we assert that different instances and models suit different tabular formats. We prove the aforementioned claim through quantitative analysis of experimental results, where different instances and models achieve different performances using various tabular formats. Building on this discussion, we propose FLEXTAF-Single and FLEXTAF-Vote to enhance table reasoning performance by employing flexible tabular formats. Specifically, (i) FLEXTAF-Single trains a classifier to predict the most suitable tabular format based on the instance and the LLM. (ii) FLEXTAF-Vote integrates the results across different formats. Our experiments on WikiTableQuestions and TabFact reveal significant improvements, with average gains of 2.3% and 4.8% compared to the best performance achieved using a fixed tabular format with greedy decoding and self-consistency decoding, thereby validating the effectiveness of our methods. | 翻訳日:2024-08-28 18:28:54 公開日:2024-08-27 |
# 差別化可能なエッジベースOPC
Differentiable Edge-based OPC ( http://arxiv.org/abs/2408.08969v2 ) ライセンス: Link先を確認 | Guojin Chen, Haoyu Yang, Haoxing Ren, Bei Yu, David Z. Pan, | (参考訳) 光近接補正(OPC)は半導体製造の境界を押し進め、集積回路の継続的なスケーリングを可能にするために重要である。
画素ベースのOPCは逆リソグラフィ技術(ILT)と呼ばれ、その柔軟性と精度から研究の関心を集めている。
その複雑さと複雑な特徴は、マスクの書き込み、欠陥の増加、コストの上昇といった課題を招き、工業的普及を妨げている。
本稿では、エッジベースのOPCとILTの両方の利点を享受する差別化可能なOPCフレームワークであるDiffOPCを提案する。
DiffOPCはマスクルールを意識した勾配に基づく最適化手法を用いて、マスク最適化中のマスクエッジセグメントの動きを効率的に誘導し、コスト関数からマスクエッジへの真の勾配の伝播によるウェハ誤差を最小化する。
提案手法は,最先端のOPC技術と比較して製造コストを半減させ,画素ベースのOPCの高精度化と産業採用に必要な実用性とのギャップを埋めると共に,製造コストを半減させる。
Optical proximity correction (OPC) is crucial for pushing the boundaries of semiconductor manufacturing and enabling the continued scaling of integrated circuits. While pixel-based OPC, termed as inverse lithography technology (ILT), has gained research interest due to its flexibility and precision. Its complexity and intricate features can lead to challenges in mask writing, increased defects, and higher costs, hence hindering widespread industrial adoption. In this paper, we propose DiffOPC, a differentiable OPC framework that enjoys the virtue of both edge-based OPC and ILT. By employing a mask rule-aware gradient-based optimization approach, DiffOPC efficiently guides mask edge segment movement during mask optimization, minimizing wafer error by propagating true gradients from the cost function back to the mask edges. Our approach achieves lower edge placement error while reducing manufacturing cost by half compared to state-of-the-art OPC techniques, bridging the gap between the high accuracy of pixel-based OPC and the practicality required for industrial adoption, thus offering a promising solution for advanced semiconductor manufacturing. | 翻訳日:2024-08-28 18:28:54 公開日:2024-08-27 |
# バービー:バービースタイルの3Dアバター
Barbie: Text to Barbie-Style 3D Avatars ( http://arxiv.org/abs/2408.09126v2 ) ライセンス: Link先を確認 | Xiaokun Sun, Zhenyu Zhang, Ying Tai, Qian Wang, Hao Tang, Zili Yi, Jian Yang, | (参考訳) テキスト誘導型3Dアバター生成の最近の進歩は,拡散モデルから知識を抽出することによって大きく進歩している。
既存の手法では, 内部と装身具の微粒化や高忠実度モデリングは不可能である。
本稿では,バービーのような多彩で高品質な衣服やアクセサリーを身に着けた3Dアバターを製作するための新しいフレームワークであるバービーを提案する。
全体論的モデルに頼る代わりに、バービーは人体と衣服のセマンティックアライズされたモデルによって、アバターのきめ細かいゆがみを達成している。
これらの非絡み合った3D表現は、異なる専門家モデルによって最適化され、ドメイン固有の忠実さが保証される。
幾何学的多様性と合理的さのバランスをとるために,テンプレート保存と人間優先の進化のための一連の損失を提案する。
最終アバターは、集合的なテクスチャ改質により、優れたテクスチャ整合性を実現する。
大規模な実験では、バービーは服装と服装の両方で既存の手法よりも優れており、柔軟なアパレルの組み合わせとアニメーションをサポートしている。
コードは研究目的でリリースされます。
私たちのプロジェクトページは以下のとおりです。
Recent advances in text-guided 3D avatar generation have made substantial progress by distilling knowledge from diffusion models. Despite the plausible generated appearance, existing methods cannot achieve fine-grained disentanglement or high-fidelity modeling between inner body and outfit. In this paper, we propose Barbie, a novel framework for generating 3D avatars that can be dressed in diverse and high-quality Barbie-like garments and accessories. Instead of relying on a holistic model, Barbie achieves fine-grained disentanglement on avatars by semantic-aligned separated models for human body and outfits. These disentangled 3D representations are then optimized by different expert models to guarantee the domain-specific fidelity. To balance geometry diversity and reasonableness, we propose a series of losses for template-preserving and human-prior evolving. The final avatar is enhanced by unified texture refinement for superior texture consistency. Extensive experiments demonstrate that Barbie outperforms existing methods in both dressed human and outfit generation, supporting flexible apparel combination and animation. The code will be released for research purposes. Our project page is: https://xiaokunsun.github.io/Barbie.github.io/. | 翻訳日:2024-08-28 18:28:54 公開日:2024-08-27 |
# Covariate-dependent Stackingによるアンサンブル予測
Ensemble Prediction via Covariate-dependent Stacking ( http://arxiv.org/abs/2408.09755v2 ) ライセンス: Link先を確認 | Tomoya Wakayama, Shonosuke Sugasawa, | (参考訳) 本研究では,'covariate-dependent stacking' (CDST)と呼ばれる,アンサンブル予測の新しい手法を提案する。
従来の積み重ね方式とは異なり、CDSTはモデルウェイトを共変量の関数として柔軟に変化させ、複雑なシナリオにおける予測性能を向上させる。
基本関数の組み合わせによって共変量に依存した重みを定式化し、クロスバリデーションを最適化してそれらを推定し、予測最大化アルゴリズムを開発し、計算効率の確保を図る。
理論的性質を解析するために,モデル重み推定のために最小化すべき損失に関するオラクルの不等式を確立する。
包括的なシミュレーション研究と大規模土地価格予測への応用を通じて、CDSTは従来のモデル平均化手法、特にいくつかのモデルが基盤となる複雑さを捉えないデータセットにおいて、一貫して上回っていることを実証した。
以上の結果から,CDSTは時空間予測の問題に限らず,特に有用であり,様々なデータ分析分野の研究者や実践者にとって強力なツールである可能性が示唆された。
This study proposes a novel approach to ensemble prediction, called ``covariate-dependent stacking'' (CDST). Unlike traditional stacking methods, CDST allows model weights to vary flexibly as a function of covariates, thereby enhancing predictive performance in complex scenarios. We formulate the covariate-dependent weights through combinations of basis functions, estimate them by optimizing cross-validation, and develop an expectation-maximization algorithm, ensuring computational efficiency. To analyze the theoretical properties, we establish an oracle inequality regarding the expected loss to be minimized for estimating model weights. Through comprehensive simulation studies and an application to large-scale land price prediction, we demonstrate that the CDST consistently outperforms conventional model averaging methods, particularly on datasets where some models fail to capture the underlying complexity. Our findings suggest that the CDST is especially valuable for, but not limited to, spatio-temporal prediction problems, offering a powerful tool for researchers and practitioners in various data analysis fields. | 翻訳日:2024-08-28 18:28:54 公開日:2024-08-27 |
# NoRA:高効率微調整大モデルのためのネスト低ランク適応
NoRA: Nested Low-Rank Adaptation for Efficient Fine-Tuning Large Models ( http://arxiv.org/abs/2408.10280v2 ) ライセンス: Link先を確認 | Cheng Lin, Lujun Li, Dezhi Li, Jie Zou, Wei Xue, Yike Guo, | (参考訳) 本稿では,パラメータ効率向上のための新しい手法であるNested Low-Rank Adaptation (NoRA)を紹介する。
バニラ・ローラは訓練済みの重量継承を見落としており、多くのパラメータを微調整する必要がある。
これらの問題に対処するため、我々はSingular Value Decomposition (SVD) を用いた二重層ネスト構造を採用し、元の行列知識を効果的に活用し、調整可能なパラメータを削減した。
具体的には、NORAは外側のLoRA重量を凍結し、内部のLoRA設計を利用し、モデル最適化の制御を強化している。
このアプローチにより、モデルはコンパクトなパラメータ空間を維持しながら、特定のタスクにより正確に適応することができる。
外部のLoRA重みを凍結し、内部のLoRA設計を使用することで、NORAはコンパクトなパラメータ空間で正確なタスク適応を可能にする。
大きな言語モデルによる常識推論、微調整された視覚言語モデル、主観駆動生成などのタスクの評価は、LoRAとその変種に対するNoRAの優位性を示している。
コードは受理時にリリースされる。
In this paper, we introduce Nested Low-Rank Adaptation (NoRA), a novel approach to parameter-efficient fine-tuning that extends the capabilities of Low-Rank Adaptation (LoRA) techniques. Vanilla LoRA overlooks pre-trained weight inheritance and still requires fine-tuning numerous parameters. To addresses these issues, our NoRA adopts a dual-layer nested structure with Singular Value Decomposition (SVD), effectively leveraging original matrix knowledge while reducing tunable parameters. Specifically, NoRA freezes the outer LoRA weights and utilizes an inner LoRA design, providing enhanced control over model optimization. This approach allows the model to more precisely adapt to specific tasks while maintaining a compact parameter space. By freezing outer LoRA weights and using an inner LoRA design, NoRA enables precise task adaptation with a compact parameter space. Evaluations on tasks including commonsense reasoning with large language models, fine-tuning vision-language models, and subject-driven generation demonstrate NoRA's superiority over LoRA and its variants. Code will be released upon acceptance. | 翻訳日:2024-08-28 18:28:54 公開日:2024-08-27 |
# UWF-RI2FA:UWF-RI2FAによる超広視野フルオレセイン血管造影は糖尿病網膜症を改善させる
UWF-RI2FA: Generating Multi-frame Ultrawide-field Fluorescein Angiography from Ultrawide-field Retinal Imaging Improves Diabetic Retinopathy Stratification ( http://arxiv.org/abs/2408.10636v2 ) ライセンス: Link先を確認 | Ruoyu Chen, Kezheng Xu, Kangyan Zheng, Weiyi Zhang, Yan Lu, Danli Shi, Mingguang He, | (参考訳) Ultrawide-field fluorescein angiography (UWF-FA) は糖尿病網膜症(DR)の検出を促進する。
しかし、潜在的なリスクを伴う静脈内染料注入は、その適用を妨げている。
我々は、生成人工知能(GenAI)を用いた非侵襲的UWF網膜イメージング(UWF-RI)から無色素UWF-FA画像を取得し、DRスクリーニングの有効性を評価することを目的とする。
異なる位相のUWF-FA画像18,321枚を対応するUWF-RI画像に登録し,GAN(Generative Adversarial Network)ベースのトレーニングモデルに入力した。
生成したUWF-FA画像の品質を定量化と人的評価により評価した。
DeepDRiDデータセットを用いて、生成したUWF-FA画像のDR分類への寄与を外部から評価し、受信機動作特性曲線(AUROC)以下の領域を結果指標とした。
生成したUWF-FA画像は、0.70から0.91までの類似度スコアと1.64から1.98(実際のUWF-FAの品質)の定性的視覚スコアで高い信頼性を得た。
ランダムに選択された50枚の画像では、生成した画像の56%から76%はチューリング試験で実際の画像と区別することが困難であった。
さらに、これらの生成したUWF-FA画像をDR分類に付加すると、UWF-RI画像を用いたベースラインモデルと比較して、AUROCは0.869から0.904に大幅に増加した(P < .001)。
このモデルは、静脈内染料注入なしでDR成層率を高めるために、現実的な多フレームUWF-FA画像を生成することに成功した。
Ultrawide-field fluorescein angiography (UWF-FA) facilitates diabetic retinopathy (DR) detection by providing a clear visualization of peripheral retinal lesions. However, the intravenous dye injection with potential risks hamper its application. We aim to acquire dye-free UWF-FA images from noninvasive UWF retinal imaging (UWF-RI) using generative artificial intelligence (GenAI) and evaluate its effectiveness in DR screening. A total of 18,321 UWF-FA images of different phases were registered with corresponding UWF-RI images and fed into a generative adversarial networks (GAN)-based model for training. The quality of generated UWF-FA images was evaluated through quantitative metrics and human evaluation. The DeepDRiD dataset was used to externally assess the contribution of generated UWF-FA images to DR classification, using area under the receiver operating characteristic curve (AUROC) as outcome metrics. The generated early, mid, and late phase UWF-FA images achieved high authenticity, with multi-scale similarity scores ranging from 0.70 to 0.91 and qualitative visual scores ranging from 1.64 to 1.98 (1=real UWF-FA quality). In fifty randomly selected images, 56% to 76% of the generated images were difficult to distinguish from real images in the Turing test. Moreover, adding these generated UWF-FA images for DR classification significantly increased the AUROC from 0.869 to 0.904 compared to the baseline model using UWF-RI images (P < .001). The model successfully generates realistic multi-frame UWF-FA images for enhancing DR stratification without intravenous dye injection. | 翻訳日:2024-08-28 18:28:54 公開日:2024-08-27 |
# BEYOND DIALOGUE:汎用ロールプレイング言語モデルに向けたプロファイルダイアライメントフレームワーク
BEYOND DIALOGUE: A Profile-Dialogue Alignment Framework Towards General Role-Playing Language Model ( http://arxiv.org/abs/2408.10903v4 ) ライセンス: Link先を確認 | Yeyong Yu, Runsheng Yu, Haojie Wei, Zhanqiu Zhang, Quan Qian, | (参考訳) 大規模言語モデル(LLM)の急速な進歩はロールプレイングに革命をもたらし、一般的なロールプレイングモデルの開発を可能にした。
しかし、現在のロールプレイングトレーニングには2つの大きな問題がある: (I) 特定のシナリオに対する対話トレーニングを促すために事前に定義されたロールプロファイルを使用すると、通常、対話とプロファイルの間に矛盾や矛盾が生じ、トレーニングバイアスが生じる。
(II)
モデルは、プロファイルのみに基づくロールの模倣を学び、文レベルでのプロファイル-対話アライメントを無視する。
本研究では,これらのハードルを克服するために,BEYOND DIALOGUEと呼ばれるシンプルで効果的なフレームワークを提案する。
このフレームワークは革新的に"Beyond dialogue"タスクを導入し、それぞれのシナリオに基づいて対話をプロファイル特性と整合させ、トレーニング中のバイアスを取り除く。
さらに、学習のための推論結果を生成する革新的なプロンプト機構を採用することにより、このフレームワークは、文レベルでのプロファイルと対話の微妙なアライメントを実現することができる。
上記の方法は、完全に自動化され、低コストである。
さらに、自動対話と客観的評価手法の統合は総合的な枠組みを形成し、一般的なロールプレイングの道を開く。
実験結果から,我々のモデルは役割プロファイルの様々な次元を忠実に表現し,表現する上で優れており,最もプロプライエタリな役割プレーングベースラインよりも優れていた。
すべてのコードとデータセットはhttps://github.com/yuyouyu32/BeyondDialogue.comで入手できる。
The rapid advancement of large language models (LLMs) has revolutionized role-playing, enabling the development of general role-playing models. However, current role-playing training has two significant issues: (I) Using a predefined role profile to prompt dialogue training for specific scenarios usually leads to inconsistencies and even conflicts between the dialogue and the profile, resulting in training biases. (II) The model learns to imitate the role based solely on the profile, neglecting profile-dialogue alignment at the sentence level. In this work, we propose a simple yet effective framework called BEYOND DIALOGUE, designed to overcome these hurdles. This framework innovatively introduces "beyond dialogue" tasks to align dialogue with profile traits based on each specific scenario, thereby eliminating biases during training. Furthermore, by adopting an innovative prompting mechanism that generates reasoning outcomes for training, the framework allows the model to achieve fine-grained alignment between profile and dialogue at the sentence level. The aforementioned methods are fully automated and low-cost. Additionally, the integration of automated dialogue and objective evaluation methods forms a comprehensive framework, paving the way for general role-playing. Experimental results demonstrate that our model excels in adhering to and reflecting various dimensions of role profiles, outperforming most proprietary general and specialized role-playing baselines. All code and datasets are available at https://github.com/yuyouyu32/BeyondDialogue. | 翻訳日:2024-08-28 18:28:54 公開日:2024-08-27 |
# ストロンチウムキャビティ-QED系における散逸誘起超ラジカル転移
A dissipation-induced superradiant transition in a strontium cavity-QED system ( http://arxiv.org/abs/2408.11086v2 ) ライセンス: Link先を確認 | Eric Yilun Song, Diego Barberena, Dylan J. Young, Edwin Chaparro, Anjun Chu, Sanaa Agarwal, Zhijing Niu, Jeremy T. Young, Ana Maria Rey, James K. Thompson, | (参考訳) キャビティ量子電磁力学(QED)では、エミッタと共振器が結合し、量子光-物質相互作用の精密な研究を可能にする。
過去数十年間、これはより正確な慣性センサー、時計、記憶、制御可能な量子ビット、量子シミュレータなど、様々な量子技術を生み出してきた。
さらに、空洞QEDプラットフォームの本質的な散逸性の性質は、開量子系における駆動散逸性現象、および量子光学における平衡および非平衡相転移を探索するための自然なテストベッドとなる。
そのようなモデルの一つ、いわゆる協調共鳴蛍光(CRF)モデルは、集団散逸(超放射)の存在下でのコヒーレントに駆動されるエミッタの挙動を懸念している。
非常に興味があるにもかかわらず、このモデルはまだクリーンな実験システムでは実現されていない。
ここでは、長寿命光遷移において駆動された高強度光空洞に結合した超低温の$^{88}$Sr原子のアンサンブルを用いて、CRFモデルで予測される連続超放射相転移を観察する。
臨界駆動の下にある原子は、駆動の自己バランスと集団散逸によって決定される定常状態に素早く到達する。
定常状態は、マクロな双極子モーメントを持ち、超ラジカル相に対応する。
臨界駆動強度の上にある原子は、他のデコヒーレンスプロセスが起動するまで、ラビのような持続的な振動を受ける。
実際、このプラットフォームでは、単一粒子自然放出により誘導される2次から1次への相転移を目撃することができ、システムが異なる定常状態に進むことができる。
我々の観測は、量子情報処理や特に量子センシングに利用可能な量子状態を生成するために予測された、駆動散逸系のより細かい制御への第一歩である。
In cavity quantum electrodynamics (QED), emitters and a resonator are coupled together to enable precise studies of quantum light-matter interactions. Over the past few decades, this has led to a variety of quantum technologies such as more precise inertial sensors, clocks, memories, controllable qubits, and quantum simulators. Furthermore, the intrinsically dissipative nature of cavity QED platforms makes them a natural testbed for exploring driven-dissipative phenomena in open quantum systems as well as equilibrium and non-equilibrium phase transitions in quantum optics. One such model, the so-called cooperative resonance fluorescence (CRF) model, concerns the behavior of coherently driven emitters in the presence of collective dissipation (superradiance). Despite tremendous interest, this model has yet to be realized in a clean experimental system. Here we provide an observation of the continuous superradiant phase transition predicted in the CRF model using an ensemble of ultracold $^{88}$Sr atoms coupled to a driven high-finesse optical cavity on a long-lived optical transition. Below a critical drive, atoms quickly reach a steady state determined by the self-balancing of the drive and the collective dissipation. The steady state possesses a macroscopic dipole moment and corresponds to a superradiant phase. Above a critical drive strength, the atoms undergo persistent Rabi-like oscillations until other decoherence processes kick in. In fact, our platform also allows us to witness the change of this phase transition from second to first order induced by single-particle spontaneous emission, which pushes the system towards a different steady state. Our observations are a first step towards finer control of driven-dissipative systems, which have been predicted to generate quantum states that can be harnessed for quantum information processing and in particular quantum sensing. | 翻訳日:2024-08-28 18:28:54 公開日:2024-08-27 |
# 業務用バイアスのアンボックス化:米国労働データによるLCMの基盤的デバイアス化
Unboxing Occupational Bias: Grounded Debiasing of LLMs with U.S. Labor Data ( http://arxiv.org/abs/2408.11247v2 ) ライセンス: Link先を確認 | Atmika Gorti, Manas Gaur, Aman Chadha, | (参考訳) 大規模言語モデル(LLM)は、トレーニングデータに埋め込まれた社会的バイアスを継承し、増幅する傾向があり、性別、職業、その他のセンシティブなカテゴリーに関連する有害なステレオタイプを補強する可能性がある。
偏見のあるLCMは、不公平な慣行や、採用、オンラインコンテンツモデレーション、刑事司法制度など、さまざまな領域における社会的不平等の悪化につながるため、この問題は特に問題となる。
従来の研究では、固有のバイアスを強調するために設計された特別なデータセットを使用してLCMのバイアスを検出することに焦点が当てられていたが、アメリカ労働統計局(NBLS)などの権威的なデータセットとどのように相関するかについて、注目すべき研究が欠如している。
このギャップに対処するため,我々は,NBLSデータから得られた分布と生成した出力がどのように比較されるかを分析し,LLMを<bias-out-of-the-box>設定で評価する経験的研究を行った。
さらに,NBLSインスタンスを直接組み込んでLLM内のバイアスを緩和する,単純かつ効果的な脱バイアス機構を提案する。
我々の研究は、インストラクタブル(instructable)、ベース(base)、ミックス・オブ・エキスパート(mixed-of-expert)のモデルを含む7つの異なるLLMにまたがっており、既存のバイアス検出技術によって見落とされがちなバイアスのかなりのレベルを明らかにしている。
重要なことは、外部データセットに依存しないデバイアス法は、バイアススコアを大幅に削減し、より公平で信頼性の高いLCMを作成するためのアプローチの有効性を強調している。
Large Language Models (LLMs) are prone to inheriting and amplifying societal biases embedded within their training data, potentially reinforcing harmful stereotypes related to gender, occupation, and other sensitive categories. This issue becomes particularly problematic as biased LLMs can have far-reaching consequences, leading to unfair practices and exacerbating social inequalities across various domains, such as recruitment, online content moderation, or even the criminal justice system. Although prior research has focused on detecting bias in LLMs using specialized datasets designed to highlight intrinsic biases, there has been a notable lack of investigation into how these findings correlate with authoritative datasets, such as those from the U.S. National Bureau of Labor Statistics (NBLS). To address this gap, we conduct empirical research that evaluates LLMs in a ``bias-out-of-the-box" setting, analyzing how the generated outputs compare with the distributions found in NBLS data. Furthermore, we propose a straightforward yet effective debiasing mechanism that directly incorporates NBLS instances to mitigate bias within LLMs. Our study spans seven different LLMs, including instructable, base, and mixture-of-expert models, and reveals significant levels of bias that are often overlooked by existing bias detection techniques. Importantly, our debiasing method, which does not rely on external datasets, demonstrates a substantial reduction in bias scores, highlighting the efficacy of our approach in creating fairer and more reliable LLMs. | 翻訳日:2024-08-28 18:28:54 公開日:2024-08-27 |
# Pano2Room:単一室内パノラマからの新しいビュー合成
Pano2Room: Novel View Synthesis from a Single Indoor Panorama ( http://arxiv.org/abs/2408.11413v2 ) ライセンス: Link先を確認 | Guo Pu, Yiming Zhao, Zhouhui Lian, | (参考訳) 最近のシングルビュー3D生成法は、広範囲な3Dオブジェクトデータセットから抽出した知識を活用することで、大幅な進歩を遂げている。
しかし、現実の環境の複雑さと高品質な先行資源の不足により、単一の視点から3Dシーンを合成することが課題となっている。
本論文では,1枚のパノラマ画像から高品質な3D屋内シーンを自動再構成するパノ2ルームという新しい手法を提案する。
これらのパノラマ画像は、パノラマRGBDインペイントを使用して、任意のカメラで単一の場所から簡単に生成することができる。
鍵となる考え方は、最初に入力パノラマから予備メッシュを構築し、パノラマRGBDインペイントを用いて、フォトリアリスティックな3D一貫性を持つ疑似ノベルビューを収集しながら、反復的にこのメッシュを洗練することである。
最後に、洗練されたメッシュを3次元ガウススプラッティング場に変換し、収集した擬似ノベルビューでトレーニングする。
このパイプラインは、大きなオクルージョンが存在する場合でも、現実世界の3Dシーンの再構築を可能にし、詳細な幾何学によるフォトリアリスティックなノベルビューの合成を容易にする。
室内単体パノラマ合成における手法の優位性を評価するために, 大規模定性的および定量的な実験を行った。
私たちのコードとデータは、 \url{https://github.com/TrickyGo/Pano2Room}で利用可能です。
Recent single-view 3D generative methods have made significant advancements by leveraging knowledge distilled from extensive 3D object datasets. However, challenges persist in the synthesis of 3D scenes from a single view, primarily due to the complexity of real-world environments and the limited availability of high-quality prior resources. In this paper, we introduce a novel approach called Pano2Room, designed to automatically reconstruct high-quality 3D indoor scenes from a single panoramic image. These panoramic images can be easily generated using a panoramic RGBD inpainter from captures at a single location with any camera. The key idea is to initially construct a preliminary mesh from the input panorama, and iteratively refine this mesh using a panoramic RGBD inpainter while collecting photo-realistic 3D-consistent pseudo novel views. Finally, the refined mesh is converted into a 3D Gaussian Splatting field and trained with the collected pseudo novel views. This pipeline enables the reconstruction of real-world 3D scenes, even in the presence of large occlusions, and facilitates the synthesis of photo-realistic novel views with detailed geometry. Extensive qualitative and quantitative experiments have been conducted to validate the superiority of our method in single-panorama indoor novel synthesis compared to the state-of-the-art. Our code and data are available at \url{https://github.com/TrickyGo/Pano2Room}. | 翻訳日:2024-08-28 18:11:54 公開日:2024-08-27 |
# 原タイトル:Tipta uzmanlik sinavinda (tus) buyuk dil modelleri insanlardan daha mi basarili?
Tipta uzmanlik sinavinda (tus) buyuk dil modelleri insanlardan daha mi basarili? ( http://arxiv.org/abs/2408.12305v2 ) ライセンス: Link先を確認 | Yesim Aygul, Muge Olucoglu, Adil Alpkocak, | (参考訳) 医学教育と評価における人工知能の可能性は、近年の自然言語処理と人工知能の発展によって明らかになっている。
医学的な質問は、人工知能アルゴリズムによってうまく答えられるようになった。
医療従事者を助けることができる。
本研究では,2021年の第1期医学専門試験(MSE)において,トルコの医学的疑問に答える3つの異なる人工知能モデルの性能を評価する。
MSEは、臨床(CMST)と基礎(BMST)の合計240の質問からなる。
CMSTの結果,Geminiは82問,ChatGPT-4は105問,ChatGPT-4oは117問であった。
BMSTでは、GeminiとChatGPT-4が93の質問に答え、ChatGPT-4oは107の質問に答えた。
ChatGPT-4o はCMST と BMST でそれぞれ 113 と 106 の最高スコアの候補を上回った。
本研究は,医学教育と評価における人工知能の可能性の重要性を強調した。
先進的なモデルは高い精度と文脈的理解を達成でき、医療教育と評価においてその潜在的役割を示す。
The potential of artificial intelligence in medical education and assessment has been made evident by recent developments in natural language processing and artificial intelligence. Medical questions can now be successfully answered by artificial intelligence algorithms. It can help medical practitioners. This study evaluates the performance of three different artificial intelligence models in answering Turkish medical questions in the 2021 1st Term Medical Specialization Examination (MSE). MSE consists of a total of 240 questions across clinical (CMST) and basic (BMST) medical sciences. According to the results in CMST, it was concluded that Gemini correctly answered 82 questions, ChatGPT-4 answered 105 questions and ChatGPT-4o answered 117 questions. In BMST, Gemini and ChatGPT-4 answered 93 questions and ChatGPT-4o answered 107 questions correctly according to the answer key. ChatGPT-4o outperformed the candidate with the highest scores of 113 and 106 according to CMST and BMST respectively. This study highlights the importance of the potential of artificial intelligence in medical education and assessment. It demonstrates that advanced models can achieve high accuracy and contextual understanding, demonstrating their potential role in medical education and evaluation. | 翻訳日:2024-08-28 18:11:54 公開日:2024-08-27 |
# VTON-HandFit:手書きプリミティブでガイドされた任意ハンドのバーチャルトライオン
VTON-HandFit: Virtual Try-on for Arbitrary Hand Pose Guided by Hand Priors Embedding ( http://arxiv.org/abs/2408.12340v2 ) ライセンス: Link先を確認 | Yujie Liang, Xiaobin Hu, Boyuan Jiang, Donghao Luo, Kai WU, Wenhui Han, Taisong Jin, Chengjie Wang, | (参考訳) 拡散型画像仮想トライオンは大きな進歩を遂げているが、新しいアプローチは手排せつ問題(例えば、手の部分によって排除された衣服領域)を効果的に解決することに苦慮しており、試着性能の顕著な低下につながっている。
実世界のシナリオに広く存在するこの問題に対処するために,手前の力を利用して手閉塞症例の外観と構造を再構築するVTON-HandFitを提案する。
まず,コントロールネットをベースとした構造を用いてハンドプレイス・アグリゲーション・ネットを設計し,グローバルハンドを明示的に適応的に符号化し,事前のポーズをとる。
また,手の構造と外観情報をフル活用するために,手前を手前と手前をパラメトリック・視覚的特徴に切り離し,マスク付きクロスアテンションをカスタマイズして,さらに切り離された特徴の埋め込みを行うハンドファインチャ・ディアンタングルメント・エンベディング・モジュールを提案する。
最後に、モデル画像のハンドテンプレートから構造エッジ知識をよりよく学習するために、手指の制約損失をカスタマイズする。
VTON-HandFitは、実世界のシナリオにおける任意の手動オクルージョンケースに対して、公開データセットと自己収集ハンドオクルージョンハンドフィット3Kデータセットの質的、定量的評価において、ベースラインよりも優れています。
コードとデータセットは \url{https://github.com/VTON-HandFit/VTON-HandFit} で入手できる。
Although diffusion-based image virtual try-on has made considerable progress, emerging approaches still struggle to effectively address the issue of hand occlusion (i.e., clothing regions occluded by the hand part), leading to a notable degradation of the try-on performance. To tackle this issue widely existing in real-world scenarios, we propose VTON-HandFit, leveraging the power of hand priors to reconstruct the appearance and structure for hand occlusion cases. Firstly, we tailor a Handpose Aggregation Net using the ControlNet-based structure explicitly and adaptively encoding the global hand and pose priors. Besides, to fully exploit the hand-related structure and appearance information, we propose Hand-feature Disentanglement Embedding module to disentangle the hand priors into the hand structure-parametric and visual-appearance features, and customize a masked cross attention for further decoupled feature embedding. Lastly, we customize a hand-canny constraint loss to better learn the structure edge knowledge from the hand template of model image. VTON-HandFit outperforms the baselines in qualitative and quantitative evaluations on the public dataset and our self-collected hand-occlusion Handfit-3K dataset particularly for the arbitrary hand pose occlusion cases in real-world scenarios. The Code and dataset will be available at \url{https://github.com/VTON-HandFit/VTON-HandFit}. | 翻訳日:2024-08-28 18:11:54 公開日:2024-08-27 |
# EX-DRL:極端分布強化学習による重損対策
EX-DRL: Hedging Against Heavy Losses with EXtreme Distributional Reinforcement Learning ( http://arxiv.org/abs/2408.12446v2 ) ライセンス: Link先を確認 | Parvin Malekzadeh, Zissis Poulos, Jacky Chen, Zeyu Wang, Konstantinos N. Plataniotis, | (参考訳) 近年の分散強化学習(DRL)による損失分布のモデル化は,デリバティブ市場におけるヘッジ戦略開発において有望であることを示している。
DRLの一般的なアプローチは、特定のレベルでの損失分布の量子化をQR(Quantile Regression)を用いて学習することである。
この方法は、直接量的リスク評価(VaR)や条件的リスク評価(CVaR)など、オプションヘッジにおいて特に有効である。
しかし、これらのリスク尺度は損失分布の尾部における極端定量値の正確な推定に依存しており、文献で強調されているように、QRベースのDRLでは、テールデータの希少性と極端性のために不正確である。
そこで本研究では,損失分布の尾部をGPD(Generalized Pareto Distribution)を用いてモデル化することにより,極端量子化予測を向上させるEX-DRLを提案する。
本手法は,極端量子化観測の不足を軽減するために補足データを導入し,QRによる推定精度を向上させる。
ガンマヘッジオプションに関する総合的な実験により、EX-DRLは極端量子化のより正確な推定を提供することで既存のQRベースのモデルを改善し、複雑な金融リスク管理のためのリスクメトリクスの計算と信頼性を向上させることが示されている。
Recent advancements in Distributional Reinforcement Learning (DRL) for modeling loss distributions have shown promise in developing hedging strategies in derivatives markets. A common approach in DRL involves learning the quantiles of loss distributions at specified levels using Quantile Regression (QR). This method is particularly effective in option hedging due to its direct quantile-based risk assessment, such as Value at Risk (VaR) and Conditional Value at Risk (CVaR). However, these risk measures depend on the accurate estimation of extreme quantiles in the loss distribution's tail, which can be imprecise in QR-based DRL due to the rarity and extremity of tail data, as highlighted in the literature. To address this issue, we propose EXtreme DRL (EX-DRL), which enhances extreme quantile prediction by modeling the tail of the loss distribution with a Generalized Pareto Distribution (GPD). This method introduces supplementary data to mitigate the scarcity of extreme quantile observations, thereby improving estimation accuracy through QR. Comprehensive experiments on gamma hedging options demonstrate that EX-DRL improves existing QR-based models by providing more precise estimates of extreme quantiles, thereby improving the computation and reliability of risk metrics for complex financial risk management. | 翻訳日:2024-08-28 18:11:54 公開日:2024-08-27 |
# Sapiens: 人間の視覚モデルの基礎
Sapiens: Foundation for Human Vision Models ( http://arxiv.org/abs/2408.12569v3 ) ライセンス: Link先を確認 | Rawal Khirodkar, Timur Bagautdinov, Julieta Martinez, Su Zhaoen, Austin James, Peter Selednik, Stuart Anderson, Shunsuke Saito, | (参考訳) 2次元ポーズ推定、身体部分分割、深度推定、表面正規予測の4つの基本的人間中心視覚タスクのモデルであるサピエンスを提示する。
われわれのモデルは1Kの高解像度推論をネイティブにサポートしており、3億枚以上の人体画像で事前訓練された微調整モデルにより、個々のタスクに非常に容易に適応できる。
計算予算が同じであるので、人間の画像のキュレートされたデータセットでの自己教師付き事前トレーニングは、多種多様な人間中心のタスクのパフォーマンスを著しく向上させる。
得られたモデルは、ラベル付きデータが不足している場合や完全に合成されている場合であっても、Wild内のデータに対する顕著な一般化を示す。
私たちのシンプルなモデル設計はスケーラビリティももたらします -- パラメータの数を0.3億から20億に拡大するにつれて、タスク間のモデルパフォーマンスが向上します。
Sapiensは、さまざまな人間中心のベンチマークで、既存のベースラインを一貫して上回っている。
我々は,Humans-5K (pose) が7.6mAP,Humans-2K (part-seg) が17.1mIoU,Hi4D (deepth) が22.4%,Human2 (normal) が53.5%,Human2 (state-of-the-art) が53.5%,Human2 (state-of-the-art) が7.6mAP,Humans-2K (part-seg) よりも大幅に改善された。
プロジェクトページ: https://about.meta.com/realitylabs/codecavatars/sapiens
We present Sapiens, a family of models for four fundamental human-centric vision tasks -- 2D pose estimation, body-part segmentation, depth estimation, and surface normal prediction. Our models natively support 1K high-resolution inference and are extremely easy to adapt for individual tasks by simply fine-tuning models pretrained on over 300 million in-the-wild human images. We observe that, given the same computational budget, self-supervised pretraining on a curated dataset of human images significantly boosts the performance for a diverse set of human-centric tasks. The resulting models exhibit remarkable generalization to in-the-wild data, even when labeled data is scarce or entirely synthetic. Our simple model design also brings scalability -- model performance across tasks improves as we scale the number of parameters from 0.3 to 2 billion. Sapiens consistently surpasses existing baselines across various human-centric benchmarks. We achieve significant improvements over the prior state-of-the-art on Humans-5K (pose) by 7.6 mAP, Humans-2K (part-seg) by 17.1 mIoU, Hi4D (depth) by 22.4% relative RMSE, and THuman2 (normal) by 53.5% relative angular error. Project page: https://about.meta.com/realitylabs/codecavatars/sapiens. | 翻訳日:2024-08-28 18:11:54 公開日:2024-08-27 |
# 半導体製造のための知的OPC技術者アシスタント
Intelligent OPC Engineer Assistant for Semiconductor Manufacturing ( http://arxiv.org/abs/2408.12775v2 ) ライセンス: Link先を確認 | Guojin Chen, Haoyu Yang, Bei Yu, Haoxing Ren, | (参考訳) チップ設計と製造の進歩は、ディープラーニングや自然言語処理といった複雑なタスクの処理を可能にし、人工知能(AGI)の開発への道を開いた。
一方、AIは、計画と実装から製造まで半導体技術の革新と合理化に活用することができる。
本稿では、光学近接補正(OPC)として知られる中核的な製造・認識最適化問題を解決するために、AI/LLMを利用した手法である「textit{Intelligent OPC Engineer Assistant」を提案する。
本手法は、強化学習に基づくOPCレシピ検索と、レシピ要約のためのカスタマイズされたマルチモーダルエージェントシステムを含む。
実験により,提案手法は設計トポロジを特別に処理した様々なチップ設計上で効率的にOPCレシピを構築できることが実証された。
Advancements in chip design and manufacturing have enabled the processing of complex tasks such as deep learning and natural language processing, paving the way for the development of artificial general intelligence (AGI). AI, on the other hand, can be leveraged to innovate and streamline semiconductor technology from planning and implementation to manufacturing. In this paper, we present \textit{Intelligent OPC Engineer Assistant}, an AI/LLM-powered methodology designed to solve the core manufacturing-aware optimization problem known as optical proximity correction (OPC). The methodology involves a reinforcement learning-based OPC recipe search and a customized multi-modal agent system for recipe summarization. Experiments demonstrate that our methodology can efficiently build OPC recipes on various chip designs with specially handled design topologies, a task that typically requires the full-time effort of OPC engineers with years of experience. | 翻訳日:2024-08-28 18:11:54 公開日:2024-08-27 |
# 外国人制約の少ないCSP
CSPs with Few Alien Constraints ( http://arxiv.org/abs/2408.12909v2 ) ライセンス: Link先を確認 | Peter Jonsson, Victor Lagerkvist, George Osipov, | (参考訳) 制約満足度問題は、関係構造上の制約の集合$\mathcal{A}$が満足できるかどうかを決定するよう要求する(CSP$(\mathcal{A})$)。
CSP$(\mathcal{A} \cup \mathcal{B})$ ここで、$\mathcal{A}$は構造であり、$\mathcal{B}$はエイリアン構造であり、少なくとも$k$の制約が許されるとき、その(パラメータ化された)複雑さを分析する。
我々は、以前分類の試みを免れたいくつかのよく研究された問題に対して、接続を確立し、転送可能な複雑性結果を得る。
論理的および代数的手法を利用して、任意の有限構造に対するFPT対pNP二分法とブール構造に対するよりシャープな二分法、および(等式CSP)$(\mathbb{N},=)$(等式CSP)の1次レダクト、および一般の$\omega$-カテゴリ構造に対する多くの部分的な結果を得る。
The constraint satisfaction problem asks to decide if a set of constraints over a relational structure $\mathcal{A}$ is satisfiable (CSP$(\mathcal{A})$). We consider CSP$(\mathcal{A} \cup \mathcal{B})$ where $\mathcal{A}$ is a structure and $\mathcal{B}$ is an alien structure, and analyse its (parameterized) complexity when at most $k$ alien constraints are allowed. We establish connections and obtain transferable complexity results to several well-studied problems that previously escaped classification attempts. Our novel approach, utilizing logical and algebraic methods, yields an FPT versus pNP dichotomy for arbitrary finite structures and sharper dichotomies for Boolean structures and first-order reducts of $(\mathbb{N},=)$ (equality CSPs), together with many partial results for general $\omega$-categorical structures. | 翻訳日:2024-08-28 18:11:54 公開日:2024-08-27 |
# フリーローダーに言うな。Deep Modelの知的財産を保護する
Say No to Freeloader: Protecting Intellectual Property of Your Deep Model ( http://arxiv.org/abs/2408.13161v2 ) ライセンス: Link先を確認 | Lianyu Wang, Meng Wang, Huazhu Fu, Daoqiang Zhang, | (参考訳) モデル知的財産権(IP)保護は、科学技術の進歩が人間の知的労働と計算費用に起因するため、注目を集めている。
トレーナーとオーナーのIP安全性を保証することは、特にオーナシップの認証と適用可能性の承認が必要なドメインにおいて最も重要である。
モデルIPを保護するための注目すべきアプローチは、未認可ドメインから十分に訓練されたモデルを使用することを積極的に防止することである。
本稿では,権限のないドメインから権限のないドメインへの不法な転送に対する障壁となる,コンパクト・アントランスファーブル・ピラミッド・アイソレーション・ドメイン(CUPI-Domain)について紹介する。
ヒトの推移的推論と学習能力からインスピレーションを得たCUPI-Domainは、認定ドメインの特有のスタイルの特徴を強調することによって、ドメイン間の転送を阻止するように設計されている。
この強調は、無許可ドメイン上の無関係なプライベートスタイルの特徴を認識することに失敗につながります。
そこで本研究では,CUPI-Domain と CUPI-Domain の両方の特徴をアンカーとして選択する新しい CUPI-Domain ジェネレータを提案する。
次に、これらのアンカーのスタイル特徴とセマンティック特徴を融合させ、ラベル付きおよびスタイルリッチなCUPI-Domainを生成する。
さらに、安定したドメインクラス機能とドメインクラスのスタイル機能を得るために、ラベル付きピラミッド機能を格納および更新するための外部ドメイン情報記憶バンク(DIMB)を設計する。
提案手法全体に基づいて,新規なスタイルと識別的損失関数を設計し,認証ドメインと未認可ドメインの識別的特徴の区別を効果的に強化する。
さらに、未承認領域が知られているかどうかに基づいて、CUPI-Domainを利用するための2つのソリューションを提供する。
Model intellectual property (IP) protection has attracted growing attention as science and technology advancements stem from human intellectual labor and computational expenses. Ensuring IP safety for trainers and owners is of utmost importance, particularly in domains where ownership verification and applicability authorization are required. A notable approach to safeguarding model IP involves proactively preventing the use of well-trained models of authorized domains from unauthorized domains. In this paper, we introduce a novel Compact Un-transferable Pyramid Isolation Domain (CUPI-Domain) which serves as a barrier against illegal transfers from authorized to unauthorized domains. Drawing inspiration from human transitive inference and learning abilities, the CUPI-Domain is designed to obstruct cross-domain transfers by emphasizing the distinctive style features of the authorized domain. This emphasis leads to failure in recognizing irrelevant private style features on unauthorized domains. To this end, we propose novel CUPI-Domain generators, which select features from both authorized and CUPI-Domain as anchors. Then, we fuse the style features and semantic features of these anchors to generate labeled and style-rich CUPI-Domain. Additionally, we design external Domain-Information Memory Banks (DIMB) for storing and updating labeled pyramid features to obtain stable domain class features and domain class-wise style features. Based on the proposed whole method, the novel style and discriminative loss functions are designed to effectively enhance the distinction in style and discriminative features between authorized and unauthorized domains, respectively. Moreover, we provide two solutions for utilizing CUPI-Domain based on whether the unauthorized domain is known: target-specified CUPI-Domain and target-free CUPI-Domain. | 翻訳日:2024-08-28 18:11:54 公開日:2024-08-27 |
# LLMはプロンプト工学に基づく良いパスプランナーになれるか?
Can LLM be a Good Path Planner based on Prompt Engineering? Mitigating the Hallucination for Path Planning ( http://arxiv.org/abs/2408.13184v2 ) ライセンス: Link先を確認 | Hourui Deng, Hongjie Zhang, Jie Ou, Chaosheng Feng, | (参考訳) 大規模言語モデル(LLM)における空間的推論は、インテリジェンスを具現化する基盤である。
しかし、単純な迷路環境においても、LLMは長期的な経路計画の課題に直面しており、その主な影響は、空間幻覚と長期的推論による文脈的不整合幻覚である。
そこで本研究では,空間-関係変換とカリキュラムQ-Learning(S2RCQL)という,革新的なモデルを提案する。
LLMの空間幻覚に対処するために、空間的プロンプトを実体関係と実体関係チェーンを表す経路に変換する空間-相対的アプローチを提案する。
このアプローチは、逐次的思考の観点から LLM の可能性を完全に活用する。
その結果,LLMの推論能力を高める文脈不整合幻覚を軽減するため,Qラーニングに基づく経路計画アルゴリズムを設計した。
状態反応のQ-値を補助情報としてLLMの幻覚を補正し、LLMに最適な経路を学習させる。
最後に,LLMに基づく逆カリキュラム学習手法を提案する。
LLMは、タスクの難しさを減らし、より複雑なタスクに取り組むためにそれらを活用することで、成功するエクスペリエンスを迅速に蓄積することができる。
Baidu の自己開発 LLM: ERNIE-Bot 4.0 に基づいた総合実験を行った。
その結果、我々のS2RCQLは、高度なプロンプトエンジニアリングと比較して、成功率と最適率の両方で23%--40%改善したことがわかった。
Spatial reasoning in Large Language Models (LLMs) is the foundation for embodied intelligence. However, even in simple maze environments, LLMs still encounter challenges in long-term path-planning, primarily influenced by their spatial hallucination and context inconsistency hallucination by long-term reasoning. To address this challenge, this study proposes an innovative model, Spatial-to-Relational Transformation and Curriculum Q-Learning (S2RCQL). To address the spatial hallucination of LLMs, we propose the Spatial-to-Relational approach, which transforms spatial prompts into entity relations and paths representing entity relation chains. This approach fully taps the potential of LLMs in terms of sequential thinking. As a result, we design a path-planning algorithm based on Q-learning to mitigate the context inconsistency hallucination, which enhances the reasoning ability of LLMs. Using the Q-value of state-action as auxiliary information for prompts, we correct the hallucinations of LLMs, thereby guiding LLMs to learn the optimal path. Finally, we propose a reverse curriculum learning technique based on LLMs to further mitigate the context inconsistency hallucination. LLMs can rapidly accumulate successful experiences by reducing task difficulty and leveraging them to tackle more complex tasks. We performed comprehensive experiments based on Baidu's self-developed LLM: ERNIE-Bot 4.0. The results showed that our S2RCQL achieved a 23%--40% improvement in both success and optimality rates compared with advanced prompt engineering. | 翻訳日:2024-08-28 18:11:54 公開日:2024-08-27 |
# 位相符号化オーディオステレオグラフィーアルゴリズムの改良
An Improved Phase Coding Audio Steganography Algorithm ( http://arxiv.org/abs/2408.13277v2 ) ライセンス: Link先を確認 | Guang Yang, | (参考訳) AI技術の進歩により、音声のクローンはますますアクセスしやすくなり、AI生成オーディオ偽造による不正行為の増加につながった。
これは、情報を隠蔽的に埋め込み、オーディオの信頼性と完全性を検証する必要性を強調している。
デジタルオーディオ透かしはこの文脈において重要な役割を果たす。
本研究では,中間位相成分にデータを埋め込んで動的に音声信号を分割する位相符号化型オーディオステガノグラフィーアルゴリズムを提案する。
このアプローチはステガナリシスに対する耐性を高め、計算を単純化し、セキュアなオーディオ完全性を保証する。
Advances in AI technology have made voice cloning increasingly accessible, leading to a rise in fraud involving AI-generated audio forgeries. This highlights the need to covertly embed information and verify the authenticity and integrity of audio. Digital Audio Watermarking plays a crucial role in this context. This study presents an improved Phase Coding audio steganography algorithm that segments the audio signal dynamically, embedding data into the mid-frequency phase components. This approach enhances resistance to steganalysis, simplifies computation, and ensures secure audio integrity. | 翻訳日:2024-08-28 18:11:54 公開日:2024-08-27 |
# 電気的小型レジームにおけるアンテナベースおよびライドバーグ量子RFセンサの性能
Performance of Antenna-based and Rydberg Quantum RF Sensors in the Electrically Small Regime ( http://arxiv.org/abs/2408.14704v1 ) ライセンス: Link先を確認 | K. M. Backes, P. K. Elgee, K. -J. LeBlanc, C. T. Fancher, D. H. Meyer, P. D. Kunz, N. Malvania, K. M. Nicolich, J. C. Hill, B. L. Schmittberger Marlow, K. C. Cox, | (参考訳) ライドバーグ原子電場センサ(Rydberg atom electric field sensor)は、感度無線周波数(RF)測定を行う量子センサーである。
その特性は、インピーダンス整合アンテナと比較して小さい波長が好適な波長で興味をそそる。
ここでは,cmスケールのRydbergセンサの信号検出感度と,室温の小型アンテナと能動受信機と受動受信機とを比較した。
センサタイプ毎に有効な回路モデルを提案し,解析し,cmスケールセンサの感度比較を容易にする。
現代のRydbergセンサの実装は、アクティブ増幅による未整合アンテナよりも感度が低いと計算する。
しかし, 理想的なリドベルグセンサは最大原子数で動作し, 標準量子限界では室温でのアンテナ型センサの能力をはるかに超え, 両者の感度は通常の大気背景雑音より低いことが判明した。
Rydberg atom electric field sensors are tunable quantum sensors that can perform sensitive radio frequency (RF) measurements. Their qualities have piqued interest at longer wavelengths where their small size compares favorably to impedance-matched antennas. Here, we compare the signal detection sensitivity of cm-scale Rydberg sensors to similarly sized room-temperature electrically small antennas with active and passive receiver backends. We present and analyze effective circuit models for each sensor type, facilitating a fair sensitivity comparison for cm-scale sensors. We calculate that contemporary Rydberg sensor implementations are less sensitive than unmatched antennas with active amplification. However, we find that idealized Rydberg sensors operating with a maximized atom number and at the standard quantum limit may perform well beyond the capabilities of antenna-based sensors at room temperature, the sensitivities of both lying below typical atmospheric background noise. | 翻訳日:2024-08-28 15:24:16 公開日:2024-08-27 |
# 連続角量子誤差補正アーキテクチャのリアルタイムコンパイル
Realtime Compilation for Continuous Angle Quantum Error Correction Architectures ( http://arxiv.org/abs/2408.14708v1 ) ライセンス: Link先を確認 | Sayam Sethi, Jonathan M. Baker, | (参考訳) 大規模量子プログラムを実行するには量子誤り訂正(QEC)が必要である。
エラー訂正コード、ハードウェアプラットフォーム、システムアーキテクチャに関係なく、QECシステムは効率的に実行できるゲートの種類によって制限される。
基本コードのゲートセットを普遍的にするためには、通常、単一のタイプのリソース状態(一般的にはT)を異なるコードで生成し、それを蒸留してベースコードに注入する。
このプロセスは空間的にも時間的にも効率的ではなく、プログラムの総実行時間と物理量子ビットコストの大部分を占める。
この問題を回避するために、連続角回転状態 \cite{akahoshi2023partially, choi2023fault} の生成のような代替案が提案されている。
これらの提案は、局所的なリソース生成を可能にするだけでなく、空間全体の要求を削減できるため、強力である。
しかし、これらの状態の生成は決定論的ではなく、所望の資源を得るために多くの繰り返しを必要とすることがある。
当初の提案では、実行時間を最小化するために、リソースのリアルタイム管理を積極的に考慮しないアーキテクチャを提案する。
これなしでは、これらのシステムへのプログラムの静的コンパイルは必要以上にコストがかかる。
本研究では,これらの連続的なアングルシステムに対するプログラムのリアルタイムコンパイルと,期待される生産率に基づいて,実行時間を積極的に最小化する汎用リソース共有アーキテクチャを提案する。
そのため、基盤となるハードウェアに依存するリソースをオンデマンドで繰り返し再配布することで、古典的な制御オーバーヘッドを過度に発生させる可能性がある。
さらに、再コンパイルの頻度を動的に選択することで、この問題に対処する。
私たちのコンパイラとアーキテクチャは、ベースラインの提案よりも平均2$\times$で改善します。
Quantum error correction (QEC) is necessary to run large scale quantum programs. Regardless of error correcting code, hardware platform, or systems architecture, QEC systems are limited by the types of gates which they can perform efficiently. In order to make the base code's gate set universal, they typically rely on the production of a single type of resource state, commonly T, in a different code which is then distilled and injected into the base code. This process is neither space nor time efficient and can account for a large portion of the total execution time and physical qubit cost of any program. In order to circumvent this problem, alternatives have been proposed, such as the production of continuous angle rotation states \cite{akahoshi2023partially, choi2023fault}. These proposals are powerful because they not only enable localized resource generation but also can potentially reduce total space requirements. However, the production of these states is non-deterministic and can require many repetitions in order to obtain the desired resource. The original proposals suggest architectures which do not actively account for realtime management of its resources to minimize total execution time. Without this, static compilation of programs to these systems will be unnecessarily expensive. In this work, we propose a realtime compilation of programs to these continuous angle systems and a generalized resource sharing architecture which actively minimizes total execution time based on expected production rates. To do so, we repeatedly redistribute resources on-demand which depending on the underlying hardware can cause excessive classical control overhead. We further address this by dynamically selecting the frequency of recompilation. Our compiler and architecture improves over the baseline proposals by an average of $2\times$. | 翻訳日:2024-08-28 15:24:16 公開日:2024-08-27 |
# StyleSpeech: 事前学習可能なテキスト・トゥ・音声のためのパラメータ効率の良い微調整
StyleSpeech: Parameter-efficient Fine Tuning for Pre-trained Controllable Text-to-Speech ( http://arxiv.org/abs/2408.14713v1 ) ライセンス: Link先を確認 | Haowei Lou, Helen Paik, Wen Hu, Lina Yao, | (参考訳) 本稿では,合成音声の自然性と精度を高める新しい音声合成システムであるStyleSpeechを紹介する。
既存のTS技術に基づいて、StyleSpeechは独自のStyle Decorator構造を導入し、ディープラーニングモデルでスタイルと音素の特徴を同時に学習し、ローワーランク適応(LoRA)の原則によって適応性と効率を向上させる。
LoRAは、事前訓練されたモデルにおけるスタイル機能の効率的な適応を可能にする。
さらに,新たな自動評価基準であるLLM-MOS(LLM-Guided Mean Opinion Score)を導入する。
ベンチマークデータセットの大規模なテストは、我々のアプローチが、自然で正確で高品質な音声を生成するために、既存の最先端のベースライン手法を著しく上回っていることを示している。
これらの進歩は、現在のTSシステム機能の境界を推し進めるだけでなく、インタラクティブなバーチャルアシスタント、アダプティブオーディオブック、ゲーム用にカスタマイズされた音声など、よりダイナミックで専門的なTSシステムの応用を促進する。
音声サンプルはhttps://style-speech.vercel.appで確認できる。
This paper introduces StyleSpeech, a novel Text-to-Speech~(TTS) system that enhances the naturalness and accuracy of synthesized speech. Building upon existing TTS technologies, StyleSpeech incorporates a unique Style Decorator structure that enables deep learning models to simultaneously learn style and phoneme features, improving adaptability and efficiency through the principles of Lower Rank Adaptation~(LoRA). LoRA allows efficient adaptation of style features in pre-trained models. Additionally, we introduce a novel automatic evaluation metric, the LLM-Guided Mean Opinion Score (LLM-MOS), which employs large language models to offer an objective and robust protocol for automatically assessing TTS system performance. Extensive testing on benchmark datasets shows that our approach markedly outperforms existing state-of-the-art baseline methods in producing natural, accurate, and high-quality speech. These advancements not only pushes the boundaries of current TTS system capabilities, but also facilitate the application of TTS system in more dynamic and specialized, such as interactive virtual assistants, adaptive audiobooks, and customized voice for gaming. Speech samples can be found in https://style-speech.vercel.app | 翻訳日:2024-08-28 15:24:16 公開日:2024-08-27 |
# Text2SQLは十分ではない:AIとデータベースをTAGで統一する
Text2SQL is Not Enough: Unifying AI and Databases with TAG ( http://arxiv.org/abs/2408.14717v1 ) ライセンス: Link先を確認 | Asim Biswal, Liana Patel, Siddarth Jha, Amog Kamsetty, Shu Liu, Joseph E. Gonzalez, Carlos Guestrin, Matei Zaharia, | (参考訳) 自然言語による質問をデータベース上で処理するAIシステムは、膨大な価値を解放することを約束する。
このようなシステムにより、ユーザは、データ管理システムのスケーラブルな計算能力と並行して、言語モデル(LM)の強力な推論と知識能力を利用することができる。
これらの組み合わせにより、ユーザーはカスタムデータソースに対して任意の自然言語質問をすることができる。
しかし、既存の手法やベンチマークでは、この設定を十分に探索できない。
Text2SQLメソッドは、リレーショナル代数で表現できる自然言語の質問にのみフォーカスする。
同様に、Retrieval-Augmented Generation (RAG)は、データベース内の1つまたは数個のデータレコードへのポイントルックアップで答えられるクエリの限られたサブセットについて検討している。
本稿では,データベース上の自然言語質問に答える統一的で汎用的なパラダイムであるTable-Augmented Generation (TAG)を提案する。
TAGモデルは、これまで探索されていなかったLMとデータベース間の幅広い相互作用を表しており、データよりも世界知識とLMの推論能力を活用するためのエキサイティングな研究機会を生み出している。
我々は,TAG問題を研究するためのベンチマークを体系的に開発し,標準手法がクエリの20%以上を正しく答えることを確認し,この分野におけるさらなる研究の必要性を確認する。
ベンチマークのコードはhttps://github.com/TAG-Research/TAG-Bench.orgで公開しています。
AI systems that serve natural language questions over databases promise to unlock tremendous value. Such systems would allow users to leverage the powerful reasoning and knowledge capabilities of language models (LMs) alongside the scalable computational power of data management systems. These combined capabilities would empower users to ask arbitrary natural language questions over custom data sources. However, existing methods and benchmarks insufficiently explore this setting. Text2SQL methods focus solely on natural language questions that can be expressed in relational algebra, representing a small subset of the questions real users wish to ask. Likewise, Retrieval-Augmented Generation (RAG) considers the limited subset of queries that can be answered with point lookups to one or a few data records within the database. We propose Table-Augmented Generation (TAG), a unified and general-purpose paradigm for answering natural language questions over databases. The TAG model represents a wide range of interactions between the LM and database that have been previously unexplored and creates exciting research opportunities for leveraging the world knowledge and reasoning capabilities of LMs over data. We systematically develop benchmarks to study the TAG problem and find that standard methods answer no more than 20% of queries correctly, confirming the need for further research in this area. We release code for the benchmark at https://github.com/TAG-Research/TAG-Bench. | 翻訳日:2024-08-28 15:24:16 公開日:2024-08-27 |
# Residual-based Adaptive Huber Loss (RAHL) -- 5GネットワークにおけるCQI予測のための改善されたハマー損失の設計
Residual-based Adaptive Huber Loss (RAHL) -- Design of an improved Huber loss for CQI prediction in 5G networks ( http://arxiv.org/abs/2408.14718v1 ) ライセンス: Link先を確認 | Mina Kaviani, Jurandy Almeida, Fabio L. Verdi, | (参考訳) CQI(Channel Quality Indicator)は5Gネットワークにおいて重要な役割を担い、QoS(Quality of Service)を保証するためにインフラを動的に最適化する。
近年,機械学習を用いた5GネットワークにおけるCQI推定の改善に焦点が当てられている。
この分野では、適切な損失関数の選択は、正確なモデルを訓練するために重要である。
2つの一般的な損失関数はMean Squared Error (MSE) とMean Absolute Error (MAE) である。
おおまかに言えば、MSEはOffliersに重みを付け、MAEは多数を占めた。
ここでは、MSEとMAEの両方の利点を組み合わせ、ハマー損失関数はCQI予測により適していると論じる。
これを実現するために、ハマー損失は、デルタと呼ばれるユーザが定義したハイパーパラメータによって制御されるMSEとMAEの間でスムーズに遷移する。
しかし、最適デルタを手動で選択することで、小さなエラーに対する感度(MAE)と外れ値に対する堅牢性(MSE)の適切なバランスを見つけることは困難である。
この問題に対処するために,Residual-based Adaptive Huber Loss (RAHL) という新しい損失関数を提案する。
RAHLでは、学習可能な残差がデルタに追加され、データ内のエラーの分布に基づいてモデルを適応させることができる。
提案手法は,不整合データの精度を保ちながら,外乱に対するモデルロバスト性を効果的にバランスさせる。
広範に認識されているLong Short-Term Memory(LSTM)モデルがRAHLと併用され、上記の損失関数と比較して大幅に改善された結果を示す。
その結果, RAHLの優位性が確認され, 5GネットワークにおけるCQI予測の向上に期待できる道筋が得られた。
The Channel Quality Indicator (CQI) plays a pivotal role in 5G networks, optimizing infrastructure dynamically to ensure high Quality of Service (QoS). Recent research has focused on improving CQI estimation in 5G networks using machine learning. In this field, the selection of the proper loss function is critical for training an accurate model. Two commonly used loss functions are Mean Squared Error (MSE) and Mean Absolute Error (MAE). Roughly speaking, MSE put more weight on outliers, MAE on the majority. Here, we argue that the Huber loss function is more suitable for CQI prediction, since it combines the benefits of both MSE and MAE. To achieve this, the Huber loss transitions smoothly between MSE and MAE, controlled by a user-defined hyperparameter called delta. However, finding the right balance between sensitivity to small errors (MAE) and robustness to outliers (MSE) by manually choosing the optimal delta is challenging. To address this issue, we propose a novel loss function, named Residual-based Adaptive Huber Loss (RAHL). In RAHL, a learnable residual is added to the delta, enabling the model to adapt based on the distribution of errors in the data. Our approach effectively balances model robustness against outliers while preserving inlier data precision. The widely recognized Long Short-Term Memory (LSTM) model is employed in conjunction with RAHL, showcasing significantly improved results compared to the aforementioned loss functions. The obtained results affirm the superiority of RAHL, offering a promising avenue for enhanced CQI prediction in 5G networks. | 翻訳日:2024-08-28 15:24:16 公開日:2024-08-27 |
# PAT: 大規模言語モデルのためのPruning-Aware Tuning
PAT: Pruning-Aware Tuning for Large Language Models ( http://arxiv.org/abs/2408.14721v1 ) ライセンス: Link先を確認 | Yijiang Liu, Huanrui Yang, Youxin Chen, Rongyu Zhang, Miao Wang, Yuan Du, Li Du, | (参考訳) 大規模言語モデル(LLM)は言語タスク、特に事前訓練後の教師付き微調整に優れる。
しかし、そのメモリと計算の要求が現実的な応用を妨げている。
重みの少ない構造プルーニングは一つの解である。
しかし、伝統的なポストホットプルーニングは、キャパシティの低下により、さらなる微調整によるリカバリが制限され、パフォーマンスが著しく低下することが多い。
モデルファインチューニングは,事前学習モデルにおける一般的なカオス的知識を洗練させるため,モデル性能を最大拡張に保ちながら,モデル冗長性を排除したPruning-Aware Tuning(PAT)パラダイムを提案する。
具体的には、アテンションとFFNコンポーネントの間に革新的なハイブリッドスカラー化モジュール(HSM)を挿入し、それに従って上流および下流の線形モジュールをスカラー化する。
HSMは軽量演算子と、グローバルに共有可能なトレーニング用マスクとを備える。
軽量オペレータはLoRAと同等のトレーニングオーバーヘッドを維持し、トレーニング可能なマスクはチャネルを分散させ、構造的なプルーニングを保証する。
さらに,HSMの変形特性とスケーリング特性を分離し,トレーニングの堅牢性を高めるアイデンティティ損失を提案する。
大規模な実験により、PATは性能と効率の両方で優れていることが示された。
例えば、25\%のプルーニング比を持つLlama2-7bモデルは、1.33$\times$スピードアップを達成し、同じトレーニングコストで最大1.26\%の精度でLoRA微調整モデルより優れている。
コード:https://github.com/kriskrisliu/PAT_Pruning-Aware-Tuning
Large language models (LLMs) excel in language tasks, especially with supervised fine-tuning after pre-training. However, their substantial memory and computational requirements hinder practical applications. Structural pruning, which reduces less significant weight dimensions, is one solution. Yet, traditional post-hoc pruning often leads to significant performance loss, with limited recovery from further fine-tuning due to reduced capacity. Since the model fine-tuning refines the general and chaotic knowledge in pre-trained models, we aim to incorporate structural pruning with the fine-tuning, and propose the Pruning-Aware Tuning (PAT) paradigm to eliminate model redundancy while preserving the model performance to the maximum extend. Specifically, we insert the innovative Hybrid Sparsification Modules (HSMs) between the Attention and FFN components to accordingly sparsify the upstream and downstream linear modules. The HSM comprises a lightweight operator and a globally shared trainable mask. The lightweight operator maintains a training overhead comparable to that of LoRA, while the trainable mask unifies the channels to be sparsified, ensuring structural pruning. Additionally, we propose the Identity Loss which decouples the transformation and scaling properties of the HSMs to enhance training robustness. Extensive experiments demonstrate that PAT excels in both performance and efficiency. For example, our Llama2-7b model with a 25\% pruning ratio achieves 1.33$\times$ speedup while outperforming the LoRA-finetuned model by up to 1.26\% in accuracy with a similar training cost. Code: https://github.com/kriskrisliu/PAT_Pruning-Aware-Tuning | 翻訳日:2024-08-28 15:14:31 公開日:2024-08-27 |
# Snap and Diagnose: 野生植物病の同定のための高度なマルチモーダル検索システム
Snap and Diagnose: An Advanced Multimodal Retrieval System for Identifying Plant Diseases in the Wild ( http://arxiv.org/abs/2408.14723v1 ) ライセンス: Link先を確認 | Tianqi Wei, Zhi Chen, Xin Yu, | (参考訳) 植物病の認識は作物の健康を確実にし、病気による被害を軽減する重要な課題である。
農夫が検索画像や不審植物のテキスト記述に基づいて診断を受けられるような便利なツールが、潜在的な病気がさらに広まる前に治療を開始するのに高い需要がある。
本稿では,画像やテキストのプロンプトに基づいて,病気検索を支援するマルチモーダル植物病画像検索システムを開発する。
具体的には、89のカテゴリにわたる18,000以上の画像を含む、最大規模の植物病データセットであるPildWildを用いて、クエリに関連する潜在的な疾患の総合的なビューを提供する。
さらに,CLIPをベースとした新たな視覚言語モデルにより,疾患記述と疾患画像の両方を同一の潜伏空間にエンコードするクロスモーダル検索を実現する。
検索装置上に構築した検索システムでは, 植物病画像や病状記述をアップロードして, 類似した特徴のイメージを検索し, エンドユーザが考慮すべき疾患候補を提案する。
Plant disease recognition is a critical task that ensures crop health and mitigates the damage caused by diseases. A handy tool that enables farmers to receive a diagnosis based on query pictures or the text description of suspicious plants is in high demand for initiating treatment before potential diseases spread further. In this paper, we develop a multimodal plant disease image retrieval system to support disease search based on either image or text prompts. Specifically, we utilize the largest in-the-wild plant disease dataset PlantWild, which includes over 18,000 images across 89 categories, to provide a comprehensive view of potential diseases relating to the query. Furthermore, cross-modal retrieval is achieved in the developed system, facilitated by a novel CLIP-based vision-language model that encodes both disease descriptions and disease images into the same latent space. Built on top of the retriever, our retrieval system allows users to upload either plant disease images or disease descriptions to retrieve the corresponding images with similar characteristics from the disease dataset to suggest candidate diseases for end users' consideration. | 翻訳日:2024-08-28 15:14:31 公開日:2024-08-27 |
# GeoTransfer : 伝達学習による一般化可能なFew-Shot多視点再構成
GeoTransfer : Generalizable Few-Shot Multi-View Reconstruction via Transfer Learning ( http://arxiv.org/abs/2408.14724v1 ) ライセンス: Link先を確認 | Shubhendu Jena, Franck Multon, Adnane Boukhayma, | (参考訳) 本稿では,ニューラルラジアンス場(NeRF)の表現力を活用し,その特徴を高速に伝達して正確な占有場を学習することで,スパース3次元再構成手法を提案する。
スパース入力からの既存の3次元再構成手法は、複雑な幾何学的詳細を捉えるのに依然として苦労しており、隠蔽領域を扱う際の限界に悩まされている。
一方、NeRFは複雑なシーンをモデル化する上で優れているが、意味のある幾何学を抽出する手段を提供していない。
提案手法は,NeRF特徴量に符号化された情報を伝達して,正確な占有場表現を導出することにより,両世界の長所を提供する。
我々は、訓練済みで一般化可能なNeRFネットワークを用いて、詳細なシーンラディアンス情報をキャプチャし、この知識を、一般化可能な暗黙の占有ネットワークのトレーニングに迅速に転送する。
このプロセスは、一般化可能なNeRFでエンコードされたシーン幾何学の知識を活用し、3次元空間のより正確な一般化可能な表現を促進するために、占有場を学習するためにそれを精製するのに役立つ。
伝達学習アプローチは、等級(数日から3.5時間)でトレーニング時間を劇的に短縮し、スクラッチから一般化可能な表面再構成法を訓練する必要がなくなる。
さらに, 精度の高い占有領域の学習を支援するボリュームレンダリングウェイトに対する新たな損失と, 占有領域のグローバルな平滑化を支援する通常の損失を導入する。
我々はDTUデータセットに対する我々のアプローチを評価し、特にスパース入力データと隠蔽領域の挑戦シナリオにおいて、再構築精度の観点から最先端の性能を実証する。
さらに,Blended MVSデータセットに定性的な結果を表示することで,再学習を伴わずに,本手法の一般化能力を実証する。
This paper presents a novel approach for sparse 3D reconstruction by leveraging the expressive power of Neural Radiance Fields (NeRFs) and fast transfer of their features to learn accurate occupancy fields. Existing 3D reconstruction methods from sparse inputs still struggle with capturing intricate geometric details and can suffer from limitations in handling occluded regions. On the other hand, NeRFs excel in modeling complex scenes but do not offer means to extract meaningful geometry. Our proposed method offers the best of both worlds by transferring the information encoded in NeRF features to derive an accurate occupancy field representation. We utilize a pre-trained, generalizable state-of-the-art NeRF network to capture detailed scene radiance information, and rapidly transfer this knowledge to train a generalizable implicit occupancy network. This process helps in leveraging the knowledge of the scene geometry encoded in the generalizable NeRF prior and refining it to learn occupancy fields, facilitating a more precise generalizable representation of 3D space. The transfer learning approach leads to a dramatic reduction in training time, by orders of magnitude (i.e. from several days to 3.5 hrs), obviating the need to train generalizable sparse surface reconstruction methods from scratch. Additionally, we introduce a novel loss on volumetric rendering weights that helps in the learning of accurate occupancy fields, along with a normal loss that helps in global smoothing of the occupancy fields. We evaluate our approach on the DTU dataset and demonstrate state-of-the-art performance in terms of reconstruction accuracy, especially in challenging scenarios with sparse input data and occluded regions. We furthermore demonstrate the generalization capabilities of our method by showing qualitative results on the Blended MVS dataset without any retraining. | 翻訳日:2024-08-28 15:14:31 公開日:2024-08-27 |
# TART:Tangent Direction Guided Adversarial Trainingによるクリーンな精度向上
TART: Boosting Clean Accuracy Through Tangent Direction Guided Adversarial Training ( http://arxiv.org/abs/2408.14728v1 ) ライセンス: Link先を確認 | Bongsoo Yi, Rongjie Lai, Yao Li, | (参考訳) 敵の訓練は、敵の攻撃に対するディープニューラルネットワークの堅牢性を高めることに成功している。
しかし、この堅牢性はクリーンデータに対する精度の大幅な低下を伴う。
本稿では,TART(Tangent Direction Guided Adversarial Training)と呼ばれる新しい手法を提案する。
正則成分が大きい逆例によるトレーニングは決定境界を著しく変化させ、精度を損なうと論じる。
TARTは、敵の例の接する方向を推定し、その接する成分のノルムに従って適応摂動制限を割り当てることでこの問題を緩和する。
我々の知る限り、我々の論文は敵防衛の文脈における接地空間と方向の概念を考える最初の研究である。
我々は、シミュレーションとベンチマークの両方のデータセットに対する広範な実験を通して、TARTの有効性を検証する。
その結果、TARTは敵攻撃に対する高い堅牢性を保ちながら、クリーンな精度を一貫して向上することが示された。
本研究は, データの幾何学的特性を取り入れることで, より効率的かつ効率的な対人訓練法がもたらされることを示唆している。
Adversarial training has been shown to be successful in enhancing the robustness of deep neural networks against adversarial attacks. However, this robustness is accompanied by a significant decline in accuracy on clean data. In this paper, we propose a novel method, called Tangent Direction Guided Adversarial Training (TART), that leverages the tangent space of the data manifold to ameliorate the existing adversarial defense algorithms. We argue that training with adversarial examples having large normal components significantly alters the decision boundary and hurts accuracy. TART mitigates this issue by estimating the tangent direction of adversarial examples and allocating an adaptive perturbation limit according to the norm of their tangential component. To the best of our knowledge, our paper is the first work to consider the concept of tangent space and direction in the context of adversarial defense. We validate the effectiveness of TART through extensive experiments on both simulated and benchmark datasets. The results demonstrate that TART consistently boosts clean accuracy while retaining a high level of robustness against adversarial attacks. Our findings suggest that incorporating the geometric properties of data can lead to more effective and efficient adversarial training methods. | 翻訳日:2024-08-28 15:14:31 公開日:2024-08-27 |
# 混合アナログデジタル量子信号処理に向けて:量子AD/DA変換とフーリエ変換
Toward Mixed Analog-Digital Quantum Signal Processing: Quantum AD/DA Conversion and the Fourier Transform ( http://arxiv.org/abs/2408.14729v1 ) ライセンス: Link先を確認 | Yuan Liu, John M. Martyn, Jasmine Sinanan-Singh, Kevin C. Smith, Steven M. Girvin, Isaac L. Chuang, | (参考訳) 信号処理は、アナログ信号とデジタル信号の両方に適用可能な、古典的な計算と現代の情報技術の柱として機能する。
近年、量子情報科学の進歩により、量子信号処理(QSP)によりより強力な信号処理能力が得られることが示唆されている。
しかし、QSPの発展は主に量子発振器のような連続可変(CV)システムのような量子資源ではなく、キュービットのような離散可変(DV)システムのような \emph{digital} 量子資源を活用している。
その結果,ハイブリッドCV-DV量子コンピュータ上で信号処理を行う方法の理解にはギャップが残っている。
ここでは、混合アナログデジタルQSPの新しいパラダイムを開発することで、このギャップに対処する。
我々は、量子信号のアナログデジタル変換をいかに自然に可能かを示すことで、このパラダイムの有用性を実証する。
そこで,この量子アナログデジタル変換により,CV-DVハードウェア上での量子アルゴリズムの新たな実装が可能となることを示す。
これは、量子振動子の自由進化によって量子ビット上に符号化された状態の量子フーリエ変換を、情報理論の議論によるキュービットの数で指数関数的に行うことで、例示される。
この研究は、ハイブリッドCV-DV量子計算における重要な一歩であり、量子プロセッサ上でスケーラブルなアナログデジタル信号処理の基礎となる。
Signal processing stands as a pillar of classical computation and modern information technology, applicable to both analog and digital signals. Recently, advancements in quantum information science have suggested that quantum signal processing (QSP) can enable more powerful signal processing capabilities. However, the developments in QSP have primarily leveraged \emph{digital} quantum resources, such as discrete-variable (DV) systems like qubits, rather than \emph{analog} quantum resources, such as continuous-variable (CV) systems like quantum oscillators. Consequently, there remains a gap in understanding how signal processing can be performed on hybrid CV-DV quantum computers. Here we address this gap by developing a new paradigm of mixed analog-digital QSP. We demonstrate the utility of this paradigm by showcasing how it naturally enables analog-digital conversion of quantum signals -- specifically, the transfer of states between DV and CV quantum systems. We then show that such quantum analog-digital conversion enables new implementations of quantum algorithms on CV-DV hardware. This is exemplified by realizing the quantum Fourier transform of a state encoded on qubits via the free-evolution of a quantum oscillator, albeit with a runtime exponential in the number of qubits due to information theoretic arguments. Collectively, this work marks a significant step forward in hybrid CV-DV quantum computation, providing a foundation for scalable analog-digital signal processing on quantum processors. | 翻訳日:2024-08-28 15:14:31 公開日:2024-08-27 |
# オクタフュージョン:3次元形状生成のためのオクタリーベース拡散モデル
OctFusion: Octree-based Diffusion Models for 3D Shape Generation ( http://arxiv.org/abs/2408.14732v1 ) ライセンス: Link先を確認 | Bojun Xiong, Si-Tong Wei, Xin-Yang Zheng, Yan-Pei Cao, Zhouhui Lian, Peng-Shuai Wang, | (参考訳) 拡散モデルは3次元生成の一般的な方法として現れている。
しかし、拡散モデルが多種多様な高品質な3次元形状を効率的に生成することは依然として困難である。
本稿では,Nvidia 4090 GPU上で任意の解像度で2.5秒で3次元形状を生成可能なOctFusionを提案する。
OctFusionの重要な構成要素は、オクツリーに基づく潜在表現と、それに付随する拡散モデルである。
この表現は暗黙の神経表現と明示的な空間オクツリーの両方の利点を組み合わせており、オクツリーに基づく変分オートエンコーダで学習される。
提案した拡散モデルは,様々なオクツリーレベルにわたる重みと計算の共有を可能にし,広く用いられている拡散スキームの複雑さを回避する,統一されたマルチスケールU-Netである。
本研究では,ShapeNetおよびObjaverseデータセットにおけるOctFusionの有効性を検証するとともに,形状生成タスクにおける最先端性能を実現する。
テクスチャメッシュ生成のための高品質なカラーフィールドと,テキストプロンプトやスケッチ,カテゴリラベルに条件付された高品質な3D形状を生成することで,OctFusionは拡張可能かつ柔軟であることを示す。
私たちのコードと事前トレーニングされたモデルは、 \url{https://github.com/octree-nn/octfusion}で利用可能です。
Diffusion models have emerged as a popular method for 3D generation. However, it is still challenging for diffusion models to efficiently generate diverse and high-quality 3D shapes. In this paper, we introduce OctFusion, which can generate 3D shapes with arbitrary resolutions in 2.5 seconds on a single Nvidia 4090 GPU, and the extracted meshes are guaranteed to be continuous and manifold. The key components of OctFusion are the octree-based latent representation and the accompanying diffusion models. The representation combines the benefits of both implicit neural representations and explicit spatial octrees and is learned with an octree-based variational autoencoder. The proposed diffusion model is a unified multi-scale U-Net that enables weights and computation sharing across different octree levels and avoids the complexity of widely used cascaded diffusion schemes. We verify the effectiveness of OctFusion on the ShapeNet and Objaverse datasets and achieve state-of-the-art performances on shape generation tasks. We demonstrate that OctFusion is extendable and flexible by generating high-quality color fields for textured mesh generation and high-quality 3D shapes conditioned on text prompts, sketches, or category labels. Our code and pre-trained models are available at \url{https://github.com/octree-nn/octfusion}. | 翻訳日:2024-08-28 15:14:31 公開日:2024-08-27 |
# 一般結合型物理インフォームドニューラルネットワークによる特異摂動微分方程式の解
General-Kindred Physics-Informed Neural Network to the Solutions of Singularly Perturbed Differential Equations ( http://arxiv.org/abs/2408.14734v1 ) ライセンス: Link先を確認 | Sen Wang, Peizhi Zhao, Qinglong Ma, Tao Song, | (参考訳) 物理インフォームドニューラルネットワーク(PINN)は、偏微分方程式(PDE)の解法において有望な研究方向となっている。
特異摂動問題への対処は、PINNの分野で難しい課題であり続けている。
特異摂動問題の解はしばしば鋭い境界層と急勾配を示し、従来のPINNは境界層の近似を達成できない。
本稿では,Singular Perturbation Differential Equations (SPDE) の解法として,GKPINN(General-Kindred Physics-Informed Neural Network)を提案する。
この手法は漸近解析を利用して方程式から境界層の事前の知識を取得し、境界層を近似する上でPINNを支援する新しいネットワークを確立する。
1次元・2次元・時間変化SPDE方程式の例を解くことで従来のPINNと比較する。
GKPINNは,確立したPINN法と比較して,L_2$誤差を2~4桁の精度で低減し,大幅な性能向上を実現している。
この大幅な改善は、我々のアプリケーションにとって重要な高精度を妥協することなく、収束率の大幅な加速を伴う。
さらに、GKPINNは、${1\times10}^{-38}$の摂動パラメータを持つ極端な場合においてもよく機能し、その優れた一般化能力を示している。
Physics-Informed Neural Networks (PINNs) have become a promising research direction in the field of solving Partial Differential Equations (PDEs). Dealing with singular perturbation problems continues to be a difficult challenge in the field of PINN. The solution of singular perturbation problems often exhibits sharp boundary layers and steep gradients, and traditional PINN cannot achieve approximation of boundary layers. In this manuscript, we propose the General-Kindred Physics-Informed Neural Network (GKPINN) for solving Singular Perturbation Differential Equations (SPDEs). This approach utilizes asymptotic analysis to acquire prior knowledge of the boundary layer from the equation and establishes a novel network to assist PINN in approximating the boundary layer. It is compared with traditional PINN by solving examples of one-dimensional, two-dimensional, and time-varying SPDE equations. The research findings underscore the exceptional performance of our novel approach, GKPINN, which delivers a remarkable enhancement in reducing the $L_2$ error by two to four orders of magnitude compared to the established PINN methodology. This significant improvement is accompanied by a substantial acceleration in convergence rates, without compromising the high precision that is critical for our applications. Furthermore, GKPINN still performs well in extreme cases with perturbation parameters of ${1\times10}^{-38}$, demonstrating its excellent generalization ability. | 翻訳日:2024-08-28 15:14:31 公開日:2024-08-27 |
# PPVF: 関連性のある差分プライバシーを備えた効率的なプライバシー保護オンラインビデオフェッチフレームワーク
PPVF: An Efficient Privacy-Preserving Online Video Fetching Framework with Correlated Differential Privacy ( http://arxiv.org/abs/2408.14735v1 ) ライセンス: Link先を確認 | Xianzhi Zhang, Yipeng Zhou, Di Wu, Quan Z. Sheng, Miao Hu, Linchang Xiao, | (参考訳) オンラインビデオストリーミングは、現代インターネットのランドスケープに不可欠なコンポーネントへと進化してきた。
しかし、ユーザー要求の開示は、重大なプライバシー上の課題を浮き彫りにする。
ユーザが好みのオンラインビデオをストリームすると、そのリクエストはビデオコンテンツプロバイダによって自動的に押収され、ユーザのプライバシーが漏洩する可能性がある。
残念ながら、現在の保護方法は、高品質なオンラインビデオサービスを維持しながら、コンテンツプロバイダからのユーザー要求のプライバシを保存するのに適していない。
この課題に対処するために、信頼されたエッジデバイスを使用してビデオのプレフェッチとキャッシュを行い、エッジキャッシュの効率を最適化しながら、ユーザの要求のプライバシを確保する、新たなプライバシ保存ビデオフェッチ(PPVF)フレームワークを導入する。
より具体的には、(1) \textit{Online privacy budget scheduler} は、理論的に保証されたオンラインアルゴリズムを用いて、プライバシ予算を割り当てた候補として、要求されないビデオを選択する。
代替ビデオは、理論上ビデオユーティリティと利用可能なプライバシー予算の両方を考慮することが保証されるオンラインアルゴリズムによって選択される。
2) <textit{Noisy video request generator} は、相互差分プライバシーを利用して(元のものに加えて)冗長なビデオリクエストを生成し、リクエストのプライバシーを難なくする。
(3)フェデレーション学習を活用して,(1)のビデオ選択支援,(2)ノイズ生成を支援するオンライン手法による映像ユーティリティの協調評価を行う。
最後に、Tencent Videoの現実世界のビデオリクエストトレースを用いて、広範な実験を行う。
その結果,PPVFは高いビデオキャッシング性能を維持しつつ,ユーザの要求するプライバシを効果的に保護することを示した。
Online video streaming has evolved into an integral component of the contemporary Internet landscape. Yet, the disclosure of user requests presents formidable privacy challenges. As users stream their preferred online videos, their requests are automatically seized by video content providers, potentially leaking users' privacy. Unfortunately, current protection methods are not well-suited to preserving user request privacy from content providers while maintaining high-quality online video services. To tackle this challenge, we introduce a novel Privacy-Preserving Video Fetching (PPVF) framework, which utilizes trusted edge devices to pre-fetch and cache videos, ensuring the privacy of users' requests while optimizing the efficiency of edge caching. More specifically, we design PPVF with three core components: (1) \textit{Online privacy budget scheduler}, which employs a theoretically guaranteed online algorithm to select non-requested videos as candidates with assigned privacy budgets. Alternative videos are chosen by an online algorithm that is theoretically guaranteed to consider both video utilities and available privacy budgets. (2) \textit{Noisy video request generator}, which generates redundant video requests (in addition to original ones) utilizing correlated differential privacy to obfuscate request privacy. (3) \textit{Online video utility predictor}, which leverages federated learning to collaboratively evaluate video utility in an online fashion, aiding in video selection in (1) and noise generation in (2). Finally, we conduct extensive experiments using real-world video request traces from Tencent Video. The results demonstrate that PPVF effectively safeguards user request privacy while upholding high video caching performance. | 翻訳日:2024-08-28 15:14:31 公開日:2024-08-27 |
# コミュニケーション効率のよいフェデレーション学習のための帯域幅認識とオーバーラップ重み圧縮
Bandwidth-Aware and Overlap-Weighted Compression for Communication-Efficient Federated Learning ( http://arxiv.org/abs/2408.14736v1 ) ライセンス: Link先を確認 | Zichen Tang, Junlin Huang, Rudan Yan, Yuxin Wang, Zhenheng Tang, Shaohuai Shi, Amelie Chi Zhou, Xiaowen Chu, | (参考訳) フェデレート平均化(FedAvg)におけるスパシフィケーションのような現在のデータ圧縮手法は、フェデレート学習(FL)の通信効率を効果的に向上させる。
しかし、これらの手法は、異種帯域幅と非IID(独立分散・独立分散)データによるストラグラー問題やモデル性能の低下といった課題に直面している。
これらの課題に対処するために,非IIDデータに関連する問題を軽減しつつ,通信効率の向上を目的としたFLのための帯域幅対応圧縮フレームワークを提案する。
まず、我々の戦略は帯域幅に応じて圧縮率を動的に調整し、クライアントが近いペースでモデルをアップロードできるようにする。
第2に、圧縮後の保持パラメータの非オーバーラップパターンを特定し、その結果、一様平均重みによるクライアント更新信号が減少する。
そこで本研究では,パラメータレベルでのクライアント遅延係数を調整し,元の更新をより緊密に近似し,異種環境下でのトレーニング収束を改善するパラメータマスクを提案する。
提案手法は,非圧縮型FedAvgよりも最大13%向上し,モデル精度を大幅に向上させる。
さらに、Top-K圧縮機でFedAvgと比較して目標精度に達すると3.37\times$の高速化を実現し、圧縮による収束の加速効果を示す。
我々のフレームワークへの共通圧縮技術の統合により、FLにおける重要な課題に対処し、分散機械学習の分野を前進させ、将来のクロスデバイス、通信効率の高いFL研究のための汎用的な基盤としての可能性はさらに確立される。
Current data compression methods, such as sparsification in Federated Averaging (FedAvg), effectively enhance the communication efficiency of Federated Learning (FL). However, these methods encounter challenges such as the straggler problem and diminished model performance due to heterogeneous bandwidth and non-IID (Independently and Identically Distributed) data. To address these issues, we introduce a bandwidth-aware compression framework for FL, aimed at improving communication efficiency while mitigating the problems associated with non-IID data. First, our strategy dynamically adjusts compression ratios according to bandwidth, enabling clients to upload their models at a close pace, thus exploiting the otherwise wasted time to transmit more data. Second, we identify the non-overlapped pattern of retained parameters after compression, which results in diminished client update signals due to uniformly averaged weights. Based on this finding, we propose a parameter mask to adjust the client-averaging coefficients at the parameter level, thereby more closely approximating the original updates, and improving the training convergence under heterogeneous environments. Our evaluations reveal that our method significantly boosts model accuracy, with a maximum improvement of 13% over the uncompressed FedAvg. Moreover, it achieves a $3.37\times$ speedup in reaching the target accuracy compared to FedAvg with a Top-K compressor, demonstrating its effectiveness in accelerating convergence with compression. The integration of common compression techniques into our framework further establishes its potential as a versatile foundation for future cross-device, communication-efficient FL research, addressing critical challenges in FL and advancing the field of distributed machine learning. | 翻訳日:2024-08-28 15:14:31 公開日:2024-08-27 |
# 確率的対数蒸留による個人差分拡散モデルの学習
Learning Differentially Private Diffusion Models via Stochastic Adversarial Distillation ( http://arxiv.org/abs/2408.14738v1 ) ライセンス: Link先を確認 | Bochao Liu, Pengju Wang, Shiming Ge, | (参考訳) ディープラーニングの成功は大量のトレーニングデータセットに依存するが、プライバシに敏感なドメインではデータが制限されることが多い。
この課題に対処するために、差分プライバシーを持つ生成モデル学習は、脱感作データ生成のためのプライベート生成モデルを訓練するためのソリューションとして登場した。
しかし,既存の手法によって生成された画像の品質は,データ分散のモデル化の複雑さによって制限されている。
我々は拡散モデルの成功に基づいてDP-SADを導入し,確率的対角蒸留法によりプライベート拡散モデルを訓練する。
具体的には、まず教師として拡散モデルを訓練し、次に蒸留により学生を訓練し、学生に他のモデルからの勾配にノイズを加えることで差分プライバシーを達成する。
画像が教師と生徒のどちらであるかを識別する識別器を導入し,対人訓練を行う。
大規模実験と解析により,提案手法の有効性が明らかとなった。
While the success of deep learning relies on large amounts of training datasets, data is often limited in privacy-sensitive domains. To address this challenge, generative model learning with differential privacy has emerged as a solution to train private generative models for desensitized data generation. However, the quality of the images generated by existing methods is limited due to the complexity of modeling data distribution. We build on the success of diffusion models and introduce DP-SAD, which trains a private diffusion model by a stochastic adversarial distillation method. Specifically, we first train a diffusion model as a teacher and then train a student by distillation, in which we achieve differential privacy by adding noise to the gradients from other models to the student. For better generation quality, we introduce a discriminator to distinguish whether an image is from the teacher or the student, which forms the adversarial training. Extensive experiments and analysis clearly demonstrate the effectiveness of our proposed method. | 翻訳日:2024-08-28 15:14:31 公開日:2024-08-27 |
# 効果的な情報匿名性規制の特性
Properties of Effective Information Anonymity Regulations ( http://arxiv.org/abs/2408.14740v1 ) ライセンス: Link先を確認 | Aloni Cohen, Micah Altman, Francesca Falzon, Evangelina Anna Markatou, Kobbi Nissim, | (参考訳) ある企業は、データセットを分析し、結果をリリースしようとします。
データセットには個人に関する情報が含まれており、データセットのリリース自体を禁止しているいくつかの規制の対象となっている。
規則は結果の公開に関する条件も課している。
規制はどのような特性を満たすべきか?
我々は、データに関連する個人に対して、リリースの下流効果を制御するための規制に注意を向ける。
個人識別可能な情報の開示を制限するデータ保護規則は、十分に匿名化されているデータの配布を制限するものではない。
本稿では,匿名化規則と関連する規則に関する一連の技術的要件を開発する。
これらの要件は、データ処理の単純な抽象モデルの中に、事前の作業で課された一般的な原則を導くことによって導出されます。
このような規制をこれらの要件を用いて評価するアプローチについて説明する。これにより、メカニズムの設計に一般的な原則が適用できるようになる。
例として、EUの一般データ保護規則(General Data Protection Regulation)からの規制要件の競合する解釈を評価します。
A firm seeks to analyze a dataset and to release the results. The dataset contains information about individual people, and the firm is subject to some regulation that forbids the release of the dataset itself. The regulation also imposes conditions on the release of the results. What properties should the regulation satisfy? We restrict our attention to regulations tailored to controlling the downstream effects of the release specifically on the individuals to whom the data relate. A particular example of interest is an anonymization rule, where a data protection regulation limiting the disclosure of personally identifiable information does not restrict the distribution of data that has been sufficiently anonymized. In this paper, we develop a set of technical requirements for anonymization rules and related regulations. The requirements are derived by situating within a simple abstract model of data processing a set of guiding general principles put forth in prior work. We describe an approach to evaluating such regulations using these requirements -- thus enabling the application of the general principles for the design of mechanisms. As an exemplar, we evaluate competing interpretations of regulatory requirements from the EU's General Data Protection Regulation. | 翻訳日:2024-08-28 15:14:31 公開日:2024-08-27 |
# テキストベースのクエリと条件付きモデリングを用いたパーソナライズビデオ要約
Personalized Video Summarization using Text-Based Queries and Conditional Modeling ( http://arxiv.org/abs/2408.14743v1 ) ライセンス: Link先を確認 | Jia-Hong Huang, | (参考訳) YouTubeやVimeoなどのプラットフォームでの動画コンテンツの拡散は、関連情報を効率的に見つける上で大きな課題となっている。
自動映像要約は, キーコンテンツを凝縮した形で抽出し提示することで, この問題に対処することを目的としている。
この論文は、テキストベースのクエリと条件モデリングを統合して、ユーザのニーズに合わせて要約をカスタマイズすることで、ビデオ要約の強化を探求する。
従来の手法では、個々の要件に合致しない固定的な要約を生成することが多い。
そこで本研究では,テキストクエリと視覚情報の両方を組み込んだマルチモーダル深層学習手法を提案する。
精度やF1スコアなどの評価指標は、生成された要約の品質を評価する。
この論文は、文脈化された単語埋め込みと特別な注意ネットワークを用いたテキストベースのクエリ表現の改善についても検討している。
これにより、クエリのセマンティック理解が向上し、ビデオ要約が向上する。
ストーリーラインの一貫性のような視覚的コヒーレンスと抽象的要因の両方を考慮に入れた人間的な要約をエミュレートするために,条件付きモデリングアプローチを導入する。
この方法は、複数の確率変数と結合分布を用いて鍵要約成分をキャプチャし、より人間らしく説明可能な要約をもたらす。
完全教師付き学習におけるデータの不足に対処するため、論文ではセグメントレベルの擬似ラベル方式を提案する。
この自己教師型手法は、人間のラベル付きデータセットが限られた場合でも、追加データを生成し、モデル性能を向上させる。
本研究の目的は,テキストベースのクエリを導入し,クエリ表現を改善し,条件付きモデリングを導入し,データの不足に対処することにより,より効果的でパーソナライズされたビデオ要約を作成することである。
The proliferation of video content on platforms like YouTube and Vimeo presents significant challenges in efficiently locating relevant information. Automatic video summarization aims to address this by extracting and presenting key content in a condensed form. This thesis explores enhancing video summarization by integrating text-based queries and conditional modeling to tailor summaries to user needs. Traditional methods often produce fixed summaries that may not align with individual requirements. To overcome this, we propose a multi-modal deep learning approach that incorporates both textual queries and visual information, fusing them at different levels of the model architecture. Evaluation metrics such as accuracy and F1-score assess the quality of the generated summaries. The thesis also investigates improving text-based query representations using contextualized word embeddings and specialized attention networks. This enhances the semantic understanding of queries, leading to better video summaries. To emulate human-like summarization, which accounts for both visual coherence and abstract factors like storyline consistency, we introduce a conditional modeling approach. This method uses multiple random variables and joint distributions to capture key summarization components, resulting in more human-like and explainable summaries. Addressing data scarcity in fully supervised learning, the thesis proposes a segment-level pseudo-labeling approach. This self-supervised method generates additional data, improving model performance even with limited human-labeled datasets. In summary, this research aims to enhance automatic video summarization by incorporating text-based queries, improving query representations, introducing conditional modeling, and addressing data scarcity, thereby creating more effective and personalized video summaries. | 翻訳日:2024-08-28 15:14:31 公開日:2024-08-27 |
# RSTeller: 公開データと大規模言語モデルによるリッチ言語意味論によるリモートセンシングにおけるビジュアル言語モデリングのスケールアップ
RSTeller: Scaling Up Visual Language Modeling in Remote Sensing with Rich Linguistic Semantics from Openly Available Data and Large Language Models ( http://arxiv.org/abs/2408.14744v1 ) ライセンス: Link先を確認 | Junyao Ge, Yang Zheng, Kaitai Guo, Jimin Liang, | (参考訳) 複雑な視覚的リモートセンシング(RS)シーンと人間の言語との整合を図り、多様なRS解釈タスクにまたがる特殊な視覚言語モデルの開発を可能にする。
しかし、RS画像にリッチな言語意味論の注釈を付けるには、RSの専門知識と相当な人的労働が必要であるため、コストがかかり、しばしば実用的ではない。
本研究では,Google Earth Engine (GEE) プラットフォームから取得した画像に対する,平易な OpenStreetMap (OSM) データから,大規模に意味豊かなキャプションを持つマルチモーダルデータセットを生成するために,大規模言語モデル(LLM)を活用するワークフローを提案する。
このアプローチにより、ペア化されたリモートセンシングデータの生成が容易になり、オープンなデータを使って簡単にスケールアップできる。
本稿では,100万以上のRS画像からなるマルチモーダルデータセットであるRSTellerについて述べる。
大規模な実験により、RSTellerは連続的な事前学習を通してRSシーン理解のための複数の既存の視覚言語モデルの性能を向上させることが示された。
提案手法は,高品質なアノテートデータへのアクセスを民主化しながら,リモートセンシング画像のアノテートに必要な手作業や専門知識を大幅に削減する。
この進歩は視覚言語モデリングの進歩を促進し、リモートセンシング研究や応用への幅広い参加を促進する。
RSTellerデータセットはhttps://github.com/SlytherinGe/RSTellerで公開されている。
Abundant, well-annotated multimodal data in remote sensing are pivotal for aligning complex visual remote sensing (RS) scenes with human language, enabling the development of specialized vision language models across diverse RS interpretation tasks. However, annotating RS images with rich linguistic semantics at scale demands expertise in RS and substantial human labor, making it costly and often impractical. In this study, we propose a workflow that leverages large language models (LLMs) to generate multimodal datasets with semantically rich captions at scale from plain OpenStreetMap (OSM) data for images sourced from the Google Earth Engine (GEE) platform. This approach facilitates the generation of paired remote sensing data and can be readily scaled up using openly available data. Within this framework, we present RSTeller, a multimodal dataset comprising over 1 million RS images, each accompanied by multiple descriptive captions. Extensive experiments demonstrate that RSTeller enhances the performance of multiple existing vision language models for RS scene understanding through continual pre-training. Our methodology significantly reduces the manual effort and expertise needed for annotating remote sensing imagery while democratizing access to high-quality annotated data. This advancement fosters progress in visual language modeling and encourages broader participation in remote sensing research and applications. The RSTeller dataset is available at https://github.com/SlytherinGe/RSTeller. | 翻訳日:2024-08-28 15:14:31 公開日:2024-08-27 |
# 3指グリパーを用いたデクサラスロボットマニピュレーションのためのベンチマーク強化学習法
Benchmarking Reinforcement Learning Methods for Dexterous Robotic Manipulation with a Three-Fingered Gripper ( http://arxiv.org/abs/2408.14747v1 ) ライセンス: Link先を確認 | Elizabeth Cutler, Yuning Xing, Tony Cui, Brendan Zhou, Koen van Rijnsoever, Ben Hart, David Valencia, Lee Violet C. Ong, Trevor Gee, Minas Liarokapis, Henry Williams, | (参考訳) 強化学習(RL)トレーニングは主に費用対効果と制御されたシミュレーション環境で行われる。
しかし、これらのトレーニングされたモデルを現実世界のタスクに移すことは、しばしば避けられない課題をもたらす。
本研究では,厳密な操作を行うための実世界の制御環境におけるRLアルゴリズムの直接訓練について検討する。
実世界における複雑な操作タスクを訓練した3つのRLアルゴリズムのベンチマーク結果を示す。
本研究は,実世界の現実的なシナリオにおけるRLトレーニングの実践性を実証するだけでなく,関連する課題や考察の洞察も提供する。
さらに、このロボット工学のダイナミックな分野において、同僚の研究者や実践者を力づけ、関与させることを目的として、採用した実験手法の経験を共有した。
Reinforcement Learning (RL) training is predominantly conducted in cost-effective and controlled simulation environments. However, the transfer of these trained models to real-world tasks often presents unavoidable challenges. This research explores the direct training of RL algorithms in controlled yet realistic real-world settings for the execution of dexterous manipulation. The benchmarking results of three RL algorithms trained on intricate in-hand manipulation tasks within practical real-world contexts are presented. Our study not only demonstrates the practicality of RL training in authentic real-world scenarios, facilitating direct real-world applications, but also provides insights into the associated challenges and considerations. Additionally, our experiences with the employed experimental methods are shared, with the aim of empowering and engaging fellow researchers and practitioners in this dynamic field of robotics. | 翻訳日:2024-08-28 15:14:31 公開日:2024-08-27 |
# LyCon:大規模言語モデルを用いた単語の単語から歌詞を再構成する
LyCon: Lyrics Reconstruction from the Bag-of-Words Using Large Language Models ( http://arxiv.org/abs/2408.14750v1 ) ライセンス: Link先を確認 | Haven Kim, Kahyun Choi, | (参考訳) 本稿では,歌詞の直接使用が著作権上の懸念から制限されることの多い,歌詞研究の独特な課題について論じる。
典型的なデータとは異なり、インターネットソースの歌詞は著作権法の下でしばしば保護され、代替のアプローチを必要とする。
本研究では,Bag-of-Words(BoW)データセットから著作権のない歌詞を生成する新しい手法を提案する。
BoWデータセットと大規模言語モデルに関連付けられたメタデータを利用することで,歌詞の再構築に成功した。
我々は、Milline Song Dataset、Deezer Mood Detection Dataset、AllMusic Genre Datasetなどの有名なソースからのメタデータと合わせて、再構成された歌詞のデータセットLyConをコンパイルし、公開しました。
我々は、ムードアノテーションやジャンルなどのメタデータの統合は、条件付き歌詞生成のような歌詞に関する様々な学術実験を可能にすると信じている。
This paper addresses the unique challenge of conducting research in lyric studies, where direct use of lyrics is often restricted due to copyright concerns. Unlike typical data, internet-sourced lyrics are frequently protected under copyright law, necessitating alternative approaches. Our study introduces a novel method for generating copyright-free lyrics from publicly available Bag-of-Words (BoW) datasets, which contain the vocabulary of lyrics but not the lyrics themselves. Utilizing metadata associated with BoW datasets and large language models, we successfully reconstructed lyrics. We have compiled and made available a dataset of reconstructed lyrics, LyCon, aligned with metadata from renowned sources including the Million Song Dataset, Deezer Mood Detection Dataset, and AllMusic Genre Dataset, available for public access. We believe that the integration of metadata such as mood annotations or genres enables a variety of academic experiments on lyrics, such as conditional lyric generation. | 翻訳日:2024-08-28 15:14:31 公開日:2024-08-27 |
# CoopASD:プライバシーに配慮した協調作業機械異常音検出
CoopASD: Cooperative Machine Anomalous Sound Detection with Privacy Concerns ( http://arxiv.org/abs/2408.14753v1 ) ライセンス: Link先を確認 | Anbai Jiang, Yuchen Shi, Pingyi Fan, Wei-Qiang Zhang, Jia Liu, | (参考訳) 機械異常音検出(ASD)は、故障のリスク軽減と生産効率の向上に前例のない効果があるため、産業用モノのインターネット(IIoT)において最も有望な応用の1つとして浮上している。
以前の研究は主に集中的な設定下でのマシンASDタスクを調査した。
しかし, マシンデータは様々な工場に分散しており, プライバシー上の懸念からデータを明示的に共有するべきではないため, 分散化環境下でのASDシステムの開発は極めて重要である。
プライバシを保ちながら、これらのファクトリが協調してスケーラブルなASDモデルを開発できるようにするために、各ファクトリがローカルデータセット上でASDモデルをトレーニングし、中央サーバがこれらのローカルモデルを定期的に集約する、CoopASDという新しいフレームワークを提案する。
我々は、ASDモデルのバックボーンとして事前学習モデルを使用し、その堅牢性を改善し、完全に非イドおよびドメインシフト設定の下でモデルを安定化させる専門技術を開発した。
集中的な設定でトレーニングされた従来の最先端(SOTA)モデルと比較して、CoopASDは、無視可能な0.08%の劣化を伴う競争結果を示している。
また,CoopASDの有効性を実証するために広範囲にわたるアブレーション研究を行った。
Machine anomalous sound detection (ASD) has emerged as one of the most promising applications in the Industrial Internet of Things (IIoT) due to its unprecedented efficacy in mitigating risks of malfunctions and promoting production efficiency. Previous works mainly investigated the machine ASD task under centralized settings. However, developing the ASD system under decentralized settings is crucial in practice, since the machine data are dispersed in various factories and the data should not be explicitly shared due to privacy concerns. To enable these factories to cooperatively develop a scalable ASD model while preserving their privacy, we propose a novel framework named CoopASD, where each factory trains an ASD model on its local dataset, and a central server aggregates these local models periodically. We employ a pre-trained model as the backbone of the ASD model to improve its robustness and develop specialized techniques to stabilize the model under a completely non-iid and domain shift setting. Compared with previous state-of-the-art (SOTA) models trained in centralized settings, CoopASD showcases competitive results with negligible degradation of 0.08%. We also conduct extensive ablation studies to demonstrate the effectiveness of CoopASD. | 翻訳日:2024-08-28 15:04:48 公開日:2024-08-27 |
# 高分解能画像再構成と誤差補償材料基底画像生成を用いた連続走査型デュアルエネルギーCT画像
Sequential-Scanning Dual-Energy CT Imaging Using High Temporal Resolution Image Reconstruction and Error-Compensated Material Basis Image Generation ( http://arxiv.org/abs/2408.14754v1 ) ライセンス: Link先を確認 | Qiaoxin Li, Ruifeng Chen, Peng Wang, Guotao Quan, Yanfeng Du, Dong Liang, Yinsheng Li, | (参考訳) Dual-Energy Computed Tomography (DECT) は画像の定量的な元素組成を得るために広く用いられている。
先進的なX線源および/または検出器技術を利用するDECTと比較して、DECTを実装するシーケンシャルスキャンデータ取得スキームは、特別なハードウェア設計を必要とせず、従来のCTシステムに直接実装できるため、臨床実践に大きな影響を与える可能性がある。
しかし、撮像対象物中のヨウ素化コントラスト剤の濃度は時間とともに変化するため、2つの管電位で得られた逐次走査されたデータセットは時間的に矛盾する。
既存の物質ベース画像再構成手法は、2つの管電位で得られたデータセットが時間的に一貫したものであると仮定するので、この仮定の違反は物質濃度の不正確な定量化をもたらす。
本研究では,高時間分解能画像再構成と誤り補償材料ベース画像生成を用いたシーケンシャル走査DECTイメージングを開発し,逐次走査したデータセットの時間的不整合に起因する技術的課題に対処し,シーケンシャル走査DECTにおける物質濃度の定量化精度を向上させる。
臨床用人体試験および実験用人体実験から得られた数値シミュレーションデータセットを用いて,アクセレーションの有効性を検証・評価した。
その結果,ACCELERATIONによる定量化精度と画質の向上が示された。
Dual-energy computed tomography (DECT) has been widely used to obtain quantitative elemental composition of imaged subjects for personalized and precise medical diagnosis. Compared with DECT leveraging advanced X-ray source and/or detector technologies, the use of the sequential-scanning data acquisition scheme to implement DECT may make a broader impact on clinical practice because this scheme requires no specialized hardware designs and can be directly implemented into conventional CT systems. However, since the concentration of iodinated contrast agent in the imaged subject varies over time, sequentially scanned data sets acquired at two tube potentials are temporally inconsistent. As existing material basis image reconstruction approaches assume that the data sets acquired at two tube potentials are temporally consistent, the violation of this assumption results in inaccurate quantification of material concentration. In this work, we developed sequential-scanning DECT imaging using high temporal resolution image reconstruction and error-compensated material basis image generation, ACCELERATION in short, to address the technical challenge induced by temporal inconsistency of sequentially scanned data sets and improve quantification accuracy of material concentration in sequential-scanning DECT. ACCELERATION has been validated and evaluated using numerical simulation data sets generated from clinical human subject exams and experimental human subject studies. Results demonstrated the improvement of quantification accuracy and image quality using ACCELERATION. | 翻訳日:2024-08-28 15:04:48 公開日:2024-08-27 |
# トレーニング不要な時系列異常検出:画像基礎モデルの活用
Training-Free Time-Series Anomaly Detection: Leveraging Image Foundation Models ( http://arxiv.org/abs/2408.14756v1 ) ライセンス: Link先を確認 | Nobuo Namura, Yuma Ichikawa, | (参考訳) 近年の時系列異常検出の進歩は、時系列データの多様な振る舞いを扱うためのディープラーニングモデルに依存している。
しかしながら、これらのモデルは不安定なトレーニングに悩まされ、広範囲なハイパーパラメータチューニングを必要とするため、実用的な制限が生じる。
基礎モデルには潜在的な解が存在するが、時系列での使用は限られている。
これらの課題を克服するために,画像ベースでトレーニング不要な時系列異常検出(ITF-TAD)手法を提案する。
ITF-TADは、時系列データをウェーブレット変換を用いて画像に変換し、それらを単一の表現に圧縮し、画像基礎モデルを利用して異常検出を行う。
このアプローチは、不安定なニューラルネットワークトレーニングやハイパーパラメータチューニングなしで、高性能な異常検出を実現する。
さらに、IFF-TADは、異なる周波数の異常を識別し、ユーザに対して、異常とその対応する周波数の詳細な可視化を提供する。
単変量および多変量時系列を含む5つのベンチマークデータセットに関する総合的な実験は、IFF-TADがディープモデルに匹敵するパフォーマンスを持つ実用的で効果的なソリューションを提供することを示した。
Recent advancements in time-series anomaly detection have relied on deep learning models to handle the diverse behaviors of time-series data. However, these models often suffer from unstable training and require extensive hyperparameter tuning, leading to practical limitations. Although foundation models present a potential solution, their use in time series is limited. To overcome these issues, we propose an innovative image-based, training-free time-series anomaly detection (ITF-TAD) approach. ITF-TAD converts time-series data into images using wavelet transform and compresses them into a single representation, leveraging image foundation models for anomaly detection. This approach achieves high-performance anomaly detection without unstable neural network training or hyperparameter tuning. Furthermore, ITF-TAD identifies anomalies across different frequencies, providing users with a detailed visualization of anomalies and their corresponding frequencies. Comprehensive experiments on five benchmark datasets, including univariate and multivariate time series, demonstrate that ITF-TAD offers a practical and effective solution with performance exceeding or comparable to that of deep models. | 翻訳日:2024-08-28 15:04:48 公開日:2024-08-27 |
# イテレーティブプルーニングから初期化における効果的なプルーニングの学習
Learning effective pruning at initialization from iterative pruning ( http://arxiv.org/abs/2408.14757v1 ) ライセンス: Link先を確認 | Shengkai Liu, Yaofeng Cheng, Fusheng Zha, Wei Guo, Lining Sun, Zhenshan Bing, Chenguang Yang, | (参考訳) 初期化時のプルーニング(PaI)は、トレーニング前の重量を除去することでトレーニングコストを削減し、ネットワークサイズの増加に伴ってますます重要になる。
しかし、現在のPaI法は繰り返し刈り込みと大きな精度差があり、特にスパシティレベルが高い。
PaIのパフォーマンスを改善するために、反復的なプルーニングからインスピレーションを得ることができますか?
抽選チケットの仮説では、反復再帰プルーニング(IRP)は、全てのプルーニングイテレーションにおいてパラメータを元の初期化に巻き戻すことで、再帰的にサブネットを見出す。
ここでは、生き残ったサブネットがより重要であり、最初の特徴と生存スコアをPaI基準として橋渡しする仮説を立てる。
ニューラルネットワーク(\textbf{AutoS}parse)を用いて、この相関関係を学習し、モデルの初期特徴を入力し、スコアを出力し、トレーニング前に最低スコアパラメータをプルーする。
提案手法の精度と一般化を検証するため,様々なモデルでPaIを行った。
その結果,提案手法は従来の手法よりも高スパース性設定の方が優れていることがわかった。
例えば、ResNet-18/CIFAR-10上のIRPは、AutoSをVGG-16/CIFAR-10、ResNet-18/TinyImageNetなどに一般化することができる。
ニューラルネットワークを用いた最初のPaI手法として、このアプローチに影響を与える要因を検証するために広範な実験を行う。
これらの結果はニューラルネットワークの学習傾向を明らかにし、実践的な視点からPaIの理解と研究に関する新たな洞察を提供する。
私たちのコードは、https://github.com/ChengYaofeng/AutoSparse.git.comで利用可能です。
Pruning at initialization (PaI) reduces training costs by removing weights before training, which becomes increasingly crucial with the growing network size. However, current PaI methods still have a large accuracy gap with iterative pruning, especially at high sparsity levels. This raises an intriguing question: can we get inspiration from iterative pruning to improve the PaI performance? In the lottery ticket hypothesis, the iterative rewind pruning (IRP) finds subnetworks retroactively by rewinding the parameter to the original initialization in every pruning iteration, which means all the subnetworks are based on the initial state. Here, we hypothesise the surviving subnetworks are more important and bridge the initial feature and their surviving score as the PaI criterion. We employ an end-to-end neural network (\textbf{AutoS}parse) to learn this correlation, input the model's initial features, output their score and then prune the lowest score parameters before training. To validate the accuracy and generalization of our method, we performed PaI across various models. Results show that our approach outperforms existing methods in high-sparsity settings. Notably, as the underlying logic of model pruning is consistent in different models, only one-time IRP on one model is needed (e.g., once IRP on ResNet-18/CIFAR-10, AutoS can be generalized to VGG-16/CIFAR-10, ResNet-18/TinyImageNet, et al.). As the first neural network-based PaI method, we conduct extensive experiments to validate the factors influencing this approach. These results reveal the learning tendencies of neural networks and provide new insights into our understanding and research of PaI from a practical perspective. Our code is available at: https://github.com/ChengYaofeng/AutoSparse.git. | 翻訳日:2024-08-28 15:04:48 公開日:2024-08-27 |
# 通勤予測のための説明可能な階層型都市表現学習
Explainable Hierarchical Urban Representation Learning for Commuting Flow Prediction ( http://arxiv.org/abs/2408.14762v1 ) ライセンス: Link先を確認 | Mingfei Cai, Yanbo Pang, Yoshihide Sekimoto, | (参考訳) 通勤フロー予測は、現実の自治体の業務に欠かせない課題である。
従来の研究では、複数の補助データを用いて都市内における通勤起因決定(OD)需要を推定することは可能であることが明らかになっている。
しかし、既存の方法の多くは、維持すべき地理的単位の増加により、都道府県や全国で同様の業務を大規模にこなすには適していない。
さらに、地域表現学習は、多様な都市下流課題に対する都市知識獲得のための普遍的なアプローチである。
多くの研究者がマルチソースデータから都市単位を記述するための包括的枠組みを開発してきたが、選択した地理的要素の関係は明らかになっていない。
さらに、都心部は、都市やその包括地区などの格付け構造を自然に保存しており、都市単位間の関係を解明する必要がある。
そこで我々は,複数の空間解像度で有意な領域埋め込みを生成できる不均一なグラフベースモデルを構築し,異なるタイプのODフローを予測する。
提案手法の有効性を実証するために,静岡県から収集した実世界の携帯電話データを用いた広範な実験を行った。
その結果,提案モデルが一様都市構造の観点から既存モデルより優れていたことが示唆された。
モデルの信頼性を高めるために、合理的な説明を用いて予測結果の理解を拡大する。
Commuting flow prediction is an essential task for municipal operations in the real world. Previous studies have revealed that it is feasible to estimate the commuting origin-destination (OD) demand within a city using multiple auxiliary data. However, most existing methods are not suitable to deal with a similar task at a large scale, namely within a prefecture or the whole nation, owing to the increased number of geographical units that need to be maintained. In addition, region representation learning is a universal approach for gaining urban knowledge for diverse metropolitan downstream tasks. Although many researchers have developed comprehensive frameworks to describe urban units from multi-source data, they have not clarified the relationship between the selected geographical elements. Furthermore, metropolitan areas naturally preserve ranked structures, like cities and their inclusive districts, which makes elucidating relations between cross-level urban units necessary. Therefore, we develop a heterogeneous graph-based model to generate meaningful region embeddings at multiple spatial resolutions for predicting different types of inter-level OD flows. To demonstrate the effectiveness of the proposed method, extensive experiments were conducted using real-world aggregated mobile phone datasets collected from Shizuoka Prefecture, Japan. The results indicate that our proposed model outperforms existing models in terms of a uniform urban structure. We extend the understanding of predicted results using reasonable explanations to enhance the credibility of the model. | 翻訳日:2024-08-28 15:04:48 公開日:2024-08-27 |
# チャネル的影響:多変量時系列におけるデータ影響の推定
Channel-wise Influence: Estimating Data Influence for Multivariate Time Series ( http://arxiv.org/abs/2408.14763v1 ) ライセンス: Link先を確認 | Muyao Wang, Zeke Xie, Bo Chen, | (参考訳) ロバストな統計学のテクニックである影響関数は、トレーニングデータが削除または修正されたときのモデルパラメータや関連する関数への影響を測定する。
この効果的で価値のあるポストホック法は、コストのかかるモデル再訓練を必要とせず、機械学習モデルの解釈可能性を研究することができる。
モデルパフォーマンスの向上、モデルの一般化の改善、解釈可能性の提供などの拡張を提供する。
近年,多変量時系列解析(MTS)が重要な課題となっている。
しかし、MSSの光を遮る影響関数に関するこれまでの研究は、トレーニングMSSのチャネルを改変する効果には及ばない。
MTSの各チャネルは、その分析において重要な役割を担っているため、異なるチャネルの影響を特徴づけることが不可欠である。
このギャップを埋めるために,MTSにおける異なるチャネルの影響を推定する最初の方法であるチャネルワイド・インフルエンス関数を提案する。
さらに,MTSにおけるチャネルの影響を推定するために,この影響関数をどのように利用できるかを示す。
最後に, MTS 異常検出や MTS 予測などの重要な MTS 解析タスクにおいて, 影響推定関数の精度と有効性を検証した。
実世界のデータセットに関する豊富な実験によると、元の影響関数は我々の手法よりも悪く、チャネルプルーニング問題にさえ失敗し、MTS解析タスクにおけるチャネルワイド影響関数の優位性と必要性を示す。
The influence function, a technique from robust statistics, measures the impact on model parameters or related functions when training data is removed or modified. This effective and valuable post-hoc method allows for studying the interpretability of machine learning models without requiring costly model retraining. It would provide extensions like increasing model performance, improving model generalization, and offering interpretability. Recently, Multivariate Time Series (MTS) analysis has become an important yet challenging task, attracting significant attention. However, there is no preceding research on the influence functions of MTS to shed light on the effects of modifying the channel of training MTS. Given that each channel in an MTS plays a crucial role in its analysis, it is essential to characterize the influence of different channels. To fill this gap, we propose a channel-wise influence function, which is the first method that can estimate the influence of different channels in MTS, utilizing a first-order gradient approximation that leverages the more informative average gradient of the data set. Additionally, we demonstrate how this influence function can be used to estimate the impact of a channel in MTS. Finally, we validated the accuracy and effectiveness of our influence estimation function in critical MTS analysis tasks, such as MTS anomaly detection and MTS forecasting. According to abundant experiments on real-world dataset, the original influence function performs worse than our method and even fail for the channel pruning problem, which demonstrate the superiority and necessity of channel-wise influence function in MTS analysis tasks. | 翻訳日:2024-08-28 15:04:48 公開日:2024-08-27 |
# SynthDoc:ビジュアル文書理解のためのバイリンガル文書合成
SynthDoc: Bilingual Documents Synthesis for Visual Document Understanding ( http://arxiv.org/abs/2408.14764v1 ) ライセンス: Link先を確認 | Chuanghao Ding, Xuejing Liu, Wei Tang, Juan Li, Xiaoliang Wang, Rui Zhao, Cam-Tu Nguyen, Fei Tan, | (参考訳) 本稿では、テキスト、画像、テーブル、チャートを含む高品質で多様なデータセットを生成することにより、ビジュアル文書理解(VDU)を強化するために設計された、新しい合成文書生成パイプラインであるSynthDocを紹介する。
データ取得の課題と既存のデータセットの制限に対処するため、SynthDocは、一般公開されたコーパスと高度なレンダリングツールを活用して、包括的な汎用データセットを作成する。
ドナウモデルを用いて実験を行った結果,SynthDocのデータを用いて学習したモデルは,事前学習された読み出しタスクにおいて優れた性能を示し,言語的矛盾にもかかわらず,下流タスクにおいて堅牢性を維持することができた。
5000のイメージテキストペアからなるベンチマークデータセットのリリースは、パイプラインの機能を示すだけでなく、VDUコミュニティがドキュメント画像認識の研究と開発を進める上で、貴重なリソースを提供する。
この研究は、データの不足に対するスケーラブルなソリューションを提供し、複雑な実世界の文書を解析するエンド・ツー・エンド・モデルの有効性を検証することによって、この分野に大きく貢献する。
This paper introduces SynthDoc, a novel synthetic document generation pipeline designed to enhance Visual Document Understanding (VDU) by generating high-quality, diverse datasets that include text, images, tables, and charts. Addressing the challenges of data acquisition and the limitations of existing datasets, SynthDoc leverages publicly available corpora and advanced rendering tools to create a comprehensive and versatile dataset. Our experiments, conducted using the Donut model, demonstrate that models trained with SynthDoc's data achieve superior performance in pre-training read tasks and maintain robustness in downstream tasks, despite language inconsistencies. The release of a benchmark dataset comprising 5,000 image-text pairs not only showcases the pipeline's capabilities but also provides a valuable resource for the VDU community to advance research and development in document image recognition. This work significantly contributes to the field by offering a scalable solution to data scarcity and by validating the efficacy of end-to-end models in parsing complex, real-world documents. | 翻訳日:2024-08-28 15:04:48 公開日:2024-08-27 |
# CrossViewDiff:衛星・ストリートビュー合成のためのクロスビュー拡散モデル
CrossViewDiff: A Cross-View Diffusion Model for Satellite-to-Street View Synthesis ( http://arxiv.org/abs/2408.14765v1 ) ライセンス: Link先を確認 | Weijia Li, Jun He, Junyan Ye, Huaping Zhong, Zhimeng Zheng, Zilong Huang, Dahua Lin, Conghui He, | (参考訳) サテライト・ツー・ストリート・ビュー・シンセサイザーは、対応するサテライト・ビュー・イメージからリアルなストリート・ビュー・イメージを生成することを目的としている。
安定拡散モデルは様々な画像生成アプリケーションにおいて顕著な性能を示しているが、生成した構造やテクスチャを制御するために類似ビュー入力に依存しているため、難易度の高いクロスビュー合成タスクに制限される。
本研究では,衛星間ビュー合成のためのクロスビュー拡散モデルであるCrossViewDiffを提案する。
ビュー間の大きな相違によって引き起こされる課題に対処するため,衛星シーン構造推定とクロスビューテクスチャマッピングモジュールを設計し,ストリートビュー画像合成のための構造的およびテクスチャ的制御を構築する。
さらに、拡張されたクロスビューアテンションモジュールを介して上記制御を組み込んだ、クロスビュー制御ガイド付き復調処理を設計する。
合成結果のより包括的な評価を実現するため,標準評価指標の補足として,GPTに基づくスコアリング手法を設計する。
また,この課題に対する異なるデータソース(テキスト,マップ,ビルディング高さ,マルチ時間衛星画像など)の影響についても検討する。
3つのパブリックなクロスビューデータセットの結果から、CrossViewDiffは、標準およびGPTベースの評価指標で現在の最先端を上回り、農村部、郊外部、都市部におけるより現実的な構造とテクスチャを備えた高品質なストリートビューパノラマを生成している。
この作業のコードとモデルはhttps://opendatalab.github.io/CrossViewDiff/.comで公開される。
Satellite-to-street view synthesis aims at generating a realistic street-view image from its corresponding satellite-view image. Although stable diffusion models have exhibit remarkable performance in a variety of image generation applications, their reliance on similar-view inputs to control the generated structure or texture restricts their application to the challenging cross-view synthesis task. In this work, we propose CrossViewDiff, a cross-view diffusion model for satellite-to-street view synthesis. To address the challenges posed by the large discrepancy across views, we design the satellite scene structure estimation and cross-view texture mapping modules to construct the structural and textural controls for street-view image synthesis. We further design a cross-view control guided denoising process that incorporates the above controls via an enhanced cross-view attention module. To achieve a more comprehensive evaluation of the synthesis results, we additionally design a GPT-based scoring method as a supplement to standard evaluation metrics. We also explore the effect of different data sources (e.g., text, maps, building heights, and multi-temporal satellite imagery) on this task. Results on three public cross-view datasets show that CrossViewDiff outperforms current state-of-the-art on both standard and GPT-based evaluation metrics, generating high-quality street-view panoramas with more realistic structures and textures across rural, suburban, and urban scenes. The code and models of this work will be released at https://opendatalab.github.io/CrossViewDiff/. | 翻訳日:2024-08-28 15:04:48 公開日:2024-08-27 |
# 受動型高輝度光子対源を用いた衛星QKDの戦略
Strategy of satellite QKD with passive high brightness entangled photon pair source ( http://arxiv.org/abs/2408.14768v1 ) ライセンス: Link先を確認 | Jin-Woo Kim, Suseong Lim, Heonoh Kim, June-Koo Kevin Rhee, | (参考訳) 高輝度光子対(HBEPP)源は、衛星と地上局の間の絡み合いに基づく量子鍵分布(QKD)を行うのに不可欠である。
超明るい光源は、衛星ベースのQKD(SQKD)の大幅な損失を克服し、キーレートを増加させる一方で、マルチ光子効果を誘発し、システムのエラー率を上昇させる。
システム性能を正確に推定するために,不斉損失チャネルを用いてHBEPP分布の測定確率を計算する解析モデルを提案する。
本モデルに基づいて, 偏光独立チャネルとしきい値検出器を仮定し, 受動強度HBEPP源をSQKDシステムに適用することを提案する。
平均光子数を$\bar{\mu}=0.1$で固定すると、システム損失に応じてHBEPPソース輝度を効果的に最適化する理想的な一方通信絡み方式SQKDプロトコルと比較して99.7\%の性能が得られることを確認した。
A high-brightness entangled photon pair (HBEPP) source is essential for conducting entanglement-based quantum key distribution (QKD) between a satellite and a ground station. While an ultrabright source can overcome significant losses in satellite-based QKD (SQKD) and increase the sifted key rate, it also induces the multi-photon effect, raising the system's error rate. To accurately estimate system performance, we first present an analytical model for calculating the measurement probabilities of HBEPP distribution through an asymmetric loss channel. Based on this model, we propose the use of a passive-intensity HBEPP source for SQKD systems, assuming a polarization-independent channel and threshold detectors for measurement. We confirm that fixing the mean photon number at $\bar{\mu}=0.1$ achieves a performance of $99.7\%$ compared to the ideal one-way communication entanglement-based SQKD protocol, which is effectively optimizing the HBEPP source brightness in accordance with system losses. | 翻訳日:2024-08-28 15:04:48 公開日:2024-08-27 |
# 長期医療画像分類のためのテキスト誘導基礎モデル適応
Text-guided Foundation Model Adaptation for Long-Tailed Medical Image Classification ( http://arxiv.org/abs/2408.14770v1 ) ライセンス: Link先を確認 | Sirui Li, Li Lin, Yijin Huang, Pujin Cheng, Xiaoying Tang, | (参考訳) 医学的文脈では、まれな疾患のラベルの少ない長いデータセットにおける不均衡なデータ分布は、ディープラーニングモデルの診断精度を著しく損なう。
最近のマルチモーダルテキスト画像管理基盤モデルは、効率的な表現学習を通じて、データの不足に対する新しい解決策を提供する。
しかし, 医学固有の事前訓練は, 自然画像に対する医用画像の分類において, 成績を損なう。
そこで本研究では,TFA-LT(Long-Tailed Medical Image Classification)のための新しいテキスト誘導基礎モデルを提案する。
2段階のトレーニング戦略を採用し,2つの線形アダプタと1つのアンサンブラを用いて基礎モデルから表現を統合する。
2つの長い尾を持つ医用画像データセットによる実験結果から、我々のアプローチの単純さ、軽量さ、効率性が検証された。現在の最高のパフォーマンスアルゴリズムのGPUメモリ使用量は6.1%に過ぎず、本手法は最大27.1%の精度向上を実現し、この領域における基礎モデル適応の可能性を強調している。
In medical contexts, the imbalanced data distribution in long-tailed datasets, due to scarce labels for rare diseases, greatly impairs the diagnostic accuracy of deep learning models. Recent multimodal text-image supervised foundation models offer new solutions to data scarcity through effective representation learning. However, their limited medical-specific pretraining hinders their performance in medical image classification relative to natural images. To address this issue, we propose a novel Text-guided Foundation model Adaptation for Long-Tailed medical image classification (TFA-LT). We adopt a two-stage training strategy, integrating representations from the foundation model using just two linear adapters and a single ensembler for balanced outcomes. Experimental results on two long-tailed medical image datasets validate the simplicity, lightweight and efficiency of our approach: requiring only 6.1% GPU memory usage of the current best-performing algorithm, our method achieves an accuracy improvement of up to 27.1%, highlighting the substantial potential of foundation model adaptation in this area. | 翻訳日:2024-08-28 15:04:48 公開日:2024-08-27 |
# グローバルなAIコミュニティは言語多様性のパブリッシングを必要としている
A global AI community requires language-diverse publishing ( http://arxiv.org/abs/2408.14772v1 ) ライセンス: Link先を確認 | Haley Lepp, Parth Sarin, | (参考訳) この挑発の中で、我々は、AI研究コミュニティにおける英語の優位性について議論し、英語出版の要件は、AIにおけるより広範な抽出の体制を保ち、強化する、と主張した。
大きな言語モデルと機械翻訳は障壁を断ち切る手段として祝われてきたが、我々はそれらの使用を科学者や潜在的な読者の言語的排除の徴候と見なしている。
開催する国の言語で会議を運営し、論文の言語的適切性を判断しないようピアレビュアーに指示し、複数の言語で公開・提示する機会を提供する。
私たちはこの作品の新しい翻訳を歓迎します。
寄稿したい場合は著者に連絡してください。
In this provocation, we discuss the English dominance of the AI research community, arguing that the requirement for English language publishing upholds and reinforces broader regimes of extraction in AI. While large language models and machine translation have been celebrated as a way to break down barriers, we regard their use as a symptom of linguistic exclusion of scientists and potential readers. We propose alternative futures for a healthier publishing culture, organized around three themes: administering conferences in the languages of the country in which they are held, instructing peer reviewers not to adjudicate the language appropriateness of papers, and offering opportunities to publish and present in multiple languages. We welcome new translations of this piece. Please contact the authors if you would like to contribute one. | 翻訳日:2024-08-28 15:04:48 公開日:2024-08-27 |
# Instruct-SkillMix: LLMインストラクションチューニングのための強力なパイプライン
Instruct-SkillMix: A Powerful Pipeline for LLM Instruction Tuning ( http://arxiv.org/abs/2408.14774v1 ) ライセンス: Link先を確認 | Simran Kaur, Simon Park, Anirudh Goyal, Sanjeev Arora, | (参考訳) Instruct-SkillMixは、多種多様な高品質なSFTデータを作成するための自動化アプローチである。
Instruct-SkillMixパイプラインには2つのステージがあり、それぞれが既存の強力なLLMを利用する: 1)スキル抽出: LLMを使用して、既存のデータセットから、またはモデルを直接プロンプトすることで、命令追従のコア"スキル"を抽出する; (2)データ生成: 強力なLLMを使用して、ランダムに選択されたこれらのスキルのペアを示す(命令、応答)データを生成する。
ここでは、ランダムなスキルの組み合わせは多様性と難易度を促進する。
Instruct-SkillMixから生成されたデータに対するVanilla SFT(つまり、PPO、DPO、RLメソッド)は、AlpacaEval 2.0、MT-Bench、WildBenchなどのベンチマークに続く命令に強い利益をもたらす。
わずか4ドルのサンプルで、LLaMA-3-8B-BaseはAlpacaEval 2.0で42.76%の勝利率を達成した。
我々の知る限り、これはSFT(RL法を使用せず、Claude 3 OpusやLLaMA-3.1-405B-Instructのようなプロプライエタリなモデルと競合する全てのモデルで最先端のパフォーマンスを実現する。
アブレーション研究は、素直なクラウドソーシングによるオープンなインストラクションチューニングデータセットの作成が難しい理由を示唆している。
Instruct-SkillMixの例の20 %$で低品質の回答(シャーカー)を導入すると、パフォーマンスが低下し、時には壊滅的に低下する。
Instruct-SkillMixパイプラインは柔軟性があり、他の設定に適応できる。
We introduce Instruct-SkillMix, an automated approach for creating diverse, high quality SFT data. The Instruct-SkillMix pipeline involves two stages, each leveraging an existing powerful LLM: (1) Skill extraction: uses the LLM to extract core "skills" for instruction-following, either from existing datasets, or by directly prompting the model; (2) Data generation: uses the powerful LLM to generate (instruction, response) data that exhibit a randomly chosen pair of these skills. Here, the use of random skill combinations promotes diversity and difficulty. Vanilla SFT (i.e., no PPO, DPO, or RL methods) on data generated from Instruct-SkillMix leads to strong gains on instruction following benchmarks such as AlpacaEval 2.0, MT-Bench, and WildBench. With just $4$K examples, LLaMA-3-8B-Base achieves 42.76% length-controlled win rate on AlpacaEval 2.0. To our knowledge, this achieves state-of-the-art performance among all models that have only undergone SFT (no RL methods) and competes with proprietary models such as Claude 3 Opus and LLaMA-3.1-405B-Instruct. Ablation studies also suggest plausible reasons for why creating open instruction-tuning datasets via naive crowd-sourcing has proved difficult. Introducing low quality answers ("shirkers") in $20\%$ of Instruct-SkillMix examples causes performance to plummet, sometimes catastrophically. The Instruct-SkillMix pipeline is flexible and is adaptable to other settings. | 翻訳日:2024-08-28 15:04:48 公開日:2024-08-27 |
# MROVSeg: 開語彙セマンティックセマンティックセグメンテーションにおける視覚言語モデルの分解曲線を破る
MROVSeg: Breaking the Resolution Curse of Vision-Language Models in Open-Vocabulary Semantic Segmentation ( http://arxiv.org/abs/2408.14776v1 ) ライセンス: Link先を確認 | Yuanbing Zhu, Bingke Zhu, Zhen Chen, Huan Xu, Ming Tang, Jinqiao Wang, | (参考訳) Open-vocabulary semantic segmentationは、推論中にテキストベースの記述に基づいて意味のある領域を分類し、認識することを目的としている。
この課題に対処する典型的な解決策は、CLIPのような強力な視覚言語モデル(VLM)を活用して、オープン語彙とクローズボキャブラリ認識のギャップを埋めることである。
VLMは通常、低解像度の画像(例:224\times 224$)で事前訓練されるため、従来の手法のほとんどはダウンスケールの画像のみで動作する。
低解像度の機能は細部を保存できないことが多いので、この設計に疑問を呈する。
高解像度入力に画像バックボーンを追加することでこの問題を軽減できるが、計算オーバーヘッドが大幅に増加する可能性がある。
そこで,MROVSegは1つの事前訓練されたCLIPバックボーンによるオープン語彙セマンティックセマンティックセマンティクスのためのマルチレゾルトレーニングフレームワークで,スライディングウィンドウを用いて高精細な入力を均一なパッチに分割し,よく訓練された画像エンコーダの入力サイズを一致させる。
鍵となるコンポーネントは、空間幾何学を復元し、学習可能な畳み込み層とスケールアテンション層によってパッチ間の局所的言語対応を把握するマルチレゾアダプタである。
関心領域内でオブジェクトクエリと多精細CLIP機能間の相互アテンションを実行することで,多精細なセマンティクスを集約するマルチグラデーション・マスキード・アテンション・スキームを導入する。
包括的実験を通じて、MROVSegが確立されたオープン語彙セマンティックセマンティックセマンティクスベンチマークにおいて、特に高精細な入力に対して優位性を示し、オープン語彙セマンティクスセマンティクスセマンティクスの新たな標準を確立する。
Open-vocabulary semantic segmentation aims to segment and recognize semantically meaningful regions based on text-based descriptions during inference. A typical solution to address this task is to leverage powerful vision-language models (VLMs), such as CLIP, to bridge the gap between open- and close-vocabulary recognition. As VLMs are usually pretrained with low-resolution images (e.g. $224\times224$), most previous methods operate only on downscaled images. We question this design as low resolution features often fail to preserve fine details. Although employing additional image backbones for high-resolution inputs can mitigate this issue, it may also introduce significant computation overhead. Therefore, we propose MROVSeg, a multi-resolution training framework for open-vocabulary semantic segmentation with a single pretrained CLIP backbone, that uses sliding windows to slice the high-resolution input into uniform patches, each matching the input size of the well-trained image encoder. Its key components include a Multi-Res Adapter, which restores the spatial geometry and grasps local-global correspondences across patches by learnable convolutional and scale attention layers. To achieve accurate segmentation, we introduce Multi-grained Masked Attention scheme to aggregate multi-grained semantics by performing cross-attention between object queries and multi-resolution CLIP features within the region of interests. Through comprehensive experiments, we demonstrate the superiority of MROVSeg on well-established open-vocabulary semantic segmentation benchmarks, particularly for high-resolution inputs, establishing new standards for open-vocabulary semantic segmentation. | 翻訳日:2024-08-28 15:04:48 公開日:2024-08-27 |
# チャープスペクトルを用いたWhispered vs. 正規音声分類
Quartered Chirp Spectral Envelope for Whispered vs Normal Speech Classification ( http://arxiv.org/abs/2408.14777v1 ) ライセンス: Link先を確認 | S. Johanan Joysingh, P. Vijayalakshmi, T. Nagarajan, | (参考訳) 人類とコンピュータの相互作用の許容可能な形態としてのWhisperedスピーチは、勢いを増している。
複数モードの音声に対処するシステムは、堅牢なフロントエンド音声分類器を必要とする。
通常の音声は発声音声の特徴のいくつかを取り入れているため,有意な白色ガウス雑音の存在下では,発声音声と正常音声の分類性能は低下する。
本研究では,発声音声と正常音声の分類を行うために,チャープスペクトルエンベロープとクォートスペクトルエンベロープを組み合わせた「クォートチャープスペクトルエンベロープ」という新機能を提案する。
チャープスペクトルは与えられたタスクのカスタマイズされた特徴を得るために微調整され、クォーター化されたスペクトルエンベロープは現在のタスクで特にうまく機能することが証明されている。
この機能は、1次元の畳み込みニューラルネットワークでトレーニングされ、スペクトルエンベロープのトレンドをキャプチャする。
提案システムは,ホワイトノイズの存在下で,最先端のシステムよりも優れた性能を示す。
Whispered speech as an acceptable form of human-computer interaction is gaining traction. Systems that address multiple modes of speech require a robust front-end speech classifier. Performance of whispered vs normal speech classification drops in the presence of additive white Gaussian noise, since normal speech takes on some of the characteristics of whispered speech. In this work, we propose a new feature named the quartered chirp spectral envelope, a combination of the chirp spectrum and the quartered spectral envelope, to classify whispered and normal speech. The chirp spectrum can be fine-tuned to obtain customized features for a given task, and the quartered spectral envelope has been proven to work especially well for the current task. The feature is trained on a one dimensional convolutional neural network, that captures the trends in the spectral envelope. The proposed system performs better than the state of the art, in the presence of white noise. | 翻訳日:2024-08-28 15:04:48 公開日:2024-08-27 |
# GPUによる反ファクトレグレスト最小化
GPU-Accelerated Counterfactual Regret Minimization ( http://arxiv.org/abs/2408.14778v1 ) ライセンス: Link先を確認 | Juho Kim, | (参考訳) 反実的後悔の最小化(英: Counterfactual regret minimization, CFR)は、大規模な不完全な情報ゲームを解くことができる非回帰学習力学のアルゴリズム群である。
CFRをより効率的なものにするためには、注目すべき作業が不足している。
本稿では,このアルゴリズムを高密度かつスパースな行列およびベクトル演算系として実装し,グラフィカル処理ユニットに対して高い並列化を実現することを提案する。
実験の結果、我々の実装はOpenSpielのPython実装よりも352.5倍高速で、OpenSpielのC++実装よりも22.2倍高速で、解決されるゲームのサイズが大きくなるにつれてスピードアップがより顕著になることがわかった。
Counterfactual regret minimization (CFR) is a family of algorithms of no-regret learning dynamics capable of solving large-scale imperfect information games. There has been a notable lack of work on making CFR more computationally efficient. We propose implementing this algorithm as a series of dense and sparse matrix and vector operations, thereby making it highly parallelizable for a graphical processing unit. Our experiments show that our implementation performs up to about 352.5 times faster than OpenSpiel's Python implementation and up to about 22.2 times faster than OpenSpiel's C++ implementation and the speedup becomes more pronounced as the size of the game being solved grows. | 翻訳日:2024-08-28 15:04:48 公開日:2024-08-27 |
# GINN-KAN:物理情報ニューラルネットワークにおける解釈可能性パイプライン化
GINN-KAN: Interpretability pipelining with applications in Physics Informed Neural Networks ( http://arxiv.org/abs/2408.14780v1 ) ライセンス: Link先を確認 | Nisal Ranasinghe, Yu Xia, Sachith Seneviratne, Saman Halgamuge, | (参考訳) ニューラルネットワークは強力な関数近似器であるが、その‘ブラックボックス’の性質は、しばしば不透明で解釈が難しい。
多くのポストホックな説明法が存在するが、一般的にネットワークの根底にある推論過程を捉えない。
真に解釈可能なニューラルネットワークは、バックプロパゲーションのような技術を使って従来のモデルと同様に訓練されるが、学習されたインプットとアウトプットの関係に関する洞察を提供する。
本研究では,解釈可能性パイプラインの概念を導入し,複数の解釈可能性技術を導入し,各手法の精度を向上する。
この目的のために、我々はまず、そのような解釈可能性を約束するいくつかのアーキテクチャを評価し、特に、バックプロパゲーションを引き続き活用しながら、標準的なニューラルネットワークアーキテクチャに解釈可能性を統合する可能性のために選択された2つのモデル、すなわちGrowing Interpretable Neural Network(GINN)とKolmogorov Arnold Networks(KAN)に焦点を当てた。
それぞれの限界と強みを分析し、両モデルの利点を合成する新しい解釈可能なニューラルネットワークGINN-KANを導入する。
Feynmanのシンボリックレグレッションベンチマークデータセットでテストすると、GINN-KANはGINNとkanのどちらよりも優れています。
提案手法の能力と一般化性を強調するため, GINN-KANを物理インフォームドニューラルネットワーク(PINN)における従来のブラックボックスネットワークの代替として位置づける。
これは、自然科学におけるディープラーニングパイプラインの応用において、はるかに大きな影響をもたらすものと期待している。
15の異なる偏微分方程式に対するこの解釈可能なPINNを用いた実験により、GINN-KAN拡張PINNは、微分方程式の解法においてブラックボックスネットワークでPINNよりも優れており、GINNとKAの能力を上回っていることが示された。
Neural networks are powerful function approximators, yet their ``black-box" nature often renders them opaque and difficult to interpret. While many post-hoc explanation methods exist, they typically fail to capture the underlying reasoning processes of the networks. A truly interpretable neural network would be trained similarly to conventional models using techniques such as backpropagation, but additionally provide insights into the learned input-output relationships. In this work, we introduce the concept of interpretability pipelineing, to incorporate multiple interpretability techniques to outperform each individual technique. To this end, we first evaluate several architectures that promise such interpretability, with a particular focus on two recent models selected for their potential to incorporate interpretability into standard neural network architectures while still leveraging backpropagation: the Growing Interpretable Neural Network (GINN) and Kolmogorov Arnold Networks (KAN). We analyze the limitations and strengths of each and introduce a novel interpretable neural network GINN-KAN that synthesizes the advantages of both models. When tested on the Feynman symbolic regression benchmark datasets, GINN-KAN outperforms both GINN and KAN. To highlight the capabilities and the generalizability of this approach, we position GINN-KAN as an alternative to conventional black-box networks in Physics-Informed Neural Networks (PINNs). We expect this to have far-reaching implications in the application of deep learning pipelines in the natural sciences. Our experiments with this interpretable PINN on 15 different partial differential equations demonstrate that GINN-KAN augmented PINNs outperform PINNs with black-box networks in solving differential equations and surpass the capabilities of both GINN and KAN. | 翻訳日:2024-08-28 14:54:56 公開日:2024-08-27 |
# キャビティQEDにおける吸収分光法による分子エンタングルメント幅
Molecular Entanglement Witness by Absorption Spectroscopy in Cavity QED ( http://arxiv.org/abs/2408.14782v1 ) ライセンス: Link先を確認 | Weijun Wu, Francesca Fassioli, David A. Huse, Gregory D. Scholes, | (参考訳) 化学における分子間量子効果を理解する上で重要な課題は、室温での分子エンタングルメントの生成と維持、およびマクロ分子系の多粒子エンタングルメント特性の検出である。
本稿では,量子力学における中心的な概念である量子フィッシャー情報について,多部交絡証として検討する。
非同一局所応答演算子に関する量子フィッシャー情報に関連する絡み目関数を一般化する。
超ラジアント相転移を含む空洞量子力学における超強光-物質結合の分子間絡み合いは良好であることを示す。
我々はさらに、量子フィッシャー情報を双極子相関器に接続し、この絡み合いが吸収分光によって検出できることを示唆している。
本研究は, 室温で化学系の分子間絡み合いを検出するための一般的なプロトコルを提案する。
Producing and maintaining molecular entanglement at room temperature and detecting multipartite entanglement features of macroscopic molecular systems remain key challenges for understanding inter-molecular quantum effects in chemistry. Here, we study the quantum Fisher information, a central concept in quantum metrology, as a multipartite entanglement witness. We generalize the entanglement witness functional related to quantum Fisher information regarding non-identical local response operators. We show that it is a good inter-molecular entanglement witness for ultrastrong light-matter coupling in cavity quantum electrodynamics, including near the superradiant phase transition. We further connect quantum Fisher information to the dipole correlator, which suggests that this entanglement could be detected by absorption spectroscopy. Our work proposes a general protocol to detect inter-molecular entanglement in chemical systems at room temperature. | 翻訳日:2024-08-28 14:54:56 公開日:2024-08-27 |
# 教師なし-オンライン強化学習
Unsupervised-to-Online Reinforcement Learning ( http://arxiv.org/abs/2408.14785v1 ) ライセンス: Link先を確認 | Junsu Kim, Seohong Park, Sergey Levine, | (参考訳) オフラインとオンラインの強化学習(RL)は、オフラインのRLでポリシーを訓練し、さらにオンラインのRLで微調整するフレームワークであり、データ駆動意思決定のための有望なレシピと考えられている。
ドメイン固有のオフラインRL事前トレーニングが必要で、実際は不安定であることが多い。
本研究では、オフラインRLの代替として、ドメイン固有の教師なしオフラインRLを非教師なしオフラインRLに置き換えるunsupervised-to-online RL(U2O RL)を提案する。
U2O RLは、複数のダウンストリームタスクのためにトレーニング済みのモデル1つを再利用できるだけでなく、より良い表現も学べる。
U2O RLを実際にインスタンス化するために、タスク非依存のオフラインスキルベースのポリシーを事前学習し、オンライン微調整を指導するU2O RLの一般的なレシピを提案する。
9つの状態ベースおよび画素ベースの環境での実験を通して、U2O RLが従来のオフラインからオフラインまでのRLアプローチにマッチしたり、性能を向上すると同時に、多くのダウンストリームタスクに対して、トレーニング済みのモデル1つを再利用できることを実証的に実証した。
Offline-to-online reinforcement learning (RL), a framework that trains a policy with offline RL and then further fine-tunes it with online RL, has been considered a promising recipe for data-driven decision-making. While sensible, this framework has drawbacks: it requires domain-specific offline RL pre-training for each task, and is often brittle in practice. In this work, we propose unsupervised-to-online RL (U2O RL), which replaces domain-specific supervised offline RL with unsupervised offline RL, as a better alternative to offline-to-online RL. U2O RL not only enables reusing a single pre-trained model for multiple downstream tasks, but also learns better representations, which often result in even better performance and stability than supervised offline-to-online RL. To instantiate U2O RL in practice, we propose a general recipe for U2O RL to bridge task-agnostic unsupervised offline skill-based policy pre-training and supervised online fine-tuning. Throughout our experiments in nine state-based and pixel-based environments, we empirically demonstrate that U2O RL achieves strong performance that matches or even outperforms previous offline-to-online RL approaches, while being able to reuse a single pre-trained model for a number of different downstream tasks. | 翻訳日:2024-08-28 14:54:56 公開日:2024-08-27 |
# 補完的な特徴から学ぶ
Learning from Complementary Features ( http://arxiv.org/abs/2408.14788v1 ) ライセンス: Link先を確認 | Kosuke Sugiyama, Masato Uchida, | (参考訳) 正確なデータ観測は予測モデルの学習プロセスには不可欠であるが、観測精度の不足、収集コストの高騰、プライバシーの制約などの要因により困難である。
本稿では,ある定性的特徴が「何」を示す正確な情報として利用できない場合について検討する。
我々は、正確な情報によって定義される特徴を通常の特徴(OF)、補完的な情報によって定義される特徴を補完的特徴(CF)と呼ぶ。
次に,CFL(Complementary Feature Learning)と呼ばれる新たな学習シナリオを定式化し,予測モデルをOFとCFのインスタンスを用いて構築する。
CFLの最も単純な形式化は、従来の教師あり学習をCFの観測値から直接適用する。
しかし、このアプローチはCFに関連する曖昧さを解決せず、学習を困難にし、予測モデルの特定の予測の解釈を複雑にする。
そこで、情報理論の観点から目的関数を導出し、CFに対応するOFF値を推定し、これらの推定に基づいて出力ラベルを予測する。
この目的関数に基づいて,理論上保証されたグラフに基づく推定法と,その実用的な近似法を提案し,CFに対応する値の推定を行う。
実世界のデータを用いて数値実験を行った結果,提案手法はCFに対応する値を効果的に推定し,出力ラベルを予測する。
While precise data observation is essential for the learning processes of predictive models, it can be challenging owing to factors such as insufficient observation accuracy, high collection costs, and privacy constraints. In this paper, we examines cases where some qualitative features are unavailable as precise information indicating "what it is," but rather as complementary information indicating "what it is not." We refer to features defined by precise information as ordinary features (OFs) and those defined by complementary information as complementary features (CFs). We then formulate a new learning scenario termed Complementary Feature Learning (CFL), where predictive models are constructed using instances consisting of OFs and CFs. The simplest formalization of CFL applies conventional supervised learning directly using the observed values of CFs. However, this approach does not resolve the ambiguity associated with CFs, making learning challenging and complicating the interpretation of the predictive model's specific predictions. Therefore, we derive an objective function from an information-theoretic perspective to estimate the OF values corresponding to CFs and to predict output labels based on these estimations. Based on this objective function, we propose a theoretically guaranteed graph-based estimation method along with its practical approximation, for estimating OF values corresponding to CFs. The results of numerical experiments conducted with real-world data demonstrate that our proposed method effectively estimates OF values corresponding to CFs and predicts output labels. | 翻訳日:2024-08-28 14:54:56 公開日:2024-08-27 |
# 人的介入を伴わない手術器具分割の再検討:グラフ分割
Revisiting Surgical Instrument Segmentation Without Human Intervention: A Graph Partitioning View ( http://arxiv.org/abs/2408.14789v1 ) ライセンス: Link先を確認 | Mingyu Sheng, Jianan Fan, Dongnan Liu, Ron Kikinis, Weidong Cai, | (参考訳) 内視鏡画像における手術器具のセグメンテーション(SIS)は,低侵襲手術を増強するためのコンピュータ支援的介入の文脈において,長年の重要課題である。
近年の深層学習の方法論とデータ・ハングリーの性質の高まりを踏まえ、大規模な専門家による注釈に基づく神経予測モデルを訓練することは、この分野における既成のアプローチとして支配され、しかしながら、収集された外科的ビデオフレームに対応する微細なピクセル単位のラベルを作成するために、臨床医に禁止的な負担を課す可能性がある。
本研究では,ビデオフレーム分割をグラフ分割問題として再検討し,画像画素をグラフノードとして扱う教師なし手法を提案する。
自己教師付き事前学習モデルは、まず、高レベルな意味的特徴をキャプチャする特徴抽出器として活用される。
すると、ラプラシア行列は特徴量から計算され、グラフ分割のために固有分解される。
ディープ」固有ベクトルでは、手術用ビデオフレームは、ツールや組織などの異なるモジュールに意味的に分割され、位置、クラス、関係などの区別可能な意味情報を提供する。
セグメンテーション問題は、固有ベクトルにクラスタリングやしきい値を適用することで自然に取り組むことができる。
様々な臨床エンドポイント(例:EndoVis2017、EndoVis2018、UCLなど)で広範囲にわたる実験が実施されている。
難解なシナリオのすべてにおいて,本手法は,教師なしの最先端(SOTA)手法よりも優れた性能と堅牢性を示す。
コードはhttps://github.com/MingyuShengSMY/GraphClusteringSIS.gitで公開されている。
Surgical instrument segmentation (SIS) on endoscopic images stands as a long-standing and essential task in the context of computer-assisted interventions for boosting minimally invasive surgery. Given the recent surge of deep learning methodologies and their data-hungry nature, training a neural predictive model based on massive expert-curated annotations has been dominating and served as an off-the-shelf approach in the field, which could, however, impose prohibitive burden to clinicians for preparing fine-grained pixel-wise labels corresponding to the collected surgical video frames. In this work, we propose an unsupervised method by reframing the video frame segmentation as a graph partitioning problem and regarding image pixels as graph nodes, which is significantly different from the previous efforts. A self-supervised pre-trained model is firstly leveraged as a feature extractor to capture high-level semantic features. Then, Laplacian matrixs are computed from the features and are eigendecomposed for graph partitioning. On the "deep" eigenvectors, a surgical video frame is meaningfully segmented into different modules such as tools and tissues, providing distinguishable semantic information like locations, classes, and relations. The segmentation problem can then be naturally tackled by applying clustering or threshold on the eigenvectors. Extensive experiments are conducted on various datasets (e.g., EndoVis2017, EndoVis2018, UCL, etc.) for different clinical endpoints. Across all the challenging scenarios, our method demonstrates outstanding performance and robustness higher than unsupervised state-of-the-art (SOTA) methods. The code is released at https://github.com/MingyuShengSMY/GraphClusteringSIS.git. | 翻訳日:2024-08-28 14:54:56 公開日:2024-08-27 |
# ロボットプロセス自動化による構造化データ処理の最適化
Optimizing Structured Data Processing through Robotic Process Automation ( http://arxiv.org/abs/2408.14791v1 ) ライセンス: Link先を確認 | Vivek Bhardwaj, Ajit Noonia, Sandeep Chaurasia, Mukesh Kumar, Abdulnaser Rashid, Mohamed Tahar Ben Othman, | (参考訳) ロボットプロセス自動化(Roboic Process Automation, RPA)は、請求書、購入注文、支払いアドバイスなどの大量のドキュメントを組織が処理し分析する方法に革命をもたらす、データ抽出におけるゲーム変革技術として登場した。
本研究では、構造化データ抽出における RPA の利用について検討し、手作業による処理よりもその優位性を評価する。
人為的なタスクとRPAソフトウェアボットが実行するタスクを比較することで、請求書からのデータ抽出の効率と精度を評価し、RPAシステムの有効性に焦点をあてる。
異なる回数の請求書を含む4つの異なるシナリオを通して、タスク完了に必要な時間と労力の観点で効率を計測し、マニュアルとRPAプロセスのエラー率を比較することによって精度を測る。
以上の結果から,ロボットが作業の完了に要する時間は,すべてのケースにおいて手作業よりも有意に少ないことが示唆された。
さらに、RPAシステムは、エラーのリスクを軽減し、プロセス信頼性を向上し、完全精度を一貫して達成する。
これらの結果は、運用効率を最適化し、人件費を削減し、全体的なビジネスパフォーマンスを向上させることにおける、RPAの変革的ポテンシャルを浮き彫りにしている。
Robotic Process Automation (RPA) has emerged as a game-changing technology in data extraction, revolutionizing the way organizations process and analyze large volumes of documents such as invoices, purchase orders, and payment advices. This study investigates the use of RPA for structured data extraction and evaluates its advantages over manual processes. By comparing human-performed tasks with those executed by RPA software bots, we assess efficiency and accuracy in data extraction from invoices, focusing on the effectiveness of the RPA system. Through four distinct scenarios involving varying numbers of invoices, we measure efficiency in terms of time and effort required for task completion, as well as accuracy by comparing error rates between manual and RPA processes. Our findings highlight the significant efficiency gains achieved by RPA, with bots completing tasks in significantly less time compared to manual efforts across all cases. Moreover, the RPA system consistently achieves perfect accuracy, mitigating the risk of errors and enhancing process reliability. These results underscore the transformative potential of RPA in optimizing operational efficiency, reducing human labor costs, and improving overall business performance. | 翻訳日:2024-08-28 14:54:56 公開日:2024-08-27 |
# AI支援コンテンツ生成における人的貢献度の測定
Measuring Human Contribution in AI-Assisted Content Generation ( http://arxiv.org/abs/2408.14792v1 ) ライセンス: Link先を確認 | Yueqi Xie, Tao Qi, Jingwei Yi, Ryan Whalen, Junming Huang, Qian Ding, Yu Xie, Xing Xie, Fangzhao Wu, | (参考訳) 生成人工知能(AI)の普及に伴い、コンテンツの増加は人間によってのみ生成されるのではなく、人間の指導による生成AIモデルによってのみ生成される。
このシフトは、AI支援作品における人間の貢献度が異なるため、独創性を明確化するための顕著な課題を提示する。
本研究は,AIによるコンテンツ生成における人的貢献を測定するための研究課題を提起し,情報理論に基づくこの問題に対処するための枠組みを提案する。
人間の入力とAI支援出力の自己情報に対する相互情報を計算することにより、コンテンツ生成における人間の比例情報貢献を定量化する。
実験の結果,提案手法は,複数の創造領域にまたがる様々な人間の貢献度を効果的に判別できることが示唆された。
この研究は、生成AIの時代におけるAI支援コンテンツ生成における人間の貢献を測定するための基盤となることを願っている。
With the growing prevalence of generative artificial intelligence (AI), an increasing amount of content is no longer exclusively generated by humans but by generative AI models with human guidance. This shift presents notable challenges for the delineation of originality due to the varying degrees of human contribution in AI-assisted works. This study raises the research question of measuring human contribution in AI-assisted content generation and introduces a framework to address this question that is grounded in information theory. By calculating mutual information between human input and AI-assisted output relative to self-information of AI-assisted output, we quantify the proportional information contribution of humans in content generation. Our experimental results demonstrate that the proposed measure effectively discriminates between varying degrees of human contribution across multiple creative domains. We hope that this work lays a foundation for measuring human contributions in AI-assisted content generation in the era of generative AI. | 翻訳日:2024-08-28 14:54:56 公開日:2024-08-27 |
# MaskCycleGAN-based Whisper to normal Speech Conversion
MaskCycleGAN-based Whisper to Normal Speech Conversion ( http://arxiv.org/abs/2408.14797v1 ) ライセンス: Link先を確認 | K. Rohith Gupta, K. Ramnath, S. Johanan Joysingh, P. Vijayalakshmi, T. Nagarajan, | (参考訳) 通常の音声変換に対するウィスパーは研究の活発な領域である。
生成的対向ネットワークに基づく様々なアーキテクチャが近年提案されている。
特に最近の研究では、マスクガイドされたMaskCycleGANは、生成的対向ネットワークである循環的整合性維持であり、スペクトル表現からの音声変換に非常に優れていることが示されている。
本研究では,話し言葉を正規語に変換するためのMaskCycleGANアプローチを提案する。
マスクパラメータをチューニングし,音声活動検出器で信号の事前処理を行うことで,既存の手法と比較して優れた性能が得られることがわかった。
wTIMITデータセットは評価に使用される。
PESQ や G-Loss などの客観的指標を用いて、平均的意見スコアを用いた主観的評価を行う。
その結果,提案手法は有意な利益をもたらすことがわかった。
Whisper to normal speech conversion is an active area of research. Various architectures based on generative adversarial networks have been proposed in the recent past. Especially, recent study shows that MaskCycleGAN, which is a mask guided, and cyclic consistency keeping, generative adversarial network, performs really well for voice conversion from spectrogram representations. In the current work we present a MaskCycleGAN approach for the conversion of whispered speech to normal speech. We find that tuning the mask parameters, and pre-processing the signal with a voice activity detector provides superior performance when compared to the existing approach. The wTIMIT dataset is used for evaluation. Objective metrics such as PESQ and G-Loss are used to evaluate the converted speech, along with subjective evaluation using mean opinion score. The results show that the proposed approach offers considerable benefits. | 翻訳日:2024-08-28 14:54:56 公開日:2024-08-27 |
# RAW-Adapter:カメラRAW画像への事前学習型視覚モデルの適用
RAW-Adapter: Adapting Pre-trained Visual Model to Camera RAW Images ( http://arxiv.org/abs/2408.14802v1 ) ライセンス: Link先を確認 | Ziteng Cui, Tatsuya Harada, | (参考訳) sRGBイメージは、コンピュータビジョン研究において、取得の容易さと効率的なストレージのために、事前訓練された視覚モデルの主要な選択肢となっている。
一方、RAW画像の利点は、様々な現実世界の難解な照明条件下でのリッチな物理情報にある。
カメラRAWデータを直接ベースとしたコンピュータビジョンタスクでは、既存の研究の多くは、画像信号プロセッサ(ISP)をバックエンドネットワークに統合する手法を採用しているが、ISPステージとその後のネットワーク間のインタラクション能力を見落としていることが多い。
NLPおよびCV領域のアダプタ研究から着想を得たRAW-Adapterは,カメラRAWデータへのsRGB事前学習モデルの適用を目的とした新しいアプローチである。
RAW-Adapterは、学習可能なISPステージを使用してRAW入力を調整する入力レベルアダプタと、ISPステージとその後の高レベルネットワーク間の接続を構築するモデルレベルアダプタで構成されている。
加えて、RAW-Adapterは様々なコンピュータビジョンフレームワークで使用できる一般的なフレームワークである。
異なる照明条件下での冗長な実験により、我々のアルゴリズムの最先端(SOTA)性能が示され、実世界のデータセットと合成データセットにまたがってその有効性と効率が示された。
sRGB images are now the predominant choice for pre-training visual models in computer vision research, owing to their ease of acquisition and efficient storage. Meanwhile, the advantage of RAW images lies in their rich physical information under variable real-world challenging lighting conditions. For computer vision tasks directly based on camera RAW data, most existing studies adopt methods of integrating image signal processor (ISP) with backend networks, yet often overlook the interaction capabilities between the ISP stages and subsequent networks. Drawing inspiration from ongoing adapter research in NLP and CV areas, we introduce RAW-Adapter, a novel approach aimed at adapting sRGB pre-trained models to camera RAW data. RAW-Adapter comprises input-level adapters that employ learnable ISP stages to adjust RAW inputs, as well as model-level adapters to build connections between ISP stages and subsequent high-level networks. Additionally, RAW-Adapter is a general framework that could be used in various computer vision frameworks. Abundant experiments under different lighting conditions have shown our algorithm's state-of-the-art (SOTA) performance, demonstrating its effectiveness and efficiency across a range of real-world and synthetic datasets. | 翻訳日:2024-08-28 14:54:56 公開日:2024-08-27 |
# Platypus: 様々な形式でテキストを読むための一般化されたスペシャリストモデル
Platypus: A Generalized Specialist Model for Reading Text in Various Forms ( http://arxiv.org/abs/2408.14805v1 ) ライセンス: Link先を確認 | Peng Wang, Zhaohai Li, Jun Tang, Humen Zhong, Fei Huang, Zhibo Yang, Cong Yao, | (参考訳) 画像からテキストを読むこと(自然のシーンや文書)は、技術上の課題と幅広い応用範囲のために、長年にわたって研究されてきたトピックである。
これまでは、テキスト読解のサブタスク(シーンテキスト認識、手書きテキスト認識、数学的表現認識など)に取り組むために、個別のスペシャリストモデルが開発されてきた。
しかしながら、そのようなスペシャリストモデルは、通常、異なるサブタスク間で効果的に一般化することはできない。
近年, GPT-4V のような一般化的モデルは, 様々なシナリオにおいてテキストを読む上で大きな可能性を秘めているが, 限られた精度と低効率の欠点がある。
本研究では,テキスト読解のための一般化されたスペシャリストモデルであるPlatypusを提案する。
具体的には、Platypusは、様々な形式のテキストを単一の統一アーキテクチャで認識できると同時に、優れた精度と高い効率を実現している。
また、Platypusの利点をよりうまく活用するために、テキスト読解データセット(Wormsと呼ばれる)を構築し、その画像は以前のデータセットからキュレートされ、部分的に再ラベルされる。
標準ベンチマーク実験では、提案したPlatypusモデルの有効性と優位性を示す。
モデルとデータはhttps://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/Platypusで公開される。
Reading text from images (either natural scenes or documents) has been a long-standing research topic for decades, due to the high technical challenge and wide application range. Previously, individual specialist models are developed to tackle the sub-tasks of text reading (e.g., scene text recognition, handwritten text recognition and mathematical expression recognition). However, such specialist models usually cannot effectively generalize across different sub-tasks. Recently, generalist models (such as GPT-4V), trained on tremendous data in a unified way, have shown enormous potential in reading text in various scenarios, but with the drawbacks of limited accuracy and low efficiency. In this work, we propose Platypus, a generalized specialist model for text reading. Specifically, Platypus combines the best of both worlds: being able to recognize text of various forms with a single unified architecture, while achieving excellent accuracy and high efficiency. To better exploit the advantage of Platypus, we also construct a text reading dataset (called Worms), the images of which are curated from previous datasets and partially re-labeled. Experiments on standard benchmarks demonstrate the effectiveness and superiority of the proposed Platypus model. Model and data will be made publicly available at https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/Platypus. | 翻訳日:2024-08-28 14:54:56 公開日:2024-08-27 |
# Poly2Vec:深部ニューラルネットワークを用いた空間推論のための地理空間オブジェクトの多形符号化
Poly2Vec: Polymorphic Encoding of Geospatial Objects for Spatial Reasoning with Deep Neural Networks ( http://arxiv.org/abs/2408.14806v1 ) ライセンス: Link先を確認 | Maria Despoina Siampou, Jialiang Li, John Krumm, Cyrus Shahabi, Hua Lu, | (参考訳) 地理空間データの符号化は、2つの異なる地理空間オブジェクト間のトポロジ的関係を識別するなど、空間的推論を必要とするタスクを機械学習(ML)モデルで実行可能にするために重要である。
しかし、既存の符号化手法は、通常、特定の種類の空間データのみを扱うようにカスタマイズされるため、複数のデータ型が共存する下流の様々なタスクに適用性が阻害されるため、制限されている。
これを解決するために、下流のタスクに関係なく、2Dポイント、ポリライン、ポリゴンを含む異なる地理空間オブジェクトのモデリングを統一する符号化フレームワークであるPoly2Vecを紹介する。
我々は2次元フーリエ変換のパワーを利用して、地理空間オブジェクトから固定長ベクトルへの形状や位置などの有用な空間特性を符号化する。
これらのベクトルは、空間的推論タスクのためにニューラルネットワークモデルに入力され、この統一されたアプローチにより、異なる空間タイプごとに別々のモデルを開発し、訓練する必要がなくなる。
混合幾何型の合成データセットと実データの両方でPoly2Vecを評価し,その一貫した性能を下流空間推論タスクで検証した。
Encoding geospatial data is crucial for enabling machine learning (ML) models to perform tasks that require spatial reasoning, such as identifying the topological relationships between two different geospatial objects. However, existing encoding methods are limited as they are typically customized to handle only specific types of spatial data, which impedes their applicability across different downstream tasks where multiple data types coexist. To address this, we introduce Poly2Vec, an encoding framework that unifies the modeling of different geospatial objects, including 2D points, polylines, and polygons, irrespective of the downstream task. We leverage the power of the 2D Fourier transform to encode useful spatial properties, such as shape and location, from geospatial objects into fixed-length vectors. These vectors are then inputted into neural network models for spatial reasoning tasks.This unified approach eliminates the need to develop and train separate models for each distinct spatial type. We evaluate Poly2Vec on both synthetic and real datasets of mixed geometry types and verify its consistent performance across several downstream spatial reasoning tasks. | 翻訳日:2024-08-28 14:54:56 公開日:2024-08-27 |
# GSIFN:マルチモーダル感性解析のためのグラフ構造化・介在型マルチモーダルトランスベースフュージョンネットワーク
GSIFN: A Graph-Structured and Interlaced-Masked Multimodal Transformer Based Fusion Network for Multimodal Sentiment Analysis ( http://arxiv.org/abs/2408.14809v1 ) ライセンス: Link先を確認 | Yijie Jin, | (参考訳) マルチモーダル・センティメント・アナリティクス(MSA)は、複数のモーダルを利用して感情を分析する。
通常、高度な融合法と表現学習に基づく手法はそれに取り組むために設計されている。
提案したGSIFNは、MSAで解決すべき2つの重要な問題を解く。
(i) マルチモーダル核融合では, 既存の核融合法において, モーダル結合の分離とパラメータ冗長性が著しく低下し, 核融合性能と効率が低下する。
二 特徴抽出器及びエンハンサーの表現能力と計算オーバーヘッドのトレードオフ
GSIFNは、これらの問題を解決するために2つの主要なコンポーネントを組み込んでいる。
(i)グラフ構造型・インターレース型マルチモーダルトランス。
これはInterlaced Mask機構を採用し、堅牢なマルチモーダルグラフ埋め込みを構築し、オールモーダルインワントランスフォーマーベースの融合を実現し、計算オーバーヘッドを大幅に削減する。
二 計算オーバーヘッドの少ない自己教師型学習フレームワークで、並列化LSTMと行列メモリを併用し、一元ラベル生成のための非言語的モーダル機能を強化する。
MSAデータセットであるCMU-MOSI、CMU-MOSEI、CH-SIMSに基づいて評価し、GSIFNは最先端の手法と比較して計算オーバーヘッドを大幅に低減した性能を示す。
Multimodal Sentiment Analysis (MSA) leverages multiple modals to analyze sentiments. Typically, advanced fusion methods and representation learning-based methods are designed to tackle it. Our proposed GSIFN solves two key problems to be solved in MSA: (i) In multimodal fusion, the decoupling of modal combinations and tremendous parameter redundancy in existing fusion methods, which lead to poor fusion performance and efficiency. (ii) The trade-off between representation capability and computation overhead of the unimodal feature extractors and enhancers. GSIFN incorporates two main components to solve these problems: (i) Graph-Structured and Interlaced-Masked Multimodal Transformer. It adopts the Interlaced Mask mechanism to construct robust multimodal graph embedding, achieve all-modal-in-one Transformer-based fusion, and greatly reduce the computation overhead. (ii) A self-supervised learning framework with low computation overhead and high performance, which utilizes a parallelized LSTM with matrix memory to enhance non-verbal modal feature for unimodal label generation. Evaluated on the MSA datasets CMU-MOSI, CMU-MOSEI, and CH-SIMS, GSIFN demonstrates superior performance with significantly lower computation overhead compared with state-of-the-art methods. | 翻訳日:2024-08-28 14:54:56 公開日:2024-08-27 |
# 適応光学イメージングにおける感光体解析のための一般偏差アルゴリズム
Generalist Segmentation Algorithm for Photoreceptors Analysis in Adaptive Optics Imaging ( http://arxiv.org/abs/2408.14810v1 ) ライセンス: Link先を確認 | Mikhail Kulyabin, Aline Sindel, Hilde Pedersen, Stuart Gilson, Rigmor Baraas, Andreas Maier, | (参考訳) 生体網膜から得られた画像中のコーン光受容体パターンを定量的な方法で解析することは、様々な眼状態の早期発見と管理に不可欠である。
共焦点適応光学スキャニング光眼鏡(AOSLO)イメージングにより、導波路光受容体の反射から円錐を可視化することができる。
共焦点AOSLO画像におけるコーン分割の自動アルゴリズムは大幅に改善されているが、データラベリングのプロセスは労働集約的で手動のままである。
本稿では,AOSLO画像中のコーンの検出とセグメンテーションを行うための,ディープラーニング(DL)に基づく手法を提案する。
これらのモデルは、葉中心から0$^{\circ}$, 1$^{\circ}$, 2$^{\circ}$の18人の参加者の20のAOSLOバッチの半自動ラベル付きデータセットでトレーニングされた。
F1スコアは, 0.968, 0.958, 0.954 for 0$^{\circ}$, 1$^{\circ}$, 2$^{\circ}$であった。
本手法は,ラベル付きコーンを少量だけ必要とすることで,ラベル付きデータの必要性を最小限に抑え,特にラベル付きデータを制限できる眼科領域において有益である。
Analyzing the cone photoreceptor pattern in images obtained from the living human retina using quantitative methods can be crucial for the early detection and management of various eye conditions. Confocal adaptive optics scanning light ophthalmoscope (AOSLO) imaging enables visualization of the cones from reflections of waveguiding cone photoreceptors. While there have been significant improvements in automated algorithms for segmenting cones in confocal AOSLO images, the process of labelling data remains labor-intensive and manual. This paper introduces a method based on deep learning (DL) for detecting and segmenting cones in AOSLO images. The models were trained on a semi-automatically labelled dataset of 20 AOSLO batches of images of 18 participants for 0$^{\circ}$, 1$^{\circ}$, and 2$^{\circ}$ from the foveal center. F1 scores were 0.968, 0.958, and 0.954 for 0$^{\circ}$, 1$^{\circ}$, and 2$^{\circ}$, respectively, which is better than previously reported DL approaches. Our method minimizes the need for labelled data by only necessitating a fraction of labelled cones, which is especially beneficial in the field of ophthalmology, where labelled data can often be limited. | 翻訳日:2024-08-28 14:54:56 公開日:2024-08-27 |
# 脳にインスパイアされた人工知能:総合的なレビュー
Brain-inspired Artificial Intelligence: A Comprehensive Review ( http://arxiv.org/abs/2408.14811v1 ) ライセンス: Link先を確認 | Jing Ren, Feng Xia, | (参考訳) 現在の人工知能(AI)モデルは、厳密なパラメータチューニングと最適化技術による性能向上に重点を置いていることが多い。
しかしながら、これらのモデルの背後にある基本的な設計原則は、相対的にあまり注目されず、その可能性や制約に対する私たちの理解を制限することができる。
この総合的なレビューは、現代のAIモデル、すなわち脳にインスパイアされた人工知能(BIAI)を形成する多様なデザインインスピレーションを探求する。
本稿では,BIAIアプローチを物理的構造に着想を得たモデルと人間行動に着想を得たモデルに分類する。
また、さまざまなBIAIモデルが優れている現実世界のアプリケーションについても検討し、実践的なメリットとデプロイメント上の課題を強調します。
これらの領域を掘り下げることで、新たな洞察を与え、イノベーションを推進し、この分野の現在のギャップに対処するための将来の研究方向を提案する。
このレビューは、研究者や実践者がBIAIの展望を包括的に概観し、AI開発におけるその可能性を活用し、進歩を加速するのに役立つ。
Current artificial intelligence (AI) models often focus on enhancing performance through meticulous parameter tuning and optimization techniques. However, the fundamental design principles behind these models receive comparatively less attention, which can limit our understanding of their potential and constraints. This comprehensive review explores the diverse design inspirations that have shaped modern AI models, i.e., brain-inspired artificial intelligence (BIAI). We present a classification framework that categorizes BIAI approaches into physical structure-inspired and human behavior-inspired models. We also examine the real-world applications where different BIAI models excel, highlighting their practical benefits and deployment challenges. By delving into these areas, we provide new insights and propose future research directions to drive innovation and address current gaps in the field. This review offers researchers and practitioners a comprehensive overview of the BIAI landscape, helping them harness its potential and expedite advancements in AI development. | 翻訳日:2024-08-28 14:54:56 公開日:2024-08-27 |
# HPT++:多粒度知識生成と構造モデリングの改善による階層的視覚言語モデルの構築
HPT++: Hierarchically Prompting Vision-Language Models with Multi-Granularity Knowledge Generation and Improved Structure Modeling ( http://arxiv.org/abs/2408.14812v1 ) ライセンス: Link先を確認 | Yubin Wang, Xinyang Jiang, De Cheng, Wenli Sun, Dongsheng Li, Cairong Zhao, | (参考訳) プロンプト学習は、CLIPのような視覚言語基礎モデル(VLM)を下流タスクに適用するための一般的な戦略となっている。
近年,大規模言語モデル (LLMs) の出現に伴い, カテゴリー関連記述を用いて, 即効性を高める可能性について検討されている。
しかし、従来の記述には、特定のカテゴリに関連するエンティティや属性といった重要な要素間の相互接続を表現するのに必要な明示的な構造化情報がない。
既存のプロンプトチューニング手法は構造化知識の管理にはほとんど考慮しないため,本論文ではLLMを活用して各記述のグラフを構築し,そのような構造化知識を優先順位付けすることを提唱する。
その結果,階層型プロンプトチューニング (HPT) と呼ばれる新しい手法が提案され,構造化知識と従来の言語知識の同時モデリングが可能となった。
具体的には、低レベルなプロンプト学習のためのエンティティと属性間のペアワイズ関連をキャプチャする、関係誘導型アテンションモジュールを提案する。
さらに、高レベルかつグローバルレベルのプロンプトを総合意味論のモデル化に取り入れることで、提案された階層構造は、クロスレベルなインターリンクを鍛え、より複雑で長期的な関係を扱うようにモデルに権限を与える。
最後に,階層型テキストエンコーダに一貫した制約を組み込んだマルチグラニュラリティ知識生成,リレーショナルアテンション再重み付けモジュールの再設計により,HPT++を提案し,HPTの性能をさらに向上させる。
本実験は, ベース・ツー・ニューな一般化, クロス・データセット評価, ドメインの一般化など, 幅広い評価条件で実施されている。
その結果,既存のSOTA法を一貫して上回る結果が得られた。
Prompt learning has become a prevalent strategy for adapting vision-language foundation models (VLMs) such as CLIP to downstream tasks. With the emergence of large language models (LLMs), recent studies have explored the potential of using category-related descriptions to enhance prompt effectiveness. However, conventional descriptions lack explicit structured information necessary to represent the interconnections among key elements like entities or attributes with relation to a particular category. Since existing prompt tuning methods give little consideration to managing structured knowledge, this paper advocates leveraging LLMs to construct a graph for each description to prioritize such structured knowledge. Consequently, we propose a novel approach called Hierarchical Prompt Tuning (HPT), enabling simultaneous modeling of both structured and conventional linguistic knowledge. Specifically, we introduce a relationship-guided attention module to capture pair-wise associations among entities and attributes for low-level prompt learning. In addition, by incorporating high-level and global-level prompts modeling overall semantics, the proposed hierarchical structure forges cross-level interlinks and empowers the model to handle more complex and long-term relationships. Finally, by enhancing multi-granularity knowledge generation, redesigning the relationship-driven attention re-weighting module, and incorporating consistent constraints on the hierarchical text encoder, we propose HPT++, which further improves the performance of HPT. Our experiments are conducted across a wide range of evaluation settings, including base-to-new generalization, cross-dataset evaluation, and domain generalization. Extensive results and ablation studies demonstrate the effectiveness of our methods, which consistently outperform existing SOTA methods. | 翻訳日:2024-08-28 14:54:56 公開日:2024-08-27 |
# 複数語彙データセット間の機械学習と深層学習の総合ベンチマーク
A Comprehensive Benchmark of Machine and Deep Learning Across Diverse Tabular Datasets ( http://arxiv.org/abs/2408.14817v1 ) ライセンス: Link先を確認 | Assaf Shmuel, Oren Glickman, Teddy Lazebnik, | (参考訳) 表形式のデータセットの分析は、科学研究と機械学習(ML)の現実の応用の両方で広く使われている。
他の多くのMLタスクとは異なり、ディープラーニング(DL)モデルは、この分野の伝統的なメソッドを上回りません。
以前の比較ベンチマークでは、DL性能はグラディエント・ブースティング・マシン(GBM)のようなモデルと同等か劣っていることが示されている。
本研究では,DLモデルが優れているデータセットの種類をより正確に評価するための総合的なベンチマークを提案する。
表付きデータセットのいくつかの重要なベンチマークがすでに存在しているが、我々の貢献は、我々の比較の多様性と深さにある:回帰と分類の両方を含む20の異なるモデルで111のデータセットを評価する。
これらのデータセットはスケールが異なり、分類変数と非分類変数の両方を含む。
重要な点として、我々のベンチマークには、DLモデルが最適に動作する十分な数のデータセットが含まれており、DLモデルが優れている条件を徹底的に分析することができる。
本ベンチマークの結果に基づいて, DLモデルが86.1%の精度(AUC 0.78)で代替手法より優れているシナリオを予測するモデルを訓練する。
この特徴から得られた知見を提示し、これらの知見を以前のベンチマークと比較する。
The analysis of tabular datasets is highly prevalent both in scientific research and real-world applications of Machine Learning (ML). Unlike many other ML tasks, Deep Learning (DL) models often do not outperform traditional methods in this area. Previous comparative benchmarks have shown that DL performance is frequently equivalent or even inferior to models such as Gradient Boosting Machines (GBMs). In this study, we introduce a comprehensive benchmark aimed at better characterizing the types of datasets where DL models excel. Although several important benchmarks for tabular datasets already exist, our contribution lies in the variety and depth of our comparison: we evaluate 111 datasets with 20 different models, including both regression and classification tasks. These datasets vary in scale and include both those with and without categorical variables. Importantly, our benchmark contains a sufficient number of datasets where DL models perform best, allowing for a thorough analysis of the conditions under which DL models excel. Building on the results of this benchmark, we train a model that predicts scenarios where DL models outperform alternative methods with 86.1% accuracy (AUC 0.78). We present insights derived from this characterization and compare these findings to previous benchmarks. | 翻訳日:2024-08-28 14:45:05 公開日:2024-08-27 |
# Build-A-Scene:拡散画像生成のためのインタラクティブ3次元レイアウト制御
Build-A-Scene: Interactive 3D Layout Control for Diffusion-Based Image Generation ( http://arxiv.org/abs/2408.14819v1 ) ライセンス: Link先を確認 | Abdelrahman Eldesokey, Peter Wonka, | (参考訳) インタラクティブな3次元レイアウト制御によるテキスト・ツー・イメージ(T2I)生成のための拡散型アプローチを提案する。
レイアウト制御は、オブジェクトの位置やテキスト記述からの関係を理解する際に、T2I拡散モデルの欠点を軽減するために広く研究されている。
それでも、レイアウト制御の既存のアプローチは2Dレイアウトに限定されており、ユーザーは事前に静的なレイアウトを提供する必要があり、レイアウト変更時に生成されたイメージを保存できない。
これにより、これらのアプローチは、3Dオブジェクトワイズ制御と反復的な改善、例えばインテリアデザイン、複雑なシーン生成を必要とするアプリケーションには適さない。
そこで我々は,近年の深度条件付きT2Iモデルの進歩を活用し,インタラクティブな3次元レイアウト制御のための新しいアプローチを提案する。
レイアウト制御に使用される従来の2Dボックスを3Dボックスに置き換える。
さらに,T2Iタスクを多段階生成プロセスとして再設計し,各段階において,オブジェクトを初期から保存しながら3次元に挿入,変更,移動することが可能となる。
提案した動的自己認識(DSA)モジュールと、一貫した3次元オブジェクト変換戦略により、これを実現する。
実験により,本手法は3次元レイアウトに基づいて複雑なシーンを生成することができ,標準深度条件のT2I法よりも2倍のオブジェクト生成の成功率を向上できることが示された。
さらに、レイアウト変更によるオブジェクトの保存において、他のメソッドよりも優れています。
Project Page: \url{https://abdo-eldesokey.github.io/build-a-scene/}
We propose a diffusion-based approach for Text-to-Image (T2I) generation with interactive 3D layout control. Layout control has been widely studied to alleviate the shortcomings of T2I diffusion models in understanding objects' placement and relationships from text descriptions. Nevertheless, existing approaches for layout control are limited to 2D layouts, require the user to provide a static layout beforehand, and fail to preserve generated images under layout changes. This makes these approaches unsuitable for applications that require 3D object-wise control and iterative refinements, e.g., interior design and complex scene generation. To this end, we leverage the recent advancements in depth-conditioned T2I models and propose a novel approach for interactive 3D layout control. We replace the traditional 2D boxes used in layout control with 3D boxes. Furthermore, we revamp the T2I task as a multi-stage generation process, where at each stage, the user can insert, change, and move an object in 3D while preserving objects from earlier stages. We achieve this through our proposed Dynamic Self-Attention (DSA) module and the consistent 3D object translation strategy. Experiments show that our approach can generate complicated scenes based on 3D layouts, boosting the object generation success rate over the standard depth-conditioned T2I methods by 2x. Moreover, it outperforms other methods in comparison in preserving objects under layout changes. Project Page: \url{https://abdo-eldesokey.github.io/build-a-scene/} | 翻訳日:2024-08-28 14:45:05 公開日:2024-08-27 |
# マルチスケール確率力学系のデータ駆動効果的モデリング
Data-driven Effective Modeling of Multiscale Stochastic Dynamical Systems ( http://arxiv.org/abs/2408.14821v1 ) ライセンス: Link先を確認 | Yuan Chen, Dongbin Xiu, | (参考訳) 本稿では,未知のマルチスケール確率力学系の遅い成分の力学を数値的に学習する手法を提案する。
システムの制御方程式は未知であるが、遅い変数の観測データのバーストが利用可能である。
提案手法は, 観測データを利用して, 分布の遅い変数の有効ダイナミクスを正確に把握できる生成確率モデルを構築することができる。
本稿では,提案手法の性能を実証するための数値的な例を包括的に提示する。
We present a numerical method for learning the dynamics of slow components of unknown multiscale stochastic dynamical systems. While the governing equations of the systems are unknown, bursts of observation data of the slow variables are available. By utilizing the observation data, our proposed method is capable of constructing a generative stochastic model that can accurately capture the effective dynamics of the slow variables in distribution. We present a comprehensive set of numerical examples to demonstrate the performance of the proposed method. | 翻訳日:2024-08-28 14:45:05 公開日:2024-08-27 |
# LapisGS: 適応ストリーミングのための階層化プログレッシブな3Dガウススプレイティング
LapisGS: Layered Progressive 3D Gaussian Splatting for Adaptive Streaming ( http://arxiv.org/abs/2408.14823v1 ) ライセンス: Link先を確認 | Yuang Shi, Simone Gasparini, Géraldine Morin, Wei Tsang Ooi, | (参考訳) 拡張現実性(XR)の台頭は、3Dオンライン世界の効率的なストリーミングを必要とし、帯域幅に制約のある環境に適応するために、現在の3DGS表現に挑戦する。
本稿では,適応ストリーミングとプログレッシブレンダリングをサポートする階層型3DGSであるLapisGSを提案する。
本手法は,累積表現のための階層構造を構築し,視覚的忠実度を維持するために動的不透明度最適化を導入し,占有マップを用いてガウススプラットを効率的に管理する。
提案モデルは、帯域幅対応ストリーミングに適応した連続レンダリング品質をサポートするプログレッシブ表現を提供する。
SSIMの最大50.71%、LPIPSの最大286.53%、モデルサイズを318.41%削減し、帯域幅適応型3Dストリーミングおよびレンダリングアプリケーションの可能性を示した。
The rise of Extended Reality (XR) requires efficient streaming of 3D online worlds, challenging current 3DGS representations to adapt to bandwidth-constrained environments. This paper proposes LapisGS, a layered 3DGS that supports adaptive streaming and progressive rendering. Our method constructs a layered structure for cumulative representation, incorporates dynamic opacity optimization to maintain visual fidelity, and utilizes occupancy maps to efficiently manage Gaussian splats. This proposed model offers a progressive representation supporting a continuous rendering quality adapted for bandwidth-aware streaming. Extensive experiments validate the effectiveness of our approach in balancing visual fidelity with the compactness of the model, with up to 50.71% improvement in SSIM, 286.53% improvement in LPIPS, and 318.41% reduction in model size, and shows its potential for bandwidth-adapted 3D streaming and rendering applications. | 翻訳日:2024-08-28 14:45:05 公開日:2024-08-27 |
# ルールベースモデルから自然言語処理と手話翻訳システムのためのディープラーニングトランスフォーマーアーキテクチャへ:調査,分類,性能評価
From Rule-Based Models to Deep Learning Transformers Architectures for Natural Language Processing and Sign Language Translation Systems: Survey, Taxonomy and Performance Evaluation ( http://arxiv.org/abs/2408.14825v1 ) ライセンス: Link先を確認 | Nada Shahin, Leila Ismail, | (参考訳) 難聴と難聴の人口が世界中で増加し、認証された手話通訳が絶え間なく不足しているため、手話から手話、テキスト、副詞まで、効率的で手話駆動で統合されたエンドツーエンド翻訳システムの必要性が高まっている。
機械翻訳と関連するレビューについて、多くの研究がなされている。
しかし、言語が連続的かつ動的であることを考えると、手話機械翻訳に関する研究はほとんどない。
本稿では,手話機械翻訳アルゴリズムの時間的進化の振り返り分析とトランスフォーマーアーキテクチャの分類について述べる。
また,リアルタイムのQOL(Quality-of-Service sign language Ma-chine translation System)の要件について述べる。
我々は手話翻訳システムにおける今後の研究方向を提案する。
With the growing Deaf and Hard of Hearing population worldwide and the persistent shortage of certified sign language interpreters, there is a pressing need for an efficient, signs-driven, integrated end-to-end translation system, from sign to gloss to text and vice-versa. There has been a wealth of research on machine translations and related reviews. However, there are few works on sign language machine translation considering the particularity of the language being continuous and dynamic. This paper aims to address this void, providing a retrospective analysis of the temporal evolution of sign language machine translation algorithms and a taxonomy of the Transformers architectures, the most used approach in language translation. We also present the requirements of a real-time Quality-of-Service sign language ma-chine translation system underpinned by accurate deep learning algorithms. We propose future research directions for sign language translation systems. | 翻訳日:2024-08-28 14:45:05 公開日:2024-08-27 |
# Alfie:RGBA画像生成を$$$なしで民主化
Alfie: Democratising RGBA Image Generation With No $$$ ( http://arxiv.org/abs/2408.14826v1 ) ライセンス: Link先を確認 | Fabio Quattrini, Vittorio Pippi, Silvia Cascianelli, Rita Cucchiara, | (参考訳) デザインとアートワークは様々なクリエイティブ分野にまたがっており、ロゴ、アイコン、シンボル、アートシーンなど、視覚的なストーリーテリングに不可欠な多くのグラフィカル要素を含む構成を作成するには、グラフィックデザインスキルと専用のソフトウェアが必要である。
このようなビジュアル要素の生成を自動化することでグラフィックデザイナーの生産性が向上し、クリエイティブ産業を民主化し革新し、関連するタスクのためのよりリアルな合成データを生成する。
これらの図形要素は主に不規則な形状と切り欠きを持つRGBA画像であり、ブレンディングやシーン構成を容易にしている。
しかし、ほとんどの画像生成モデルはそのような画像を生成することができないため、この能力を達成するには高価な計算資源、特定のトレーニングレシピ、あるいは後処理ソリューションが必要である。
本研究では,事前学習した拡散変圧器モデルの推定時間挙動を修正してRGBA図形を得るための完全自動手法を提案する。
我々は、デザインプロジェクトや芸術シーンへのシームレスな統合のために、背景が容易に取り除かれるシャープな刈り取りを行なわずに、被験者全体の生成を強制する。
ユーザスタディでは、ほとんどの場合、ユーザは画像の生成とマッチングよりもソリューションを好み、生成したイラストは複合シーン生成パイプラインの入力として使用すると良い結果が得られることを示す。
コードをhttps://github.com/aimagelab/Alfie.comでリリースします。
Designs and artworks are ubiquitous across various creative fields, requiring graphic design skills and dedicated software to create compositions that include many graphical elements, such as logos, icons, symbols, and art scenes, which are integral to visual storytelling. Automating the generation of such visual elements improves graphic designers' productivity, democratizes and innovates the creative industry, and helps generate more realistic synthetic data for related tasks. These illustration elements are mostly RGBA images with irregular shapes and cutouts, facilitating blending and scene composition. However, most image generation models are incapable of generating such images and achieving this capability requires expensive computational resources, specific training recipes, or post-processing solutions. In this work, we propose a fully-automated approach for obtaining RGBA illustrations by modifying the inference-time behavior of a pre-trained Diffusion Transformer model, exploiting the prompt-guided controllability and visual quality offered by such models with no additional computational cost. We force the generation of entire subjects without sharp croppings, whose background is easily removed for seamless integration into design projects or artistic scenes. We show with a user study that, in most cases, users prefer our solution over generating and then matting an image, and we show that our generated illustrations yield good results when used as inputs for composite scene generation pipelines. We release the code at https://github.com/aimagelab/Alfie. | 翻訳日:2024-08-28 14:45:05 公開日:2024-08-27 |
# 量子エラー検出符号における弱いフォールトトレラント計算
Weakly Fault-Tolerant Computation in a Quantum Error-Detecting Code ( http://arxiv.org/abs/2408.14828v1 ) ライセンス: Link先を確認 | Christopher Gerhard, Todd A. Brun, | (参考訳) 完全なフォールトトレランスを達成する多くの現在の量子誤り訂正符号は、論理量子ビットと物理量子ビットの比率が低く、大きなオーバーヘッドがある。
これにより、現在のノイズの多い中間スケール量子(NISQ)コンピュータ上では実装が難しくなり、短期量子プロセッサで有用なスケールで量子アルゴリズムを実行することができない。
このため、計算はエンコーディングなしで行うのが一般的である。
本稿では,[n,n-2,2]]量子誤り検出符号の構成法と,[n,n-2,2],[n,n-2,2]]量子誤り検出符号の中間点を提案する。
これは、弱いフォールトトレランスと呼ばれるものを実現します。
示すように、これは十分な物理的エラー確率の低いエラー訂正を伴わず、完全なフォールトトレランスを達成するコードよりもオーバーヘッドをはるかに少なくすることを示す。
本稿では, 物理回転ゲート上のアナログインプレクシデンスに対する弱い耐故障性を満足しつつ, この誤り検出符号において普遍的な量子計算を実現するゲートの構成について述べる。
Many current quantum error correcting codes that achieve full fault-tolerance suffer from having low ratios of logical to physical qubits and significant overhead. This makes them difficult to implement on current noisy intermediate-scale quantum (NISQ) computers and results in the inability to perform quantum algorithms at useful scales with near-term quantum processors. Due to this, calculations are generally done without encoding. We propose a middle ground between these two approaches: constructions in the [[n,n-2,2]] quantum error detecting code that can detect any error from a single faulty gate by measuring the stabilizer generators of the code and additional ancillas at the end of the computation. This achieves what we call weak fault-tolerance. As we show, this demonstrates a significant improvement over no error correction for low enough physical error probabilities and requires much less overhead than codes that achieve full fault-tolerance. We give constructions for a set of gates that achieve universal quantum computation in this error detecting code, while satisfying weak fault-tolerance up to analog imprecision on the physical rotation gate. | 翻訳日:2024-08-28 14:45:05 公開日:2024-08-27 |
# 回転不変局所二元パターンと深層学習を用いた時間認識型顔アンチスプーフィング
Time-Aware Face Anti-Spoofing with Rotation Invariant Local Binary Patterns and Deep Learning ( http://arxiv.org/abs/2408.14829v1 ) ライセンス: Link先を確認 | Moritz Finke, Alexandra Dmitrienko, | (参考訳) 顔認識システムは現代社会の不可欠な部分となっている。
これらの方法は、自動的、高速で、非干渉的な方法で人間の識別のタスクを達成する。
過去の研究で、単純な模倣攻撃に対する高い脆弱性が発見され、誤識別とその後の攻撃者の認証に繋がる可能性がある。
顔認識と同様に、模倣攻撃も機械学習で検出できる。
攻撃検知システムは、様々な顔の特徴と高度な機械学習モデルを使用して、攻撃の存在を明らかにする。
そこで本研究では,未使用の機能と時間認識深層学習戦略を組み合わせることで,生活度検出に関する既存の作業を評価し,高い分類精度を実現する手法を提案する。
Facial recognition systems have become an integral part of the modern world. These methods accomplish the task of human identification in an automatic, fast, and non-interfering way. Past research has uncovered high vulnerability to simple imitation attacks that could lead to erroneous identification and subsequent authentication of attackers. Similar to face recognition, imitation attacks can also be detected with Machine Learning. Attack detection systems use a variety of facial features and advanced machine learning models for uncovering the presence of attacks. In this work, we assess existing work on liveness detection and propose a novel approach that promises high classification accuracy by combining previously unused features with time-aware deep learning strategies. | 翻訳日:2024-08-28 14:45:05 公開日:2024-08-27 |
# PolicyLR: プライバシポリシーの論理的表現
PolicyLR: A Logic Representation For Privacy Policies ( http://arxiv.org/abs/2408.14830v1 ) ライセンス: Link先を確認 | Ashish Hooda, Rishabh Khandelwal, Prasad Chalasani, Kassem Fawaz, Somesh Jha, | (参考訳) プライバシポリシは、サービスがユーザデータをどのように扱うかを定義し、GDPRやCCPAなどの規制に準拠している、オンラインエコシステムにおいて不可欠である。
しかし、その複雑さと頻繁な更新は、ステークホルダーが理解し分析することを難しくすることが多い。
現在の自然言語処理を利用した自動解析手法には限界がある。
通常、個々のタスクに集中し、ポリシーの完全なコンテキストをキャプチャできない。
我々は、複数のダウンストリームタスクに対するオールインワンソリューションとして機能する、プライバシポリシーの包括的なマシン可読表現を提供する新しいパラダイムであるPolicyLRを提案する。
PolicyLRは、プライバシポリシをアトミックな公式のバリュエーションを使用してマシン可読フォーマットに変換し、コンプライアンスや一貫性といったタスクの正式な定義を可能にする。
既成のLarge Language Models (LLM) を用いて,非構造化ポリシーテキストをこの形式に変換するコンパイラを開発した。
このコンパイラはトランスフォーメーションタスクを2段階のトランスフォーメーションとentailmentプロシージャに分解する。
この手順は、より単純な原子式からなる複雑な公式を推論するために、プライバシーポリシーの完全なコンテキストを考える。
このモデルの利点は、ポリシーLRは設計によって解釈され、プライバシポリシーのセグメントに基礎を置いていることである。
コミュニティアノテートされたプライバシーポリシー関連データセットであるToS;DRを用いて,コンパイラの評価を行った。
オープンソース LLM を用いて,コンパイラはそれぞれ0.91 と 0.88 の精度とリコール値を達成する。
最後に、ポリシコンプライアンス、一貫性検出、プライバシ比較ショッピングの3つのプライバシタスクにおいて、PolicyLRの有用性を実証する。
Privacy policies are crucial in the online ecosystem, defining how services handle user data and adhere to regulations such as GDPR and CCPA. However, their complexity and frequent updates often make them difficult for stakeholders to understand and analyze. Current automated analysis methods, which utilize natural language processing, have limitations. They typically focus on individual tasks and fail to capture the full context of the policies. We propose PolicyLR, a new paradigm that offers a comprehensive machine-readable representation of privacy policies, serving as an all-in-one solution for multiple downstream tasks. PolicyLR converts privacy policies into a machine-readable format using valuations of atomic formulae, allowing for formal definitions of tasks like compliance and consistency. We have developed a compiler that transforms unstructured policy text into this format using off-the-shelf Large Language Models (LLMs). This compiler breaks down the transformation task into a two-stage translation and entailment procedure. This procedure considers the full context of the privacy policy to infer a complex formula, where each formula consists of simpler atomic formulae. The advantage of this model is that PolicyLR is interpretable by design and grounded in segments of the privacy policy. We evaluated the compiler using ToS;DR, a community-annotated privacy policy entailment dataset. Utilizing open-source LLMs, our compiler achieves precision and recall values of 0.91 and 0.88, respectively. Finally, we demonstrate the utility of PolicyLR in three privacy tasks: Policy Compliance, Inconsistency Detection, and Privacy Comparison Shopping. | 翻訳日:2024-08-28 14:45:05 公開日:2024-08-27 |
# ISAC-Enabled Vehicle Edge Computingにおけるタスクオフロードとリソース割り当てのためのDRLに基づくフェデレーション自己監視学習
DRL-Based Federated Self-Supervised Learning for Task Offloading and Resource Allocation in ISAC-Enabled Vehicle Edge Computing ( http://arxiv.org/abs/2408.14831v1 ) ライセンス: Link先を確認 | Xueying Gu, Qiong Wu, Pingyi Fan, Nan Cheng, Wen Chen, Khaled B. Letaief, | (参考訳) インテリジェント・トランスポーテーション・システムズ(ITS)は統合センシング・通信(ISAC)を活用し、車両とインフラ間のデータ交換を強化する。
この統合は計算要求を必然的に増加させ、リアルタイムシステムの安定性を危険にさらす。
Vehicle Edge Computing(VEC)は、タスクをRoad Side Unit(RSU)にオフロードして、タイムリーなサービスを保証することで、この問題に対処する。
FLSimCoアルゴリズムはFederated Self-Supervised Learning (SSL)のローカルリソースを使用するが、車両はすべてのイテレーションタスクを完了できないことが多い。
改良されたアルゴリズムは、部分的なタスクをRSUにオフロードし、送信電力、CPU周波数、タスク割り当て比率を調整し、ローカルおよびRSUベースのトレーニングのバランスをとることでエネルギー消費を最適化する。
一方、オフロードしきい値を設定すると、さらに非効率が防止される。
シミュレーションの結果,拡張アルゴリズムは省エネ,オフロード効率の向上,フェデレートSSLの精度の向上を実現している。
Intelligent Transportation Systems (ITS) leverage Integrated Sensing and Communications (ISAC) to enhance data exchange between vehicles and infrastructure in the Internet of Vehicles (IoV). This integration inevitably increases computing demands, risking real-time system stability. Vehicle Edge Computing (VEC) addresses this by offloading tasks to Road Side Unit (RSU), ensuring timely services. Our previous work FLSimCo algorithm, which uses local resources for Federated Self-Supervised Learning (SSL), though vehicles often can't complete all iterations task. Our improved algorithm offloads partial task to RSU and optimizes energy consumption by adjusting transmission power, CPU frequency, and task assignment ratios, balancing local and RSU-based training. Meanwhile, setting an offloading threshold further prevents inefficiencies. Simulation results show that the enhanced algorithm reduces energy consumption, improves offloading efficiency and the accuracy of Federated SSL. | 翻訳日:2024-08-28 14:45:05 公開日:2024-08-27 |
# オブジェクト指向プログラミングにおける大規模言語モデルの戦略的最適化と課題
Strategic Optimization and Challenges of Large Language Models in Object-Oriented Programming ( http://arxiv.org/abs/2408.14834v1 ) ライセンス: Link先を確認 | Zinan Wang, | (参考訳) コード生成研究の分野では、個々の関数の作成からコンテキスト情報を統合するクラスレベルのメソッドコードの開発へと重点が移っている。
このシフトは、クラスレベルのコンテキストを考慮したClassEvalやCoderEvalなど、いくつかのベンチマークをもたらしている。
それでも、特定の文脈要因がメソッドレベルに与える影響は、いまだに調査されていない。
本研究ではオブジェクト指向プログラミング(OOP)フレームワークにおけるメソッドレベルのコード生成に焦点を当てた。
CoderEvalに基づいて、メソッド固有のものからプロジェクト全体の詳細まで、プロンプト内の文脈情報の範囲を変化させる実験を考案した。
我々は,追加の文脈層を取り入れた経済性を評価するため,革新的尺度であるPrompt-Token Cost-Effectivenessを導入した。
その結果,メソッド呼び出しの詳細が豊富なプロンプトが最もコスト効率が高いことが示唆された。
さらに,大規模言語モデル(LLM)の誤差型分布と開発者への支援レベルに関する相違も明らかにした。
特に、より大きなLLMは、必ず性能が良くない。
また,高次結合度タスクはより重大な課題であり,LLMの選択はタスクの結合度に合わせて調整されるべきであることが示唆された。
例えば、GPT-4は低結合のシナリオで性能が向上したのに対して、GPT-3.5は高結合のタスクに適しているように思われた。
プロンプトコンテンツを慎重にキュレートし、適切なLCMを選択することで、開発者は開発プロセスにおけるコスト効率を最大化しながらコード品質を最適化できる。
In the area of code generation research, the emphasis has transitioned from crafting individual functions to developing class-level method code that integrates contextual information. This shift has brought several benchmarks such as ClassEval and CoderEval, which consider class-level contexts. Nevertheless, the influence of specific contextual factors at the method level remains less explored. This research focused on method-level code generation within the Object-Oriented Programming (OOP) framework. Based on CoderEval, we devised experiments that varied the extent of contextual information in the prompts, ranging from method-specific to project-wide details. We introduced the innovative metric of "Prompt-Token Cost-Effectiveness" to evaluate the economic viability of incorporating additional contextual layers. Our findings indicate that prompts enriched with method invocation details yield the highest cost-effectiveness. Additionally, our study revealed disparities among Large Language Models (LLMs) regarding error type distributions and the level of assistance they provide to developers. Notably, larger LLMs do not invariably perform better. We also observed that tasks with higher degrees of coupling present more substantial challenges, suggesting that the choice of LLM should be tailored to the task's coupling degree. For example, GPT-4 exhibited improved performance in low-coupling scenarios, whereas GPT-3.5 seemed better suited for tasks with high coupling. By meticulously curating prompt content and selecting the appropriate LLM, developers can optimize code quality while maximizing cost-efficiency during the development process. | 翻訳日:2024-08-28 14:45:05 公開日:2024-08-27 |
# 拡散モデルはリアルタイムゲームエンジンである
Diffusion Models Are Real-Time Game Engines ( http://arxiv.org/abs/2408.14837v1 ) ライセンス: Link先を確認 | Dani Valevski, Yaniv Leviathan, Moab Arar, Shlomi Fruchter, | (参考訳) 本稿では,ニューラルネットワークを駆使した初のゲームエンジンであるGameNGenについて紹介する。
GameNGenは、1つのTPU上で、従来のゲームDOOMを毎秒20フレーム以上でインタラクティブにシミュレートすることができる。
次のフレーム予測は、損失のあるJPEG圧縮に匹敵する29.4のPSNRを達成する。
人間のレイパーは、ゲームの短いクリップとシミュレーションのクリップを区別するランダムなチャンスよりもわずかに優れている。
ゲームンゲンは,(1)RLエージェントがゲームを学習し,トレーニングセッションが記録され,(2)拡散モデルが学習されて,過去のフレームとアクションのシーケンスに基づいて次のフレームを生成する。
コンディショニングの強化により、長い軌道上で安定した自己回帰生成が可能になる。
We present GameNGen, the first game engine powered entirely by a neural model that enables real-time interaction with a complex environment over long trajectories at high quality. GameNGen can interactively simulate the classic game DOOM at over 20 frames per second on a single TPU. Next frame prediction achieves a PSNR of 29.4, comparable to lossy JPEG compression. Human raters are only slightly better than random chance at distinguishing short clips of the game from clips of the simulation. GameNGen is trained in two phases: (1) an RL-agent learns to play the game and the training sessions are recorded, and (2) a diffusion model is trained to produce the next frame, conditioned on the sequence of past frames and actions. Conditioning augmentations enable stable auto-regressive generation over long trajectories. | 翻訳日:2024-08-28 14:45:05 公開日:2024-08-27 |
# CL4KGE:知識グラフ埋め込みのためのカリキュラム学習方法
CL4KGE: A Curriculum Learning Method for Knowledge Graph Embedding ( http://arxiv.org/abs/2408.14840v1 ) ライセンス: Link先を確認 | Yang Liu, Chuan Zhou, Peng Zhang, Yanan Cao, Yongchao Liu, Zhao Li, Hongyang Chen, | (参考訳) 知識グラフ埋め込み(KGE)は、知識グラフ内のエンティティと関係の表現を学習するための基礎的なタスクであり、エンティティ間の論理的および記号的相互関係を近似するのに十分な表現を包括的に構築することを目的としている。
本稿では,KGsにおける各三重項(<$head entity, relation, tail entity$>$)の学習の難しさを理論的解析を用いて測定する。
本測定値に基づいて, 効率的な \textbf{C}urriculum \textbf{L}earning に基づくトレーニング戦略である \textbf{CL4KGE} を提案する。
この方法は、KGEモデルのトレーニングを支援する難易度測定器とトレーニングスケジューラを含む。
当社のアプローチは,KGEモデルの範囲内でプラグインとして機能する柔軟性を備えており,KGの大多数に適応性の利点が加えられている。
提案手法は一般的なKGEモデルで評価され, 提案手法が改良されていることを示す。
計量としてのZカウントの使用により、KGsにおける挑戦的な三重項の識別が可能となり、効果的なトレーニング戦略の策定に役立っている。
Knowledge graph embedding (KGE) constitutes a foundational task, directed towards learning representations for entities and relations within knowledge graphs (KGs), with the objective of crafting representations comprehensive enough to approximate the logical and symbolic interconnections among entities. In this paper, we define a metric Z-counts to measure the difficulty of training each triple ($<$head entity, relation, tail entity$>$) in KGs with theoretical analysis. Based on this metric, we propose \textbf{CL4KGE}, an efficient \textbf{C}urriculum \textbf{L}earning based training strategy for \textbf{KGE}. This method includes a difficulty measurer and a training scheduler that aids in the training of KGE models. Our approach possesses the flexibility to act as a plugin within a wide range of KGE models, with the added advantage of adaptability to the majority of KGs in existence. The proposed method has been evaluated on popular KGE models, and the results demonstrate that it enhances the state-of-the-art methods. The use of Z-counts as a metric has enabled the identification of challenging triples in KGs, which helps in devising effective training strategies. | 翻訳日:2024-08-28 14:45:05 公開日:2024-08-27 |
# 分布外検出のためのニュアンス認識による拡散に基づくセマンティックアウトリー生成
Diffusion based Semantic Outlier Generation via Nuisance Awareness for Out-of-Distribution Detection ( http://arxiv.org/abs/2408.14841v1 ) ライセンス: Link先を確認 | Suhee Yoon, Sanghyu Yoon, Hankook Lee, Ye Seul Sim, Sungik Choi, Kyungeun Lee, Hye-Seung Cho, Woohyung Lim, | (参考訳) In-distribution (ID) の一部であるかどうかを判定する Out-of-distriion (OOD) 検出は、最近、合成OODデータセットによるトレーニングを通じて有望な結果を示している。
それにもかかわらず、既存の手法はIDからかなり離れた外れ値を生成することが多く、IDとOODの微妙な区別を捉える効果が限られている。
これらの問題に対処するため,我々は,Nuisance Awareness (SONA)によるSemantic Outlier生成という新しいフレームワークを提案する。
提案手法はSONAガイダンスを取り入れ,IDサンプルの意味領域とニュアンス領域を分離的に制御する。
これにより、生成されたアウトリーチは2つの重要な特性を達成する。
(i)明示的な意味識別情報を提示する一方で、
(二)IDと各種のニュアンス類似性を維持すること。
さらに,SONAアウトリアを用いたOOD検出訓練の改良により,意味的区別を重視した学習が容易になった。
大規模な実験により、我々のフレームワークの有効性を実証し、約6%のマージンでベースライン手法の性能を上回る88%のAUROCをほぼOODデータセットで達成した。
Out-of-distribution (OOD) detection, which determines whether a given sample is part of the in-distribution (ID), has recently shown promising results through training with synthetic OOD datasets. Nonetheless, existing methods often produce outliers that are considerably distant from the ID, showing limited efficacy for capturing subtle distinctions between ID and OOD. To address these issues, we propose a novel framework, Semantic Outlier generation via Nuisance Awareness (SONA), which notably produces challenging outliers by directly leveraging pixel-space ID samples through diffusion models. Our approach incorporates SONA guidance, providing separate control over semantic and nuisance regions of ID samples. Thereby, the generated outliers achieve two crucial properties: (i) they present explicit semantic-discrepant information, while (ii) maintaining various levels of nuisance resemblance with ID. Furthermore, the improved OOD detector training with SONA outliers facilitates learning with a focus on semantic distinctions. Extensive experiments demonstrate the effectiveness of our framework, achieving an impressive AUROC of 88% on near-OOD datasets, which surpasses the performance of baseline methods by a significant margin of approximately 6%. | 翻訳日:2024-08-28 14:45:05 公開日:2024-08-27 |
# バイアスからバランスへ:大規模マルチモーダルファンデーションモデルにおける表情認識バイアスの検出
From Bias to Balance: Detecting Facial Expression Recognition Biases in Large Multimodal Foundation Models ( http://arxiv.org/abs/2408.14842v1 ) ライセンス: Link先を確認 | Kaylee Chhua, Zhoujinyi Wen, Vedant Hathalia, Kevin Zhu, Sean O'Brien, | (参考訳) 本研究では,大規模なマルチモーダルファンデーションモデル(LMFM)における表情認識(FER)システムの人種的偏見について考察する。
深層学習の進歩と多様なデータセットの可用性にもかかわらず、FERシステムは、より暗い肌色を持つ個人に対して高いエラー率を示すことが多い。
既存の研究は主に伝統的なFERモデル(CNN、RNN、ViT)に焦点を当てており、LMFMにおける人種的偏見を理解するためのギャップを残している。
GPT-4o、PaliGemma、Gemini、CLIPの4つの主要なLMFMをベンチマークし、異なる人種層にわたる顔の感情検出のパフォーマンスを評価する。
CLIP埋め込みで訓練された線形分類器は、RADIATEでは95.9\%、Tarでは90.3\%、Chicago Faceでは99.5\%の精度が得られる。
さらに、アンガーは白人女性よりも黒人女性の方が2.1倍多いと誤分類されている。
本研究は、より公平なFERシステムの必要性を強調し、偏りのない正確なFER技術を開発するための基盤を確立する。
顔の認識におけるバイアスに関するさらなる情報については、https://kvvvhub.github.io/FERRacialBias/を参照してください。
This study addresses the racial biases in facial expression recognition (FER) systems within Large Multimodal Foundation Models (LMFMs). Despite advances in deep learning and the availability of diverse datasets, FER systems often exhibit higher error rates for individuals with darker skin tones. Existing research predominantly focuses on traditional FER models (CNNs, RNNs, ViTs), leaving a gap in understanding racial biases in LMFMs. We benchmark four leading LMFMs: GPT-4o, PaliGemma, Gemini, and CLIP to assess their performance in facial emotion detection across different racial demographics. A linear classifier trained on CLIP embeddings obtains accuracies of 95.9\% for RADIATE, 90.3\% for Tarr, and 99.5\% for Chicago Face. Furthermore, we identify that Anger is misclassified as Disgust 2.1 times more often in Black Females than White Females. This study highlights the need for fairer FER systems and establishes a foundation for developing unbiased, accurate FER technologies. Visit https://kvjvhub.github.io/FERRacialBias/ for further information regarding the biases within facial expression recognition. | 翻訳日:2024-08-28 14:45:05 公開日:2024-08-27 |
# コレントロピーをベースとしたロバスト電気生理学的ソースイメージングのためのイムプロペラ類似モデル
Correntropy-Based Improper Likelihood Model for Robust Electrophysiological Source Imaging ( http://arxiv.org/abs/2408.14843v1 ) ライセンス: Link先を確認 | Yuanhao Li, Badong Chen, Zhongxu Hu, Keita Suzuki, Wenjun Bai, Yasuharu Koike, Okito Yamashita, | (参考訳) ベイズ学習は、電気生理学的ソースイメージングの課題を解決するために統合された骨格を提供する。
この観点から、既存のソースイメージングアルゴリズムは、観測ノイズに対するガウスの仮定を利用して、ベイズ推定の確率関数を構築する。
しかし、脳活動の電磁的測定は通常、様々な人工物に影響され、観測ノイズの非ガウス分布につながる可能性がある。
したがって、従来のガウス確率モデルは、実世界のソースイメージングタスクに最適な選択である。
本研究では,非ガウス雑音に対して頑健な新しい確率モデルを提案することにより,この問題を解決することを目的とする。
頑健な最大コレントロピー基準により、雑音の仮定に関する新しい不適切な分布モデルを提案する。
この新しいノイズ分布は、頑健な確率関数を構築するために利用され、階層的な事前分布と統合されて、変動推定によりソースアクティビティを推定する。
特に、不適切な確率モデルに対するハイパーパラメータを決定するためにスコアマッチングを採用する。
提案した雑音仮定を従来のガウスモデルと比較するための総合的な性能評価を行う。
シミュレーションの結果,提案手法は既知の地盤構造を設計することで,より正確な震源復元を実現することができることがわかった。
実世界のデータセットは、視覚的知覚タスクによる新しい手法の優位性も示している。
この研究はベイズ源画像の新しいバックボーンを提供し、現実世界のノイズ脳信号の利用を促進する。
Bayesian learning provides a unified skeleton to solve the electrophysiological source imaging task. From this perspective, existing source imaging algorithms utilize the Gaussian assumption for the observation noise to build the likelihood function for Bayesian inference. However, the electromagnetic measurements of brain activity are usually affected by miscellaneous artifacts, leading to a potentially non-Gaussian distribution for the observation noise. Hence the conventional Gaussian likelihood model is a suboptimal choice for the real-world source imaging task. In this study, we aim to solve this problem by proposing a new likelihood model which is robust with respect to non-Gaussian noises. Motivated by the robust maximum correntropy criterion, we propose a new improper distribution model concerning the noise assumption. This new noise distribution is leveraged to structure a robust likelihood function and integrated with hierarchical prior distributions to estimate source activities by variational inference. In particular, the score matching is adopted to determine the hyperparameters for the improper likelihood model. A comprehensive performance evaluation is performed to compare the proposed noise assumption to the conventional Gaussian model. Simulation results show that, the proposed method can realize more precise source reconstruction by designing known ground-truth. The real-world dataset also demonstrates the superiority of our new method with the visual perception task. This study provides a new backbone for Bayesian source imaging, which would facilitate its application using real-world noisy brain signal. | 翻訳日:2024-08-28 14:33:22 公開日:2024-08-27 |
# AAVENUE:新しいベンチマークによるAAVEにおけるNLUタスク上のLLMバイアスの検出
AAVENUE: Detecting LLM Biases on NLU Tasks in AAVE via a Novel Benchmark ( http://arxiv.org/abs/2408.14845v1 ) ライセンス: Link先を確認 | Abhay Gupta, Philip Meng, Ece Yurtseven, Sean O'Brien, Kevin Zhu, | (参考訳) アフリカ系アメリカ人英語(AAVE)に対する自然言語理解(NLU)のバイアスを検出することは、包括的自然言語処理(NLP)システムの開発に不可欠である。
AAVVE と標準アメリカ英語 (SAE) における NLU タスク上での大きな言語モデル (LLM) の性能を評価するベンチマークである AAVENUE ({AAVE} {N}atural Language {U}nderstanding {E}valuation) を導入する。
AAVENUEは、VALUEのような既存のベンチマークを構築し、拡張し、決定論的構文と形態的変換を、より柔軟な方法論で置き換える。
AAVENUE と VALUE の翻訳を,5つの人気のある LLM と,フルーエンシ,BARTScore,品質,コヒーレンス,理解可能性などの総合的な指標を用いて比較した。
さらに、流線型AAVE話者を募集し、翻訳の正確性を検証する。
評価の結果,LSM は AAVE に翻訳されたバージョンよりも,SAE タスクにおいて一貫した性能を示し,固有のバイアスを強調し,より包括的な NLP モデルの必要性を強調した。
私たちはGitHubでソースコードをオープンソース化し、https://aavenue.live.comで私たちの仕事を紹介するウェブサイトを作成しました。
Detecting biases in natural language understanding (NLU) for African American Vernacular English (AAVE) is crucial to developing inclusive natural language processing (NLP) systems. To address dialect-induced performance discrepancies, we introduce AAVENUE ({AAVE} {N}atural Language {U}nderstanding {E}valuation), a benchmark for evaluating large language model (LLM) performance on NLU tasks in AAVE and Standard American English (SAE). AAVENUE builds upon and extends existing benchmarks like VALUE, replacing deterministic syntactic and morphological transformations with a more flexible methodology leveraging LLM-based translation with few-shot prompting, improving performance across our evaluation metrics when translating key tasks from the GLUE and SuperGLUE benchmarks. We compare AAVENUE and VALUE translations using five popular LLMs and a comprehensive set of metrics including fluency, BARTScore, quality, coherence, and understandability. Additionally, we recruit fluent AAVE speakers to validate our translations for authenticity. Our evaluations reveal that LLMs consistently perform better on SAE tasks than AAVE-translated versions, underscoring inherent biases and highlighting the need for more inclusive NLP models. We have open-sourced our source code on GitHub and created a website to showcase our work at https://aavenue.live. | 翻訳日:2024-08-28 14:33:22 公開日:2024-08-27 |
# Diffusion-Occ:3D Point Cloud Completion via Occupancy Diffusion
Diffusion-Occ: 3D Point Cloud Completion via Occupancy Diffusion ( http://arxiv.org/abs/2408.14846v1 ) ライセンス: Link先を確認 | Guoqing Zhang, Jian Liu, | (参考訳) 点雲は3次元データを取得するのに不可欠であるが、解像度や閉塞などの制限により不完全性に悩まされることが多い。
従来のメソッドは通常、ポイントクラウド補完のための差別的なフレームワーク内のポイントベースのアプローチに依存します。
本稿では,Diffusion Point Cloud Completion のための新しいフレームワークである \textbf{Diffusion-Occ} を紹介する。
Diffusion-Occは2段階の粗大なアプローチを採用している。
第1段階では、粗度ボクセル予測ネットワーク(CDNet)が部分点を処理して粗度ボクセルを予測する。
第2段階では, 変圧器アーキテクチャに基づく条件付き占有拡散モデルであるOccGenを導入し, PVF(Point-Voxel Fuse)ブロックで拡張した。
このブロックは粗密度ボクセルと部分点を統合し、大域的特徴と局所的特徴の両方を利用して包括的完備化を行う。
占有領域をしきい値にすることで、それを完全点雲に変換する。
さらに,本手法では,訓練と推論の双方において,効果的な一段階サンプリングを可能にするために,多種多様な訓練混合物と効率的な拡散パラメタライゼーションを用いる。
実験の結果,Diffusion-Occは既存の差別的・生成的手法よりも優れていた。
Point clouds are crucial for capturing three-dimensional data but often suffer from incompleteness due to limitations such as resolution and occlusion. Traditional methods typically rely on point-based approaches within discriminative frameworks for point cloud completion. In this paper, we introduce \textbf{Diffusion-Occ}, a novel framework for Diffusion Point Cloud Completion. Diffusion-Occ utilizes a two-stage coarse-to-fine approach. In the first stage, the Coarse Density Voxel Prediction Network (CDNet) processes partial points to predict coarse density voxels, streamlining global feature extraction through voxel classification, as opposed to previous regression-based methods. In the second stage, we introduce the Occupancy Generation Network (OccGen), a conditional occupancy diffusion model based on a transformer architecture and enhanced by our Point-Voxel Fuse (PVF) block. This block integrates coarse density voxels with partial points to leverage both global and local features for comprehensive completion. By thresholding the occupancy field, we convert it into a complete point cloud. Additionally, our method employs diverse training mixtures and efficient diffusion parameterization to enable effective one-step sampling during both training and inference. Experimental results demonstrate that Diffusion-Occ outperforms existing discriminative and generative methods. | 翻訳日:2024-08-28 14:33:22 公開日:2024-08-27 |
# 腫瘍切除の精度向上を目的としたYOLO+SAMを用いた術中グリオーマ分画術
Intraoperative Glioma Segmentation with YOLO + SAM for Improved Accuracy in Tumor Resection ( http://arxiv.org/abs/2408.14847v1 ) ライセンス: Link先を確認 | Samir Kassam, Angelo Markham, Katie Vo, Yashas Revanakara, Michael Lam, Kevin Zhu, | (参考訳) 悪性脳腫瘍の一種であるグリオーマは、健康な組織との類似性から、重要な外科的課題を呈している。
術前磁気共鳴イメージング(MRI)画像は、脳構造や腫瘍の位置を変える脳のシフトなどの要因により、手術中は効果がないことが多い。
これにより、リアルタイムの術中MRI(ioMRI)が重要となり、これらの変化を反映した画像が更新され、より正確な腫瘍の局所化とより安全な切除が保証される。
本稿では,OoMRIにおけるグリオーマ検出とセグメンテーションを強化するために,You Only Look Once Version 8 (YOLOv8) と Segment Anything Model Vision Transformer-base (SAM ViT-b) を組み合わせたディープラーニングパイプラインを提案する。
脳腫瘍分離2021(BraTS 2021)データセットを用いて、標準磁気共鳴画像(MRI)画像と、ioMRI像をシミュレートしたノイズ強調MRI画像を含む訓練を行った。
ノイズMRI画像は、深層学習パイプラインのセグメント化が難しいが、より手術条件を代表している。
Dice similarity Coefficient(DICE)スコア0.79を達成し、ノイズのないデータでテストされた最先端のセグメンテーションモデルと相容れない性能を実現した。
この性能は、腫瘍切除の最大化と手術成績の改善において、外科医を支援するモデルの可能性を示している。
Gliomas, a common type of malignant brain tumor, present significant surgical challenges due to their similarity to healthy tissue. Preoperative Magnetic Resonance Imaging (MRI) images are often ineffective during surgery due to factors such as brain shift, which alters the position of brain structures and tumors. This makes real-time intraoperative MRI (ioMRI) crucial, as it provides updated imaging that accounts for these shifts, ensuring more accurate tumor localization and safer resections. This paper presents a deep learning pipeline combining You Only Look Once Version 8 (YOLOv8) and Segment Anything Model Vision Transformer-base (SAM ViT-b) to enhance glioma detection and segmentation during ioMRI. Our model was trained using the Brain Tumor Segmentation 2021 (BraTS 2021) dataset, which includes standard magnetic resonance imaging (MRI) images, and noise-augmented MRI images that simulate ioMRI images. Noised MRI images are harder for a deep learning pipeline to segment, but they are more representative of surgical conditions. Achieving a Dice Similarity Coefficient (DICE) score of 0.79, our model performs comparably to state-of-the-art segmentation models tested on noiseless data. This performance demonstrates the model's potential to assist surgeons in maximizing tumor resection and improving surgical outcomes. | 翻訳日:2024-08-28 14:33:22 公開日:2024-08-27 |
# 部分フォールトトレラント量子コンピュータにおける実用的量子優位性
Practical quantum advantage on partially fault-tolerant quantum computer ( http://arxiv.org/abs/2408.14848v1 ) ライセンス: Link先を確認 | Riki Toshio, Yutaro Akahoshi, Jun Fujisaki, Hirotaka Oshima, Shintaro Sato, Keisuke Fujii, | (参考訳) 実用的なタスクで量子スピードアップを達成することは、現在のノイズの多い中間規模量子(NISQ)デバイスでは依然として困難である。
これらのデバイスは、必然的な物理的エラーや、現在の短期アルゴリズムのスケーラビリティの制限など、常に重大な障害に直面している。
一方、フォールトトレラント量子コンピューティング(FTQC)の典型的なアーキテクチャを仮定すると、現実的なアプリケーションは必然的に膨大な量子ビットを必要とする。
本研究では, NISQ と FTQC のギャップを埋めるために, 早期FTQC デバイス上での実用的な量子的優位性を実現するための代替手法を提案する。
我々のフレームワークは、空間的オーバーヘッドを最小限に抑え、非クリフォードゲートの実行に必要な高価な蒸留技術を避けるために、部分的にフォールトトレラントな論理演算に基づいている。
この目的のために、任意の小さな角度$\theta$と驚くほど低い最悪ケースエラー率$\mathcal{O}(|\theta| p_{\text{ph}})$,$p_{\text{ph}}$が物理誤差率であるアナログ回転ゲートを実装するために使用されるアシラリー非クリフォード状態を生成するための時空効率的な状態準備プロトコルを開発する。
さらに,提案プロトコルに適合するいくつかのエラー抑制手法を提案し,エラーの軽減に要するオーバーヘッドを最小限に抑える。
この枠組みに基づいて, トロッターシミュレーションや量子位相推定 (QPE) など, フレームワークのポテンシャルを利用する有望なアプリケーションをいくつか提示する。
特に、我々のフレームワークは、$(8\times 8)$-site Hubbardモデルで4.9\times 10^4$ qubits未満で、p_{\text{ph}}=10^{-4}$以下の実行時間(フル並列化で12分)でQPEを実行できます。
Achieving quantum speedups in practical tasks remains challenging for current noisy intermediate-scale quantum (NISQ) devices. These devices always encounter significant obstacles such as inevitable physical errors and the limited scalability of current near-term algorithms. Meanwhile, assuming a typical architecture for fault-tolerant quantum computing (FTQC), realistic applications inevitably require a vast number of qubits, typically exceeding $10^6$, which seems far beyond near-term realization. In this work, to bridge the gap between the NISQ and FTQC eras, we propose an alternative approach to achieve practical quantum advantages on early-FTQC devices. Our framework is based on partially fault-tolerant logical operations to minimize spatial overhead and avoids the costly distillation techniques typically required for executing non-Clifford gates. To this end, we develop a space-time efficient state preparation protocol to generate an ancillary non-Clifford state consumed for implementing an analog rotation gate with an arbitrary small angle $\theta$ and a remarkably low worst-case error rate below $\mathcal{O}(|\theta| p_{\text{ph}})$, where $p_{\text{ph}}$ is the physical error rate. Furthermore, we propose several error suppression schemes tailored to our preparation protocol, which are essential to minimize the overhead for mitigating errors. Based on this framework, we present several promising applications that leverage the potential of our framework, including the Trotter simulation and quantum phase estimation (QPE). Notably, we demonstrate that our framework allows us to perform the QPE for $(8\times 8)$-site Hubbard model with fewer than $4.9\times 10^4$ qubits and an execution time of 9 days (or 12 minutes with full parallelization) under $p_{\text{ph}}=10^{-4}$, which is significantly faster than recent classical estimation with tensor network techniques (DMRG and PEPS). | 翻訳日:2024-08-28 14:33:22 公開日:2024-08-27 |
# Project SHADOW: LMプローブを用いたWikidata上での記号的高次連想帰納的推論
Project SHADOW: Symbolic Higher-order Associative Deductive reasoning On Wikidata using LM probing ( http://arxiv.org/abs/2408.14849v1 ) ライセンス: Link先を確認 | Hanna Abi Akl, | (参考訳) 本稿では,連想的帰納的推論を用いて中間タスクで訓練された微調整言語モデルであるSHADOWを紹介し,Wikidata三重補完を用いた知識ベース構築タスクにおいて,その性能を計測する。
LM-KBC 2024チャレンジでSHADOWを評価し,F1スコア68.72%でベースライン解を20%上回る結果を得た。
We introduce SHADOW, a fine-tuned language model trained on an intermediate task using associative deductive reasoning, and measure its performance on a knowledge base construction task using Wikidata triple completion. We evaluate SHADOW on the LM-KBC 2024 challenge and show that it outperforms the baseline solution by 20% with a F1 score of 68.72%. | 翻訳日:2024-08-28 14:33:22 公開日:2024-08-27 |
# AIの欠陥検出 - 言語モデルの内部障害に対するターゲット駆動攻撃
Detecting AI Flaws: Target-Driven Attacks on Internal Faults in Language Models ( http://arxiv.org/abs/2408.14853v1 ) ライセンス: Link先を確認 | Yuhao Du, Zhuo Li, Pengyu Cheng, Xiang Wan, Anningzhe Gao, | (参考訳) 大規模言語モデル(LLM)は、人工知能の急速に発展する分野において焦点となっている。
しかし、重要な懸念は、これらのモデルの事前学習コーパス内に有毒な物質が存在することであり、不適切な出力が発生する可能性がある。
LLMの内部欠陥を検出する方法を調べることは,その限界を理解し,セキュリティを改善するのに役立つ。
既存の手法は主にジェイルブレイク攻撃に重点を置いており、敵のコンテンツを手動または自動で構築し、ターゲットのLSMに予期せぬ応答を起こさせる。
これらの手法はプロンプトエンジニアリングに大きく依存しており、それは時間がかかり、通常は特別に設計された質問を必要とする。
これらの課題に対処するため,本研究では,プロンプトを最適化する代わりに,ターゲット応答を直接引き出すことに焦点を当てた,ターゲット駆動型攻撃パラダイムを提案する。
ToxDet と呼ばれる毒性物質の検出装置として別の LLM を導入する。
対象の有害反応が与えられた場合、ToxDetは可能な質問と予備的な回答を生成して、対象モデルを刺激し、提供されたものと同等の意味で所望の有害反応を生成する。
ToxDetは、目標LLMと対話して報酬信号を受け取り、最適化プロセスの強化学習を利用する。
ターゲットモデルの主な焦点はオープンソース LLM であるが、微調整されたToxDet は GPT-4o などのブラックボックスモデルを攻撃するために移動でき、顕著な結果が得られる。
AdvBench と HH-Harmless のデータセットによる実験結果から,ターゲット LLM の傾向を検知し,有害な応答を生成する方法の有効性が示された。
このアルゴリズムは脆弱性を公開するだけでなく、研究者がそのような攻撃に対してモデルを強化するための貴重なリソースも提供する。
Large Language Models (LLMs) have become a focal point in the rapidly evolving field of artificial intelligence. However, a critical concern is the presence of toxic content within the pre-training corpus of these models, which can lead to the generation of inappropriate outputs. Investigating methods for detecting internal faults in LLMs can help us understand their limitations and improve their security. Existing methods primarily focus on jailbreaking attacks, which involve manually or automatically constructing adversarial content to prompt the target LLM to generate unexpected responses. These methods rely heavily on prompt engineering, which is time-consuming and usually requires specially designed questions. To address these challenges, this paper proposes a target-driven attack paradigm that focuses on directly eliciting the target response instead of optimizing the prompts. We introduce the use of another LLM as the detector for toxic content, referred to as ToxDet. Given a target toxic response, ToxDet can generate a possible question and a preliminary answer to provoke the target model into producing desired toxic responses with meanings equivalent to the provided one. ToxDet is trained by interacting with the target LLM and receiving reward signals from it, utilizing reinforcement learning for the optimization process. While the primary focus of the target models is on open-source LLMs, the fine-tuned ToxDet can also be transferred to attack black-box models such as GPT-4o, achieving notable results. Experimental results on AdvBench and HH-Harmless datasets demonstrate the effectiveness of our methods in detecting the tendencies of target LLMs to generate harmful responses. This algorithm not only exposes vulnerabilities but also provides a valuable resource for researchers to strengthen their models against such attacks. | 翻訳日:2024-08-28 14:33:22 公開日:2024-08-27 |
# モデルベースRLを用いた抽象・推論コーパスにおけるアナロジカル推論の強化
Enhancing Analogical Reasoning in the Abstraction and Reasoning Corpus via Model-Based RL ( http://arxiv.org/abs/2408.14855v1 ) ライセンス: Link先を確認 | Jihwan Lee, Woochang Sim, Sejin Kim, Sundong Kim, | (参考訳) 本稿では,モデルに基づく強化学習(モデルベースRL)が類似推論の課題に適した手法であることを実証する。
モデルに基づくRLは、内部モデルの作成により、アナログ推論タスクをより効率的に解くことができると仮定する。
これをテストするために,モデルベースRL法であるDreamerV3とモデルフリーRL法であるProximal Policy Optimizationを,ARC(Abstraction and Reasoning Corpus)タスク上で比較した。
この結果から,モデルベースRLはモデルフリーのRLよりも,単一タスクからの学習や一般化に優れるだけでなく,類似タスク間の推論において大きな優位性を示すことがわかった。
This paper demonstrates that model-based reinforcement learning (model-based RL) is a suitable approach for the task of analogical reasoning. We hypothesize that model-based RL can solve analogical reasoning tasks more efficiently through the creation of internal models. To test this, we compared DreamerV3, a model-based RL method, with Proximal Policy Optimization, a model-free RL method, on the Abstraction and Reasoning Corpus (ARC) tasks. Our results indicate that model-based RL not only outperforms model-free RL in learning and generalizing from single tasks but also shows significant advantages in reasoning across similar tasks. | 翻訳日:2024-08-28 14:33:22 公開日:2024-08-27 |
# DiffSurf:3次元表面の生成と再構成のための変圧器を用いた拡散モデル
DiffSurf: A Transformer-based Diffusion Model for Generating and Reconstructing 3D Surfaces in Pose ( http://arxiv.org/abs/2408.14860v1 ) ライセンス: Link先を確認 | Yusuke Yoshiyasu, Leyuan Sun, | (参考訳) 本稿では,DiffSurfについて述べる。DiffSurfは3次元表面の生成と再構成のための変圧器を用いた分極拡散モデルである。
具体的には、雑音の多い3次元表面頂点と正規値からノイズを予測する拡散トランスフォーマーアーキテクチャを設計する。
このアーキテクチャによりDiffSurfは、人体、手、動物、人工物など、さまざまなポーズや形状で3D表面を生成することができる。
さらにDiffSurfは、変形、体形の変化、そして2Dキーポイントへの人間のメッシュの適合など、さまざまな3D下流タスクに対処できる。
3次元人体モデルベンチマークの実験結果から、DiffSurfは従来の生成モデルよりも多様性と品質の高い形状を生成できることが示されている。
さらに、シングルイメージのヒューマンメッシュリカバリのタスクに適用すると、DiffSurfは、ほぼリアルタイムの速度で、以前のテクニックに匹敵する精度を達成する。
This paper presents DiffSurf, a transformer-based denoising diffusion model for generating and reconstructing 3D surfaces. Specifically, we design a diffusion transformer architecture that predicts noise from noisy 3D surface vertices and normals. With this architecture, DiffSurf is able to generate 3D surfaces in various poses and shapes, such as human bodies, hands, animals and man-made objects. Further, DiffSurf is versatile in that it can address various 3D downstream tasks including morphing, body shape variation and 3D human mesh fitting to 2D keypoints. Experimental results on 3D human model benchmarks demonstrate that DiffSurf can generate shapes with greater diversity and higher quality than previous generative models. Furthermore, when applied to the task of single-image 3D human mesh recovery, DiffSurf achieves accuracy comparable to prior techniques at a near real-time rate. | 翻訳日:2024-08-28 14:33:22 公開日:2024-08-27 |
# 強化学習を用いたメタヒューリスティックスにおける動的演算子管理 : 置換フローホップスケジューリング問題への応用
Dynamic operator management in meta-heuristics using reinforcement learning: an application to permutation flowshop scheduling problems ( http://arxiv.org/abs/2408.14864v1 ) ライセンス: Link先を確認 | Maryam Karimi Mamaghan, Mehrdad Mohammadi, Wout Dullaert, Daniele Vigo, Amir Pirayesh, | (参考訳) 本研究では,メタヒューリスティックスにおける探索演算子のポートフォリオを動的に管理する強化学習に基づくフレームワークを開発する。
タブ検索の概念を用いることで、効率の悪い演算子を一時的に排除し、探索中にポートフォリオ構成を更新することで、継続的な適応を可能にする。
Q学習に基づく適応演算子選択機構を用いて、各段階において動的に更新されたポートフォリオから最も適切な演算子を選択する。
従来のアプローチとは異なり、提案フレームワークは、検索オペレータに関する専門家からの入力を必要としないため、ドメイン固有の非専門家がこのフレームワークを効果的に利用することができる。
提案するフレームワークの性能は,置換フローホップスケジューリング問題への適用を通して解析する。
その結果、最適性ギャップと収束速度の観点から、最先端のアルゴリズムに対する提案手法の優れた性能を示した。
This study develops a framework based on reinforcement learning to dynamically manage a large portfolio of search operators within meta-heuristics. Using the idea of tabu search, the framework allows for continuous adaptation by temporarily excluding less efficient operators and updating the portfolio composition during the search. A Q-learning-based adaptive operator selection mechanism is used to select the most suitable operator from the dynamically updated portfolio at each stage. Unlike traditional approaches, the proposed framework requires no input from the experts regarding the search operators, allowing domain-specific non-experts to effectively use the framework. The performance of the proposed framework is analyzed through an application to the permutation flowshop scheduling problem. The results demonstrate the superior performance of the proposed framework against state-of-the-art algorithms in terms of optimality gap and convergence speed. | 翻訳日:2024-08-28 14:33:22 公開日:2024-08-27 |
# 6U立方体Sat上の画像分類を用いたデータダウンリンク優先順位付け
Data downlink prioritization using image classification on-board a 6U CubeSat ( http://arxiv.org/abs/2408.14865v1 ) ライセンス: Link先を確認 | Keenan A. A. Chatar, Ezra Fielding, Kei Sano, Kentaro Kitamura, | (参考訳) ナノサテライトは、リーン開発サイクルを備えた低コストの専用センシングシステムとして成長している。
九州工業大学と共同研究員は,ナノサテライトミッションであるVERTECSのジョイントベンチャーを立ち上げた。
主なミッションは、光波長の宇宙背景放射を観測することで星の形成履歴を解明することである。
VERTECS衛星は小型の望遠鏡と高精度の姿勢制御システムを備え、地上での分析のために宇宙データをキャプチャする。
しかし、ナノサテライトはオンボードメモリリソースとダウンリンク速度能力によって制限されている。
また、地上ステーションが限られているため、衛星ミッションはミッション成功に必要なデータ予算を満たす問題に直面している。
この問題を軽減するために,我々は,データダウンリンク優先順位付けと最適化のために望ましい画像データを自律的に分類し,圧縮する軌道上システムを提案する。
このシステムは、分類と圧縮に使用されるRaspberry Pi Compute Module 4を搭載したカメラコントローラボード(CCB)のプロトタイプで構成されている。
このシステムは、軽量な畳み込みニューラルネットワーク(CNN)モデルを使用して、キャプチャされた画像データの望ましさを分類し、決定する。
このモデルは、衛星の計算負荷とメモリ負荷を減らすために、リーンで堅牢に設計されている。
このモデルは、Sloan Digital Sky Survey (SDSS)によって収集されたデータからなる、新しい星場データセットで訓練され、テストされている。
このデータセットは、6U衛星が生成する予測データをシミュレートすることを目的としている。
圧縮ステップは、天文学データの標準であるGZip、RICE、HCOMpression圧縮を実装している。
提案したCNNモデルに対する予備試験の結果、テストされたFITS画像データ上で達成されたGZip, RICE, HCOMPRESSの圧縮比が3.99, 5.16, 5.43である。
Nanosatellites are proliferating as low-cost dedicated sensing systems with lean development cycles. Kyushu Institute of Technology and collaborators have launched a joint venture for a nanosatellite mission, VERTECS. The primary mission is to elucidate the formation history of stars by observing the optical-wavelength cosmic background radiation. The VERTECS satellite will be equipped with a small-aperture telescope and a high-precision attitude control system to capture the cosmic data for analysis on the ground. However, nanosatellites are limited by their onboard memory resources and downlink speed capabilities. Additionally, due to a limited number of ground stations, the satellite mission will face issues meeting the required data budget for mission success. To alleviate this issue, we propose an on-orbit system to autonomously classify and then compress desirable image data for data downlink prioritization and optimization. The system comprises a prototype Camera Controller Board (CCB) which carries a Raspberry Pi Compute Module 4 which is used for classification and compression. The system uses a lightweight Convolutional Neural Network (CNN) model to classify and determine the desirability of captured image data. The model is designed to be lean and robust to reduce the computational and memory load on the satellite. The model is trained and tested on a novel star field dataset consisting of data captured by the Sloan Digital Sky Survey (SDSS). The dataset is meant to simulate the expected data produced by the 6U satellite. The compression step implements GZip, RICE or HCOMPRESS compression, which are standards for astronomical data. Preliminary testing on the proposed CNN model results in a classification accuracy of about 100\% on the star field dataset, with compression ratios of 3.99, 5.16 and 5.43 for GZip, RICE and HCOMPRESS that were achieved on tested FITS image data. | 翻訳日:2024-08-28 14:33:22 公開日:2024-08-27 |
# 適応型大言語モデルを用いた対数接尾辞変換学習の促進
Advancing Adversarial Suffix Transfer Learning on Aligned Large Language Models ( http://arxiv.org/abs/2408.14866v1 ) ライセンス: Link先を確認 | Hongfu Liu, Yuxi Xie, Ye Wang, Michael Shieh, | (参考訳) 言語モデル(LLM)は、悪意のあるユーザによる誤用による安全性上の懸念に直面している。
近年のレッドチームの取り組みは、勾配に基づく探索アルゴリズムGreedy Coordinate Gradient (GCG) を用いて、LDMをジェイルブレイクできる敵サフィックスを特定している。
しかし、GCGは計算の非効率性に苦慮し、接尾辞の転送可能性やモデルやデータ間のスケーラビリティに関するさらなる調査を制限している。
本研究では,探索効率と接尾辞伝達性の関係を橋渡しする。
本稿では,2段階の移動学習フレームワークであるDeGCGを提案する。
具体的には、探索プロセスを容易にするために、事前探索において直接第一目標トークン最適化を用いる。
私たちは、クロスモデル、クロスデータ、そしてセルフトランスファーのシナリオにアプローチを適用します。
さらに,本手法のインターリーブ版であるi-DeGCGを導入し,自己伝達性を活用して探索プロセスを高速化する。
HarmBenchの実験は、様々なモデルとドメインにわたるアプローチの効率を実証している。
特に、我々のi-DeGCGはLlama2-chat-7bのベースラインを43.9$(+22.2$)と39.0$(+19.5$)で上回ります。
クロスモデル転送のさらなる解析は、効率的な探索のために接尾辞転送可能性を活用する上で、第1目標トークン最適化の重要な役割を示している。
Language Language Models (LLMs) face safety concerns due to potential misuse by malicious users. Recent red-teaming efforts have identified adversarial suffixes capable of jailbreaking LLMs using the gradient-based search algorithm Greedy Coordinate Gradient (GCG). However, GCG struggles with computational inefficiency, limiting further investigations regarding suffix transferability and scalability across models and data. In this work, we bridge the connection between search efficiency and suffix transferability. We propose a two-stage transfer learning framework, DeGCG, which decouples the search process into behavior-agnostic pre-searching and behavior-relevant post-searching. Specifically, we employ direct first target token optimization in pre-searching to facilitate the search process. We apply our approach to cross-model, cross-data, and self-transfer scenarios. Furthermore, we introduce an interleaved variant of our approach, i-DeGCG, which iteratively leverages self-transferability to accelerate the search process. Experiments on HarmBench demonstrate the efficiency of our approach across various models and domains. Notably, our i-DeGCG outperforms the baseline on Llama2-chat-7b with ASRs of $43.9$ ($+22.2$) and $39.0$ ($+19.5$) on valid and test sets, respectively. Further analysis on cross-model transfer indicates the pivotal role of first target token optimization in leveraging suffix transferability for efficient searching. | 翻訳日:2024-08-28 14:33:22 公開日:2024-08-27 |
# ZeroMamba: ゼロショット学習のためのビジュアルステートスペースモデル
ZeroMamba: Exploring Visual State Space Model for Zero-Shot Learning ( http://arxiv.org/abs/2408.14868v1 ) ライセンス: Link先を確認 | Wenjin Hou, Dingjie Fu, Kun Li, Shiming Chen, Hehe Fan, Yi Yang, | (参考訳) Zero-shot Learning (ZSL) は、目に見えないクラスから目に見えないクラスに意味的な知識を移すことによって、目に見えないクラスを認識することを目的としている。
この目的のために、既存の研究は、畳み込みニューラルネットワーク(CNN)や視覚変換器(ViT)のグローバルな視覚的特徴を視覚と意味の相互作用に活用することで、顕著なパフォーマンスを誇示している。
しかし、CNNの受容野が限られており、ViTsの二次的な複雑さのため、これらの視覚的バックボーンは、最適な視覚・セマンティック相互作用をもたらす。
本稿では,視覚状態空間モデル(Vision Mamba)をモチベーションとして,長距離依存を捉え,複雑な視覚力学をモデル化し,ZeroMambaと呼ばれるパラメータ効率の高いZSLフレームワークを提案する。
我々のZeroMambaは,SLP(Semantic-aware Local Projection),GRL(Global Representation Learning),Semantic Fusion(SeF)の3つの重要なコンポーネントで構成されています。
具体的には、SLPはセマンティック埋め込みを統合し、視覚的特徴を局所的なセマンティック関連表現にマッピングし、GRLはグローバルなセマンティック表現を学ぶようモデルに推奨する。
SeFはこれらの2つの意味表現を組み合わせることで、意味的特徴の識別性を高める。
これらの設計をVision Mambaに組み込み、エンドツーエンドのZSLフレームワークを構築します。
結果として、学習された意味表現は分類に適している。
4つのZSLベンチマークの広範な実験を通じて、ZeroMambaは優れた性能を示し、従来のZSL (CZSL) と一般化ZSL (GZSL) の両方で最先端(CNNベースとVTベース)の手法を大幅に上回っている。
コードは、https://anonymous.4open.science/r/ZeroMambaで入手できる。
Zero-shot learning (ZSL) aims to recognize unseen classes by transferring semantic knowledge from seen classes to unseen ones, guided by semantic information. To this end, existing works have demonstrated remarkable performance by utilizing global visual features from Convolutional Neural Networks (CNNs) or Vision Transformers (ViTs) for visual-semantic interactions. Due to the limited receptive fields of CNNs and the quadratic complexity of ViTs, however, these visual backbones achieve suboptimal visual-semantic interactions. In this paper, motivated by the visual state space model (i.e., Vision Mamba), which is capable of capturing long-range dependencies and modeling complex visual dynamics, we propose a parameter-efficient ZSL framework called ZeroMamba to advance ZSL. Our ZeroMamba comprises three key components: Semantic-aware Local Projection (SLP), Global Representation Learning (GRL), and Semantic Fusion (SeF). Specifically, SLP integrates semantic embeddings to map visual features to local semantic-related representations, while GRL encourages the model to learn global semantic representations. SeF combines these two semantic representations to enhance the discriminability of semantic features. We incorporate these designs into Vision Mamba, forming an end-to-end ZSL framework. As a result, the learned semantic representations are better suited for classification. Through extensive experiments on four prominent ZSL benchmarks, ZeroMamba demonstrates superior performance, significantly outperforming the state-of-the-art (i.e., CNN-based and ViT-based) methods under both conventional ZSL (CZSL) and generalized ZSL (GZSL) settings. Code is available at: https://anonymous.4open.science/r/ZeroMamba. | 翻訳日:2024-08-28 14:33:22 公開日:2024-08-27 |
# 雑音ラベルによるロバストリワードマシンの学習
Learning Robust Reward Machines from Noisy Labels ( http://arxiv.org/abs/2408.14871v1 ) ライセンス: Link先を確認 | Roko Parac, Lorenzo Nodari, Leo Ardon, Daniel Furelos-Blanco, Federico Cerutti, Alessandra Russo, | (参考訳) 本稿では,強化学習(RL)エージェントの頑健な報酬機(RM)をノイズ発生トレースから学習するPROB-IRMを提案する。
RM駆動RLの重要な側面は、エージェントのタスクを異なるサブタスクに分解する有限状態マシンの利用である。
PROB-IRMは、ノイズの多い例に頑健な最先端の帰納的論理プログラミングフレームワークを使用して、ベイズ的後続の信念を用いて雑音の多いトレースからRMを学習し、不整合に対する堅牢性を確保する。
RLエージェントが現在のRMに受け入れられないトレースを生成すると、新しいRMが学習される。
RL剤のトレーニングを高速化するために、PROB-IRMは、痕跡から派生した後ベイズ的信念を用いた報酬形成の確率論的定式化を採用する。
実験により,PRB-IRMは雑音の痕跡から(潜在的に不完全な)RMを学習し,それらを活用してRLエージェントを訓練し,その課題をうまく解決できることが判明した。
雑音のあるトレースからRMを学習する複雑さにもかかわらず、PRB-IRMで訓練されたエージェントは、手作りのRMを備えたエージェントと互換性がある。
This paper presents PROB-IRM, an approach that learns robust reward machines (RMs) for reinforcement learning (RL) agents from noisy execution traces. The key aspect of RM-driven RL is the exploitation of a finite-state machine that decomposes the agent's task into different subtasks. PROB-IRM uses a state-of-the-art inductive logic programming framework robust to noisy examples to learn RMs from noisy traces using the Bayesian posterior degree of beliefs, thus ensuring robustness against inconsistencies. Pivotal for the results is the interleaving between RM learning and policy learning: a new RM is learned whenever the RL agent generates a trace that is believed not to be accepted by the current RM. To speed up the training of the RL agent, PROB-IRM employs a probabilistic formulation of reward shaping that uses the posterior Bayesian beliefs derived from the traces. Our experimental analysis shows that PROB-IRM can learn (potentially imperfect) RMs from noisy traces and exploit them to train an RL agent to solve its tasks successfully. Despite the complexity of learning the RM from noisy traces, agents trained with PROB-IRM perform comparably to agents provided with handcrafted RMs. | 翻訳日:2024-08-28 14:33:22 公開日:2024-08-27 |
# Inverse-Q*: 優先データのない大規模言語モデルのトークンレベル強化学習
Inverse-Q*: Token Level Reinforcement Learning for Aligning Large Language Models Without Preference Data ( http://arxiv.org/abs/2408.14874v1 ) ライセンス: Link先を確認 | Han Xia, Songyang Gao, Qiming Ge, Zhiheng Xi, Qi Zhang, Xuanjing Huang, | (参考訳) Reinforcement Learning from Human Feedback (RLHF) は、大規模な言語モデルを人間の意図と整合させるのに有効であることが証明されている。
本稿では,トークンレベルの強化学習を,付加的な報酬や価値モデルなしで最適化することで,従来のRL手法を超越する革新的なフレームワークであるInverse-Q*を紹介する。
Inverse-Q* は直接選好最適化手法を利用するが、モデル応答から直接条件最適ポリシーを推定することにより、よりきめ細やかで柔軟なポリシー形成を容易にする。
提案手法は人間のアノテーションや外部監視への依存を軽減し,低リソース設定に特に適している。
Inverse-Q*は, コンバージェンス速度, モデル応答と人間の嗜好との整合性において, 適合するだけでなく, PPOの有効性を上回る可能性が示唆された。
この結果から,Inverse-Q*は従来のRLHFアプローチに代わる実用的で堅牢な代替手段であり,より効率的で適応可能なモデルトレーニングアプローチの道を開くことが示唆された。
Reinforcement Learning from Human Feedback (RLHF) has proven effective in aligning large language models with human intentions, yet it often relies on complex methodologies like Proximal Policy Optimization (PPO) that require extensive hyper-parameter tuning and present challenges in sample efficiency and stability. In this paper, we introduce Inverse-Q*, an innovative framework that transcends traditional RL methods by optimizing token-level reinforcement learning without the need for additional reward or value models. Inverse-Q* leverages direct preference optimization techniques but extends them by estimating the conditionally optimal policy directly from the model's responses, facilitating more granular and flexible policy shaping. Our approach reduces reliance on human annotation and external supervision, making it especially suitable for low-resource settings. We present extensive experimental results demonstrating that Inverse-Q* not only matches but potentially exceeds the effectiveness of PPO in terms of convergence speed and the alignment of model responses with human preferences. Our findings suggest that Inverse-Q* offers a practical and robust alternative to conventional RLHF approaches, paving the way for more efficient and adaptable model training approaches. | 翻訳日:2024-08-28 14:33:22 公開日:2024-08-27 |
# スマート・コネクテッドインフラストラクチャのための多変量時系列予測における逆攻撃と防御
Adversarial Attacks and Defenses in Multivariate Time-Series Forecasting for Smart and Connected Infrastructures ( http://arxiv.org/abs/2408.14875v1 ) ライセンス: Link先を確認 | Pooja Krishan, Rohan Mohapatra, Saptarshi Sengupta, | (参考訳) ディープラーニングモデルの出現は、過去10年間に様々な産業に革命をもたらし、コネクテッドデバイスやインフラの急増につながった。
しかし、これらのモデルは、誤った予測を高い信頼性で行うように騙され、悲惨な失敗とセキュリティ上の懸念につながります。
そこで本研究では,敵対的攻撃が多変量時系列予測に与える影響について検討し,それに対応する方法を検討する。
具体的には,FGSM(Fast Gradient Sign Method)とBIM(Basic Iterative Method)という未ターゲットのホワイトボックス攻撃を用いて,トレーニングプロセスへの入力を害し,モデルを効果的に誤解させる。
また,攻撃後の入力の微妙な修正も説明し,裸眼による攻撃の検出を極めて困難にしている。
これらの攻撃の有効性を実証し、敵の訓練とモデル硬化による堅牢なモデルを構築した。
われわれは、これらの攻撃と防衛の転送可能性について、ベンチマーク電気データからハードディスクの時間から障害を予測するために使用される10年間の大規模実世界のデータに外挿することで、最初に紹介している。
実験の結果,攻撃と防御が所望のセキュリティ閾値を達成できることが確認され,電気・ハードディスク・データセットのRMSEは,それぞれ72.41%,94.81%減少した。
The emergence of deep learning models has revolutionized various industries over the last decade, leading to a surge in connected devices and infrastructures. However, these models can be tricked into making incorrect predictions with high confidence, leading to disastrous failures and security concerns. To this end, we explore the impact of adversarial attacks on multivariate time-series forecasting and investigate methods to counter them. Specifically, we employ untargeted white-box attacks, namely the Fast Gradient Sign Method (FGSM) and the Basic Iterative Method (BIM), to poison the inputs to the training process, effectively misleading the model. We also illustrate the subtle modifications to the inputs after the attack, which makes detecting the attack using the naked eye quite difficult. Having demonstrated the feasibility of these attacks, we develop robust models through adversarial training and model hardening. We are among the first to showcase the transferability of these attacks and defenses by extrapolating our work from the benchmark electricity data to a larger, 10-year real-world data used for predicting the time-to-failure of hard disks. Our experimental results confirm that the attacks and defenses achieve the desired security thresholds, leading to a 72.41% and 94.81% decrease in RMSE for the electricity and hard disk datasets respectively after implementing the adversarial defenses. | 翻訳日:2024-08-28 14:23:37 公開日:2024-08-27 |
# 逆マンホール: パッチアタックを伴う単眼深度推定と意味的セグメンテーションモデル
Adversarial Manhole: Challenging Monocular Depth Estimation and Semantic Segmentation Models with Patch Attack ( http://arxiv.org/abs/2408.14879v1 ) ライセンス: Link先を確認 | Naufal Suryanto, Andro Aprila Adiputra, Ahmada Yusril Kadiptya, Yongsu Kim, Howon Kim, | (参考訳) 単眼深度推定(MDE)とセマンティックセグメンテーション(SS)は、多くの自律運転システムのナビゲーションと環境解釈に不可欠である。
しかし、実際の敵攻撃に対するその脆弱性は重大な懸念事項である。
本稿では,マンホールカバーを模倣してMDEモデルとSSモデルを偽装する実用的パッチを用いた,新たな逆襲攻撃を提案する。
目的は、これらのシステムにシーンを誤解釈させ、近くの障害物や通過不能な物体を誤検知させることである。
我々はDepth Planar Mappingを使ってこれらのパッチを道路表面に正確に配置し、攻撃の有効性を高める。
以上の結果から,MDEでは相対誤差が43%,SSでは96%であった。
これらのパッチは、MDEの2倍以上の大きさで、SSの約2倍の大きさのエラー領域を生成する。
また, 本研究は, 物理シミュレーションにおけるパッチの有効性, 異なる対象モデルに対するパッチの適用性, 提案モジュールの有効性を検証し, その実用的意義を明らかにした。
Monocular depth estimation (MDE) and semantic segmentation (SS) are crucial for the navigation and environmental interpretation of many autonomous driving systems. However, their vulnerability to practical adversarial attacks is a significant concern. This paper presents a novel adversarial attack using practical patches that mimic manhole covers to deceive MDE and SS models. The goal is to cause these systems to misinterpret scenes, leading to false detections of near obstacles or non-passable objects. We use Depth Planar Mapping to precisely position these patches on road surfaces, enhancing the attack's effectiveness. Our experiments show that these adversarial patches cause a 43% relative error in MDE and achieve a 96% attack success rate in SS. These patches create affected error regions over twice their size in MDE and approximately equal to their size in SS. Our studies also confirm the patch's effectiveness in physical simulations, the adaptability of the patches across different target models, and the effectiveness of our proposed modules, highlighting their practical implications. | 翻訳日:2024-08-28 14:23:37 公開日:2024-08-27 |
# メタラーニングによるユーザレベルソーシャルマルチメディアトラフィック異常検出
User-level Social Multimedia Traffic Anomaly Detection with Meta-Learning ( http://arxiv.org/abs/2408.14884v1 ) ライセンス: Link先を確認 | Tongtong Feng, | (参考訳) ユーザレベルのソーシャルマルチメディアトラフィックにおける精度異常検出は、プライバシのセキュリティに不可欠である。
大規模なラベル付きトレーニングサンプルを持つ特定の異常クラスを受動的に検出する既存のモデルと比較して、ユーザレベルのソーシャルマルチメディアトラフィックは、ラベル付きサンプルがほとんどなく、不均衡で自己相似で、データ・ハングリーな性質を持つ、大きな新しい異常クラスを含んでいる。
GAN(Generative Adversarial Networks)のような最近の進歩は、サンプルジェネレータを目にするクラスサンプルのみから学習し、新しいサンプルを合成することによって解決している。
しかし、多くの新しいクラスを検知すれば、合成サンプルの数は不確実に見積もられ、この操作は計算複雑性とエネルギー消費を大幅に増加させます。
本稿では,ユーザレベルのソーシャルマルチメディアトラフィック異常検出のためのメタラーニング手法である「textit{Meta-UAD}」を提案する。
このスキームは叙述的な訓練パラダイムに依存しており、K-way-M-shot分類タスクの集合から学習する。
ユーザレベルのソーシャルマルチメディアトラフィックは、ユーザとソーシャルアプリケーションの複雑なインタラクションプロセスから生まれるので、我々はさらに、スキーム性能を向上させる機能抽出器を開発する。
LSTMベースのAutoEncoderを用いて、累積的重要性ランキングと時系列特徴を用いて統計的特徴を抽出する。
提案手法を2つの公開データセット上で評価し,Meta-UADの優位性をさらに証明した。
Accuracy anomaly detection in user-level social multimedia traffic is crucial for privacy security. Compared with existing models that passively detect specific anomaly classes with large labeled training samples, user-level social multimedia traffic contains sizeable new anomaly classes with few labeled samples and has an imbalance, self-similar, and data-hungry nature. Recent advances, such as Generative Adversarial Networks (GAN), solve it by learning a sample generator only from seen class samples to synthesize new samples. However, if we detect many new classes, the number of synthesizing samples would be unfeasibly estimated, and this operation will drastically increase computational complexity and energy consumption. Motivation on these limitations, in this paper, we propose \textit{Meta-UAD}, a Meta-learning scheme for User-level social multimedia traffic Anomaly Detection. This scheme relies on the episodic training paradigm and learns from the collection of K-way-M-shot classification tasks, which can use the pre-trained model to adapt any new class with few samples by going through few iteration steps. Since user-level social multimedia traffic emerges from a complex interaction process of users and social applications, we further develop a feature extractor to improve scheme performance. It extracts statistical features using cumulative importance ranking and time-series features using an LSTM-based AutoEncoder. We evaluate our scheme on two public datasets and the results further demonstrate the superiority of Meta-UAD. | 翻訳日:2024-08-28 14:23:37 公開日:2024-08-27 |
# VoxCelebの話者認識チャレンジ:振り返って
The VoxCeleb Speaker Recognition Challenge: A Retrospective ( http://arxiv.org/abs/2408.14886v1 ) ライセンス: Link先を確認 | Jaesung Huh, Joon Son Chung, Arsha Nagrani, Andrew Brown, Jee-weon Jung, Daniel Garcia-Romero, Andrew Zisserman, | (参考訳) VoxCeleb Speaker Recognition Challenges (VoxSRC)は、2019年から2023年にかけて毎年開催される一連の課題とワークショップである。
課題は主に、クローズドでオープンなトレーニングデータや、ドメイン適応のための教師付き、自己教師付き、半教師付きトレーニングなど、さまざまな設定下で話者認識とダイアリゼーションのタスクを評価した。
課題はまた、各タスクと設定のトレーニングと評価データセットを公開し、毎年新しいテストセットがリリースされている。
本稿では,これらの課題について概説する。調査内容,課題参加者によって開発された手法,その発展状況,および話者検証とダイアリゼーションの分野の現状について述べる。
我々は、共通の評価データセットに課題の5つのインストールに関するパフォーマンスの進捗をチャート化し、毎年の特別焦点が参加者のパフォーマンスにどのように影響するかを詳細に分析する。
本論文は,話者認識・ダイアリゼーション分野の概観を求める研究者と,VoxSRCの課題の失敗を回避し,成功の恩恵を享受したい課題オーガナイザの両方を対象としている。
最終的に、この分野の現在の強みとオープンな課題について議論します。
プロジェクトページ:https://mm.kaist.ac.kr/datasets/voxceleb/voxsrc/workshop.html
The VoxCeleb Speaker Recognition Challenges (VoxSRC) were a series of challenges and workshops that ran annually from 2019 to 2023. The challenges primarily evaluated the tasks of speaker recognition and diarisation under various settings including: closed and open training data; as well as supervised, self-supervised, and semi-supervised training for domain adaptation. The challenges also provided publicly available training and evaluation datasets for each task and setting, with new test sets released each year. In this paper, we provide a review of these challenges that covers: what they explored; the methods developed by the challenge participants and how these evolved; and also the current state of the field for speaker verification and diarisation. We chart the progress in performance over the five installments of the challenge on a common evaluation dataset and provide a detailed analysis of how each year's special focus affected participants' performance. This paper is aimed both at researchers who want an overview of the speaker recognition and diarisation field, and also at challenge organisers who want to benefit from the successes and avoid the mistakes of the VoxSRC challenges. We end with a discussion of the current strengths of the field and open challenges. Project page : https://mm.kaist.ac.kr/datasets/voxceleb/voxsrc/workshop.html | 翻訳日:2024-08-28 14:23:37 公開日:2024-08-27 |
# 音響特徴量を用いたタミル語の文字・口語辞書同定
Literary and Colloquial Dialect Identification for Tamil using Acoustic Features ( http://arxiv.org/abs/2408.14887v1 ) ライセンス: Link先を確認 | M. Nanmalar, P. Vijayalakshmi, T. Nagarajan, | (参考訳) 言語の進化と多様性は、様々な方言から明らかである。
音声認識や音声合成といった技術進歩に様々な方言が対応していない場合、これらの方言は消滅する可能性がある。
音声技術は、言語の様々な方言が絶滅しないようにする役割を担っている。
様々な方言に対処する音声認識システムを構築するためには,フロントエンドとして機能する自動方言識別(ADI)システムが必要である。
これは、複数の言語を扱う音声認識システムにおいて、言語識別システムがフロントエンドとして機能する方法に似ている。
現在の研究は、広く分類された2つのタミル方言、すなわち文学的・口語的なタミル方言を識別する方法を提案している。
音声学や音韻学よりも音響的特徴を使い、言語依存言語ツールの要件を緩和する。
したがって、提案手法の大きな利点は、注釈付きコーパスを必要としないため、他の言語に容易に適応できることである。
MFCC(Mel Frequency Cepstral Coefficient)機能を用いたガウス混合モデル(GMM)を用いて分類処理を行う。
実験の結果,誤差率は12%であった。
この優れたパフォーマンスの理由として、母音の鼻腔化について論じられている。
GMMの混合モデルの数は様々であり、性能を解析する。
The evolution and diversity of a language is evident from it's various dialects. If the various dialects are not addressed in technological advancements like automatic speech recognition and speech synthesis, there is a chance that these dialects may disappear. Speech technology plays a role in preserving various dialects of a language from going extinct. In order to build a full fledged automatic speech recognition system that addresses various dialects, an Automatic Dialect Identification (ADI) system acting as the front end is required. This is similar to how language identification systems act as front ends to automatic speech recognition systems that handle multiple languages. The current work proposes a way to identify two popular and broadly classified Tamil dialects, namely literary and colloquial Tamil. Acoustical characteristics rather than phonetics and phonotactics are used, alleviating the requirement of language-dependant linguistic tools. Hence one major advantage of the proposed method is that it does not require an annotated corpus, hence it can be easily adapted to other languages. Gaussian Mixture Models (GMM) using Mel Frequency Cepstral Coefficient (MFCC) features are used to perform the classification task. The experiments yielded an error rate of 12%. Vowel nasalization, as being the reason for this good performance, is discussed. The number of mixture models for the GMM is varied and the performance is analysed. | 翻訳日:2024-08-28 14:23:37 公開日:2024-08-27 |
# SU(4) 群の別のパラメータ化
One other parameterization of SU(4) group ( http://arxiv.org/abs/2408.14888v1 ) ライセンス: Link先を確認 | Arsen Khvedelidze, Dimitar Mladenov, Astghik Torosyan, | (参考訳) We propose a special decomposition of the Lie $\mathfrak{su}(4)$ algebra into the direct sum of orthogonal subspace, $\mathfrak{su}(4)=\mathfrak{k}\oplus\mathfrak{a}^\prime\oplus\mathfrak{t}\,$ with $\mathfrak{k}=\mathfrak{su}(2)\oplus\mathfrak{su}(2)$ and a triplet of 3-dimensional Abelian subalgebras $(\mathfrak{a}, \mathfrak{a}^{\prime}, \mathfrak{t})}$$$$0,\mathfrak{a}(4)=\mathfrak{a}(4)\prime\oplus\mathfrak{a}^\prime\oplus\mathfrak{t}\,$ with $\mathfrak{su}(2)\oplus\mathfrak{su}(2)$ and a triplet of 3-dimensional Abelian subalgebras $(\mathfrak{a}, \mathfrak{a}, \mathfrak{a}, \mathfrak{a}, \mathfrak{t})} ここでは、次式で表すように表す。
We propose a special decomposition of the Lie $\mathfrak{su}(4)$ algebra into the direct sum of orthogonal subspaces, $\mathfrak{su}(4)=\mathfrak{k}\oplus\mathfrak{a}\oplus\mathfrak{a}^\prime\oplus\mathfrak{t}\,,$ with $\mathfrak{k}=\mathfrak{su}(2)\oplus\mathfrak{su}(2)$ and a triplet of 3-dimensional Abelian subalgebras $(\mathfrak{a}, \mathfrak{a}^{\prime}, \mathfrak{t})\,,$ such that the exponential mapping of a neighbourhood of the $0\in \mathfrak{su}(4)$ into a neighbourhood of the identity of the Lie group provides the following factorization of an element of $SU(4)$ \[ g = k\,a\,t\,, \] where $k \in \exp{(\mathfrak{k})} = SU(2)\times SU(2) \subset SU(4)\,,$ the diagonal matrix $t$ stands for an element from the maximal torus $T^3=\exp{(\mathfrak{t})},$ and the factor $a=\exp{(\mathfrak{a})}\exp{(\mathfrak{a}^\prime)}$ corresponds to a point in the double coset $SU(2)\times SU(2)\backslash SU(4)/T^3.$ Analyzing the uniqueness of the inverse of the above exponential mappings, we establish a logarithmic coordinate chart of the $SU(4)$ group manifold comprising 6 coordinates on the embedded manifold $ SU(2)\times SU(2) \subset SU(4)$ and 9 coordinates on three copies of the regular octahedron with the edge length $2\pi\sqrt{2}\,$. | 翻訳日:2024-08-28 14:23:37 公開日:2024-08-27 |
# CMIP6によるタービン位置対応風力予測に向けて
Towards turbine-location-aware multi-decadal wind power predictions with CMIP6 ( http://arxiv.org/abs/2408.14889v1 ) ライセンス: Link先を確認 | Nina Effenberger, Nicole Ludwig, | (参考訳) グリッド内の再生可能エネルギーの増加に伴い、数十年にわたる長期風力予測がより重要となる。
これらの長期予測では、気候変動を考慮に入れられるため、気候データが不可欠である。
しかし、気候モデルの解像度は、しばしば非常に粗い。
本稿では,ガウシアン・プロセスのダウンスケーリング時にタービン位置を含めることにより,CMIP6気候モデルの低分解能にもかかわらず,風力の予測を行うことができることを示す。
この研究は、地球規模の気候モデル出力を用いたマルチデスカルタービン位置対応風力発電予測に向けた第一歩である。
With the increasing amount of renewable energy in the grid, long-term wind power forecasting for multiple decades becomes more critical. In these long-term forecasts, climate data is essential as it allows us to account for climate change. Yet the resolution of climate models is often very coarse. In this paper, we show that by including turbine locations when downscaling with Gaussian Processes, we can generate valuable aggregate wind power predictions despite the low resolution of the CMIP6 climate models. This work is a first step towards multi-decadal turbine-location-aware wind power forecasting using global climate model output. | 翻訳日:2024-08-28 14:23:37 公開日:2024-08-27 |
# HMMに基づく強制的ビタビアライメントを用いた大規模アノテート音楽データセットの開発
Development of Large Annotated Music Datasets using HMM-based Forced Viterbi Alignment ( http://arxiv.org/abs/2408.14890v1 ) ライセンス: Link先を確認 | S. Johanan Joysingh, P. Vijayalakshmi, T. Nagarajan, | (参考訳) データセットはあらゆる機械学習タスクに不可欠です。
AMT(Automatic Music Transcription)は、ソリューションの達成方法に応じて大量のデータを必要とするタスクである。
音楽データセットが音声と時間順の書き起こしで完備していると、音楽経験を持つ人々の努力が要るという事実を考えると、その作業はさらに困難になる。
音楽経験は、楽器の演奏や、注釈付けや転写の検証に必要である。
本稿では,このプロセスの合理化に役立ち,特定の機器からデータセットを取得するタスクを簡単かつ効率的にする手法を提案する。
我々は、事前に定義されたギターエクササイズと隠れマルコフモデル(HMM)に基づく強制的なビタビアライメントを用いてこれを実現する。
ギターのエクササイズはシンプルに設計されています。
ノートシーケンスはすでに定義されているので、HMMベースの強制的なビタビアライメントはこれらのオーディオファイルのタイムアラインな書き起こしを提供する。
書き起こしのオンセットは手作業で検証され、ラベルは最大10ms、平均は5msである。
提案された研究の貢献は2つある。
一 いかなる楽器、特にモノフォニックのデータセットを生成するためのよく整合的で効率的な方法
二 ウェーブファイル及びラベルファイルの形式で書き起こしを含むアコースティック・プレクトルムギターデータセット。
この方法は、異なる機器のためのATTシステムを構築するための具体的なデータセットを構築するための予備的なステップとして役立つ。
Datasets are essential for any machine learning task. Automatic Music Transcription (AMT) is one such task, where considerable amount of data is required depending on the way the solution is achieved. Considering the fact that a music dataset, complete with audio and its time-aligned transcriptions would require the effort of people with musical experience, it could be stated that the task becomes even more challenging. Musical experience is required in playing the musical instrument(s), and in annotating and verifying the transcriptions. We propose a method that would help in streamlining this process, making the task of obtaining a dataset from a particular instrument easy and efficient. We use predefined guitar exercises and hidden Markov model(HMM) based forced viterbi alignment to accomplish this. The guitar exercises are designed to be simple. Since the note sequence are already defined, HMM based forced viterbi alignment provides time-aligned transcriptions of these audio files. The onsets of the transcriptions are manually verified and the labels are accurate up to 10ms, averaging at 5ms. The contributions of the proposed work is two fold, i) a well streamlined and efficient method for generating datasets for any instrument, especially monophonic and, ii) an acoustic plectrum guitar dataset containing wave files and transcriptions in the form of label files. This method will aid as a preliminary step towards building concrete datasets for building AMT systems for different instruments. | 翻訳日:2024-08-28 14:23:37 公開日:2024-08-27 |
# 対流性サルカスムにおける韻律と意味的キュウリの機能的トレードオフ
A Functional Trade-off between Prosodic and Semantic Cues in Conveying Sarcasm ( http://arxiv.org/abs/2408.14892v1 ) ライセンス: Link先を確認 | Zhu Li, Xiyuan Gao, Yuqing Zhang, Shekhar Nayak, Matt Coler, | (参考訳) 本研究では, サルカズムの音響的特徴について検討し, 音声の正当性と韻律的キュー信号の有無の相互作用について検討した。
テレビ番組から編集されたサーカシックな発話のデータセットを用いて,3つの異なるサルカズムカテゴリーに属する発話とキーフレーズの韻律的特徴(埋め込み,命題,ジョーク)を解析し,その意味的手がかりの程度を中性表現と比較する。
その結果,sarcastic の意味が意味論から有意であるフレーズでは,sarcastic cues が意味論から明らかでない場合よりも関連性が低く,句レベルでのsarcastic cues とsemantic cues のトレードオフが示唆された。
これらの知見は,意味的に密接なシャーカスト表現における韻律的調節への依存度を低下させ,シャーカスト意図の伝達を形作るニュアンス的な相互作用を示す。
This study investigates the acoustic features of sarcasm and disentangles the interplay between the propensity of an utterance being used sarcastically and the presence of prosodic cues signaling sarcasm. Using a dataset of sarcastic utterances compiled from television shows, we analyze the prosodic features within utterances and key phrases belonging to three distinct sarcasm categories (embedded, propositional, and illocutionary), which vary in the degree of semantic cues present, and compare them to neutral expressions. Results show that in phrases where the sarcastic meaning is salient from the semantics, the prosodic cues are less relevant than when the sarcastic meaning is not evident from the semantics, suggesting a trade-off between prosodic and semantic cues of sarcasm at the phrase level. These findings highlight a lessened reliance on prosodic modulation in semantically dense sarcastic expressions and a nuanced interaction that shapes the communication of sarcastic intent. | 翻訳日:2024-08-28 14:23:37 公開日:2024-08-27 |
# 光活性固体スピン系におけるノイズ抑制とスケーラブル走査のための時空間符号化読み出し
Time-space encoded readout for noise suppression and scalable scanning in optically active solid-state spin systems ( http://arxiv.org/abs/2408.14894v1 ) ライセンス: Link先を確認 | Joachim P. Leibold, Nick R. von Grafenstein, Xiaoxun Chen, Linda Müller, Karl D. Briegel, Dominik B. Bucher, | (参考訳) 光活性固体スピン系は量子技術において重要な役割を果たす。
我々は、時間と空間の両方でスピン操作を光学的読み出しから切り離す新しい読み出し方式、T2S(Time to Space)を導入する。
これは、関心領域内のスピン状態を制御することで実現され、続いて、アコホースト光変調器を用いて光読み出し位置を高速に走査する。
時間追跡により、光学的読み出し位置は時間の関数として符号化される。
ダイヤモンド中の窒素空洞(NV)中心アンサンブルを用いて,T2S法は様々なナノ・マイクロセンシングシナリオにおいて,効率的な共振モードノイズキャンセリングのための相関実験を可能にすることを最初に実証した。
第2の例では、カメラを必要とせず、従来の走査法に比べて数百倍の速度でデータを取得する可能性がある、スケーラブルなマルチピクセル画像を示す。
我々は、この技術が広く採用されることを期待しており、光学的に対応可能なスピンシステムで一般的に使用されるもの以外に、追加のコンポーネントは不要である。
Optically active solid-state spin systems play an important role in quantum technologies. We introduce a new readout scheme, termed Time to Space (T2S) encoding which decouples spin manipulation from optical readout both temporally and spatially. This is achieved by controlling the spin state within a region of interest, followed by rapid scanning of the optical readout position using an acousto-optic modulator. Time tracking allows the optical readout position to be encoded as a function of time. Using nitrogen-vacancy (NV) center ensembles in diamond, we first demonstrate that the T2S scheme enables correlated experiments for efficient common mode noise cancellation in various nano- and microscale sensing scenarios. In the second example, we show highly scalable multi-pixel imaging that does not require a camera and has the potential to accelerate data acquisition by several hundred times compared to conventional scanning methods. We anticipate widespread adoption of this technique, as it requires no additional components beyond those commonly used in optically addressable spin systems. | 翻訳日:2024-08-28 14:23:37 公開日:2024-08-27 |
# VHAKG: 日常活動の同期的マルチビュー映像に基づくマルチモーダル知識グラフ
VHAKG: A Multi-modal Knowledge Graph Based on Synchronized Multi-view Videos of Daily Activities ( http://arxiv.org/abs/2408.14895v1 ) ライセンス: Link先を確認 | Shusaku Egami, Takahiro Ugai, Ken Fukuda, | (参考訳) マルチモーダル・ナレッジグラフ(MMKG)は,モダリティを越えた知識処理や機械学習を実現するリソースとして注目されている。
しかし、日々の活動など複数のイベントからなるビデオのためのMMKGの構築はまだ初期段階にある。
本稿では,日常活動の同期型マルチビューシミュレートビデオに基づくMMKGを構築する。
私たちのMMKGは、日常生活ビデオの内容をイベント中心の知識として表現するだけでなく、ビデオフレーム内のボックスのバウンディングなど、フレームごとのきめ細かい変更も含んでいます。
さらに、MMKGをクエリするためのサポートツールも提供しています。
アプリケーション例として,我々のMMKGは,適切なタスクに必要となる視覚言語データセットを提供することで,視覚言語モデルのベンチマークを容易にすることを実証する。
Multi-modal knowledge graphs (MMKGs), which ground various non-symbolic data (e.g., images and videos) into symbols, have attracted attention as resources enabling knowledge processing and machine learning across modalities. However, the construction of MMKGs for videos consisting of multiple events, such as daily activities, is still in the early stages. In this paper, we construct an MMKG based on synchronized multi-view simulated videos of daily activities. Besides representing the content of daily life videos as event-centric knowledge, our MMKG also includes frame-by-frame fine-grained changes, such as bounding boxes within video frames. In addition, we provide support tools for querying our MMKG. As an application example, we demonstrate that our MMKG facilitates benchmarking vision-language models by providing the necessary vision-language datasets for a tailored task. | 翻訳日:2024-08-28 14:23:37 公開日:2024-08-27 |
# MeshUp: ブレンドスコア蒸留によるマルチターゲットメッシュ変形
MeshUp: Multi-Target Mesh Deformation via Blended Score Distillation ( http://arxiv.org/abs/2408.14899v1 ) ライセンス: Link先を確認 | Hyunwoo Kim, Itai Lang, Noam Aigerman, Thibault Groueix, Vladimir G. Kim, Rana Hanocka, | (参考訳) 複数のターゲット概念に対して3Dメッシュを変形させる手法であるMeshUpを提案し、各概念が表現される領域を直感的に制御する。
同様に、概念はテキストクエリ、例えば「犬」や「カメ」、あるいはインスピレーション付きイメージとして定義することができ、局所領域はメッシュ上の任意の数の頂点として選択することができる。
我々は、Blended Score Distillation (BSD)と呼ばれる新しいスコア蒸留手法を用いて、概念の影響を効果的に制御し、それらを混合することができる。
BSDは拡散モデルの縮退するU-Netの各注意層上で、変形勾配が計算される統一された縮退パイプラインに対象ごとの活性化を抽出し注入する。
これらのアクティベーションの発現を局在化するために、メッシュ表面の確率論的関心領域(ROI)マップを作成し、これらのアクティベーションの発現を制御するために使用する3D一貫性マスクに変換する。
BSDの有効性を実証的に示し、様々なメッシュを複数の目的に向けて変形させることができることを示す。
We propose MeshUp, a technique that deforms a 3D mesh towards multiple target concepts, and intuitively controls the region where each concept is expressed. Conveniently, the concepts can be defined as either text queries, e.g., "a dog" and "a turtle," or inspirational images, and the local regions can be selected as any number of vertices on the mesh. We can effectively control the influence of the concepts and mix them together using a novel score distillation approach, referred to as the Blended Score Distillation (BSD). BSD operates on each attention layer of the denoising U-Net of a diffusion model as it extracts and injects the per-objective activations into a unified denoising pipeline from which the deformation gradients are calculated. To localize the expression of these activations, we create a probabilistic Region of Interest (ROI) map on the surface of the mesh, and turn it into 3D-consistent masks that we use to control the expression of these activations. We demonstrate the effectiveness of BSD empirically and show that it can deform various meshes towards multiple objectives. | 翻訳日:2024-08-28 14:23:37 公開日:2024-08-27 |
# マジック波長光ツイーザにおける長寿命分子の絡み合い
Long-lived entanglement of molecules in magic-wavelength optical tweezers ( http://arxiv.org/abs/2408.14904v1 ) ライセンス: Link先を確認 | Daniel K. Ruttley, Tom R. Hepworth, Alexander Guttridge, Simon L. Cornish, | (参考訳) 量子制御と粒子の絡み合いの実現は、量子技術と基礎科学の進展に不可欠である。
この領域における重要な発展は、様々なシステムで達成されている。
この文脈では、超低温の極性分子は、振動と回転に関連したより複雑な内部構造と長距離相互作用の存在により、新しくユニークな機会を提供する。
しかし、同じ性質は分子を環境に非常に敏感にし、いくつかの応用においてそのコヒーレンスと有用性に影響を与える。
ここでは、回転磁性光ツイーザを用いて、例外的に制御された環境を工学的に構築することにより、ヘルツスケール相互作用を用いて、一対の分子間の長寿命の絡み合いを実現できることを示す。
これまで報告された2分子ベル状態(0.976^{+0.014}_{-0.016}$)の最も高い忠実度を示すとともに、2分子間のマイクロ波駆動型エンタングゲートを初めて実現し、デコヒーレンスのない部分空間で分子を調製した。
このマジック波長トラップは、0.5秒以上の測定可能な減衰を伴わず、量子化メトロジー、超低温化学、量子シミュレーション、量子計算、量子メモリのための回転状態の利用のための新たな道を開くことで、絡み合いを保っていることを示す。
複雑な分子系への精密な量子制御の拡張により、量子科学の多くの領域にまたがる追加の自由度が利用できるようになる。
Realising quantum control and entanglement of particles is crucial for advancing both quantum technologies and fundamental science. Significant developments in this domain have been achieved in a variety of systems. In this context, ultracold polar molecules offer new and unique opportunities due to their more complex internal structure associated with vibration and rotation, coupled to the existence of long-range interactions. However, the same properties make molecules highly sensitive to their environment, impacting their coherence and utility in some applications. Here we show that by engineering an exceptionally controlled environment using rotationally-magic optical tweezers, we can achieve long-lived entanglement between pairs of molecules using hertz-scale interactions. We demonstrate the highest reported fidelity to date for a two-molecule Bell state ($0.976^{+0.014}_{-0.016}$) and present the first realisation of a microwave-driven entangling gate between two molecules, preparing the molecules in a decoherence-free subspace. We show that the magic-wavelength trap preserves the entanglement, with no measurable decay over 0.5 s, opening new avenues for quantum-enhanced metrology, ultracold chemistry and the use of rotational states for quantum simulation, quantum computation and as quantum memories. The extension of precise quantum control to complex molecular systems will allow their additional degrees of freedom to be exploited across many domains of quantum science. | 翻訳日:2024-08-28 14:23:37 公開日:2024-08-27 |
# Margins:ロングコンテキスト検索のための推論パターンの改善
Writing in the Margins: Better Inference Pattern for Long Context Retrieval ( http://arxiv.org/abs/2408.14906v1 ) ライセンス: Link先を確認 | Melisa Russak, Umar Jamil, Christopher Bryant, Kiran Kamble, Axel Magnuson, Mateusz Russak, Waseem AlShikh, | (参考訳) 本稿では,検索指向タスクにおける長い入力シーケンスの処理を最適化するために,大規模言語モデルのための新しい推論パターンであるLinging in the Margins (WiM)を紹介する。
このアプローチはキーバリューキャッシュのチャンクプリフィルを利用してセグメントワイズ推論を行い、特定のタスクに向けてモデルを導く中間情報("margins")の生成と分類とともに、広範囲なコンテキストの効率的な処理を可能にする。
この方法は、微調整を必要とせず、計算オーバーヘッドを極端に増大させながら、市販モデルの性能を大幅に向上させる。
具体的には、WiMは推論スキル(HotpotQA、MultiHop-RAG)の平均7.5%の精度向上と、集約タスク(CWE)のF1スコアの30.0%以上の増加を提供する。
さらに,提案パターンが対話型検索設計にどのように適合するかを示し,コンテキスト処理の進捗状況に関する継続的な更新をエンドユーザに提供するとともに,関連する情報の統合を最終応答に向ける。
We release our implementation of WiM using Hugging Face Transformers library at https://github.com/writer/writing-in-the-margins。
In this paper, we introduce Writing in the Margins (WiM), a new inference pattern for Large Language Models designed to optimize the handling of long input sequences in retrieval-oriented tasks. This approach leverages the chunked prefill of the key-value cache to perform segment-wise inference, which enables efficient processing of extensive contexts along with the generation and classification of intermediate information ("margins") that guide the model towards specific tasks. This method increases computational overhead marginally while significantly enhancing the performance of off-the-shelf models without the need for fine-tuning. Specifically, we observe that WiM provides an average enhancement of 7.5% in accuracy for reasoning skills (HotpotQA, MultiHop-RAG) and more than a 30.0% increase in the F1-score for aggregation tasks (CWE). Additionally, we show how the proposed pattern fits into an interactive retrieval design that provides end-users with ongoing updates about the progress of context processing, and pinpoints the integration of relevant information into the final response. We release our implementation of WiM using Hugging Face Transformers library at https://github.com/writer/writing-in-the-margins. | 翻訳日:2024-08-28 14:23:37 公開日:2024-08-27 |
# Triplètoile: マイクロブログテキストからの知識の抽出
Triplètoile: Extraction of Knowledge from Microblogging Text ( http://arxiv.org/abs/2408.14908v1 ) ライセンス: Link先を確認 | Vanni Zavarella, Sergio Consoli, Diego Reforgiato Recupero, Gianni Fenu, Simone Angioni, Davide Buscaldi, Danilo Dessì, Francesco Osborne, | (参考訳) 近年,学術出版物や特許などの資料から知識グラフを自動的に抽出する手法やパイプラインが多数出現している。
しかし、マイクロブログ投稿やニュースなどの代替テキストソースを組み込むためにこれらの手法を適用することは、一般にこれらのソースに見られるオープンドメインエンティティや関係のモデル化に苦慮しているため、難しいことが証明されている。
本稿では,ソーシャルメディアプラットフォーム上のマイクロブログ投稿からオープンドメインエンティティを含む知識グラフの抽出に適した情報抽出パイプラインを提案する。
我々のパイプラインは、単語の埋め込みに対する階層的クラスタリングを通じて、依存関係解析を活用し、教師なしの方法でエンティティ関係を分類する。
本稿では,デジタルトランスフォーメーションに関する1万ツイートのコーパスからセマンティック・トリプルを抽出し,生成した知識グラフを公開するユースケースを提案する。
同じデータセット上で、2つの実験的な評価を行い、システムは95%以上の精度でトリプルを生成し、類似のパイプラインを約5%の精度で上回りながら、比較的多くのトリプルを生成することを示した。
Numerous methods and pipelines have recently emerged for the automatic extraction of knowledge graphs from documents such as scientific publications and patents. However, adapting these methods to incorporate alternative text sources like micro-blogging posts and news has proven challenging as they struggle to model open-domain entities and relations, typically found in these sources. In this paper, we propose an enhanced information extraction pipeline tailored to the extraction of a knowledge graph comprising open-domain entities from micro-blogging posts on social media platforms. Our pipeline leverages dependency parsing and classifies entity relations in an unsupervised manner through hierarchical clustering over word embeddings. We provide a use case on extracting semantic triples from a corpus of 100 thousand tweets about digital transformation and publicly release the generated knowledge graph. On the same dataset, we conduct two experimental evaluations, showing that the system produces triples with precision over 95% and outperforms similar pipelines of around 5% in terms of precision, while generating a comparatively higher number of triples. | 翻訳日:2024-08-28 14:23:37 公開日:2024-08-27 |
# SpikingSSMs: スパースと並列スパイク状態空間モデルによる長いシーケンスの学習
SpikingSSMs: Learning Long Sequences with Sparse and Parallel Spiking State Space Models ( http://arxiv.org/abs/2408.14909v1 ) ライセンス: Link先を確認 | Shuaijie Shen, Chao Wang, Renzhuo Huang, Yan Zhong, Qinghai Guo, Zhichao Lu, Jianguo Zhang, Luziwei Leng, | (参考訳) エネルギー消費の低いネットワークとして知られる、スパイクニューラルネットワーク(SNN)は、過去数十年で多くの注目を集めている。
SNNは、視覚タスクのための人工知能ニューラルネットワーク(ANN)と競合する傾向にあるが、その固有の時間的ダイナミクスにもかかわらず、長いシーケンスタスクに使用されることは滅多にない。
本研究では、状態空間モデル(SSM)のシーケンス学習能力を利用して、長いシーケンス学習のためのスパイキング状態空間モデル(SpikingSSM)を開発する。
樹状ニューロン構造にインスパイアされた我々は、神経力学を元のSSMブロックと階層的に統合し、スパースシナプス計算を実現した。
さらに、イベント駆動型神経力学と並列計算との競合を解決するために、リセット後の膜電位を正確に予測し、学習可能なしきい値に適合する軽量サロゲート動的ネットワークを提案する。
長距離アリーナベンチマークタスクでは、SpikeSSMは最先端のSSMと競合する性能を達成し、一方、平均90%のネットワーク幅で実現している。
言語モデリングでは、WikiText-103データセット上の既存のスパイキング大言語モデル(LLM)をわずか3分の1のモデルサイズで大幅に上回り、低計算コストLLMのバックボーンアーキテクチャとしての可能性を示している。
Known as low energy consumption networks, spiking neural networks (SNNs) have gained a lot of attention within the past decades. While SNNs are increasing competitive with artificial neural networks (ANNs) for vision tasks, they are rarely used for long sequence tasks, despite their intrinsic temporal dynamics. In this work, we develop spiking state space models (SpikingSSMs) for long sequence learning by leveraging on the sequence learning abilities of state space models (SSMs). Inspired by dendritic neuron structure, we hierarchically integrate neuronal dynamics with the original SSM block, meanwhile realizing sparse synaptic computation. Furthermore, to solve the conflict of event-driven neuronal dynamics with parallel computing, we propose a light-weight surrogate dynamic network which accurately predicts the after-reset membrane potential and compatible to learnable thresholds, enabling orders of acceleration in training speed compared with conventional iterative methods. On the long range arena benchmark task, SpikingSSM achieves competitive performance to state-of-the-art SSMs meanwhile realizing on average 90\% of network sparsity. On language modeling, our network significantly surpasses existing spiking large language models (spikingLLMs) on the WikiText-103 dataset with only a third of the model size, demonstrating its potential as backbone architecture for low computation cost LLMs. | 翻訳日:2024-08-28 14:13:27 公開日:2024-08-27 |
# 変圧器は数え上げ幾何学ができるか?
Can Transformers Do Enumerative Geometry? ( http://arxiv.org/abs/2408.14915v1 ) ライセンス: Link先を確認 | Baran Hashemi, Roderic G. Corominas, Alessandro Giacchetto, | (参考訳) トランスフォーマーはどのようにして数え上げ幾何学をモデル化し学習するか?
数学者と機械の協調による帰納的知識発見におけるトランスフォーマーの堅牢な方法とは何か?
本研究では,曲線のモジュライ空間上の$\psi$クラス交叉数の解析において,計算列挙幾何学の新しいパラダイムを導入する。
列挙問題を連続最適化タスクとして定式化することにより、基礎となる量子エアリー構造に基づく$\psi$クラス交叉数を計算するためのTransformerベースのモデルを開発する。
有限の属数に対して、我々のモデルは、非常に広い範囲の値である10^{-45}$から10^{45}$までの交叉数を回帰することができる。
交叉数の再帰的挙動を捉えるための適切な帰納バイアスとして,新しいアクティベーション関数であるダイナミックレンジアクティベーター(DRA)を提案する。
さらに,$\psi$-classの交点と所要精度の厳密な異方性を考えると,特徴点数に気付く動的スライディングウインドウを用いて,コンフォーマル予測による予測の不確かさを定量化する。
次に、単に交叉数を計算し、トランスフォーマーの列挙的「世界モデル」を探索する。
一連の因果推論と相関解釈可能性分析を通じて,トランスフォーマーがビラソーロ制約を純粋にデータ駆動方式でモデル化していることを示す。
さらに、帰納的仮説テストを通じて、$\psi$クラス交叉数の大属漸近に現れるいくつかの値の理解の証拠を提供する。
How can Transformers model and learn enumerative geometry? What is a robust procedure for using Transformers in abductive knowledge discovery within a mathematician-machine collaboration? In this work, we introduce a new paradigm in computational enumerative geometry in analyzing the $\psi$-class intersection numbers on the moduli space of curves. By formulating the enumerative problem as a continuous optimization task, we develop a Transformer-based model for computing $\psi$-class intersection numbers based on the underlying quantum Airy structure. For a finite range of genera, our model is capable of regressing intersection numbers that span an extremely wide range of values, from $10^{-45}$ to $10^{45}$. To provide a proper inductive bias for capturing the recursive behavior of intersection numbers, we propose a new activation function, Dynamic Range Activator (DRA). Moreover, given the severe heteroscedasticity of $\psi$-class intersections and the required precision, we quantify the uncertainty of the predictions using Conformal Prediction with a dynamic sliding window that is aware of the number of marked points. Next, we go beyond merely computing intersection numbers and explore the enumerative "world-model" of the Transformers. Through a series of causal inference and correlational interpretability analyses, we demonstrate that Transformers are actually modeling Virasoro constraints in a purely data-driven manner. Additionally, we provide evidence for the comprehension of several values appearing in the large genus asymptotic of $\psi$-class intersection numbers through abductive hypothesis testing. | 翻訳日:2024-08-28 14:13:27 公開日:2024-08-27 |
# リアルタイムイベント誘導型低照度映像の高機能化とデブロアリングを目指して
Towards Real-world Event-guided Low-light Video Enhancement and Deblurring ( http://arxiv.org/abs/2408.14916v1 ) ライセンス: Link先を確認 | Taewoo Kim, Jaeseok Jeong, Hoonhee Cho, Yuhwan Jeong, Kuk-Jin Yoon, | (参考訳) 低照度環境では、フレームベースのカメラでビデオを撮影するには長時間の露光が必要で、動きがぼやけ、視界が低下する。
フレームベースの動きの鈍化と低照度化が研究されているが、それらは依然として重大な課題である。
イベントカメラは、低照度環境での画像品質を改善し、動きのぼやけに対処するための有望なソリューションとして登場した。
この2つの重要な利点は、高ダイナミックレンジによる低照度でもシーンの詳細をうまく捉え、高時間分解能による長時間露光時の動作情報を効果的に捉えることである。
イベントカメラを別々に使用した低照度化や動作不良に対処する努力にもかかわらず、以前の作業は同時には対応していない。
そこで我々はまず,ビームスプリッタに基づくハイブリッドカメラシステムを用いて,イベント誘導型低照度化とデブロアリングのための実世界のデータセットを構築した。
その後、これらのタスクを効果的に処理するためのエンドツーエンドフレームワークを導入します。
我々のフレームワークは、イベントやフレームからの時間情報を効率的に活用するためのモジュールを組み込んでいます。
さらに,主構造情報を強化しつつ,雑音抑圧のための低域通過フィルタを用いたクロスモーダル特徴情報を利用するモジュールを提案する。
提案手法は,共同作業に対処する既存の手法よりも優れている。
私たちのプロジェクトページはhttps://github.com/intelpro/ELEDNet.comで公開されています。
In low-light conditions, capturing videos with frame-based cameras often requires long exposure times, resulting in motion blur and reduced visibility. While frame-based motion deblurring and low-light enhancement have been studied, they still pose significant challenges. Event cameras have emerged as a promising solution for improving image quality in low-light environments and addressing motion blur. They provide two key advantages: capturing scene details well even in low light due to their high dynamic range, and effectively capturing motion information during long exposures due to their high temporal resolution. Despite efforts to tackle low-light enhancement and motion deblurring using event cameras separately, previous work has not addressed both simultaneously. To explore the joint task, we first establish real-world datasets for event-guided low-light enhancement and deblurring using a hybrid camera system based on beam splitters. Subsequently, we introduce an end-to-end framework to effectively handle these tasks. Our framework incorporates a module to efficiently leverage temporal information from events and frames. Furthermore, we propose a module to utilize cross-modal feature information to employ a low-pass filter for noise suppression while enhancing the main structural information. Our proposed method significantly outperforms existing approaches in addressing the joint task. Our project pages are available at https://github.com/intelpro/ELEDNet. | 翻訳日:2024-08-28 14:13:27 公開日:2024-08-27 |
# PMSN:マルチスケール時間処理のための並列マルチコンパートメントスパイクニューロン
PMSN: A Parallel Multi-compartment Spiking Neuron for Multi-scale Temporal Processing ( http://arxiv.org/abs/2408.14917v1 ) ライセンス: Link先を確認 | Xinyi Chen, Jibin Wu, Chenxiang Ma, Yinsong Yan, Yujie Wu, Kay Chen Tan, | (参考訳) スパイキングニューラルネットワーク(SNN)は、脳にインスパイアされたエネルギー効率の高い計算システムを実現する大きな可能性を秘めている。
しかし、現在のSNNは、生物学的に比較すると、マルチスケールの時間処理では依然として不足している。
この制限により、多くのパターン認識タスクにおいて、異なる時間スケールで異なる情報を持つパフォーマンスが低下した。
この問題に対処するため,我々はParallel Multi-compartment Spiking Neuron (PMSN)と呼ばれる新しいスパイクニューロンモデルを提案した。
PMSNは、複数の相互作用するサブストラクチャを組み込んで生物学的ニューロンをエミュレートし、サブストラクチャの数を柔軟に調整することで、様々な時間スケールで時間情報を効果的に表現することができる。
さらに,提案モデルの複雑さの増加に伴う計算負担に対処するため,ニューロン更新の時間依存性を分離し,異なる時間ステップで並列化トレーニングを可能にする2つの並列化手法を提案する。
パターン認識タスクの多岐にわたる実験結果から,PMSNの優位性が確認された。
他の最先端のスパイクニューロンモデルよりも、時間的処理能力、トレーニング速度、計算コストに優れています。
具体的には、一般的に使用されているLeaky Integrate-and-Fireニューロンと比較して、PMSNは、計算コストを同等に保ちながら、Sequential CIFAR10データセット上で10$\times$と30%の精度でシミュレーションアクセラレーションを提供する。
Spiking Neural Networks (SNNs) hold great potential to realize brain-inspired, energy-efficient computational systems. However, current SNNs still fall short in terms of multi-scale temporal processing compared to their biological counterparts. This limitation has resulted in poor performance in many pattern recognition tasks with information that varies across different timescales. To address this issue, we put forward a novel spiking neuron model called Parallel Multi-compartment Spiking Neuron (PMSN). The PMSN emulates biological neurons by incorporating multiple interacting substructures and allows for flexible adjustment of the substructure counts to effectively represent temporal information across diverse timescales. Additionally, to address the computational burden associated with the increased complexity of the proposed model, we introduce two parallelization techniques that decouple the temporal dependencies of neuronal updates, enabling parallelized training across different time steps. Our experimental results on a wide range of pattern recognition tasks demonstrate the superiority of PMSN. It outperforms other state-of-the-art spiking neuron models in terms of its temporal processing capacity, training speed, and computation cost. Specifically, compared with the commonly used Leaky Integrate-and-Fire neuron, PMSN offers a simulation acceleration of over 10 $\times$ and a 30 % improvement in accuracy on Sequential CIFAR10 dataset, while maintaining comparable computational cost. | 翻訳日:2024-08-28 14:13:27 公開日:2024-08-27 |
# 長距離リドベルク分子の安定化機構としての非断熱結合
Non-adiabatic couplings as a stabilization mechanism in long-range Rydberg molecules ( http://arxiv.org/abs/2408.14919v1 ) ライセンス: Link先を確認 | Aileen A. T. Durst, Milena Simić, Neethu Abraham, Matthew T. Eiles, | (参考訳) 長距離リドベルク分子は通常、その振動ポテンシャルエネルギー曲線で形成される井戸に結合している。
アルカリリドベルク分子では、散乱形状共鳴によって誘導される急激なバタフライポテンシャルエネルギー曲線からのレベル反発によって、これらのポテンシャル井戸が破壊された場合でも、境界振動状態が存在する。
この場合の結合は量子反射に起因している。
しかし、量子反射が起こるポテンシャルエネルギーランドスケープの急速に変化する領域は、非断熱結合が重要になる領域としばしば一致する。
量子反射が唯一の結合機構であるボルン・オッペンハイマー近似で計算された分子状態と結合チャネル方程式の完全な集合から得られる分子状態を比較することにより、非断熱カップリングが振動エネルギーと寿命に与える影響を評価することができる。
以上の結果から, これらの結合は, 前解離や非放射遷移から振動状態を保護し, 分子を安定化させることができることが示唆された。
また、非断熱結合が結合を完全に支配し、原子リドベルクの寿命で分子寿命が飽和する極端なケースもある。
Long-range Rydberg molecules are typically bound in wells formed in their oscillatory potential energy curves. In alkaline Rydberg molecules, bound vibrational states exist even when these potential wells are disrupted by level repulsion from the steep butterfly potential energy curve induced by a scattering shape resonance. The binding in this case is attributed to quantum reflection. However, the rapidly varying regions of the potential energy landscape where quantum reflection occurs often coincide with regions where non-adiabatic coupling becomes significant. By comparing the molecular states calculated within the Born-Oppenheimer approximation, where quantum reflection is the only binding mechanism, with those obtained from the full set of coupled channel equations, we can assess the effects of non-adiabatic coupling on vibrational energies and lifetimes. Our findings show that these couplings can stabilize the molecule by providing an additional barrier which protects the vibrational states from predissociation and non-radiative transitions. There can also be extreme cases where non-adiabatic coupling completely dominates the binding and the molecular lifetimes saturate at the atomic Rydberg lifetime. | 翻訳日:2024-08-28 14:13:27 公開日:2024-08-27 |
# 距離フォワード学習:高速オンチップ学習に向けたフォワードフォワードアルゴリズムの強化
Distance-Forward Learning: Enhancing the Forward-Forward Algorithm Towards High-Performance On-Chip Learning ( http://arxiv.org/abs/2408.14925v1 ) ライセンス: Link先を確認 | Yujie Wu, Siyuan Xu, Jibin Wu, Lei Deng, Mingkun Xu, Qinghao Wen, Guoqi Li, | (参考訳) Forward-Forward (FF)アルゴリズムは、最近、メモリ効率と高度に並列化された計算上の利点とともに生物学的な妥当性を提供する、バックプロパゲーション(BP)の限界に対処する局所学習法として提案されている。
しかし、理論的な支援が不十分であり、効果的な学習戦略が欠如していることから、準最適性能と一般化の欠如に悩まされている。
本研究では,距離メトリック学習を用いてFFを再構成し,その局所的な計算特性を保ちながら,教師付き視覚タスクにおけるFF性能を向上させるための距離フォワードアルゴリズム(DF)を提案する。
これを実現するために、セントロイドに基づくメートル法学習のレンズを通してFFを再解釈し、良性に基づくNペアマージンの損失を発生させ、識別的特徴の学習を容易にする。
さらに, 階層共同ローカル更新戦略を統合し, ゆるやかなローカルパラメータ更新による情報損失を低減する。
本手法は既存のFFモデルおよび他の先進的な局所学習手法を超越し,MNISTでは99.7\%,CIFAR-10では88.2\%,CIFAR-100では59\%,SVHNでは95.9\%,ImageNetteでは82.5\%である。
さらに,複数のハードウェア関連ノイズに対して強い堅牢性を示し,オンライン学習とニューロモルフィックチップ上でのエネルギー効率の計算の可能性を示している。
The Forward-Forward (FF) algorithm was recently proposed as a local learning method to address the limitations of backpropagation (BP), offering biological plausibility along with memory-efficient and highly parallelized computational benefits. However, it suffers from suboptimal performance and poor generalization, largely due to inadequate theoretical support and a lack of effective learning strategies. In this work, we reformulate FF using distance metric learning and propose a distance-forward algorithm (DF) to improve FF performance in supervised vision tasks while preserving its local computational properties, making it competitive for efficient on-chip learning. To achieve this, we reinterpret FF through the lens of centroid-based metric learning and develop a goodness-based N-pair margin loss to facilitate the learning of discriminative features. Furthermore, we integrate layer-collaboration local update strategies to reduce information loss caused by greedy local parameter updates. Our method surpasses existing FF models and other advanced local learning approaches, with accuracies of 99.7\% on MNIST, 88.2\% on CIFAR-10, 59\% on CIFAR-100, 95.9\% on SVHN, and 82.5\% on ImageNette, respectively. Moreover, it achieves comparable performance with less than 40\% memory cost compared to BP training, while exhibiting stronger robustness to multiple types of hardware-related noise, demonstrating its potential for online learning and energy-efficient computation on neuromorphic chips. | 翻訳日:2024-08-28 14:13:27 公開日:2024-08-27 |
# 深層学習モデルを用いた胸部X線画像からのCOVID-19自動検出
Automatic Detection of COVID-19 from Chest X-ray Images Using Deep Learning Model ( http://arxiv.org/abs/2408.14927v1 ) ライセンス: Link先を確認 | Alloy Das, Rohit Agarwal, Rituparna Singh, Arindam Chowdhury, Debashis Nandi, | (参考訳) 新型コロナウイルス(2019-nCoV)による感染症は昨年から広く広がり、世界中に波及している。
これは、日常生活、世界経済、公衆衛生に前例のない影響を与えている。
したがって、この疾患の検出は、患者と医師の両方にとって、救命に重要である。
テストキットが限られているため、従来のRT-PCR(RT-PCR)を用いて、重篤な呼吸障害のある患者全員をテストするのも大変な作業である。
病院, 医療システムにおけるCovid-19検査キットの不足を克服するためには, 自動診断システムの導入が急務である。
診断法は主に2つの分類分類分類法とチェストX線撮影法に分類される。
本稿では,肺X線画像からのコンピュータコロナウイルス(2019-nCoV)検出のための新しい手法を提案する。
本稿では,ディープラーニングを用いた診断システムの有効性を示すモデルを提案する。
実験の結果,既存の既存手法と比較して,良好な性能と有望な結果を示す公開データセットを用いた提案モデルの評価を行った。
The infectious disease caused by novel corona virus (2019-nCoV) has been widely spreading since last year and has shaken the entire world. It has caused an unprecedented effect on daily life, global economy and public health. Hence this disease detection has life-saving importance for both patients as well as doctors. Due to limited test kits, it is also a daunting task to test every patient with severe respiratory problems using conventional techniques (RT-PCR). Thus implementing an automatic diagnosis system is urgently required to overcome the scarcity problem of Covid-19 test kits at hospital, health care systems. The diagnostic approach is mainly classified into two categories-laboratory based and Chest radiography approach. In this paper, a novel approach for computerized corona virus (2019-nCoV) detection from lung x-ray images is presented. Here, we propose models using deep learning to show the effectiveness of diagnostic systems. In the experimental result, we evaluate proposed models on publicly available data-set which exhibit satisfactory performance and promising results compared with other previous existing methods. | 翻訳日:2024-08-28 14:13:27 公開日:2024-08-27 |
# 逆変分オートエンコーダに基づく生成的アプローチによる化学不規則物質の分配関数のターゲティング
Targetin the partition function of chemically disordered materials with a generative approach based on inverse variational autoencoders ( http://arxiv.org/abs/2408.14928v1 ) ライセンス: Link先を確認 | Maciej J. Karcz, Luca Messina, Eiji Kawasaki, Emeric Bourasseau, | (参考訳) 化学的に不規則な物質の原子スケール特性の計算には、その広大な構成空間の効率的な探索が必要である。
モンテカルロ (Monte Carlo) や特殊準ランダム構造 (Special Quasirandom Structures) のような伝統的なアプローチでは、過剰な構成をサンプリングするか、構成空間が適切にカバーされていることを保証しない。
本研究では, 計算コストを最小に抑えた原子スケール特性の高精度な評価を行うために, 生成機械学習を用いて, 高精度な特性評価を行う手法を提案する。
本手法では,エンコーダとデコーダの逆の役割を持つ特定の種類の変分オートエンコーダを用いて,初期訓練データベースを必要としない教師なしアクティブラーニングスキームの適用を可能にする。
モデルは構成バッチを反復的に生成し、その特性は従来の原子スケール法で計算される。
これらの結果は、分割関数を推定するためにモデルにフィードバックされ、収束するまでプロセスを繰り返します。
本稿では, (U, Pu)O2混合酸化物燃料における点欠陥生成エネルギーと濃度の計算によるアプローチについて述べる。
さらに、MLモデルは、対象プロパティに影響を及ぼす物理的要因に関する貴重な洞察を提供する。
高エントロピー合金のような理想的または非理想的に乱れた材料において、原子スケールの拡散係数などの他の特性を探索するために一般的に応用できる。
Computing atomic-scale properties of chemically disordered materials requires an efficient exploration of their vast configuration space. Traditional approaches such as Monte Carlo or Special Quasirandom Structures either entail sampling an excessive amount of configurations or do not ensure that the configuration space has been properly covered. In this work, we propose a novel approach where generative machine learning is used to yield a representative set of configurations for accurate property evaluation and provide accurate estimations of atomic-scale properties with minimal computational cost. Our method employs a specific type of variational autoencoder with inverse roles for the encoder and decoder, enabling the application of an unsupervised active learning scheme that does not require any initial training database. The model iteratively generates configuration batches, whose properties are computed with conventional atomic-scale methods. These results are then fed back into the model to estimate the partition function, repeating the process until convergence. We illustrate our approach by computing point-defect formation energies and concentrations in (U, Pu)O2 mixed-oxide fuels. In addition, the ML model provides valuable insights into the physical factors influencing the target property. Our method is generally applicable to explore other properties, such as atomic-scale diffusion coefficients, in ideally or non-ideally disordered materials like high-entropy alloys. | 翻訳日:2024-08-28 14:13:27 公開日:2024-08-27 |
# 部分的フォールトトレラント量子コンピューティングアーキテクチャのためのトロッター時間進化のコンパイル
Compilation of Trotter-Based Time Evolution for Partially Fault-Tolerant Quantum Computing Architecture ( http://arxiv.org/abs/2408.14929v1 ) ライセンス: Link先を確認 | Yutaro Akahoshi, Riki Toshio, Jun Fujisaki, Hirotaka Oshima, Shintaro Sato, Keisuke Fujii, | (参考訳) 限られた資源で実用的な量子スピードアップを実現することは、学術と工業の両方において重要な課題である。
これを解決するために,「時空効率的なアナログ回転量子コンピューティングアーキテクチャ(STARアーキテクチャ)」と呼ばれる部分的にフォールトトレラントな量子コンピューティングアーキテクチャが最近提案されている。
このアーキテクチャは、リソース要件の最小化と、普遍的な量子計算に不可欠な非クリフォードゲートの精度の最大化に焦点を当てている。
しかし、リピート・アンティル・サクセス(RUS)プロトコルや状態注入のような非決定論的プロセスは、計算オーバーヘッドを著しく引き起こす可能性がある。
したがって、効率的なフォールトトレラント演算を用いることで、このオーバーヘッドを最小限に抑えるために論理回路を最適化することが不可欠である。
本稿では,STARアーキテクチャの有望な応用である2次元ハバードモデルハミルトンの時間発展をシミュレーションする効率的な手法を提案する。
並列インジェクションプロトコルとアダプティブインジェクション領域の更新という2つの手法を提案する。
これらを既存のfSWAP手法と統合することにより、2D Hubbardモデルのための効率的なTrotterベースの時間進化演算を開発する。
解析の結果, 単純直列コンパイルに比べて10倍以上の高速化が得られた。
この最適化されたコンパイルにより、2次元ハバードモデルの量子位相推定に必要な計算資源を推定できる。
物理誤差率が$p_{\rm phys} = 10^{-4}$のデバイスの場合、古典計算と比較して8\times 8$ Hubbardモデルよりも高速な基底状態エネルギー推定を実現するために約6.5 \times 10^4$ physical qubitsが必要であると推定する。
Achieving practical quantum speedup with limited resources is a crucial challenge in both academic and industrial communities. To address this, a partially fault-tolerant quantum computing architecture called ``space-time efficient analog rotation quantum computing architecture (STAR architecture)'' has been recently proposed. This architecture focuses on minimizing resource requirements while maximizing the precision of non-Clifford gates, essential for universal quantum computation. However, non-deterministic processes such as the repeat-until-success (RUS) protocol and state injection can introduce significant computational overhead. Therefore, optimizing the logical circuit to minimize this overhead by using efficient fault-tolerant operations is essential. This paper presents an efficient method for simulating the time evolution of the 2D Hubbard model Hamiltonian, a promising application of the STAR architecture. We present two techniques, parallel injection protocol and adaptive injection region updating, to reduce unnecessary time overhead specific to our architecture. By integrating these with the existing fSWAP technique, we develop an efficient Trotter-based time evolution operation for the 2D Hubbard model. Our analysis reveals an acceleration of over 10 times compared to naive serial compilation. This optimized compilation enables us to estimate the computational resources required for quantum phase estimation of the 2D Hubbard model. For devices with a physical error rate of $p_{\rm phys} = 10^{-4}$, we estimate that approximately $6.5 \times 10^4$ physical qubits are required to achieve faster ground state energy estimation of the $8\times8$ Hubbard model compared to classical computation. | 翻訳日:2024-08-28 14:13:27 公開日:2024-08-27 |
# イベント誘導映像の時間的アライメント
Cross-Modal Temporal Alignment for Event-guided Video Deblurring ( http://arxiv.org/abs/2408.14930v1 ) ライセンス: Link先を確認 | Taewoo Kim, Hoonhee Cho, Kuk-Jin Yoon, | (参考訳) ビデオデブロアリングは、隣接するビデオフレームから情報を効果的に集めて、1つのぼやけたフレームで不足したデータを補うことで、モーションブルビデオの復元結果の品質を高めることを目的としている。
しかし、連続的に激しい動きのぼやけた状況に直面した場合、フレームベースのビデオデブロワー法は、隣接するビデオフレーム間の正確な時間対応を見出すことができず、性能が低下する。
この制限に対処するために,イベントカメラをマイクロ秒時間分解能で活用することで,映像の劣化を解消することを目的とする。
イベントカメラの高密度時間分解能をフル活用するために,2つのモジュールを提案する。
1)フレーム内特徴強調は、1つのぼやけたフレームの露光時間内に動作し、イベントの豊富な時間情報をよりよく活用するために、反復的にクロスモダリティ特徴を反復的に強化する。
2) フレーム間時間的特徴アライメントは、イベントの利点を生かしたシャープな特徴を集約し、重要な長距離時間情報を対象のフレームに収集する。
さらに,実世界のぼやけたRGBビデオ,対応するシャープビデオ,イベントデータからなる新しいデータセットを提案する。
このデータセットは、イベント誘導型デブロアリングメソッドを評価するための貴重なリソースとして機能する。
提案手法は, 合成および実世界のデブロアリングデータセットを用いた広範囲な実験により, 最先端のフレームベースおよびイベントベース動作デブロアリング法より優れていることを示す。
コードとデータセットはhttps://github.com/intelpro/CMTAで公開されている。
Video deblurring aims to enhance the quality of restored results in motion-blurred videos by effectively gathering information from adjacent video frames to compensate for the insufficient data in a single blurred frame. However, when faced with consecutively severe motion blur situations, frame-based video deblurring methods often fail to find accurate temporal correspondence among neighboring video frames, leading to diminished performance. To address this limitation, we aim to solve the video deblurring task by leveraging an event camera with micro-second temporal resolution. To fully exploit the dense temporal resolution of the event camera, we propose two modules: 1) Intra-frame feature enhancement operates within the exposure time of a single blurred frame, iteratively enhancing cross-modality features in a recurrent manner to better utilize the rich temporal information of events, 2) Inter-frame temporal feature alignment gathers valuable long-range temporal information to target frames, aggregating sharp features leveraging the advantages of the events. In addition, we present a novel dataset composed of real-world blurred RGB videos, corresponding sharp videos, and event data. This dataset serves as a valuable resource for evaluating event-guided deblurring methods. We demonstrate that our proposed methods outperform state-of-the-art frame-based and event-based motion deblurring methods through extensive experiments conducted on both synthetic and real-world deblurring datasets. The code and dataset are available at https://github.com/intelpro/CMTA. | 翻訳日:2024-08-28 14:13:27 公開日:2024-08-27 |
# ベイジアンネットワーク構造学習のための定性正規化最大公準規準
Quotient Normalized Maximum Likelihood Criterion for Learning Bayesian Network Structures ( http://arxiv.org/abs/2408.14935v1 ) ライセンス: Link先を確認 | Tomi Silander, Janne Leppä-aho, Elias Jääsaari, Teemu Roos, | (参考訳) 我々はベイズネットワーク構造学習のための情報理論的基準を導入し、これを商正規化最大度 (qNML) と呼ぶ。
密接に関連する因子化正規化極大基準とは対照的に、qNMLはスコア同値性を満たす。
また分解可能で、調整可能なハイパーパラメータが完全に不要である。
実用計算では、Szpankowski と Weinberger が提案した驚くほど正確な近似を同定する。
シミュレーションデータと実データの両方の実験により、新しい基準が予測精度の良い擬似モデルに繋がることを示した。
We introduce an information theoretic criterion for Bayesian network structure learning which we call quotient normalized maximum likelihood (qNML). In contrast to the closely related factorized normalized maximum likelihood criterion, qNML satisfies the property of score equivalence. It is also decomposable and completely free of adjustable hyperparameters. For practical computations, we identify a remarkably accurate approximation proposed earlier by Szpankowski and Weinberger. Experiments on both simulated and real data demonstrate that the new criterion leads to parsimonious models with good predictive accuracy. | 翻訳日:2024-08-28 14:13:27 公開日:2024-08-27 |
# カオスから一貫性へ - セキュリティアドバイザリの合理化におけるCSAFの役割
From Chaos to Consistency: The Role of CSAF in Streamlining Security Advisories ( http://arxiv.org/abs/2408.14937v1 ) ライセンス: Link先を確認 | Julia Wunder, Janik Aurich, Zinaida Benenson, | (参考訳) セキュリティアドバイザリは、脆弱性管理の重要な部分となっている。
脆弱性に関する貴重な情報を収集して配布するために使用できる。
アドバイザリには事前定義された広義のフォーマットがあるが、実際には標準化されていない。
その結果、その内容と形式はベンダーによって大きく異なる。
したがって、セキュリティアナリストが関連する情報を抽出するのは面倒でリソース集約的です。
CSAF(Common Security Advisory Format)は、セキュリティアドバイザリを既存の問題を解決し、アドバイザリの自動処理を可能にするための標準化されたフォーマットにすることを目的としている。
しかし、新しい標準は、ユーザーが利益を得られるかどうかに限り意味がある。
セキュリティアドバイザリは現在の状態に問題を引き起こしますか?
これらの問題のどれがCSAFが解決できるのか?
自動化の現状はどうなっていますか?
これらの質問を調査するため、3人のセキュリティ専門家にインタビューを行い、197人の参加者を対象にオンライン調査を行った。
結果は、問題が存在し、しばしば混乱し一貫性のない構造や形式に遡ることができることを示している。
CSAFはこれらの問題を正確に解こうとしている。
しかし,現在CSAFは滅多に使われていない。
ユーザは、セキュリティアドバイザリの処理を改善するために必要な自動化を認識しているが、その多くは同時に懐疑的だ。
主な理由の1つは、システムがまだ自動化のために設計されておらず、移行には膨大なリソースが必要であることである。
Security advisories have become an important part of vulnerability management. They can be used to gather and distribute valuable information about vulnerabilities. Although there is a predefined broad format for advisories, it is not really standardized. As a result, their content and form vary greatly depending on the vendor. Thus, it is cumbersome and resource-intensive for security analysts to extract the relevant information. The Common Security Advisory Format (CSAF) aims to bring security advisories into a standardized format which is intended to solve existing problems and to enable automated processing of the advisories. However, a new standard only makes sense if it can benefit users. Hence the questions arise: Do security advisories cause issues in their current state? Which of these issues is CSAF able to resolve? What is the current state of automation? To investigate these questions, we interviewed three security experts, and then conducted an online survey with 197 participants. The results show that problems exist and can often be traced back to confusing and inconsistent structures and formats. CSAF attempts to solve precisely these problems. However, our results show that CSAF is currently rarely used. Although users perceive automation as necessary to improve the processing of security advisories, many are at the same time skeptical. One of the main reasons is that systems are not yet designed for automation and a migration would require vast amounts of resources. | 翻訳日:2024-08-28 14:13:27 公開日:2024-08-27 |
# BOX3D:3次元物体検出と位置検出のための軽量カメラ-LiDAR融合
BOX3D: Lightweight Camera-LiDAR Fusion for 3D Object Detection and Localization ( http://arxiv.org/abs/2408.14941v1 ) ライセンス: Link先を確認 | Mario A. V. Saucedo, Nikolaos Stathoulopoulos, Vidya Sumathy, Christoforos Kanellakis, George Nikolakopoulos, | (参考訳) オブジェクトの検出とグローバルなローカライゼーションはロボット工学において重要な役割を担い、セマンティックなシーン理解のために、自動運転車から多層的な3Dシーングラフまで幅広いアプリケーションにまたがる。
本稿では,RGBカメラと3D LiDARの情報を融合させることにより,興味のある対象をローカライズする,新しいマルチモーダルで軽量なBOX3Dを提案する。
BOX3Dは3層構造で構築されており、入力されたシーケンシャルセンサーデータの局所的な知覚から、外接点をカバーし、各オブジェクトの観測の一般的な整合性を含むグローバルな知覚改善まで、構成されている。
具体的には、第1層は、初期3Dバウンディングボックス抽出のために、カメラとLiDARデータの低レベル融合を処理する。
第2の層は、それぞれのLiDARのスキャン3Dバウンディングボックスを世界座標フレームに変換し、異なる視点から観察された物体の特異性を維持するために空間ペアリングとマージ機構を適用する。
最後に、BOX3Dは、オブジェクトに属するグローバルマップ内のすべての点を特定するために、ポイント・ツー・ボクセル比較を用いて、グローバルマップ上の結果の一貫性を反復的に監視する第3の層を統合する。
提案した新しいアーキテクチャのベンチマーク結果は,都市環境の大規模データセットに関する複数の実験で実証された。
Object detection and global localization play a crucial role in robotics, spanning across a great spectrum of applications from autonomous cars to multi-layered 3D Scene Graphs for semantic scene understanding. This article proposes BOX3D, a novel multi-modal and lightweight scheme for localizing objects of interest by fusing the information from RGB camera and 3D LiDAR. BOX3D is structured around a three-layered architecture, building up from the local perception of the incoming sequential sensor data to the global perception refinement that covers for outliers and the general consistency of each object's observation. More specifically, the first layer handles the low-level fusion of camera and LiDAR data for initial 3D bounding box extraction. The second layer converts each LiDAR's scan 3D bounding boxes to the world coordinate frame and applies a spatial pairing and merging mechanism to maintain the uniqueness of objects observed from different viewpoints. Finally, BOX3D integrates the third layer that supervises the consistency of the results on the global map iteratively, using a point-to-voxel comparison for identifying all points in the global map that belong to the object. Benchmarking results of the proposed novel architecture are showcased in multiple experimental trials on public state-of-the-art large-scale dataset of urban environments. | 翻訳日:2024-08-28 14:13:27 公開日:2024-08-27 |
# ERX:ハイパースペクトルラインスキャンのための高速リアルタイム異常検出アルゴリズム
ERX: A Fast Real-Time Anomaly Detection Algorithm for Hyperspectral Line-Scanning ( http://arxiv.org/abs/2408.14947v1 ) ライセンス: Link先を確認 | Samuel Garske, Bradley Evans, Christopher Artlett, KC Wong, | (参考訳) 予期せぬオブジェクト(異常)をリアルタイムで検出することは、環境を監視し、管理し、保護する大きな可能性がある。
ハイパースペクトルラインスキャンカメラは、RGBおよびマルチスペクトル画像に対する異常検出の信頼性を高めるための低コストなソリューションである。
しかし、これらのカメラのリアルタイムアルゴリズムは、小型コンピュータ(例えばドローンや小型衛星)を使用する場合、高速で、高次元にスケーラブルで、景色の変化に適応でき、幾何学的およびラジオメトリックな歪みに対して堅牢でなければならない。
本稿では,Exponentially moving RX algorithm (ERX)を導入し,実時間線走査のための既存のRXに基づく異常検出手法と比較する。
ERXはJetson Xavier NX計算モジュールを使用してテストされ、他のアルゴリズムと比較して3つの新しいデータセットの速度と検出の最適な組み合わせを実現した。
本研究は, 異常物体の分類・配置, 適応的および自動しきい値選択, 実時間フィールドテストにおける今後の研究の道を開くものである。
アルゴリズムと実験のためのPythonコードはhttps://github.com/WiseGamgee/HyperADで公開されている。
Detecting unexpected objects (anomalies) in real-time has great potential for monitoring, managing, and protecting the environment. Hyperspectral line-scan cameras are a low-cost solution that enhance confidence in anomaly detection over RGB and multispectral imagery. However, real-time algorithms for these cameras must be fast when using small computers (e.g., those onboard a drone or small satellite), scalable to high dimensions, adaptable to changing scenery, and robust against geometric and radiometric distortions. This paper introduces the Exponentially moving RX algorithm (ERX) and compares it to existing RX-based anomaly detection methods for real-time line-scanning. ERX was tested using a Jetson Xavier NX compute module, achieving the best combination of speed and detection across three novel datasets compared to the other algorithms. This research paves the way for future studies in grouping and locating anomalous objects, adaptive and automatic threshold selection, and real-time field tests. The Python code for the algorithms and experiments is available at https://github.com/WiseGamgee/HyperAD. | 翻訳日:2024-08-28 14:13:27 公開日:2024-08-27 |
# NeuralOOD:ブレイン・マシン・フュージョン・ラーニング・フレームワークによるアウト・オブ・ディストリビューションの一般化性能の向上
NeuralOOD: Improving Out-of-Distribution Generalization Performance with Brain-machine Fusion Learning Framework ( http://arxiv.org/abs/2408.14950v1 ) ライセンス: Link先を確認 | Shuangchen Zhao, Changde Du, Hui Li, Huiguang He, | (参考訳) ディープニューラルネットワーク(DNN)は、従来のコンピュータビジョン(CV)タスクにおいて、例外的な認識能力を実証している。
しかし、既存のCVモデルは、アウト・オブ・ディストリビューション(OOD)データに直面すると、精度が著しく低下することが多い。
これらのDNNモデルとは対照的に、人間はOODシーンに直面する際のエラー率を一定に低く維持することができる。
従来のOOD一般化研究は、マルチモーダル学習法の利点を見越して、単一のモーダルのみに焦点を当てていた。
本稿では,OODの一般化を改善するためにマルチモーダル学習法を用い,新しい脳-機械融合学習(BMFL)フレームワークを提案する。
我々は、CVモデルからの視覚的知識と、人間の脳からの認知的知識を融合させるために、クロスアテンション機構を採用する。
具体的には,fMRIデータ収集と前処理の必要性を排除し,従来のBMFL法に係わる負荷を効果的に軽減する視覚特徴から,機能的磁気共鳴イメージング(fMRI)を予測するために,事前訓練された視覚ニューラルエンコーディングモデルを用いる。
さらに、fMRIデータ内の知識の抽出を容易にする脳トランスフォーマーを構築する。
さらに、Pearson相関係数最大化正規化法をトレーニングプロセスに導入し、より良い制約で融合能力を向上させる。
我々のモデルは、ImageNet-1kバリデーションデータセットのDINOv2とベースラインモデル、および6つのキュレートされたOODデータセットより優れており、多様なシナリオにおいてその優れたパフォーマンスを示している。
Deep Neural Networks (DNNs) have demonstrated exceptional recognition capabilities in traditional computer vision (CV) tasks. However, existing CV models often suffer a significant decrease in accuracy when confronted with out-of-distribution (OOD) data. In contrast to these DNN models, human can maintain a consistently low error rate when facing OOD scenes, partly attributed to the rich prior cognitive knowledge stored in the human brain. Previous OOD generalization researches only focus on the single modal, overlooking the advantages of multimodal learning method. In this paper, we utilize the multimodal learning method to improve the OOD generalization and propose a novel Brain-machine Fusion Learning (BMFL) framework. We adopt the cross-attention mechanism to fuse the visual knowledge from CV model and prior cognitive knowledge from the human brain. Specially, we employ a pre-trained visual neural encoding model to predict the functional Magnetic Resonance Imaging (fMRI) from visual features which eliminates the need for the fMRI data collection and pre-processing, effectively reduces the workload associated with conventional BMFL methods. Furthermore, we construct a brain transformer to facilitate the extraction of knowledge inside the fMRI data. Moreover, we introduce the Pearson correlation coefficient maximization regularization method into the training process, which improves the fusion capability with better constrains. Our model outperforms the DINOv2 and baseline models on the ImageNet-1k validation dataset as well as six curated OOD datasets, showcasing its superior performance in diverse scenarios. | 翻訳日:2024-08-28 14:13:27 公開日:2024-08-27 |
# 動的システムの高速モデル学習のための閉形式勾配を持つ領域分離型物理インフォームニューラルネットワーク
Domain-decoupled Physics-informed Neural Networks with Closed-form Gradients for Fast Model Learning of Dynamical Systems ( http://arxiv.org/abs/2408.14951v1 ) ライセンス: Link先を確認 | Henrik Krauss, Tim-Lukas Habich, Max Bartholdt, Thomas Seel, Moritz Schappler, | (参考訳) 物理インフォームドニューラルネットワーク(PINN)は物理方程式を用いて訓練されており、データから学習することで、モデル化されていない効果を組み込むこともできる。
動的システムの制御のためのPINN(PINC)は、非線形状態空間モデルに対する古典的な数値積分法と比較して予測速度から関心を集めており、リアルタイム制御に適している。
本稿では、大規模で複雑な非線形力学系を扱う場合のPINCの現在の限界に対処するために、ドメイン分離された物理情報ニューラルネットワーク(DD-PINN)を導入する。
時間領域はフィードフォワードニューラルネットワークから切り離され、アンザッツ関数を構築し、閉じた形で勾配を計算することができる。
このアプローチは、特に大規模力学系において、グラフベースの自動微分に依存するPINCと比較して、トレーニング時間を著しく短縮する。
さらに、DD-PINNは本質的に初期条件を満たし、高次励起入力をサポートし、トレーニングプロセスを簡素化し、予測精度を向上させる。
非線形マススプリングダンパー,5質量チェーン,2リンクロボットの3つのシステムに対する検証は,DD-PINNのトレーニング時間が大幅に短縮されたことを示す。
PINCの予測が分岐する場合、DD-PINNの予測は高い物理損失の低減や高次励起入力の使用により安定かつ正確である。
DD-PINNは、以前PINCに届かなかった大規模力学系の高速かつ正確な学習を可能にする。
Physics-informed neural networks (PINNs) are trained using physical equations and can also incorporate unmodeled effects by learning from data. PINNs for control (PINCs) of dynamical systems are gaining interest due to their prediction speed compared to classical numerical integration methods for nonlinear state-space models, making them suitable for real-time control applications. We introduce the domain-decoupled physics-informed neural network (DD-PINN) to address current limitations of PINC in handling large and complex nonlinear dynamic systems. The time domain is decoupled from the feed-forward neural network to construct an Ansatz function, allowing for calculation of gradients in closed form. This approach significantly reduces training times, especially for large dynamical systems, compared to PINC, which relies on graph-based automatic differentiation. Additionally, the DD-PINN inherently fulfills the initial condition and supports higher-order excitation inputs, simplifying the training process and enabling improved prediction accuracy. Validation on three systems - a nonlinear mass-spring-damper, a five-mass-chain, and a two-link robot - demonstrates that the DD-PINN achieves significantly shorter training times. In cases where the PINC's prediction diverges, the DD-PINN's prediction remains stable and accurate due to higher physics loss reduction or use of a higher-order excitation input. The DD-PINN allows for fast and accurate learning of large dynamical systems previously out of reach for the PINC. | 翻訳日:2024-08-28 14:03:32 公開日:2024-08-27 |
# 一般化Few-shot Semantic SegmentationにおけるViTの適用
Applying ViT in Generalized Few-shot Semantic Segmentation ( http://arxiv.org/abs/2408.14957v1 ) ライセンス: Link先を確認 | Liyuan Geng, Jinhong Xia, Yuanhe Guo, | (参考訳) 本稿では,汎用的な小ショットセマンティックセマンティックセグメンテーション(GFSS)フレームワーク下でのViTモデルの性能について検討する。
我々はResNetsやViT(Pretrained Vision Transformer)ベースのモデル、線形分類器、UPerNet、Mask Transformerを備えたデコーダなど、バックボーンモデルの様々な組み合わせで実験を行う。
DINOv2と線形分類器で作られた構造は、人気のある数ショットセグメンテーションベンチマークPASCAL-$5^i$をリードし、ワンショットシナリオではResNetの構造のベストを116%上回っている。
GFSSタスク上での大規模な事前学習型ViTモデルの可能性を示すとともに,テストベンチマークのさらなる改善を期待する。
しかし、純粋なViTベースのモデルと大規模なViTデコーダを適用すると、モデルは簡単にオーバーフィットする。
This paper explores the capability of ViT-based models under the generalized few-shot semantic segmentation (GFSS) framework. We conduct experiments with various combinations of backbone models, including ResNets and pretrained Vision Transformer (ViT)-based models, along with decoders featuring a linear classifier, UPerNet, and Mask Transformer. The structure made of DINOv2 and linear classifier takes the lead on popular few-shot segmentation bench mark PASCAL-$5^i$, substantially outperforming the best of ResNet structure by 116% in one-shot scenario. We demonstrate the great potential of large pretrained ViT-based model on GFSS task, and expect further improvement on testing benchmarks. However, a potential caveat is that when applying pure ViT-based model and large scale ViT decoder, the model is easy to overfit. | 翻訳日:2024-08-28 14:03:31 公開日:2024-08-27 |
# マルチリンガル・アービタージュ:マルチリンガル・プログレスを加速するためにデータプールを最適化する
Multilingual Arbitrage: Optimizing Data Pools to Accelerate Multilingual Progress ( http://arxiv.org/abs/2408.14960v1 ) ライセンス: Link先を確認 | Ayomide Odumakinde, Daniel D'souza, Pat Verga, Beyza Ermis, Sara Hooker, | (参考訳) 合成データの利用は、最近の最先端のブレークスルーにおいて重要な役割を担っている。
しかし、データを生成するために1つのオラクルの教師モデルに過度に依存していることが、モデルの崩壊とバイアスの伝播につながることが示されている。
これらの制限は多言語設定において特に顕著であり、すべての言語にまたがる普遍的な効果的な教師モデルがないことは重大な課題である。
本研究では、与えられた言語に対する複数のモデル間の性能変化を生かした「多重仲裁」を導入することで、これらの極端な差異に対処する。
そのために、さまざまな言語に固有の長所を持つ多様なモデルのプールを通じて、サンプルを戦略的にルーティングする。
我々の研究は、最先端のモデルに関する徹底的な実験を通して、仲裁技術は一人の教師に頼ってはるかに優れたパフォーマンスを得られることを示唆している。
特に、最高の一人の教師と比較して、多言語仲裁に切り替える際に、すべての言語で平均される勝利率を56.5%向上させるのが観察できる。
プール内の最もリソースの少ない言語について、最も顕著な利益を観察する。
The use of synthetic data has played a critical role in recent state-of-art breakthroughs. However, overly relying on a single oracle teacher model to generate data has been shown to lead to model collapse and invite propagation of biases. These limitations are particularly evident in multilingual settings, where the absence of a universally effective teacher model that excels across all languages presents significant challenges. In this work, we address these extreme difference by introducing "multilingual arbitrage", which capitalizes on performance variations between multiple models for a given language. To do so, we strategically route samples through a diverse pool of models, each with unique strengths in different languages. Across exhaustive experiments on state-of-art models, our work suggests that arbitrage techniques allow for spectacular gains in performance that far outperform relying on a single teacher. In particular, compared to the best single teacher, we observe gains of up to 56.5% improvement in win rates averaged across all languages when switching to multilingual arbitrage. We observe the most significant gains for the least resourced languages in our pool. | 翻訳日:2024-08-28 14:03:31 公開日:2024-08-27 |
# CVPT:Visual Prompt Tuningの視覚的タスク適応を支援するクロスアテンション
CVPT: Cross-Attention help Visual Prompt Tuning adapt visual task ( http://arxiv.org/abs/2408.14961v1 ) ライセンス: Link先を確認 | Lingyun Huang, Jianxu Mao, Yaonan Wang, Junfei Yi, Ziming Tao, | (参考訳) 近年、モデルサイズが急速に拡大し、大規模に事前訓練されたモデルが顕著な能力を発揮している。
その結果、モデルの規模を拡大する傾向が見られた。
しかし、この傾向は、トレーニングと下流タスクへの転送のかなりの計算コストを含む、重大な課題をもたらす。
これらの問題に対処するため,パラメータ効率の良いファインチューニング(PEFT)手法が導入された。
これらの手法は,特定のパラメータ群を微調整することにより,特定のタスクに対する大規模事前学習モデルを最適化する。
これらのPEFT手法のうち、アダプタベースの手法とプロンプトベースの手法が主要な手法である。
具体的には、視覚的な微調整の分野では、アダプタは比較的性能と効率が弱いため、プロンプトよりも優位に立つ。
このような状況下では,Cross Visual Prompt Tuning (CVPT) を提案し,広く使われている Visual Prompt Tuning (VPT) 法を改良する。
CVPTは,プロンプトトークンと組込みトークンの相互アテンションを計算し,それら間のセマンティックな関係を計算し,視覚的タスクをよりよく適応するためにモデルの微調整を行う。
さらに,クロスアテンションのパラメータを初期化するためのウェイトシェアリング機構を導入し,クロスアテンションから大量の学習可能なパラメータを回避し,クロスアテンションの代表的な能力を高める。
我々は25のデータセットにわたる総合的なテストを行い、その結果、CVPTは視覚タスクにおけるVPTのパフォーマンスと効率を大幅に改善することを示す。
例えば、VTAB-1Kベンチマークでは、CVPTは平均精度でVPTを4%以上上回り、パフォーマンスと効率の面で先進的なアダプタベースの手法に匹敵する。
実験により,視覚的微調整において,プロンプトベースの手法が例外的な結果が得られることを確認した。
In recent years, the rapid expansion of model sizes has led to large-scale pre-trained models demonstrating remarkable capabilities. Consequently, there has been a trend towards increasing the scale of models. However, this trend introduces significant challenges, including substantial computational costs of training and transfer to downstream tasks. To address these issues, Parameter-Efficient Fine-Tuning (PEFT) methods have been introduced. These methods optimize large-scale pre-trained models for specific tasks by fine-tuning a select group of parameters. Among these PEFT methods, adapter-based and prompt-based methods are the primary techniques. Specifically, in the field of visual fine-tuning, adapters gain prominence over prompts because of the latter's relatively weaker performance and efficiency. Under the circumstances, we refine the widely-used Visual Prompt Tuning (VPT) method, proposing Cross Visual Prompt Tuning (CVPT). CVPT calculates cross-attention between the prompt tokens and the embedded tokens, which allows us to compute the semantic relationship between them and conduct the fine-tuning of models exactly to adapt visual tasks better. Furthermore, we introduce the weight-sharing mechanism to initialize the parameters of cross-attention, which avoids massive learnable parameters from cross-attention and enhances the representative capability of cross-attention. We conduct comprehensive testing across 25 datasets and the result indicates that CVPT significantly improves VPT's performance and efficiency in visual tasks. For example, on the VTAB-1K benchmark, CVPT outperforms VPT over 4% in average accuracy, rivaling the advanced adapter-based methods in performance and efficiency. Our experiments confirm that prompt-based methods can achieve exceptional results in visual fine-tuning. | 翻訳日:2024-08-28 14:03:31 公開日:2024-08-27 |
# 加速度計記録を用いたディープラーニングに基づく平均せん断波速度予測
Deep Learning-based Average Shear Wave Velocity Prediction using Accelerometer Records ( http://arxiv.org/abs/2408.14962v1 ) ライセンス: Link先を確認 | Barış Yılmaz, Melek Türkmen, Sanem Meral, Erdem Akagündüz, Salih Tileylioglu, | (参考訳) 地震の危険度を評価し、地震の回復力のある構造物を設計したり、地震後の構造物の損傷を評価することは、地震工学の重要な目的である。
両課題とも強震動記録の批判的評価が必要であり, 以上の目的を達成する上では, 地震観測所の現場条件の知識が重要な役割を担っている。
位置条件は一般に地質資料の上部30mにおける平均せん断波速度によって表される(Vs30)。
いくつかの強震観測所はVs30測定を欠いているため、地震の危険度の評価や地上の地震記録の評価が不正確な可能性がある。
本研究では,3チャンネルの地震記録を用いて,強震観測所におけるVs30の深層学習に基づく予測手法を提案する。
この目的のために、トルコの700以上の局から収集された加速度計記録から、拡張層と因果畳み込み層を持つ畳み込みニューラルネットワーク(CNN)を用いて、深い特徴を抽出する。
ラベル付きデータの限られた可用性を克服するため,二相学習手法を提案する。
第1フェーズでは、CNNがトレーニングされ、すべてのレコードで真理が利用できるエピセンタを推定する。
CNNが訓練された後、事前訓練されたエンコーダはVs30の真実に基づいて微調整される。
提案手法の性能を手作り特徴を用いた機械学習モデルと比較した。
その結果、深層畳み込みエンコーダに基づくVs30予測モデルは、手作りの機能に依存する機械学習モデルよりも優れていることが示された。
Assessing seismic hazards and thereby designing earthquake-resilient structures or evaluating structural damage that has been incurred after an earthquake are important objectives in earthquake engineering. Both tasks require critical evaluation of strong ground motion records, and the knowledge of site conditions at the earthquake stations plays a major role in achieving the aforementioned objectives. Site conditions are generally represented by the time-averaged shear wave velocity in the upper 30 meters of the geological materials (Vs30). Several strong motion stations lack Vs30 measurements resulting in potentially inaccurate assessment of seismic hazards and evaluation of ground motion records. In this study, we present a deep learning-based approach for predicting Vs30 at strong motion station locations using three-channel earthquake records. For this purpose, Convolutional Neural Networks (CNNs) with dilated and causal convolutional layers are used to extract deep features from accelerometer records collected from over 700 stations located in Turkey. In order to overcome the limited availability of labeled data, we propose a two-phase training approach. In the first phase, a CNN is trained to estimate the epicenters, for which ground truth is available for all records. After the CNN is trained, the pre-trained encoder is fine-tuned based on the Vs30 ground truth. The performance of the proposed method is compared with machine learning models that utilize hand-crafted features. The results demonstrate that the deep convolutional encoder based Vs30 prediction model outperforms the machine learning models that rely on hand-crafted features. | 翻訳日:2024-08-28 14:03:31 公開日:2024-08-27 |
# 化学特性予測のためのクロスモーダル学習:大規模言語モデルとグラフ機械学習
Cross-Modal Learning for Chemistry Property Prediction: Large Language Models Meet Graph Machine Learning ( http://arxiv.org/abs/2408.14964v1 ) ライセンス: Link先を確認 | Sakhinana Sagar Srinivas, Venkataramana Runkana, | (参考訳) 化学の分野では、材料設計や薬物スクリーニングといった応用における正確な特性予測を容易にし、望ましい性質を持つ新規分子を作ることが目的である。
しかし、既存のグラフ深層学習手法は、表現力を制限する限界に直面している。
そこで本稿では,大規模言語モデル(LLMs)とグラフニューラルネットワーク(GNNs)の相補的長所を統合し,特性予測タスクの性能向上を図る。
我々は,GNNの分析能力とLLMの言語生成・予測能力を相乗的に活用し,分子特性の予測における精度と堅牢性を向上する多モード融合(MMF)フレームワークを提案する。
本フレームワークは,グラフ構造化データのモデリングにおけるGNNの有効性とLLMのゼロショットおよび少数ショット学習能力を組み合わせることにより,オーバーフィッティングのリスクを低減し,予測の改善を実現する。
さらに,本手法は,実世界のアプリケーションにおいて共通の課題である分散シフトを効果的に処理し,プロパティ予測タスクのベンチマークデータセット上で,最先端のベースラインを超越したクロスモーダル表現の学習の有効性を示す。
In the field of chemistry, the objective is to create novel molecules with desired properties, facilitating accurate property predictions for applications such as material design and drug screening. However, existing graph deep learning methods face limitations that curb their expressive power. To address this, we explore the integration of vast molecular domain knowledge from Large Language Models (LLMs) with the complementary strengths of Graph Neural Networks (GNNs) to enhance performance in property prediction tasks. We introduce a Multi-Modal Fusion (MMF) framework that synergistically harnesses the analytical prowess of GNNs and the linguistic generative and predictive abilities of LLMs, thereby improving accuracy and robustness in predicting molecular properties. Our framework combines the effectiveness of GNNs in modeling graph-structured data with the zero-shot and few-shot learning capabilities of LLMs, enabling improved predictions while reducing the risk of overfitting. Furthermore, our approach effectively addresses distributional shifts, a common challenge in real-world applications, and showcases the efficacy of learning cross-modal representations, surpassing state-of-the-art baselines on benchmark datasets for property prediction tasks. | 翻訳日:2024-08-28 14:03:31 公開日:2024-08-27 |
# MRSE:大規模Eコマースのための効率的なマルチモーダリティ検索システム
MRSE: An Efficient Multi-modality Retrieval System for Large Scale E-commerce ( http://arxiv.org/abs/2408.14968v1 ) ライセンス: Link先を確認 | Hao Jiang, Haoxiang Zhang, Qingshan Hou, Chaofeng Chen, Weisi Lin, Jingchang Zhang, Annan Wang, | (参考訳) テキストクエリーの高品質な項目リコールを提供することは、大規模なeコマース検索システムにおいて重要である。
現在の埋め込みベースのRetrieval Systems (ERS)は、クエリとアイテムを共有低次元空間に埋め込むが、ユニモーダルERSはテキスト機能に大きく依存しており、複雑なコンテキストでは信頼性が低い。
マルチモダリティERSには様々なデータソースが組み込まれているが、異なるモダリティに対する個々の好みを見落とし、最適以下の結果をもたらすことがしばしばある。
これらの課題に対処するために,テキスト,項目画像,ユーザの嗜好を軽量なミックス・オブ・エクササイズ(LMoE)モジュールを通じて統合し,モダリティ内およびモダリティ内における機能の整合性を向上するマルチモダリティ検索システムMRSEを提案する。
MRSEはまた、マルチモダリティレベルでユーザプロファイルを構築し、ハードネガティブサンプリングを使用して一貫性と堅牢性を向上する、新しいハイブリッド損失関数を導入している。
ShopeeとオンラインA/Bテストによる大規模なデータセットの実験は、MRSEがオフライン関連性18.9%の改善とオンラインコアメトリクスの3.7%向上を達成したことを示している。
Providing high-quality item recall for text queries is crucial in large-scale e-commerce search systems. Current Embedding-based Retrieval Systems (ERS) embed queries and items into a shared low-dimensional space, but uni-modality ERS rely too heavily on textual features, making them unreliable in complex contexts. While multi-modality ERS incorporate various data sources, they often overlook individual preferences for different modalities, leading to suboptimal results. To address these issues, we propose MRSE, a Multi-modality Retrieval System that integrates text, item images, and user preferences through lightweight mixture-of-expert (LMoE) modules to better align features across and within modalities. MRSE also builds user profiles at a multi-modality level and introduces a novel hybrid loss function that enhances consistency and robustness using hard negative sampling. Experiments on a large-scale dataset from Shopee and online A/B testing show that MRSE achieves an 18.9% improvement in offline relevance and a 3.7% gain in online core metrics compared to Shopee's state-of-the-art uni-modality system. | 翻訳日:2024-08-28 14:03:31 公開日:2024-08-27 |
# ちょっとした自己補正
A little bit of self-correction ( http://arxiv.org/abs/2408.14970v1 ) ライセンス: Link先を確認 | Michael J. Kastoryano, Lasse B. Kristensen, Chi-Fang Chen, András Gilyén, | (参考訳) 有限スピン鎖の低温量子熱力学における安定部分空間の出現について検討する。
解析により, 有効デコヒーレンスフリーなキューディット部分空間の存在が明らかとなり, 時間スケールは$\beta$で指数関数的に持続する。
驚くべきことに、準安定部分空間の出現は基底状態の絡み合い構造に直接関係しない。
むしろ、それらは低い励起状態における対称性の関係から生じる。
相」内での安定性にもかかわらず、安定な量子ビットの実践的実現は対称性を破る摂動への感受性によって妨げられる。
この研究は、非可換な多くの体モデルの熱力学に非自明な量子挙動が存在することを強調し、そのような系における自己補正のより広範な研究への扉を開く。
We investigate the emergence of stable subspaces in the low-temperature quantum thermal dynamics of finite spin chains. Our analysis reveals the existence of effective decoherence-free qudit subspaces, persisting for timescales exponential in $\beta$. Surprisingly, the appearance of metastable subspaces is not directly related to the entanglement structure of the ground state(s). Rather, they arise from symmetry relations in low-lying excited states. Despite their stability within a 'phase', practical realization of stable qubits is hindered by susceptibility to symmetry-breaking perturbations. This work highlights that there can be non-trivial quantum behavior in the thermal dynamics of noncommuting many body models, and opens the door to more extensive studies of self-correction in such systems. | 翻訳日:2024-08-28 14:03:31 公開日:2024-08-27 |
# AgentMonitor: 予測とセキュアなマルチエージェントシステムのためのPlug-and-Playフレームワーク
AgentMonitor: A Plug-and-Play Framework for Predictive and Secure Multi-Agent Systems ( http://arxiv.org/abs/2408.14972v1 ) ライセンス: Link先を確認 | Chi-Min Chan, Jianxuan Yu, Weize Chen, Chunyang Jiang, Xinyu Liu, Weijie Shi, Zhiyuan Liu, Wei Xue, Yike Guo, | (参考訳) 大規模言語モデル(LLM)の急速な進歩は、LLMベースのエージェントの台頭につながった。
近年の研究では、各エージェントが特定の役割を果たすマルチエージェントシステム(MAS)が、個々のLLMよりも優れていることが示されている。
しかしながら、タスクのためのMASの設定は依然として困難であり、パフォーマンスは監視可能な後処理のみである。
LLM開発におけるスケーリング法則に着想を得て,MAS性能を事前に予測できるかどうかを検討した。
我々はエージェントレベルで統合されたフレームワークであるAgentMonitorを導入し、インプットとアウトプットをキャプチャし、それらを回帰モデルをトレーニングしてタスクのパフォーマンスを予測する統計に変換する。
さらに、悪意のあるエージェントによるセキュリティリスクに対処し、ネガティブな影響を軽減し、MASセキュリティを強化するために、リアルタイムの修正を適用することもできる。
実験により、XGBoostモデルにより、より困難なシナリオにおいて、ドメイン内の0.89と0.58のスピアマン相関が得られることが示された。
さらに、AgentMonitorを使用すると有害なコンテンツが6.2%減少し、有用なコンテンツが1.8%向上し、安全性と信頼性が向上する。
コードは \url{https://github.com/chanchimin/AgentMonitor} で入手できる。
The rapid advancement of large language models (LLMs) has led to the rise of LLM-based agents. Recent research shows that multi-agent systems (MAS), where each agent plays a specific role, can outperform individual LLMs. However, configuring an MAS for a task remains challenging, with performance only observable post-execution. Inspired by scaling laws in LLM development, we investigate whether MAS performance can be predicted beforehand. We introduce AgentMonitor, a framework that integrates at the agent level to capture inputs and outputs, transforming them into statistics for training a regression model to predict task performance. Additionally, it can further apply real-time corrections to address security risks posed by malicious agents, mitigating negative impacts and enhancing MAS security. Experiments demonstrate that an XGBoost model achieves a Spearman correlation of 0.89 in-domain and 0.58 in more challenging scenarios. Furthermore, using AgentMonitor reduces harmful content by 6.2% and increases helpful content by 1.8% on average, enhancing safety and reliability. Code is available at \url{https://github.com/chanchimin/AgentMonitor}. | 翻訳日:2024-08-28 14:03:31 公開日:2024-08-27 |
# MegActor-$$$:拡散変換器を用いたポートレートアニメーションにおけるフレキシブル混合モード制御
MegActor-$Σ$: Unlocking Flexible Mixed-Modal Control in Portrait Animation with Diffusion Transformer ( http://arxiv.org/abs/2408.14975v1 ) ライセンス: Link先を確認 | Shurong Yang, Huadong Li, Juhao Wu, Minhao Jing, Linze Li, Renhe Ji, Jiajun Liang, Haoqiang Fan, Jin Wang, | (参考訳) 拡散モデルは、ポートレートアニメーションの分野で優れた性能を示している。
しかし、現在のアプローチは、文字の動きを制御するために視覚的あるいは音声的モダリティに依存しており、混合モーダル制御の可能性を生かしていない。
この課題は、オーディオモダリティの弱い制御強度と視覚モダリティの強い制御強度のバランスが難しいことから生じる。
この問題に対処するために,我々はMigActor-$\Sigma$: A Mixed-modal Conditional diffusion transformer (DiT)を紹介した。
具体的には、従来のMegActorよりも大幅に進歩し、DiTの有望なモデル構造を活用し、DiTフレームワーク内の高度なモジュールを通してオーディオと視覚条件を統合する。
混合モード制御信号のフレキシブルな組み合わせを実現するため,視覚とオーディオの両モード間の制御強度をバランスさせる「モードデカップリング制御」トレーニング戦略と,各モードの運動振幅を自由に調節する「振幅調整」推論戦略を提案する。
最後に、この分野での広範な研究を促進するために、公開データセットをフィルタリングし、このフィルタデータセットだけでMegActor-$\Sigma$をトレーニングするために、いくつかのデータセット評価メトリクスを設計する。
広範にわたる実験は、鮮明なポートレートアニメーションの生成における我々のアプローチの優位性を実証し、プライベートデータセットでトレーニングされた以前の方法よりも優れていた。
Diffusion models have demonstrated superior performance in the field of portrait animation. However, current approaches relied on either visual or audio modality to control character movements, failing to exploit the potential of mixed-modal control. This challenge arises from the difficulty in balancing the weak control strength of audio modality and the strong control strength of visual modality. To address this issue, we introduce MegActor-$\Sigma$: a mixed-modal conditional diffusion transformer (DiT), which can flexibly inject audio and visual modality control signals into portrait animation. Specifically, we make substantial advancements over its predecessor, MegActor, by leveraging the promising model structure of DiT and integrating audio and visual conditions through advanced modules within the DiT framework. To further achieve flexible combinations of mixed-modal control signals, we propose a ``Modality Decoupling Control" training strategy to balance the control strength between visual and audio modalities, along with the ``Amplitude Adjustment" inference strategy to freely regulate the motion amplitude of each modality. Finally, to facilitate extensive studies in this field, we design several dataset evaluation metrics to filter out public datasets and solely use this filtered dataset to train MegActor-$\Sigma$. Extensive experiments demonstrate the superiority of our approach in generating vivid portrait animations, outperforming previous methods trained on private dataset. | 翻訳日:2024-08-28 14:03:31 公開日:2024-08-27 |
# 長期学習のための不確かさ誘導型貯水池サンプリング
Prior-free Balanced Replay: Uncertainty-guided Reservoir Sampling for Long-Tailed Continual Learning ( http://arxiv.org/abs/2408.14976v1 ) ライセンス: Link先を確認 | Lei Liu, Li Liu, Yawen Cui, | (参考訳) 大規模モデルの時代においても、連続学習(CL)におけるよく知られた問題の1つは破滅的な忘れ込みであり、連続データストリームが長い尾の分布を示す場合、Long-Tailed Continual Learning(LTCL)と呼ばれる大きな困難である。
既存のLTCLソリューションは一般に、再バランストレーニングを達成するためにデータストリームのラベル分布を必要とする。
しかし、そのような事前情報を取得することは、モデルが多数派や少数派を事前に特定せずに学習すべきであるため、現実のシナリオでは不可能であることが多い。
そこで本研究では,長期データストリームから学習するPBR(Predor-free Balanced Replay)フレームワークを提案する。
具体的には, 不確実性が高いため, マイノリティクラスは忘れられやすいという実験結果から, モデルとサンプル間の相互依存に基づく事前情報を用いることなく, マイノリティデータのリハーサルを優先する不確実性誘導型貯水池サンプリング戦略を新たに考案した。
1) 境界制約は,タスク境界を継続的に再推定するための不確実な境界支持サンプルを維持することである。
2) 原型制約とは,学習したクラスプロトタイプの一貫性をトレーニングとともに維持することである。
提案手法は,従来のCL手法と従来のSOTA LTCL手法よりも,タスクおよびクラス増分学習設定,順序付きおよびシャッフルされたLTCL設定において優れた性能を示す。
Even in the era of large models, one of the well-known issues in continual learning (CL) is catastrophic forgetting, which is significantly challenging when the continual data stream exhibits a long-tailed distribution, termed as Long-Tailed Continual Learning (LTCL). Existing LTCL solutions generally require the label distribution of the data stream to achieve re-balance training. However, obtaining such prior information is often infeasible in real scenarios since the model should learn without pre-identifying the majority and minority classes. To this end, we propose a novel Prior-free Balanced Replay (PBR) framework to learn from long-tailed data stream with less forgetting. Concretely, motivated by our experimental finding that the minority classes are more likely to be forgotten due to the higher uncertainty, we newly design an uncertainty-guided reservoir sampling strategy to prioritize rehearsing minority data without using any prior information, which is based on the mutual dependence between the model and samples. Additionally, we incorporate two prior-free components to further reduce the forgetting issue: (1) Boundary constraint is to preserve uncertain boundary supporting samples for continually re-estimating task boundaries. (2) Prototype constraint is to maintain the consistency of learned class prototypes along with training. Our approach is evaluated on three standard long-tailed benchmarks, demonstrating superior performance to existing CL methods and previous SOTA LTCL approach in both task- and class-incremental learning settings, as well as ordered- and shuffled-LTCL settings. | 翻訳日:2024-08-28 14:03:31 公開日:2024-08-27 |
# LN-Gen: 解剖学的特徴による直腸リンパ節生成
LN-Gen: Rectal Lymph Nodes Generation via Anatomical Features ( http://arxiv.org/abs/2408.14977v1 ) ライセンス: Link先を確認 | Weidong Guo, Hantao Zhang, Shouhong Wan, Bingbing Zou, Wanqin Wang, Peiquan Jin, | (参考訳) 直腸癌のステージングと治療計画には,直腸リンパ節の正確なセグメンテーションが不可欠である。
しかし、周囲の解剖学的構造の複雑さと注釈付きデータの不足は重大な課題である。
本研究は,手動によるアノテーション依存を軽減するために,多種多様なリアルな合成直腸リンパ節サンプルを作成することを目的とした,新しいリンパ節合成手法を提案する。
直接拡散法とは違って、しばしば不連続で最適条件のマスクを生成するが、我々の手法は暗黙のSDFベースのマスク生成手法を活用し、連続的、安定的、形態学的に多様なマスクの生成を確実にする。
その結果, 合成データのセグメンテーション性能は有意に向上した。
本研究は,直腸癌におけるリンパ節などの構造学的に複雑な病変を正確に合成する拡散モデルの可能性を強調し,この領域における注釈付きデータ制限の課題を緩和し,直腸癌診断・治療の進歩を支援することを目的とした。
Accurate segmentation of rectal lymph nodes is crucial for the staging and treatment planning of rectal cancer. However, the complexity of the surrounding anatomical structures and the scarcity of annotated data pose significant challenges. This study introduces a novel lymph node synthesis technique aimed at generating diverse and realistic synthetic rectal lymph node samples to mitigate the reliance on manual annotation. Unlike direct diffusion methods, which often produce masks that are discontinuous and of suboptimal quality, our approach leverages an implicit SDF-based method for mask generation, ensuring the production of continuous, stable, and morphologically diverse masks. Experimental results demonstrate that our synthetic data significantly improves segmentation performance. Our work highlights the potential of diffusion model for accurately synthesizing structurally complex lesions, such as lymph nodes in rectal cancer, alleviating the challenge of limited annotated data in this field and aiding in advancements in rectal cancer diagnosis and treatment. | 翻訳日:2024-08-28 14:03:31 公開日:2024-08-27 |
# 高次原子ブラッグ回折のための二色ミラーパルス
Dichroic mirror pulses for optimized higher-order atomic Bragg diffraction ( http://arxiv.org/abs/2408.14988v1 ) ライセンス: Link先を確認 | Dominik Pfeiffer, Maximilian Dietrich, Patrik Schach, Gerhard Birkl, Enno Giese, | (参考訳) 光パルス原子干渉計の感度は徐々に高められていく。
このような手法の精密な制御は、これらの量子センサーの完全な機能を利用するために不可欠である。
1つの重要な要素は、パラサイトパスのような有害な効果の緩和であり、インターフェロメトリ信号は劣化する。
本研究では,高次ブラッグ回折に特化して設計された原子干渉計のための二色ミラーパルスの実験的実現について述べる。
提案手法は、検出された干渉計出力に共鳴原子経路を選択的に反映し、それらが意図した信号に寄与することを保証する。
同時に、寄生経路は鏡によって効率的に伝達され、関連する干渉計出力に向けられていない。
この方法は、望ましくない経路によって誘導される雑音から所望の干渉信号を効果的に分離する。
これは原子軌道の制御の強化を示すだけでなく、高精度な応用のために光パルス原子干渉計の性能を最適化するための重要な一歩でもある。
Increasing the sensitivity of light-pulse atom interferometers progressively relies on large-momentum transfer techniques. Precise control of such methods is imperative to exploit the full capabilities of these quantum sensors. One key element is the mitigation of deleterious effects such as parasitic paths deteriorating the interferometric signal. In this work, we present the experimental realization of dichroic mirror pulses for atom interferometry specifically designed for higher-order Bragg diffraction. Our approach selectively reflects resonant atom paths into the detected interferometer output, ensuring that these contribute to the signal with intent. Simultaneously, parasitic paths are efficiently transmitted by the mirror and not directed to the relevant interferometer outputs. This method effectively isolates the desired interferometric signal from noise induced by unwanted paths. It not only demonstrates enhanced control over the atomic trajectories but also represents a significant step forward in optimizing the performance of light-pulse atom interferometers for high-precision applications. | 翻訳日:2024-08-28 14:03:31 公開日:2024-08-27 |
# 音声認識変換器:トポロジカル・言語論的視点
Speech Recognition Transformers: Topological-lingualism Perspective ( http://arxiv.org/abs/2408.14991v1 ) ライセンス: Link先を確認 | Shruti Singh, Muskaan Singh, Virender Kadyan, | (参考訳) トランスフォーマーは様々な人工知能タスクで大きな成功を収めてきた。
近年,長期依存を捉えた自己認識機構の出現により,音声処理や音声認識タスクにおける異常な結果が生み出されている。
本稿では,音声のモータリティを指向したトランスフォーマー技術に関する包括的調査を行う。
本調査の主な内容は,(1)従来のASR,エンド・ツー・エンド・エンド・トランスフォーマー・エコシステム,(2)音声トランスフォーマーの背景,(2)単言語,バイリンガル,マルチリンガル,およびクロスリンガルによる音声の基本モデル,(3)データセット,言語,音響特徴,アーキテクチャ,デコード,評価指標などである。
最後に、オープンな課題に関する議論と、コミュニティがこの領域でさらなる研究を行うための潜在的研究の方向性を強調します。
Transformers have evolved with great success in various artificial intelligence tasks. Thanks to our recent prevalence of self-attention mechanisms, which capture long-term dependency, phenomenal outcomes in speech processing and recognition tasks have been produced. The paper presents a comprehensive survey of transformer techniques oriented in speech modality. The main contents of this survey include (1) background of traditional ASR, end-to-end transformer ecosystem, and speech transformers (2) foundational models in a speech via lingualism paradigm, i.e., monolingual, bilingual, multilingual, and cross-lingual (3) dataset and languages, acoustic features, architecture, decoding, and evaluation metric from a specific topological lingualism perspective (4) popular speech transformer toolkit for building end-to-end ASR systems. Finally, highlight the discussion of open challenges and potential research directions for the community to conduct further research in this domain. | 翻訳日:2024-08-28 14:03:31 公開日:2024-08-27 |
# ロボットハンドオーバのためのハンドヘルド透明物体の深さ復元
Depth Restoration of Hand-Held Transparent Objects for Human-to-Robot Handover ( http://arxiv.org/abs/2408.14997v1 ) ライセンス: Link先を確認 | Ran Yu, Haixin Yu, Huang Yan, Ziwu Song, Shoujie Li, Wenbo Ding, | (参考訳) 透明な物体は日常生活で一般的であるが、そのユニークな光学特性はRGB-Dカメラに課題をもたらし、正確な深度情報を捉えるのに苦労する。
アシスタントロボットにとって、人間が保持する透明な物体を正確に知覚することは、効果的な人間とロボットの相互作用に不可欠である。
本稿では,1枚のRGB-D画像から暗黙的ニューラル表現関数を作成することにより,手持ち透明物体に対する手持ち深度復元法を提案する。
提案手法では,手の位置を意味情報や幾何学的情報を活用するための重要なガイダンスとして紹介する。
提案手法を訓練し,評価するために,実数値データ生成方式を用いたTransHand-14Kと呼ばれる高忠実な合成データセットを作成する。
実験の結果,本手法は既存手法と比較して性能と一般化性が高いことがわかった。
さらに,提案手法に基づく実世界の人間ロボットハンドオーバシステムを開発し,その人間ロボットインタラクションへの応用価値を実証する。
Transparent objects are common in daily life, while their unique optical properties pose challenges for RGB-D cameras, which struggle to capture accurate depth information. For assistant robots, accurately perceiving transparent objects held by humans is essential for effective human-robot interaction. This paper presents a Hand-Aware Depth Restoration (HADR) method for hand-held transparent objects based on creating an implicit neural representation function from a single RGB-D image. The proposed method introduces the hand posture as an important guidance to leverage semantic and geometric information. To train and evaluate the proposed method, we create a high-fidelity synthetic dataset called TransHand-14K with a real-to-sim data generation scheme. Experiments show that our method has a better performance and generalization ability compared with existing methods. We further develop a real-world human-to-robot handover system based on the proposed depth restoration method, demonstrating its application value in human-robot interaction. | 翻訳日:2024-08-28 14:03:31 公開日:2024-08-27 |
# FastTextSpotter:マルチリンガルシーンテキストスポッティングのための高効率変換器
FastTextSpotter: A High-Efficiency Transformer for Multilingual Scene Text Spotting ( http://arxiv.org/abs/2408.14998v1 ) ライセンス: Link先を確認 | Alloy Das, Sanket Biswas, Umapada Pal, Josep Lladós, Saumik Bhattacharya, | (参考訳) 構造化された環境と非構造化環境の両方におけるシーンテキストの拡散は、光学的文字認識(OCR)において重要な課題を示し、より効率的で堅牢なテキストスポッティングソリューションを必要とする。
本稿では,Swin Transformerの視覚バックボーンとTransformer Encoder-Decoderアーキテクチャを統合するフレームワークであるFastTextSpotterについて述べる。
FastTextSpotterは、通常のテキストのICDAR2015や任意の形のテキストのCTW1500、TotalTextなど、複数のデータセットで検証されている。
以上の結果から,FastTextSpotterは多言語シーンテキスト(英語とベトナム語)の検出と認識において優れた精度を実現するだけでなく,モデル効率の向上を実現し,フィールドに新たなベンチマークを設定できることが示唆された。
本研究は,多種多様な実世界の環境におけるテキストスポッティングアプリケーションの適応性と速度を向上させるための,高度なトランスフォーマーアーキテクチャの可能性を明らかにするものである。
データセット、コード、事前トレーニングされたモデルはGithubでリリースされています。
The proliferation of scene text in both structured and unstructured environments presents significant challenges in optical character recognition (OCR), necessitating more efficient and robust text spotting solutions. This paper presents FastTextSpotter, a framework that integrates a Swin Transformer visual backbone with a Transformer Encoder-Decoder architecture, enhanced by a novel, faster self-attention unit, SAC2, to improve processing speeds while maintaining accuracy. FastTextSpotter has been validated across multiple datasets, including ICDAR2015 for regular texts and CTW1500 and TotalText for arbitrary-shaped texts, benchmarking against current state-of-the-art models. Our results indicate that FastTextSpotter not only achieves superior accuracy in detecting and recognizing multilingual scene text (English and Vietnamese) but also improves model efficiency, thereby setting new benchmarks in the field. This study underscores the potential of advanced transformer architectures in improving the adaptability and speed of text spotting applications in diverse real-world settings. The dataset, code, and pre-trained models have been released in our Github. | 翻訳日:2024-08-28 13:53:43 公開日:2024-08-27 |
# 光音楽認識における知識発見:インスタンスセグメンテーションによる情報検索の促進
Knowledge Discovery in Optical Music Recognition: Enhancing Information Retrieval with Instance Segmentation ( http://arxiv.org/abs/2408.15002v1 ) ライセンス: Link先を確認 | Elona Shatri, George Fazekas, | (参考訳) 光音楽認識(OMR)は、画像からMusicXML、MEI、MIDIなどの機械可読フォーマットに書き起こしを自動化し、手書き文字起こしのコストと時間を大幅に削減する。
本研究では,MAsk R-CNNを用いたサンプルセグメンテーションを適用してOMRにおける知識発見について検討し,楽譜中の記号の検出とデライン化を促進する。
光学文字認識(OCR)とは異なり、OMRは記号の意味が形、位置、文脈に依存する共通西洋音楽表記(CWMN)の複雑な意味を扱う必要がある。
本手法は,楽譜の密度と重なり合いの管理にインスタンスセグメンテーションを活用し,より正確な情報検索を容易にする。
DoReMi と MUSCIMA++ データセットの評価は,高密度シンボル環境において平均平均精度 (mAP) を59.70 % まで向上し,オブジェクト検出に匹敵する結果を得た。
さらに,従来のコンピュータビジョン技術を用いて,認識されたシンボルのピッチを推定するために,スタッフ検出のための並列ステップを追加する。
本研究は,OMRにおける知識発見に寄与する,正確な音楽記号認識における画素分割の役割を強調した。
以上の結果から,音節分割は,特に密集した楽譜において,より正確な記号表現を提供し,OMR技術の進歩が示唆された。
我々は、さらなる研究と開発を支援するために、実装、事前処理スクリプト、訓練済みモデル、および評価結果を公開しています。
Optical Music Recognition (OMR) automates the transcription of musical notation from images into machine-readable formats like MusicXML, MEI, or MIDI, significantly reducing the costs and time of manual transcription. This study explores knowledge discovery in OMR by applying instance segmentation using Mask R-CNN to enhance the detection and delineation of musical symbols in sheet music. Unlike Optical Character Recognition (OCR), OMR must handle the intricate semantics of Common Western Music Notation (CWMN), where symbol meanings depend on shape, position, and context. Our approach leverages instance segmentation to manage the density and overlap of musical symbols, facilitating more precise information retrieval from music scores. Evaluations on the DoReMi and MUSCIMA++ datasets demonstrate substantial improvements, with our method achieving a mean Average Precision (mAP) of up to 59.70\% in dense symbol environments, achieving comparable results to object detection. Furthermore, using traditional computer vision techniques, we add a parallel step for staff detection to infer the pitch for the recognised symbols. This study emphasises the role of pixel-wise segmentation in advancing accurate music symbol recognition, contributing to knowledge discovery in OMR. Our findings indicate that instance segmentation provides more precise representations of musical symbols, particularly in densely populated scores, advancing OMR technology. We make our implementation, pre-processing scripts, trained models, and evaluation results publicly available to support further research and development. | 翻訳日:2024-08-28 13:53:43 公開日:2024-08-27 |
# 量子ホール流体中の特殊ポラロン-ポラロン相互作用
Exact Polaron-Polaron interactions in a Quantum Hall Fluid ( http://arxiv.org/abs/2408.15007v1 ) ライセンス: Link先を確認 | Jia Wang, Xia-Ji Liu, Hui Hu, | (参考訳) 我々は、高縮退するランダウ準位を持つ量子ホール系において、相互作用しない光フェルミオンの海によって媒介される重い不純物間の効果的なポーラロン-ポーラロン相互作用の正確な解を示す。
不純物とフェルミオンの間の弱い魅力には、最低ランダウの多様体のみが関係する。
顕著なことに、ポラロン相互作用は、ランダウ準位のフェルミオンが重い不純物より多いとき、完全にゼロである。
強い魅力のために、より高次のランダウ級数の異なる多様体が作用し始め、相互作用するポーラロン相互作用ポテンシャルを数値的に解くために使用できる方程式の集合を導出する。
不純物間の距離Rが磁気距離よりも大きい場合、ポテンシャルは消失するが、クーロンの形 -1/R の後、短距離で強く分岐する。
我々のポーラロン-ポーラロン相互作用の正確な結果は、量子ホール状態のフェルミ・ポーラロン系が合成ゲージ場または高速回転下で実現されるコールド原子配置で調べられる。
我々の予測は、強磁場下での電子ドープ半導体におけるエキシトン-ポーラロン間の効果的な相互作用を理解する上でも有用である。
We present an exact solution for effective polaron-polaron interactions between heavy impurities, mediated by a sea of non-interacting light fermions in the quantum Hall regime with highly degenerate Landau levels. For weak attraction between impurities and fermions, where only the manifold of lowest Landau levels is relevant, we obtain an analytical expression of mediated polaron-polaorn interactions. Remarkably, polaron interactions are exactly zero when fermions in lowest Landau levels outnumber heavy impurities. For strong attraction, different manifolds of higher Landau levels come into play and we derive a set of equations that can be used to numerically solve the mediated polaron interaction potential. We find that the potential vanishes when the distance R between impurities is larger than the magnetic length, but strongly diverges at short range following a Coulomb form -1/R. Our exact results of polaron-polaron interactions might be examined in cold-atom setups, where a system of Fermi polarons in the quantum Hall regime is realized with synthetic gauge field or under fast rotation. Our predictions could also be useful to understand the effective interaction between exciton-polarons in electron-doped semiconductors under strong magnetic field. | 翻訳日:2024-08-28 13:53:43 公開日:2024-08-27 |
# あらゆる場所で事前訓練:目標パラメータによる医用画像解析のためのパラメータ効率の良い微調整
Pre-training Everywhere: Parameter-Efficient Fine-Tuning for Medical Image Analysis via Target Parameter Pre-training ( http://arxiv.org/abs/2408.15011v1 ) ライセンス: Link先を確認 | Xingliang Lei, Yiwen Ye, Ziyang Chen, Minglei Shu, Yong Xia, | (参考訳) パラメータ効率のよい微調整(PEFT)技術は、自己教師学習のパラダイムにおける完全微調整に伴う過度な適合と高い計算コストの問題に対処するために出現している。
PEFTに基づくメインストリームメソッドでは、バックボーンのトレーニング済みパラメータを固定しながら、トレーニング可能なパラメータをいくつか追加する。
これらの手法は、訓練済みのバックボーンの強力な表現能力を実証し、完全な微調整に比較し、しばしば優れた性能を発揮する。
その成功にもかかわらず、これらの手法は一般に新しいパラメータの初期化を無視し、しばしばランダムな初期化にのみ依存する。
事前学習が有益であるなら、表現能力を必要とする全てのパラメータに適用すべきである。
そこで本研究では,ターゲットパラメータ事前学習(TPP)に基づく簡易かつ効果的な微調整フレームワークを提案する。
ターゲットパラメータは、微調整中に導入された新しいパラメータを指す。
TPPはPEFTの前にこれらのターゲットパラメータを事前訓練するための追加段階を含む。
この段階では、事前訓練されたバックボーンパラメータは凍結され、ターゲットパラメータのみがトレーニング可能である。
定義済みのプレテキストタスクは、ターゲットパラメータが下流データの特定の表現を学ぶことを奨励するために使用される。
その後、PEFTが使用されると、訓練済みの目標パラメータをロードして微調整効率を高める。
提案する TPP フレームワークは汎用性が高く,各種PEFT メソッドをバックボーンとして事前学習およびサポートするための各種プリテキストタスクの統合が可能である。
3つのモードと2つのタスクタイプを含む5つの公開データセットを用いて,提案手法の微調整性能を評価した。
その結果,提案手法は既存のPEFT手法と容易に統合でき,性能が大幅に向上した。
Parameter-efficient fine-tuning (PEFT) techniques have emerged to address issues of overfitting and high computational costs associated with fully fine-tuning in the paradigm of self-supervised learning. Mainstream methods based on PEFT involve adding a few trainable parameters while keeping the pre-trained parameters of the backbone fixed. These methods achieve comparative, and often superior, performance to fully fine-tuning, demonstrating the powerful representation ability of the pre-trained backbone. Despite its success, these methods typically ignore the initialization of the new parameters, often relying solely on random initialization. We argue that if pre-training is significantly beneficial, it should be applied to all parameters requiring representational capacity. Motivated by this insight, we propose a simple yet effective fine-tuning framework based on Target Parameter Pre-training (TPP). The target parameters refer to the new parameters introduced during fine-tuning. TPP includes an additional stage before PEFT to pre-train these target parameters. During this stage, the pre-trained backbone parameters are frozen, and only the target parameters are trainable. A defined pre-text task is used to encourage the target parameters to learn specific representations of downstream data. When PEFT is subsequently employed, the pre-trained target parameters are loaded to enhance fine-tuning efficiency. The proposed TPP framework is versatile, allowing for the integration of various pretext tasks for pre-training and supporting different PEFT methods as backbones. We evaluated the fine-tining performance of our method using five public datasets, including three modalities and two task types. The results demonstrate that the proposed TPP can be easily integrated into existing PEFT methods, significantly improving performance. | 翻訳日:2024-08-28 13:53:43 公開日:2024-08-27 |
# $f$-divergence Perception Constraint を用いた速度歪み知覚関数の交換最小化方式
Alternating Minimization Schemes for Computing Rate-Distortion-Perception Functions with $f$-Divergence Perception Constraints ( http://arxiv.org/abs/2408.15015v1 ) ライセンス: Link先を確認 | Giuseppe Serra, Photios A. Stavrou, Marios Kountouris, | (参考訳) 本研究では,1文字平均歪み制約および$f$-divergencesファミリーに属する知覚制約を受ける離散メモリレスソースに対するレート歪み知覚関数(RDPF)の計算について検討する。
この設定では、RDPFは、最適パラメトリック解を特徴づける凸プログラミング問題を形成する。
我々は, 収束保証を提供する最適交換最小化(OAM)の交互最小化方式において, 開発した解を用いている。
それでも、OAMスキームは、反復構造に暗黙の方程式が存在するため、一般化されたブラフト・アリモト型アルゴリズム(BA)の直接的な実装には至らない。
この難しさを克服するために、Newton-based Alternating Minimization (NAM)スキームと、OAMイテレートの緩和に基づくRelaxed Alternating Minimization (RAM)スキームの2つの代替最小化手法を提案する。
どちらのスキームも、大域的最適解への収束を保証するために必要かつ十分な条件の導出によって示される。
また、提案アルゴリズムが繰り返しステップの数で指数関数的に高速に収束することを保証し、歪みと知覚制約について十分な条件を提供する。
理論的結果を数値シミュレーションで相関させ,既存の結果と接続する。
We study the computation of the rate-distortion-perception function (RDPF) for discrete memoryless sources subject to a single-letter average distortion constraint and a perception constraint that belongs to the family of $f$-divergences. In this setting, the RDPF forms a convex programming problem for which we characterize the optimal parametric solutions. We employ the developed solutions in an alternating minimization scheme, namely Optimal Alternating Minimization (OAM), for which we provide convergence guarantees. Nevertheless, the OAM scheme does not lead to a direct implementation of a generalized Blahut-Arimoto (BA) type of algorithm due to the presence of implicit equations in the structure of the iteration. To overcome this difficulty, we propose two alternative minimization approaches whose applicability depends on the smoothness of the used perception metric: a Newton-based Alternating Minimization (NAM) scheme, relying on Newton's root-finding method for the approximation of the optimal iteration solution, and a Relaxed Alternating Minimization (RAM) scheme, based on a relaxation of the OAM iterates. Both schemes are shown, via the derivation of necessary and sufficient conditions, to guarantee convergence to a globally optimal solution. We also provide sufficient conditions on the distortion and the perception constraints which guarantee that the proposed algorithms converge exponentially fast in the number of iteration steps. We corroborate our theoretical results with numerical simulations and draw connections with existing results. | 翻訳日:2024-08-28 13:53:43 公開日:2024-08-27 |
# マルチタスク認知状態評価のためのクロスオブジェクト脳機能結合解析
Cross-subject Brain Functional Connectivity Analysis for Multi-task Cognitive State Evaluation ( http://arxiv.org/abs/2408.15018v1 ) ライセンス: Link先を確認 | Jun Chen, Anqi Chen, Bingkun Jiang, Mohammad S. Obaidat, Ni Li, Xinyu Zhang, | (参考訳) コグニション(Cognition)とは、人間の基本的な心理的本質である情報知覚と処理の機能を指す。
推論と意思決定の責任を負っており、その評価は航空分野において潜在的な安全リスクを軽減する上で重要である。
既存の研究では、認知状態の評価に様々な方法を用いる傾向があるが、タイムライン、一般化、解釈可能性に制限がある。
そこで本研究では,脳機能と脳波信号との接続を利用して,複数の被験者の脳領域の関連性を把握し,リアルタイム認知状態を評価する。
具体的には、バーチャルリアリティーベースの飛行プラットフォームは、マルチスクリーンの組み込みで構築されている。
3つの独特な認知タスクが設計され、それぞれに3つの難易度がある。
分析と評価のために30の被験者が取得される。
結果は、タスクワイドおよびジェンダーワイドの基礎となる脳機能接続のためのインナーオブジェクトやクロスオブジェクトなど、さまざまな視点で解釈される。
さらに, アンケートに基づく, タスクパフォーマンスに基づく, 生理的尺度に基づくアプローチを取り入れ, トライアルを適切にラベル付けする。
マルチクラス認知状態の評価は、アクティブな脳の接続によって行われる。
ベンチマークの結果、同定された脳の領域は認知にかなりの影響を与えており、従来の研究より95.83%の精度が95.83%高いことが示されている。
以上の結果から,人間の脳機能領域,物体間認知行動,意思決定の動的関係を理解することの重要性が示唆された。
Cognition refers to the function of information perception and processing, which is the fundamental psychological essence of human beings. It is responsible for reasoning and decision-making, while its evaluation is significant for the aviation domain in mitigating potential safety risks. Existing studies tend to use varied methods for cognitive state evaluation yet have limitations in timeliness, generalisation, and interpretability. Accordingly, this study adopts brain functional connectivity with electroencephalography signals to capture associations in brain regions across multiple subjects for evaluating real-time cognitive states. Specifically, a virtual reality-based flight platform is constructed with multi-screen embedded. Three distinctive cognitive tasks are designed and each has three degrees of difficulty. Thirty subjects are acquired for analysis and evaluation. The results are interpreted through different perspectives, including inner-subject and cross-subject for task-wise and gender-wise underlying brain functional connectivity. Additionally, this study incorporates questionnaire-based, task performance-based, and physiological measure-based approaches to fairly label the trials. A multi-class cognitive state evaluation is further conducted with the active brain connections. Benchmarking results demonstrate that the identified brain regions have considerable influences in cognition, with a multi-class accuracy rate of 95.83% surpassing existing studies. The derived findings bring significance to understanding the dynamic relationships among human brain functional regions, cross-subject cognitive behaviours, and decision-making, which have promising practical application values. | 翻訳日:2024-08-28 13:53:43 公開日:2024-08-27 |
# カモフラージュ物体検出のための動的トークンクラスタリングを用いた階層グラフ相互作用変換器
Hierarchical Graph Interaction Transformer with Dynamic Token Clustering for Camouflaged Object Detection ( http://arxiv.org/abs/2408.15020v1 ) ライセンス: Link先を確認 | Siyuan Yao, Hao Sun, Tian-Zhu Xiang, Xiao Wang, Xiaochun Cao, | (参考訳) カモフラージュされた物体検出(COD)は、周囲の背景にシームレスに溶け込む物体を特定することを目的としている。
カモフラージュされた物体と背景領域との固有の類似性のため、既存のアプローチでカモフラーグされた物体を正確に識別することは極めて困難である。
本稿では,HGINetと呼ばれる階層型グラフ相互作用ネットワークを提案する。
具体的には、まず、局所的に識別可能なトークンを発掘するために、動的トークンクラスタリングによる領域認識型トークンフォーカスアテンション(RTFA)を設計する。
その後,階層型グラフ相互作用変換器 (HGIT) が提案され,視覚的セマンティクス強化のための潜在相互作用空間における階層的特徴間の双方向な通信を構築する。
さらに,信頼集約型特徴融合(CAFF)モジュールを用いたデコーダネットワークを提案する。
一般的なデータセットであるCOD10K、CAMO、NC4K、CHAMELEONで実施された大規模な実験は、既存の最先端手法と比較して、HGINetの優れた性能を示している。
私たちのコードはhttps://github.com/Garyson1204/HGINetで利用可能です。
Camouflaged object detection (COD) aims to identify the objects that seamlessly blend into the surrounding backgrounds. Due to the intrinsic similarity between the camouflaged objects and the background region, it is extremely challenging to precisely distinguish the camouflaged objects by existing approaches. In this paper, we propose a hierarchical graph interaction network termed HGINet for camouflaged object detection, which is capable of discovering imperceptible objects via effective graph interaction among the hierarchical tokenized features. Specifically, we first design a region-aware token focusing attention (RTFA) with dynamic token clustering to excavate the potentially distinguishable tokens in the local region. Afterwards, a hierarchical graph interaction transformer (HGIT) is proposed to construct bi-directional aligned communication between hierarchical features in the latent interaction space for visual semantics enhancement. Furthermore, we propose a decoder network with confidence aggregated feature fusion (CAFF) modules, which progressively fuses the hierarchical interacted features to refine the local detail in ambiguous regions. Extensive experiments conducted on the prevalent datasets, i.e. COD10K, CAMO, NC4K and CHAMELEON demonstrate the superior performance of HGINet compared to existing state-of-the-art methods. Our code is available at https://github.com/Garyson1204/HGINet. | 翻訳日:2024-08-28 13:53:43 公開日:2024-08-27 |
# 超音波探触子誘導のためのシーケンスアウェア事前トレーニング
Sequence-aware Pre-training for Echocardiography Probe Guidance ( http://arxiv.org/abs/2408.15026v1 ) ライセンス: Link先を確認 | Haojun Jiang, Zhenguo Sun, Yu Sun, Ning Jia, Meng Li, Shaqi Luo, Shiji Song, Gao Huang, | (参考訳) 心臓超音波プローブ誘導は、初心者が6-DOFプローブのポーズを調整して高品質な断面画像を得るのを助けることを目的としている。
心臓超音波は、(1)心臓の本質的に複雑な構造、(2)重要な個人差の2つの大きな課題に直面している。
これまでの研究では、心臓のパーソナライズされた構造ではなく、心臓の2Dと3Dの人口平均構造についてしか学ばず、パフォーマンスのボトルネックにつながった。
臨床的には, 超音波検査者が, 患者の心構造を前向きのスキャンシーケンスに基づいて把握し, スキャン戦略を変更することが観察された。
そこで本研究では,シーケンス認識型自己教師型事前学習手法を提案する。
具体的には,スキャンシーケンス内のマスクアウト画像と動作を予測することにより,パーソナライズされた2次元および3次元心構造の特徴を学習する。
モデルが不足コンテンツを予測することができれば、パーソナライズされた心構造をよく理解できるという仮説を立てる。
下流プローブ誘導タスクでは、過去のスキャンデータから得られた画像と行動に基づいて、個々の心構造情報をモデル化し、より正確なナビゲーション決定を可能にするシーケンスモデリング手法も導入した。
1.36万のサンプルを持つ大規模データセットの実験では、我々の提案したシーケンス認識パラダイムはナビゲーションエラーを著しく低減し、翻訳エラーは15.90%減の36.87%、回転エラーは11.13%減の20.77%と最先端の手法と比較して減少した。
Cardiac ultrasound probe guidance aims to help novices adjust the 6-DOF probe pose to obtain high-quality sectional images. Cardiac ultrasound faces two major challenges: (1) the inherently complex structure of the heart, and (2) significant individual variations. Previous works have only learned the population-averaged 2D and 3D structures of the heart rather than personalized cardiac structural features, leading to a performance bottleneck. Clinically, we observed that sonographers adjust their understanding of a patient's cardiac structure based on prior scanning sequences, thereby modifying their scanning strategies. Inspired by this, we propose a sequence-aware self-supervised pre-training method. Specifically, our approach learns personalized 2D and 3D cardiac structural features by predicting the masked-out images and actions in a scanning sequence. We hypothesize that if the model can predict the missing content it has acquired a good understanding of the personalized cardiac structure. In the downstream probe guidance task, we also introduced a sequence modeling approach that models individual cardiac structural information based on the images and actions from historical scan data, enabling more accurate navigation decisions. Experiments on a large-scale dataset with 1.36 million samples demonstrated that our proposed sequence-aware paradigm can significantly reduce navigation errors, with translation errors decreasing by 15.90% to 36.87% and rotation errors decreasing by 11.13% to 20.77%, compared to state-of-the-art methods. | 翻訳日:2024-08-28 13:53:43 公開日:2024-08-27 |
# 欧州の量子生態系 - 量子セキュリティと通信革命のための産業の準備
European Quantum Ecosystems -- Preparing the Industry for the Quantum Security and Communications Revolution ( http://arxiv.org/abs/2408.15027v1 ) ライセンス: Link先を確認 | Noel Farrugia, Daniel Bonanno, Nicholas Frendo, André Xuereb, Evangelos Kosmatos, Alexandros Stavdas, Marco Russo, Bartolomeo Montrucchio, Marco Menchetti, Davide Bacco, Silvia Marigonda, Francesco Stocco, Guglielmo Morgari, Antonio Manzalini, | (参考訳) 第2の量子革命は、単一量子粒子(例えば、電子、光子、イオンなど)を検出し、操作する技術能力に基づいており、第1の量子革命で達成されていない成果は急速に進歩している。
10年足らずのこの第2次量子革命は、金融、医療、エネルギー、輸送など、多くの産業に重大な影響を与えるものと期待されている。
量子コンピュータは、非対称な暗号化を破ることのできる既知の量子アルゴリズムのために、サイバーセキュリティの現状を脅かす。
データ交換と処理によるデジタル通信への世界の依存を考えると、量子コンピュータが動作したとしてもセキュアに通信する能力を維持することは十分に強調できない。
量子鍵分布(QKD)とポスト量子暗号(PQC)の2つのソリューションが利用可能である。
EQUOの一部であるユーロQCIイニシアチブは、QKDに焦点を当て、EU諸国がQKDを通じて安全にコミュニケーションできるネットワークの構築を目指している。
この目的のために、DEC(Digital Europe Programme)プロジェクトは、QKDテストネットワークをデプロイすることで、QKDに技術的成熟度をもたらすことを目的としており、この課題を通じて、ネットワークにQKDを統合する時期が来たとき、オペレーターの視点に欠けていることを理解する。
There is mounting evidence that a second quantum revolution based on the technological capabilities to detect and manipulate single quantum particles (e.g., electrons, photons, ions, etc), a feat not achieved during the first quantum revolution, is progressing fast. It is expected that in less than 10 years, this second quantum revolution shall have a significant impact over numerous industries, including finance, medicine, energy, transportation, etc. Quantum computers threaten the status quo of cybersecurity, due to known quantum algorithms that can break asymmetric encryption, which is what gives us the ability to communicate securely using a public channel. Considering the world's dependence on digital communication through data exchange and processing, retaining the ability to communicate securely even once quantum computers come into play, cannot be stressed enough. Two solutions are available: Quantum Key Distribution (QKD) and Post-Quantum Cryptography (PQC); which, we emphasise, are not mutually exclusive. The EuroQCI initiative, of which EQUO is a part of, focuses on QKD and aims to build a network whereby EU countries can communicate securely through QKD. To this aim, the DEP (Digital Europe Programme) project aims to bring technological matureness to QKD by deploying a QKD test network and, through this exercise, understand what is lacking from an operator's point of view when the time to integrate QKD in their network comes. | 翻訳日:2024-08-28 13:53:43 公開日:2024-08-27 |
# once and for all: How to Compos Module -- The composition calculus
Once and for all: how to compose modules -- The composition calculus ( http://arxiv.org/abs/2408.15031v1 ) ライセンス: Link先を確認 | Peter Fettke, Wolfgang Reisig, | (参考訳) 計算可能性理論は伝統的に情報学の理論的基礎として考えられている。
にもかかわらず、多くの提案が計算可能性理論を超越し、特にモジュールやコンポーネント、部品、構成部品の相互作用を基本的な計算機能として強調している。
技術的なフレームワークでは、相互作用にはモジュールの構成が必要です。
したがって、最も抽象的で包括的な加群の理論とその構成が必要である。
この目的のために、相互作用するモジュールからなるデジタル世界のシステムを特徴付けるために、最小限の仮定セットを提案する。
そのようなシステムに対して、重要な性質、特に連想性を示す単純だが最も一般的な合成演算子を持つ計算法を提案する。
この構成計算は、単に概念的な形式的なフレームワークを提供するだけでなく、基本的にはモジュールとその構成のすべての設定がこの計算をベースとすることができる、と我々は主張する。
この主張は、定理、性質、加群の特殊類、ケーススタディの豊富な体によって支持される。
Computability theory is traditionally conceived as the theoretical basis of informatics. Nevertheless, numerous proposals transcend computability theory, in particular by emphasizing interaction of modules, or components, parts, constituents, as a fundamental computing feature. In a technical framework, interaction requires composition of modules. Hence, a most abstract, comprehensive theory of modules and their composition is required. To this end, we suggest a minimal set of postulates to characterize systems in the digital world that consist of interacting modules. For such systems, we suggest a calculus with a simple, yet most general composition operator which exhibits important properties, in particular associativity. We claim that this composition calculus provides not just another conceptual, formal framework, but that essentially all settings of modules and their composition can be based on this calculus. This claim is supported by a rich body of theorems, properties, special classes of modules, and case studies. | 翻訳日:2024-08-28 13:53:43 公開日:2024-08-27 |
# Mamba2MIL:計算病理のための状態空間双対に基づく多重インスタンス学習
Mamba2MIL: State Space Duality Based Multiple Instance Learning for Computational Pathology ( http://arxiv.org/abs/2408.15032v1 ) ライセンス: Link先を確認 | Yuqi Zhang, Xiaoqian Zhang, Jiakai Wang, Yuancheng Yang, Taiying Peng, Chao Tong, | (参考訳) CPath(Computational pathology)は,病理の臨床的実践を著しく進歩させてきた。
進歩にもかかわらず、CPath内の有望なパラダイムであるMultiple Instance Learning(MIL)は、特に不完全な情報利用に関する課題に直面し続けている。
既存のフレームワークとしては、畳み込みニューラルネットワーク(CNN)、注意、選択スキャニング空間状態シーケンシャルモデル(SSM)などがあり、多様な機能を融合する際に十分な柔軟性とスケーラビリティが欠如しており、多様な機能を効果的に融合することはできない。
さらに、現在のアプローチでは順序関係や順序に依存しない特徴を適切に利用していないため、シーケンス情報の準最適利用が期待できる。
これらの制約に対処するため,Mamba2MILと呼ばれる新しいMILフレームワークを提案する。
我々のフレームワークは、ステートスペース双対モデル(SSD)を用いて、スライド画像全体(WSI)のパッチの長いシーケンスをモデル化し、重み付けされた特徴選択と組み合わせ、より分岐した特徴の融合処理をサポートし、特定のアプリケーションニーズに応じて拡張することができる。
さらに、各WSIサイズに合わせて調整されたシーケンス変換手法を導入し、局所的なシーケンス情報を保存しながら、シーケンスに依存しない特徴を向上し、シーケンス情報の利用性を向上させる。
大規模な実験により、Mamba2MILは最先端のMIL法を超えることが示された。
私たちは、複数のデータセットにわたる広範な実験を行い、ほぼすべてのパフォーマンス指標を改善しました。
具体的には、NSCLCデータセット上で、Mamba2MIL はバイナリ腫瘍分類 AUC の 0.9533 と精度 0.8794 を達成している。
BRACSデータセットでは、AUCは0.7986、精度は0.4981である。
コードはhttps://github.com/YuqiZhang-Buaa/Mamba2MILで入手できる。
Computational pathology (CPath) has significantly advanced the clinical practice of pathology. Despite the progress made, Multiple Instance Learning (MIL), a promising paradigm within CPath, continues to face challenges, particularly related to incomplete information utilization. Existing frameworks, such as those based on Convolutional Neural Networks (CNNs), attention, and selective scan space state sequential model (SSM), lack sufficient flexibility and scalability in fusing diverse features, and cannot effectively fuse diverse features. Additionally, current approaches do not adequately exploit order-related and order-independent features, resulting in suboptimal utilization of sequence information. To address these limitations, we propose a novel MIL framework called Mamba2MIL. Our framework utilizes the state space duality model (SSD) to model long sequences of patches of whole slide images (WSIs), which, combined with weighted feature selection, supports the fusion processing of more branching features and can be extended according to specific application needs. Moreover, we introduce a sequence transformation method tailored to varying WSI sizes, which enhances sequence-independent features while preserving local sequence information, thereby improving sequence information utilization. Extensive experiments demonstrate that Mamba2MIL surpasses state-of-the-art MIL methods. We conducted extensive experiments across multiple datasets, achieving improvements in nearly all performance metrics. Specifically, on the NSCLC dataset, Mamba2MIL achieves a binary tumor classification AUC of 0.9533 and an accuracy of 0.8794. On the BRACS dataset, it achieves a multiclass classification AUC of 0.7986 and an accuracy of 0.4981. The code is available at https://github.com/YuqiZhang-Buaa/Mamba2MIL. | 翻訳日:2024-08-28 13:53:43 公開日:2024-08-27 |
# 生成質問応答における幻覚緩和のためのエビデンス強化トリプルト生成フレームワーク
Evidence-Enhanced Triplet Generation Framework for Hallucination Alleviation in Generative Question Answering ( http://arxiv.org/abs/2408.15037v1 ) ライセンス: Link先を確認 | Haowei Du, Huishuai Zhang, Dongyan Zhao, | (参考訳) 文書から解答を導出できない生成的質問応答(GQA)における幻覚に対処するため,本論文では,提案する新たなエビデンス強化三重項生成フレームワークであるEATQAを提案し,ソースペアとターゲットラベルを切り替えて,それぞれQE,EA,QAペアを与えられたAnswer(A),QA(E),QA(E),QA(A),Evidence(E))の論理的関係を理解することによって,三重項のすべての組み合わせを予測することを奨励する。
さらに,分布ギャップを橋渡しし,推論段階における証拠から知識を抽出する。
我々のフレームワークは,クエリとエビデンスと応答の間の論理的関係を学習し,同時にエビデンス生成とクエリ応答を改善する。
本稿では,LLama に EATQA を適用し,他の LLM 法と幻覚緩和法を2つのGQA ベンチマークで比較した。
さらなる分析により,本手法は先行知識をLLM内に保持するだけでなく,幻覚を緩和し,忠実な回答を生み出すことが示唆された。
To address the hallucination in generative question answering (GQA) where the answer can not be derived from the document, we propose a novel evidence-enhanced triplet generation framework, EATQA, encouraging the model to predict all the combinations of (Question, Evidence, Answer) triplet by flipping the source pair and the target label to understand their logical relationships, i.e., predict Answer(A), Question(Q), and Evidence(E) given a QE, EA, and QA pairs, respectively. Furthermore, we bridge the distribution gap to distill the knowledge from evidence in inference stage. Our framework ensures the model to learn the logical relation between query, evidence and answer, which simultaneously improves the evidence generation and query answering. In this paper, we apply EATQA to LLama and it outperforms other LLMs-based methods and hallucination mitigation approaches on two challenging GQA benchmarks. Further analysis shows that our method not only keeps prior knowledge within LLM, but also mitigates hallucination and generates faithful answers. | 翻訳日:2024-08-28 13:53:43 公開日:2024-08-27 |
# 合成データの爆発による対話的咬合境界推定
Interactive Occlusion Boundary Estimation through Exploitation of Synthetic Data ( http://arxiv.org/abs/2408.15038v1 ) ライセンス: Link先を確認 | Lintao Xu, Chaohui Wang, | (参考訳) 閉塞境界(OB)は2次元画像中の閉塞事象を幾何学的に局所化し、様々なシーン理解問題に対処するための有用な情報を含む。
彼らの研究を進めるために、我々は以下の3つの側面で調査を主導した。
まず,本論文で最初に発表されたOBの対話的評価について検討し,DNMMSIと呼ばれるマルチスクリブル介入を用いた効率的なディープネットワーク方式を提案する。
第2に, OBが3Dシーンから幾何的かつ曖昧に決定されるという特異性により, トレーニングプロセスにおいて合成ベンチマークを活用することを提案する。
そこで我々は,2次元画像の自動生成を行うMesh2OBというツールを開発した。
実験結果から, ドメイン適応手法を使わずとも, このようなベンチマークをトレーニングに活用することで, 有望な性能が得られることが示された。
最後に、OB関連研究においてより説得力が高く堅牢な評価を実現するため、120個の高解像度画像とそれ以前のベンチマークの精度を上回り、OB-LabNameという真のベンチマークを作成しました。
DNMMSIには事前訓練されたパラメータ、Mesh2OB、OB-FUTURE、OB-LabNameがあり、さらなる研究をサポートする。
Occlusion boundaries (OBs) geometrically localize the occlusion events in a 2D image, and contain useful information for addressing various scene understanding problems. To advance their study, we have led the investigation in the following three aspects. Firstly, we have studied interactive estimation of OBs, which is the first in the literature, and proposed an efficient deep-network-based method using multiple-scribble intervention, named DNMMSI, which significantly improves the performance over the state-of-the-art fully-automatic methods. Secondly, we propose to exploit the synthetic benchmark for the training process, thanks to the particularity that OBs are determined geometrically and unambiguously from the 3D scene. To this end, we have developed an efficient tool, named Mesh2OB, for the automatic generation of 2D images together with their ground-truth OBs, using which we have constructed a synthetic benchmark, named OB-FUTURE. Abundant experimental results demonstrate that leveraging such a synthetic benchmark for training achieves promising performance, even without the use of domain adaptation techniques. Finally, to achieve a more compelling and robust evaluation in OB-related research, we have created a real benchmark, named OB-LabName, consisting of 120 high-resolution images together with their ground-truth OBs, with precision surpassing that of previous benchmarks. We will release DNMMSI with pre-trained parameters, Mesh2OB, OB-FUTURE, and OB-LabName to support further research. | 翻訳日:2024-08-28 13:43:53 公開日:2024-08-27 |
# ヨーロッパ言語における大規模言語モデルの検討
A Survey of Large Language Models for European Languages ( http://arxiv.org/abs/2408.15040v1 ) ライセンス: Link先を確認 | Wazir Ali, Sampo Pyysalo, | (参考訳) 大規模言語モデル(LLM)は、ChatGPTのリリース以来、多岐にわたる自然言語タスクにおける高いパフォーマンスのために注目されている。
LLMは、膨大なテキストデータに対して数十億のモデルパラメータをトレーニングすることで、言語を理解し、生成することを学ぶ。
比較的新しい分野であるにもかかわらず、LSMの研究は様々な方向に急速に進んでいる。
本稿では, LLaMA, PaLM, GPT, MoE など LLM ファミリーの概要と, 欧州連合 (EU) の公式言語のための LLM 作成・拡張手法について述べる。
LLMの事前学習に使用される共通単言語および多言語データセットの包括的要約を提供する。
Large Language Models (LLMs) have gained significant attention due to their high performance on a wide range of natural language tasks since the release of ChatGPT. The LLMs learn to understand and generate language by training billions of model parameters on vast volumes of text data. Despite being a relatively new field, LLM research is rapidly advancing in various directions. In this paper, we present an overview of LLM families, including LLaMA, PaLM, GPT, and MoE, and the methods developed to create and enhance LLMs for official European Union (EU) languages. We provide a comprehensive summary of common monolingual and multilingual datasets used for pretraining LLMs. | 翻訳日:2024-08-28 13:43:53 公開日:2024-08-27 |
# グラフニューラルネットワークによる地球観測衛星のスケジューリング
Earth Observation Satellite Scheduling with Graph Neural Networks ( http://arxiv.org/abs/2408.15041v1 ) ライセンス: Link先を確認 | Antoine Jacquet, Guillaume Infantes, Nicolas Meuleau, Emmanuel Benazera, Stéphanie Roussel, Vincent Baudoui, Jonathan Guerra, | (参考訳) 地球観測衛星計画(英語: Earth Observation Satellite Planning、EOSP)は、実際的な関心を持つ難しい最適化問題である。
要求された観測のセットは、その可視性窓の制約を尊重しながら、アジャイルな地球観測衛星にスケジュールされなければならない。
さらに、問題は概ね過剰な説明であり、達成可能なものよりもはるかに多くの候補観察がある。
したがって、重み付けされた累積的利益を最大化しながら実施される観測の集合を選択し、これらの観測の実現可能なスケジュールを提案する必要がある。
本稿では,主にヒューリスティックかつ反復的な探索アルゴリズムに着目し,グラフニューラルネットワーク(GNN)と深層強化学習(DRL)に基づく観測の選定とスケジューリングを行う新しい手法を提案する。
GNNはEOSPのインスタンスを表すグラフから関連する情報を抽出するために使用され、DRLは最適なスケジュールを探索する。
シミュレーションにより,より大規模な実世界のインスタンスに一般化し,従来の手法と比較して非常に競争力のある性能で学習できることが示唆された。
The Earth Observation Satellite Planning (EOSP) is a difficult optimization problem with considerable practical interest. A set of requested observations must be scheduled on an agile Earth observation satellite while respecting constraints on their visibility window, as well as maneuver constraints that impose varying delays between successive observations. In addition, the problem is largely oversubscribed: there are much more candidate observations than what can possibly be achieved. Therefore, one must select the set of observations that will be performed while maximizing their weighted cumulative benefit, and propose a feasible schedule for these observations. As previous work mostly focused on heuristic and iterative search algorithms, this paper presents a new technique for selecting and scheduling observations based on Graph Neural Networks (GNNs) and Deep Reinforcement Learning (DRL). GNNs are used to extract relevant information from the graphs representing instances of the EOSP, and DRL drives the search for optimal schedules. Our simulations show that it is able to learn on small problem instances and generalize to larger real-world instances, with very competitive performance compared to traditional approaches. | 翻訳日:2024-08-28 13:43:53 公開日:2024-08-27 |
# ペトリネットの本質
Essentials of Petri nets ( http://arxiv.org/abs/2408.15042v1 ) ライセンス: Link先を確認 | Wolfgang Reisig, Peter Fettke, | (参考訳) この貢献は、しばしば無視されるペトリネットのいくつかの概念と側面を強調しているが、著者が重要あるいは興味深いと考えていること、あるいはカール・アダム・ペトリが強調したことを強調している。
This contribution highlights some concepts and aspects of Petri nets that are frequently neglected, but that the authors consider important or interesting, or that Carl Adam Petri emphasized. | 翻訳日:2024-08-28 13:43:53 公開日:2024-08-27 |
# 最新のDRAMチップの実験的考察による高効率かつスケーラブルなDRAM読み取り外乱低減
Enabling Efficient and Scalable DRAM Read Disturbance Mitigation via New Experimental Insights into Modern DRAM Chips ( http://arxiv.org/abs/2408.15044v1 ) ライセンス: Link先を確認 | Abdullah Giray Yağlıkçı, | (参考訳) ストレージ密度の増大は、システムレベルの攻撃によって悪用される回路レベルの脆弱性であるDRAM読み取り障害を悪化させる。
残念ながら、既存の防御は効果がないか、違法に高価である。
効率的な緩和は、将来のDRAMベースのシステムで堅牢(信頼性、安全、安全)な実行を保証するために重要である。
この論文は2つの問題に取り組む。
1)DRAMベースのシステムの保護は、読取障害の脆弱性が増大するにつれてコストが高くなる。
2) 既存のソリューションの多くはDRAM内部の独自知識に依存している。
まず、市販のDRAMチップをさまざまな条件で厳格に特徴付けることにより、DRAM読み出し障害の詳細な理解を構築する。
1) 温度, 温度
2)メモリアクセスパターン
3)チップ内の場所,及び
4) であった。
我々の新しい観察は、将来のDRAM読み出し外乱攻撃と解に対する大きなDRAM読み出し外乱変動の影響を実証するものである。
第二に、DRAMチップ設計における洞察を活用することにより、読み出し障害のビットフリップを効率よく、そして、より精力的に軽減する新しいメカニズムを提案する。
1)サブアレイレベルの並列性と
2) 市販DRAMチップにおけるDRAM列間の読み出し障害の変化
第3に、DRAMチップ内部の独自知識を必要とせず、読み出し障害のビットフリップを引き起こす可能性のある、安全でないメモリアクセスを選択的に絞り込むことにより、DRAM読み取り障害を緩和する新しいソリューションを提案する。
我々は、DRAM読み出し障害を悪化させることにより、DRAM読み出し障害を効率よく、かつ確実に軽減できることを実証した。
1)DRAM読み出し障害の詳細な理解の構築。
2)DRAMチップの洞察の活用
3) DRAMチップ内部の独自知識を必要としない新しいソリューションを開発する。
私たちの実験的な洞察と解決策は、堅牢なメモリシステムをターゲットにした将来の作業を可能にします。
Increasing storage density exacerbates DRAM read disturbance, a circuit-level vulnerability exploited by system-level attacks. Unfortunately, existing defenses are either ineffective or prohibitively expensive. Efficient mitigation is critical to ensure robust (reliable, secure, and safe) execution in future DRAM-based systems. This dissertation tackles two problems: 1) protecting DRAM-based systems becomes more expensive as technology scaling increases read disturbance vulnerability, and 2) many existing solutions depend on proprietary knowledge of DRAM internals. First, we build a detailed understanding of DRAM read disturbance by rigorously characterizing off-the-shelf modern DRAM chips under varying 1) temperatures, 2) memory access patterns, 3) in-chip locations, and 4) voltage. Our novel observations demystify the implications of large DRAM read disturbance variation on future DRAM read disturbance attacks and solutions. Second, we propose new mechanisms that mitigate read disturbance bitflips efficiently and scalably by leveraging insights into DRAM chip design: 1) subarray-level parallelism and 2) variation in read disturbance across DRAM rows in off-the-shelf DRAM chips. Third, we propose a novel solution that mitigates DRAM read disturbance by selectively throttling unsafe memory accesses that might otherwise cause read disturbance bitflips without proprietary knowledge of DRAM chip internals. We demonstrate that it is possible to mitigate DRAM read disturbance efficiently and scalably with worsening DRAM read disturbance by 1) building a detailed understanding of DRAM read disturbance, 2) leveraging insights into DRAM chips, and 3) devising novel solutions that do not require proprietary knowledge of DRAM chip internals. Our experimental insights and solutions enable future works targeting robust memory systems. | 翻訳日:2024-08-28 13:43:53 公開日:2024-08-27 |
# DocLayLLM: テキストリッチ文書理解のための大規模言語モデルの効率的かつ効果的なマルチモーダル拡張
DocLayLLM: An Efficient and Effective Multi-modal Extension of Large Language Models for Text-rich Document Understanding ( http://arxiv.org/abs/2408.15045v1 ) ライセンス: Link先を確認 | Wenhui Liao, Jiapeng Wang, Hongliang Li, Chengyu Wang, Jun Huang, Lianwen Jin, | (参考訳) テキストリッチドキュメント理解(テキストリッチドキュメント理解、TDU)とは、テキストコンテンツを含む文書を分析し、解釈することである。
大規模言語モデル (LLMs) の急速な進化により,TDU の大幅な汎用性と一般化のために広く活用されている。
本稿では,TDU用に特別に設計されたLLMの効率的かつ効果的なマルチモーダル拡張であるDocLayLLMを紹介する。
視覚的パッチトークンと2次元位置トークンをLCMに統合し、LCM自体を用いて文書内容を符号化することにより、LCMの文書理解能力を完全に活用し、OCR情報の認識を高める。
また,このチェーン・オブ・シント(CoT)の役割を深く検討し,CoT事前学習とCoTアニーリングの技法を革新的に提案した。
私たちのDocLayLLMは、軽量なトレーニング設定で優れたパフォーマンスを実現し、その効率性と有効性を示します。
実験の結果,DocLayLLMは既存のOCR依存手法を超越し,OCR非競合よりも優れていた。
Text-rich document understanding (TDU) refers to analyzing and comprehending documents containing substantial textual content. With the rapid evolution of large language models (LLMs), they have been widely leveraged for TDU due to their remarkable versatility and generalization. In this paper, we introduce DocLayLLM, an efficient and effective multi-modal extension of LLMs specifically designed for TDU. By integrating visual patch tokens and 2D positional tokens into LLMs and encoding the document content using the LLMs themselves, we fully take advantage of the document comprehension capability of LLMs and enhance their perception of OCR information. We have also deeply considered the role of the chain-of-thought (CoT) and innovatively proposed the techniques of CoT Pre-training and CoT Annealing. Our DocLayLLM can achieve remarkable performances with lightweight training settings, showcasing its efficiency and effectiveness. Experimental results demonstrate that our DocLayLLM surpasses existing OCR-dependent methods and also outperforms OCR-free competitors. | 翻訳日:2024-08-28 13:43:53 公開日:2024-08-27 |
# 自動レースカーのためのスケーラブルなスーパーバイザアーキテクチャ
Scalable Supervisory Architecture for Autonomous Race Cars ( http://arxiv.org/abs/2408.15049v1 ) ライセンス: Link先を確認 | Zalán Demeter, Péter Bogdán, Ármin Bogár-Németh, Gergely Bári, | (参考訳) 近年では、自律レースリーグの数と重要性が増加し、その結果、その研究の数が増加している。
異なるシリーズ間のシームレスな統合は、シーンの多様性によって注目されている。
しかし、フルスケールレースのコストが高いため、より容易な開発モデルとなり、より小さなフォームファクタの研究や、達成された結果のスケールアップが可能となった。
本稿では、モジュール性、多様な構成への適応性、および異なる動的戦略の使用を可能にするパイプラインの並列実行を監督する能力を強調した、自律レース用に設計されたスケーラブルなアーキテクチャを提案する。
システムは異なる環境にまたがって一貫したレースパフォーマンスを示し、関連する2つの競争に成功してデモを行った。
結果は、アーキテクチャのスケーラビリティと汎用性を確認し、競争力のある自律レースシステムを開発するための堅牢な基盤を提供する。
実世界のシナリオにおける成功例は、その実用性を検証するとともに、自動運転レース技術の将来的な進歩の可能性を強調している。
In recent years, the number and importance of autonomous racing leagues, and consequently the number of studies on them, has been growing. The seamless integration between different series has gained attention due to the scene's diversity. However, the high cost of full scale racing makes it a more accessible development model, to research at smaller form factors and scale up the achieved results. This paper presents a scalable architecture designed for autonomous racing that emphasizes modularity, adaptability to diverse configurations, and the ability to supervise parallel execution of pipelines that allows the use of different dynamic strategies. The system showcased consistent racing performance across different environments, demonstrated through successful participation in two relevant competitions. The results confirm the architecture's scalability and versatility, providing a robust foundation for the development of competitive autonomous racing systems. The successful application in real-world scenarios validates its practical effectiveness and highlights its potential for future advancements in autonomous racing technology. | 翻訳日:2024-08-28 13:43:53 公開日:2024-08-27 |
# 箱埋め空間における自己監督型トピック分類学発見
Self-supervised Topic Taxonomy Discovery in the Box Embedding Space ( http://arxiv.org/abs/2408.15050v1 ) ライセンス: Link先を確認 | Yuyin Lu, Hegang Chen, Pengbo Mao, Yanghui Rao, Haoran Xie, Fu Lee Wang, Qing Li, | (参考訳) トピック分類発見は、異なる抽象レベルのトピックを明らかにし、それらの間の階層的な関係を構築することを目的としている。
残念なことに、以前の研究のほとんどはユークリッド埋め込み空間の仮定を保持することで、単語やトピックの意味的スコープをモデル化することができない。
さらに悪いことに、それらはトピック埋め込み間の対称距離によって非対称な階層関係を推測する。
その結果、既存の手法は、高い抽象レベルでの低品質トピックの問題と不正確な階層関係に悩まされる。
これらの問題を緩和するため,本研究では,単語とトピックをボックス埋め込み空間にマッピングするBox Embedding-based Topic Model(BoxTM)を開発した。
さらに、BoxTMは、トピックボックス上の再帰的クラスタリングを通じて、特定のトピック間の相関に基づいて、上位トピックを明示的に推論する。
最後に、BoxTMによって学習されたトピック分類の高品質性を検証する広範な実験を行った。
Topic taxonomy discovery aims at uncovering topics of different abstraction levels and constructing hierarchical relations between them. Unfortunately, most of prior work can hardly model semantic scopes of words and topics by holding the Euclidean embedding space assumption. What's worse, they infer asymmetric hierarchical relations by symmetric distances between topic embeddings. As a result, existing methods suffer from problems of low-quality topics at high abstraction levels and inaccurate hierarchical relations. To alleviate these problems, this paper develops a Box embedding-based Topic Model (BoxTM) that maps words and topics into the box embedding space, where the asymmetric metric is defined to properly infer hierarchical relations among topics. Additionally, our BoxTM explicitly infers upper-level topics based on correlation between specific topics through recursive clustering on topic boxes. Finally, extensive experiments validate high-quality of the topic taxonomy learned by BoxTM. | 翻訳日:2024-08-28 13:43:53 公開日:2024-08-27 |
# 因果律林:解釈的・精密処理効果推定に向けて
Causal Rule Forest: Toward Interpretable and Precise Treatment Effect Estimation ( http://arxiv.org/abs/2408.15055v1 ) ライセンス: Link先を確認 | Chan Hsu, Jun-Ting Wu, Yihuang Kang, | (参考訳) Heterogeneous Treatment Effects (HTE) と Conditional Average Treatment Effects (CATE) は、パーソナライズされた治療レコメンデーションを開発する上で不可欠である。
多くの最先端のアプローチは、ベンチマークデータセットやシミュレーション研究に基づいてHTEを推定する上で、刺激的なパフォーマンスを実現している。
しかし、間接的な予測方法と複雑なモデルアーキテクチャは、これらのアプローチの解釈可能性を減らす。
予測性能と不均一性解釈可能性のギャップを軽減するために,データから隠れパターンを学習し,そのパターンを解釈可能な多レベルブール規則に変換する新しいアプローチであるCausal Rule Forest (CRF)を導入する。
CRFが学習したデータ表現を用いた他の解釈可能な因果推論モデルをトレーニングすることにより、HTEおよびCATEの推定におけるこれらのモデルの予測誤差を低減し、治療がより効果的である部分群を特定するための解釈可能性を維持することができる。
我々の実験は、CRFがパーソナライズされた介入やポリシーを推進し、複雑な因果推論の課題にまたがるスケーラビリティと応用を強化するための将来の研究の道を開くことの可能性を浮き彫りにした。
Understanding and inferencing Heterogeneous Treatment Effects (HTE) and Conditional Average Treatment Effects (CATE) are vital for developing personalized treatment recommendations. Many state-of-the-art approaches achieve inspiring performance in estimating HTE on benchmark datasets or simulation studies. However, the indirect predicting manner and complex model architecture reduce the interpretability of these approaches. To mitigate the gap between predictive performance and heterogeneity interpretability, we introduce the Causal Rule Forest (CRF), a novel approach to learning hidden patterns from data and transforming the patterns into interpretable multi-level Boolean rules. By training the other interpretable causal inference models with data representation learned by CRF, we can reduce the predictive errors of these models in estimating HTE and CATE, while keeping their interpretability for identifying subgroups that a treatment is more effective. Our experiments underscore the potential of CRF to advance personalized interventions and policies, paving the way for future research to enhance its scalability and application across complex causal inference challenges. | 翻訳日:2024-08-28 13:43:53 公開日:2024-08-27 |
# モデルに基づくルールフォレストによるサブグループ分析
Subgroup Analysis via Model-based Rule Forest ( http://arxiv.org/abs/2408.15057v1 ) ライセンス: Link先を確認 | I-Ling Cheng, Chan Hsu, Chantung Ku, Pei-Ju Lee, Yihuang Kang, | (参考訳) 機械学習モデルはブラックボックスの性質からしばしば批判され、批判的な意思決定シナリオにおける適用性に対する懸念を提起する。
結果として、そのような文脈で解釈可能なモデルに対する需要が高まっている。
本研究では,データから透明なモデルを抽出するための解釈可能な表現学習アルゴリズムであるモデルベースDeep Rule Forests(mobDRF)を紹介する。
IF-THENルールを多レベル論理式に活用することにより、mobDRFは精度を損なうことなく既存のモデルの解釈可能性を高める。
高齢者の認知機能低下の要因を明らかにするためにmobDRFを適用し,サブグループ分析と局所モデル最適化の有効性を実証した。
本手法は,患者サブグループ間での差分効果の理解が,よりパーソナライズされ,効果的な治療に繋がる医療などの分野で,信頼性と解釈可能な機械学習モデルを開発する上で有望なソリューションを提供する。
Machine learning models are often criticized for their black-box nature, raising concerns about their applicability in critical decision-making scenarios. Consequently, there is a growing demand for interpretable models in such contexts. In this study, we introduce Model-based Deep Rule Forests (mobDRF), an interpretable representation learning algorithm designed to extract transparent models from data. By leveraging IF-THEN rules with multi-level logic expressions, mobDRF enhances the interpretability of existing models without compromising accuracy. We apply mobDRF to identify key risk factors for cognitive decline in an elderly population, demonstrating its effectiveness in subgroup analysis and local model optimization. Our method offers a promising solution for developing trustworthy and interpretable machine learning models, particularly valuable in fields like healthcare, where understanding differential effects across patient subgroups can lead to more personalized and effective treatments. | 翻訳日:2024-08-28 13:43:53 公開日:2024-08-27 |
# 光の暗黒状態と明るい状態のためのビームスプリッタ
Beam Splitter for Dark and Bright States of Light ( http://arxiv.org/abs/2408.15059v1 ) ライセンス: Link先を確認 | Luiz O. R. Solak, Celso J. Villas-Boas, Daniel Z. Rossatto, | (参考訳) ビームスプリッターは光学系およびフォトニック系において必須の要素であり、したがって古典的および量子的技術の両方で用いられている。
意図された用途に応じて、これらのデバイスはそのパワー、偏光状態、波長に応じて入射光を分割することができる。
本研究では,光線を2モードの明暗成分に分離できる新しいタイプのビームスプリッタを理論的に提示する。
本稿では,光学的クロスキャビティシステムと$\Lambda$型3レベル原子を共振結合したプロトタイプを提案する。
キャビティ設定の非対称集合モードが原子から切り離されるため、入射光の暗成分が伝達される。
一方、高協力状態においては、原子とキャビティの対称的な集合モードとの強い結合から生じるオートラー・タウンズ分裂によって明るい成分が反映される。
動作には2レベル原子しか必要としないが、3レベル原子を使用することで、原子基底状態を制御することでデバイスをオン/オフすることができる。
本研究は光の集合特性を利用したビームスプリッタの新たな応用の道を開くものである。
この追加自由度を操作・活用することで、量子光学の分野を前進させ、量子技術の発展に寄与することができる。
Beam splitters are indispensable elements in optical and photonic systems, and are therefore employed in both classical and quantum technologies. Depending on the intended application, these devices can divide incident light according to its power, polarization state, or wavelength. In this work, we theoretically present a novel type of beam splitter capable of separating a light beam into its two-mode bright and dark components. We propose a prototype based on an optical cross-cavity system resonantly coupled to a $\Lambda$-type three-level atom. The dark component of the incoming light is transmitted because the antisymmetric collective mode of the cavity setup is decoupled from the atom. Meanwhile, in a high-cooperativity regime, the bright component is reflected due to Autler-Townes splitting, which arises from the strong coupling between the atom and the symmetric collective mode of the cavity setup. Although the device requires only a two-level atom to operate, using a three-level atom allows the device to be turned on or off by controlling the atomic ground state. Our results pave the way for new applications of beam splitters that leverage the collective properties of light. Manipulating and exploiting this additional degree of freedom can advance the field of quantum optics and contribute to the development of quantum technologies. | 翻訳日:2024-08-28 13:43:53 公開日:2024-08-27 |
# セマンティックな特徴融合誘導による多モード有向物体検出へのセグメンテーションモデルの適用
Adapting Segment Anything Model to Multi-modal Salient Object Detection with Semantic Feature Fusion Guidance ( http://arxiv.org/abs/2408.15063v1 ) ライセンス: Link先を確認 | Kunpeng Wang, Keke Chen, Chenglong Li, Zhengzheng Tu, Bin Luo, | (参考訳) 既存のSOD(Multi-modal Salient Object Detection)手法は、スクラッチからのトレーニングモデルによる有効性を示すが、制限されたマルチモーダルデータは、これらの手法が最適性に達することを妨げている。
本稿では,マルチモーダルSODのためのSAM(Pre-trained Segment Anything Model)の強力な特徴表現とゼロショット一般化能力を探求し,活用するための新しいフレームワークを提案する。
最近のビジョンの基本モデルとして機能しているにもかかわらず、特に難易度の高いシーンにおいて、クラスに依存しないSAMを正確に理解し、検出するために駆動するのは簡単ではない。
この目的のために,SODタスクにSAMを適応させるために,SODタスクに多モードサリエンシ固有の知識を組み込んだse\underline{m}antic f\underline{e}ature fu\underline{s}ion guidanc\underline{e} (Sammese) を用いた \underline{SAM} を開発した。
しかし,多モード入力の相補的な利点を直接マイニングし,それらを総合的に活用して正確な相補性予測を実現することは困難であり,これらの問題に対処するため,我々はまず,可視・熱・深度画像ペアから情報を統合することで,頑健な多モード意味的特徴を抽出する多モード相補的融合モジュールを設計する。
そして、抽出したマルチモーダルなセマンティック特徴をSAM画像エンコーダとマスクデコーダの両方に供給し、微調整とプロンプトを行う。
具体的には、画像エンコーダにおいて、シングルモーダルSAMをマルチモーダル情報に適応させるために、マルチモーダルアダプタを提案する。
マスクデコーダでは, 各種のサリエンシ・キューで対応する埋め込みを生成するために, セマンティック・ジオメトリ・プロンプト生成戦略を提案する。
RGB-D と RGB-T SOD のベンチマーク実験により,提案手法の有効性が示された。
Although most existing multi-modal salient object detection (SOD) methods demonstrate effectiveness through training models from scratch, the limited multi-modal data hinders these methods from reaching optimality. In this paper, we propose a novel framework to explore and exploit the powerful feature representation and zero-shot generalization ability of the pre-trained Segment Anything Model (SAM) for multi-modal SOD. Despite serving as a recent vision fundamental model, driving the class-agnostic SAM to comprehend and detect salient objects accurately is non-trivial, especially in challenging scenes. To this end, we develop \underline{SAM} with se\underline{m}antic f\underline{e}ature fu\underline{s}ion guidanc\underline{e} (Sammese), which incorporates multi-modal saliency-specific knowledge into SAM to adapt SAM to multi-modal SOD tasks. However, it is difficult for SAM trained on single-modal data to directly mine the complementary benefits of multi-modal inputs and comprehensively utilize them to achieve accurate saliency prediction.To address these issues, we first design a multi-modal complementary fusion module to extract robust multi-modal semantic features by integrating information from visible and thermal or depth image pairs. Then, we feed the extracted multi-modal semantic features into both the SAM image encoder and mask decoder for fine-tuning and prompting, respectively. Specifically, in the image encoder, a multi-modal adapter is proposed to adapt the single-modal SAM to multi-modal information. In the mask decoder, a semantic-geometric prompt generation strategy is proposed to produce corresponding embeddings with various saliency cues. Extensive experiments on both RGB-D and RGB-T SOD benchmarks show the effectiveness of the proposed framework. | 翻訳日:2024-08-28 13:43:53 公開日:2024-08-27 |
# バランスのメリット:情報投影から分散化へ
The Benefits of Balance: From Information Projections to Variance Reduction ( http://arxiv.org/abs/2408.15065v1 ) ライセンス: Link先を確認 | Lang Liu, Ronak Mehta, Soumik Pal, Zaid Harchaoui, | (参考訳) 複数のモダリティ/ソース間のデータバランシングは、普遍的な表現学習を実現するいくつかの基礎モデル(例えば、CLIP、DINO)に様々な形で現れる。
この反復的アルゴリズムは、通常、表現の崩壊を避けるために使用され、これらの情報源上の経験的分布の関数である推定器の分散を減少させるという、疑わしい利益を享受する。
我々は、この分散還元効果を定量化する非漸近境界を提供し、それらを適切に定義されたマルコフ作用素の固有デカイに関連付ける。
コントラッシブなマルチモーダル学習と自己教師付きクラスタリングにおいて、様々な形式のデータバランシングが、この分散還元スキームのインスタンスとしてどのように解釈できるかを説明する。
Data balancing across multiple modalities/sources appears in various forms in several foundation models (e.g., CLIP and DINO) achieving universal representation learning. We show that this iterative algorithm, usually used to avoid representation collapse, enjoys an unsuspected benefit: reducing the variance of estimators that are functionals of the empirical distribution over these sources. We provide non-asymptotic bounds quantifying this variance reduction effect and relate them to the eigendecays of appropriately defined Markov operators. We explain how various forms of data balancing in contrastive multimodal learning and self-supervised clustering can be interpreted as instances of this variance reduction scheme. | 翻訳日:2024-08-28 13:43:53 公開日:2024-08-27 |
# 参加の抑制:大規模言語モデルへのインタフェースにおけるフィードバック機能の改善
Constraining Participation: Affordances of Feedback Features in Interfaces to Large Language Models ( http://arxiv.org/abs/2408.15066v1 ) ライセンス: Link先を確認 | Ned Cooper, Alexandra Zafiroglu, | (参考訳) 大規模言語モデル(LLM)は、コンピュータ、Webブラウザ、ブラウザベースのインターフェースによるインターネット接続を持つすべての人にアクセス可能となり、AI開発への参加のダイナミクスがシフトした。
本稿では,ChatGPTインタフェースにおける対話型フィードバック機能の可能性について検討し,ユーザ入力の形状やLCMイテレーションへの参加について分析する。
本研究は,ChatGPTユーザを対象とした調査から,ユーザ間の総合的なインプットや議論を抑えつつ,シンプルで頻繁でパフォーマンスを重視したフィードバックを促進できることを実証する。
我々は,このフィードバック形式がユーザ参加を著しく制限し,ユーザ,一般ユーザ,LLMを開発する企業間の電力不均衡の強化を図っていることを論じる。
我々の分析は、既存のフィードバックプロセスの限界を批判的に検証し、その再設計の方向性を提案することによって、参加型AIに関する文献の増大に寄与する。
AI開発におけるより意味のある公的な参加を可能にするため、私たちは、モデルアウトプットと特定のユーザの好みの整合性を重視したプロセスから脱却することを提唱します。
代わりに、企業間の対話を促進するプロセスと、LLMの目的と応用に関する多様な「公」の必要性を強調します。
このアプローチは、AI開発とデプロイメントによって影響を受けるグループに対する関心事に対処するために必要な社会的、技術的、制度的構造の作成と維持という、現在進行中のインフラ構築作業に注意する必要がある。
Large language models (LLMs) are now accessible to anyone with a computer, a web browser, and an internet connection via browser-based interfaces, shifting the dynamics of participation in AI development. This paper examines the affordances of interactive feedback features in ChatGPT's interface, analysing how they shape user input and participation in LLM iteration. Drawing on a survey of ChatGPT users and applying the mechanisms and conditions framework of affordances, we demonstrate that these features encourage simple, frequent, and performance-focused feedback while discouraging collective input and discussions among users. We argue that this feedback format significantly constrains user participation, reinforcing power imbalances between users, the public, and companies developing LLMs. Our analysis contributes to the growing body of literature on participatory AI by critically examining the limitations of existing feedback processes and proposing directions for their redesign. To enable more meaningful public participation in AI development, we advocate for a shift away from processes focused on aligning model outputs with specific user preferences. Instead, we emphasise the need for processes that facilitate dialogue between companies and diverse 'publics' about the purpose and applications of LLMs. This approach requires attention to the ongoing work of infrastructuring - creating and sustaining the social, technical, and institutional structures necessary to address matters of concern to groups impacted by AI development and deployment. | 翻訳日:2024-08-28 13:43:53 公開日:2024-08-27 |
# 対称多線軌跡CTのための幾何学的アーチファクト補正:理論,方法,一般化
Geometric Artifact Correction for Symmetric Multi-Linear Trajectory CT: Theory, Method, and Generalization ( http://arxiv.org/abs/2408.15069v1 ) ライセンス: Link先を確認 | Zhisheng Wang, Yanxu Sun, Shangyu Li, Legeng Lin, Shunli Wang, Junning Cui, | (参考訳) 非破壊検査を行うためにCTフィールドを拡大するために、Symmetric Multi-Linear trajectory Computed Tomography (SMLCT) が非標準CTスキャンモードの成功例として開発された。
しかし、必然的な幾何学的誤差は、再構成された画像に深刻なアーティファクトを引き起こす可能性がある。
SMLCTの既存の校正法は粗大かつ非効率である。
各潜在的なエラーを徹底的に置換して、数百の画像を再構築し、次に最も少ない幾何学的アーティファクトで画像を手動で識別し、キャリブレーションの最終的な幾何学的誤差を推定する。
本稿では,SMLCTにおける難解な幾何学的アーティファクトを包括的かつ効果的に解決し,それに対応する研究は主に理論,手法,一般化に関するものである。
特に, 微妙なパラメータを同定し, 幾何的アーティファクトの理論解析を行った後, 微妙な幾何学的パラメータとアーティファクト特性のいくつかの重要な特性を要約する。
さらに,再現画像の画素オフセットに微妙な幾何学的誤差とアーチファクト特性を関連付ける数学的関係を構築した。
画素バイアスを正確に抽出するために,各ペア対称LCTの画像登録タスクに対して,音声処理によく使用される一般クロスコリレーションと位相変換(GCC-PHAT)アルゴリズムを革新的に適用した。
この適応は、高度に効率的な厳密な翻訳登録法の設計につながる。
シミュレーションと物理実験により,本研究の優れた性能が検証された。
さらに, 一般的な回転CTとSMLCTの変種に有意な一般化が認められた。
For extending CT field-of-view to perform non-destructive testing, the Symmetric Multi-Linear trajectory Computed Tomography (SMLCT) has been developed as a successful example of non-standard CT scanning modes. However, inevitable geometric errors can cause severe artifacts in the reconstructed images. The existing calibration method for SMLCT is both crude and inefficient. It involves reconstructing hundreds of images by exhaustively substituting each potential error, and then manually identifying the images with the fewest geometric artifacts to estimate the final geometric errors for calibration. In this paper, we comprehensively and efficiently address the challenging geometric artifacts in SMLCT, , and the corresponding works mainly involve theory, method, and generalization. In particular, after identifying sensitive parameters and conducting some theory analysis of geometric artifacts, we summarize several key properties between sensitive geometric parameters and artifact characteristics. Then, we further construct mathematical relationships that relate sensitive geometric errors to the pixel offsets of reconstruction images with artifact characteristics. To accurately extract pixel bias, we innovatively adapt the Generalized Cross-Correlation with Phase Transform (GCC-PHAT) algorithm, commonly used in sound processing, for our image registration task for each paired symmetric LCT. This adaptation leads to the design of a highly efficient rigid translation registration method. Simulation and physical experiments have validated the excellent performance of this work. Additionally, our results demonstrate significant generalization to common rotated CT and a variant of SMLCT. | 翻訳日:2024-08-28 13:43:53 公開日:2024-08-27 |
# Feynman 1947 letter on path integral for the Dirac equation
Feynman 1947 letter on path integral for the Dirac equation ( http://arxiv.org/abs/2408.15070v1 ) ライセンス: Link先を確認 | Ted Jacobson, | (参考訳) 1947年、有名なシェルター島会議の4ヶ月前、リチャード・ファインマン(Richard Feynman)は、元MITの同級生セオドア・ウェルトン(Theodore Welton)に長い手紙を書いた。
これらの努力は実現せず、すぐにQEDに現れる電子プロパゲータを扱う方法が全く異なることに賛成して放棄されたが、この手紙は、フェインマンがQEDの発展の直前に考えていたこととその科学的考えの歴史的見地から興味深い。
最後には哲学的な発言もいくつか含まれており、Feynman は "`Well enough for the baloney" というコメントをまとめている。
「」本項では、本文の書写と、原文の書写と、原文の書写を記載する。
また、Feynman氏の取り組みについて簡単にコメントし、その後の仕事との関係について論じます。
In 1947, four months before the famous Shelter Island conference, Richard Feynman wrote a lengthy letter to his former MIT classmate Theodore Welton, reporting on his efforts to develop a path integral describing the propagation of a Dirac particle. While these efforts never came to fruition, and were shortly abandoned in favor of a very different method of dealing with the electron propagator appearing in in QED, the letter is interesting both from the historical viewpoint of revealing what Feynman was thinking about during that period just before the development of QED, and for its scientific ideas. It also contains at the end some philosophical remarks, which Feynman wraps up with the comment, ``Well enough for the baloney.'' In this article I present a transcription of the letter along with editorial notes, and a facsimile of the original handwritten document. I also briefly comment on Feynman's efforts and discuss their relation to some later work. | 翻訳日:2024-08-28 13:33:40 公開日:2024-08-27 |
# 超対称性アプローチによるLevi Rosenzweig-Porterモデルのスペクトル特性
Spectral properties of Levy Rosenzweig-Porter model via supersymmetric approach ( http://arxiv.org/abs/2408.15072v1 ) ライセンス: Link先を確認 | Elizaveta Safonova, Mikhail Feigelman, Vladimir Kravtsov, | (参考訳) エフェトフの超対称形式論を用いて解析的に、外対角要素が強非ガウス的尾を持つ非ガウス的尾を持つ L'evy および L'evy-Rosenzweig-Porter ランダム行列の平均スペクトル密度 $\rho(E)$ を計算した。
これにより、標準的なHubbard-Stratonovich変換はそのような問題には適用できない。
代わりに、関数的ハバード・ストラトノビッチ変換を用いて、行列の大規模な問題に対して解析的に問題を解けるようにした。
我々は, エルゴディックとフラクタル相の遷移を通じてシステムを駆動する制御パラメータに, $\rho(E)$ が決定的に依存していることを示し, 順序パラメータとして使用することができる。
By using the Efetov's super-symmetric formalism we computed analytically the mean spectral density $\rho(E)$ for the L\'evy and the L\'evy -Rosenzweig-Porter random matrices which off-diagonal elements are strongly non-Gaussian with power-law tails. This makes the standard Hubbard-Stratonovich transformation inapplicable to such problems. We used, instead, the functional Hubbard-Stratonovich transformation which allowed to solve the problem analytically for large sizes of matrices. We show that $\rho(E)$ depends crucially on the control parameter that drives the system through the transition between the ergodic and the fractal phases and it can be used as an order parameter. | 翻訳日:2024-08-28 13:33:40 公開日:2024-08-27 |
# 時系列とモデル属性説明のためのインタラクティブな高密度画素可視化
Interactive dense pixel visualizations for time series and model attribution explanations ( http://arxiv.org/abs/2408.15073v1 ) ライセンス: Link先を確認 | Udo Schlegel, Daniel A. Keim, | (参考訳) ディープニューラルネットワークモデルのための説明可能な人工知能(XAI)の分野は、モデルから説明を引き出すための数多くの技術を提供し、大きく発展してきた。
しかし、説明を評価することは簡単ではないことが多く、特に非知的なデータでは、応用メトリクスの違いは微妙である。
したがって、このようなデータ、例えば時系列を用いて、ドメインの説明を探索するのに適した視覚化が必要である。
DAVOTSは、生の時系列データ、ニューラルネットワークのアクティベーション、および高密度ピクセル可視化における属性を探索し、データ、モデルの判断、説明の洞察を得るためのインタラクティブなビジュアル分析手法である。
大規模データセットを探索するユーザを支援するため、可視化されたデータドメインにクラスタリングアプローチを適用してグループをハイライトし、個々のデータ探索と組み合わせたデータ探索の順序付け戦略を提示し、パターンの発見を容易にする。
このアプローチを実証するために、FordAデータセットでトレーニングされたCNNを視覚化する。
The field of Explainable Artificial Intelligence (XAI) for Deep Neural Network models has developed significantly, offering numerous techniques to extract explanations from models. However, evaluating explanations is often not trivial, and differences in applied metrics can be subtle, especially with non-intelligible data. Thus, there is a need for visualizations tailored to explore explanations for domains with such data, e.g., time series. We propose DAVOTS, an interactive visual analytics approach to explore raw time series data, activations of neural networks, and attributions in a dense-pixel visualization to gain insights into the data, models' decisions, and explanations. To further support users in exploring large datasets, we apply clustering approaches to the visualized data domains to highlight groups and present ordering strategies for individual and combined data exploration to facilitate finding patterns. We visualize a CNN trained on the FordA dataset to demonstrate the approach. | 翻訳日:2024-08-28 13:33:40 公開日:2024-08-27 |
# MiWaves強化学習アルゴリズム
MiWaves Reinforcement Learning Algorithm ( http://arxiv.org/abs/2408.15076v1 ) ライセンス: Link先を確認 | Susobhan Ghosh, Yongyi Guo, Pei-Yao Hung, Lara Coughlin, Erin Bonar, Inbal Nahum-Shani, Maureen Walton, Susan Murphy, | (参考訳) 大麻使用の増加は、世界中で公衆衛生上の大きな課題となっている。
アメリカ合衆国では、大麻の使用は他のどの年齢層よりも新興成人(EA)(年齢18〜25歳)の方が一般的であり、複数の州における合法化は、大麻の使用が以前の数十年よりもリスクが少ないという一般の認識に寄与している。
このような懸念に対処するため、私たちは、EAにおける大麻使用を減らすために、パーソナライズされた介入プロンプトの配信を最適化するために設計された強化学習(RL)アルゴリズムであるMiWavesを開発した。
MiWavesはドメインの専門知識と事前データを活用して、介入メッセージの配信の可能性を調整します。
本稿では,鍵決定と実験結果を含むアルゴリズム設計の概要を概観する。
最終的なMiWaves RLアルゴリズムは2024年3月から5月にかけて臨床試験で展開された。
The escalating prevalence of cannabis use poses a significant public health challenge globally. In the U.S., cannabis use is more prevalent among emerging adults (EAs) (ages 18-25) than any other age group, with legalization in the multiple states contributing to a public perception that cannabis is less risky than in prior decades. To address this growing concern, we developed MiWaves, a reinforcement learning (RL) algorithm designed to optimize the delivery of personalized intervention prompts to reduce cannabis use among EAs. MiWaves leverages domain expertise and prior data to tailor the likelihood of delivery of intervention messages. This paper presents a comprehensive overview of the algorithm's design, including key decisions and experimental outcomes. The finalized MiWaves RL algorithm was deployed in a clinical trial from March to May 2024. | 翻訳日:2024-08-28 13:33:40 公開日:2024-08-27 |
# MMASD+:自閉症スペクトラム障害児のプライバシー保護行動分析のための新しいデータセット
MMASD+: A Novel Dataset for Privacy-Preserving Behavior Analysis of Children with Autism Spectrum Disorder ( http://arxiv.org/abs/2408.15077v1 ) ライセンス: Link先を確認 | Pavan Uttej Ravva, Behdokht Kiafar, Pinar Kullu, Jicheng Li, Anjana Bhat, Roghayeh Leila Barmaki, | (参考訳) 自閉症スペクトラム障害(ASD)は、社会的相互作用やコミュニケーション信号の理解において重要な課題である。
近年, 深層学習によるコンピュータビジョン技術を活用して, 時間経過の観察を行っている。
これらのモデルは、自閉症コミュニティのプライベートで非パブリックなデータセットに基づいてトレーニングされており、プライバシを保存するデータ共有の問題によって、さまざまなモデル間で結果を比較する上での課題を生み出している。
本項ではMMASD+を紹介する。
MMASD+は3D-Skeleton、3D Body Mesh、OCRデータを含む多様なデータモダリティで構成されている。
Yolov8とDeep SORTアルゴリズムの機能を統合して、セラピストと子供の区別を可能にし、元のデータセットにおける大きな障壁に対処する。
さらに、11のアクションタイプとASDの存在を予測するために、Multimodal Transformerフレームワークが提案されている。
このフレームワークは、アクションタイプの予測に95.03%、ASDの存在予測に96.42%の精度を達成し、単一のデータモダリティでトレーニングされたモデルと比較して10%以上の改善が示されている。
これらの知見は、マルチモーダルトランスフォーマーフレームワークに複数のデータモダリティを統合する利点を強調している。
Autism spectrum disorder (ASD) is characterized by significant challenges in social interaction and comprehending communication signals. Recently, therapeutic interventions for ASD have increasingly utilized Deep learning powered-computer vision techniques to monitor individual progress over time. These models are trained on private, non-public datasets from the autism community, creating challenges in comparing results across different models due to privacy-preserving data-sharing issues. This work introduces MMASD+. MMASD+ consists of diverse data modalities, including 3D-Skeleton, 3D Body Mesh, and Optical Flow data. It integrates the capabilities of Yolov8 and Deep SORT algorithms to distinguish between the therapist and children, addressing a significant barrier in the original dataset. Additionally, a Multimodal Transformer framework is proposed to predict 11 action types and the presence of ASD. This framework achieves an accuracy of 95.03% for predicting action types and 96.42% for predicting ASD presence, demonstrating over a 10% improvement compared to models trained on single data modalities. These findings highlight the advantages of integrating multiple data modalities within the Multimodal Transformer framework. | 翻訳日:2024-08-28 13:33:40 公開日:2024-08-27 |
# BaichuanSEED: 競争力のある大規模言語モデルベースラインの導入による拡張データ収集と重複の可能性を共有
BaichuanSEED: Sharing the Potential of ExtensivE Data Collection and Deduplication by Introducing a Competitive Large Language Model Baseline ( http://arxiv.org/abs/2408.15079v1 ) ライセンス: Link先を確認 | Guosheng Dong, Da Pan, Yiding Sun, Shusen Zhang, Zheng Liang, Xin Wu, Yanjun Shen, Fan Yang, Haoze Sun, Tianpeng Li, Mingan Lin, Jianhua Xu, Yufan Zhang, Xiaonan Nie, Lei Su, Bingning Wang, Wentao Zhang, Jiaxin Mao, Zenan Zhou, Weipeng Chen, | (参考訳) LLM(Large Language Models)の一般的な能力は、いくつかの機関によって商業秘密として扱われる広範な事前訓練データセットの構成と選択に大きく依存している。
この問題を軽減するため、我々は、汎用データ処理パイプラインの詳細をオープンソース化し、競争力のあるLCMベースラインを導入することにより、その有効性と可能性を検証する。
具体的には、データ処理パイプラインは、スケールアップと品質向上のために、広範なコレクションで構成されている。
そして、故意にダウンストリームタスク関連の最適化をすることなく、パイプラインによって処理された3Tトークンで、7BモデルBaichuanSEEDを事前訓練し、その後、簡単で効果的な微調整ステージを作成します。
BaichuanSEEDはトレーニング全体を通じて一貫性と予測可能性を示し、Qwen1.5やLlama3といったいくつかの商用高度な大規模言語モデルで包括的なベンチマークで同等のパフォーマンスを達成する。
また、数回のヒューリスティックな実験を行い、数学やコーディングといった下流タスクのさらなる最適化の可能性について議論する。
The general capabilities of Large Language Models (LLM) highly rely on the composition and selection on extensive pretraining datasets, treated as commercial secrets by several institutions. To mitigate this issue, we open-source the details of a universally applicable data processing pipeline and validate its effectiveness and potential by introducing a competitive LLM baseline. Specifically, the data processing pipeline consists of broad collection to scale up and reweighting to improve quality. We then pretrain a 7B model BaichuanSEED with 3T tokens processed by our pipeline without any deliberate downstream task-related optimization, followed by an easy but effective supervised fine-tuning stage. BaichuanSEED demonstrates consistency and predictability throughout training and achieves comparable performance on comprehensive benchmarks with several commercial advanced large language models, such as Qwen1.5 and Llama3. We also conduct several heuristic experiments to discuss the potential for further optimization of downstream tasks, such as mathematics and coding. | 翻訳日:2024-08-28 13:33:40 公開日:2024-08-27 |
# 2成分粒子群最適化を用いた小型マイクロストリップフォワードブロードサイド結合器
Compact Pixelated Microstrip Forward Broadside Coupler Using Binary Particle Swarm Optimization ( http://arxiv.org/abs/2408.15082v1 ) ライセンス: Link先を確認 | Kourosh Parsaei, Rasool Keshavarz, Rashid Mirzavand Boroujeni, Negin Shariati, | (参考訳) 本稿では,3.5-3.8GHz帯で高結合レベルを有するマイクロストリップフォワードブロードサイドカプラ(MFBC)を提案する。
カプラは、2つの平行画素伝送線からなる。
設計の妥当性を検証するため,提案したMFBCを作製,測定した。
測定結果は、3dB結合を持つ前方結合器と0.12 {\lambda}g x 0.10{\lambda}gのコンパクトサイズを示す。
バイナリ粒子群最適化(BPSO)の設計手法と画素化の柔軟性により、所望の結合レベルと一定次元内での動作周波数で提案したMFBCを最適化できる。
また、2つの結合したTL間の不整合に対する感度が低いため、このカプラは近接場無線電力変換(WPT)アプリケーションとセンサの候補となる。
In this paper, a compact microstrip forward broadside coupler (MFBC) with high coupling level is proposed in the frequency band of 3.5-3.8 GHz. The coupler is composed of two parallel pixelated transmission lines. To validate the designstrategy, the proposed MFBC is fabricated and measured. The measured results demonstrate a forward coupler with 3 dB coupling, and a compact size of 0.12 {\lambda}g x 0.10{\lambda}g. Binary Particle Swarm Optimization (BPSO) design methodology and flexibility of pixelation enable us to optimize the proposed MFBC with desired coupling level and operating frequency within a fixed dimension. Also, low sensitivity to misalignment between two coupled TLs makes the proposed coupler a good candidate for near-field Wireless Power Transfer (WPT) application and sensors. | 翻訳日:2024-08-28 13:33:40 公開日:2024-08-27 |
# 量子エンジンの非古典的な仕事を得るために光を絞る
Squeezing light to get non-classical work in quantum engines ( http://arxiv.org/abs/2408.15085v1 ) ライセンス: Link先を確認 | A. Tejero, D. Manzano, P. I. Hurtado, | (参考訳) 光は、いくつかの相における電場の量子的不確実性を減少させることで、硬化することができる。
簡単な量子光子エンジンにおいて、この純量子効果を用いて、放射圧からネット機械的な働きを抽出する方法を示す。
その過程で、量子系における仕事の標準的な定義は、これらの量子自由度に漏れたエネルギーを捕捉しないので、この文脈では適切ではないことを実証する。
これらの結果を用いて, 熱勾配の欠如により, スクイーズ浴から機械的作業を可能にするオットーエンジンを設計した。
興味深いことに、スクイージングからの作業抽出は一般的に低温で改善されるが、作業生成が最大となる非自明なスクイージング依存温度が存在し、熱とスクイージング効果の間の複雑な相互作用を示す。
Light can be squeezed by reducing the quantum uncertainty of the electric field for some phases. We show how to use this purely-quantum effect to extract net mechanical work from radiation pressure in a simple quantum photon engine. Along the way, we demonstrate that the standard definition of work in quantum systems is not appropriate in this context, as it does not capture the energy leaked to these quantum degrees of freedom. We use these results to design an Otto engine able to produce mechanical work from squeezing baths, in the absence of thermal gradient. Interestingly, while work extraction from squeezing generally improves for low temperatures, there exists a nontrivial squeezing-dependent temperature for which work production is maximal, demonstrating the complex interplay between thermal and squeezing effects. | 翻訳日:2024-08-28 13:33:40 公開日:2024-08-27 |
# SiHGNN: 効率的なHGNN高速化のためのセマンティックグラフのレバレッジ特性
SiHGNN: Leveraging Properties of Semantic Graphs for Efficient HGNN Acceleration ( http://arxiv.org/abs/2408.15089v1 ) ライセンス: Link先を確認 | Runzhen Xue, Mingyu Yan, Dengke Han, Zhimin Tang, Xiaochun Ye, Dongrui Fan, | (参考訳) 不均一グラフニューラルネットワーク (HGNN) は、グラフ表現学習を異種グラフ場に拡張した。
近年の研究では、医療分析やレコメンデーションシステムなど、様々な応用において優れた性能を示しており、しばしば既存の手法を超越している。
しかしGPUは、ユニークな複雑な実行パターンのため、HGNNの実行時に非効率を経験することが多い。
従来のグラフニューラルネットワークと比較して、これらのパターンはメモリアクセスにおける不規則をさらに悪化させる。
これらの課題に対処するために、近年の研究では、HGNNのためのドメイン固有アクセラレータの開発に焦点が当てられている。
それでもこれらの取り組みのほとんどは、データパスの最適化やデータアクセスのスケジューリングに重点を置いている一方で、そのトポロジやレイアウト、生成といったセマンティックグラフ固有の特性を活用することで得られる潜在的なメリットを概ね見落としている。
本研究では,HGNNの性能向上のためにセマンティックグラフの特性を活用することに焦点を当てる。
まず、セマンティックグラフ構築(SGB)の段階を分析し、セマンティックグラフ生成時にデータ再利用の重要な機会を特定する。
次に、グラフ特徴処理(GFP)段階におけるバッファスラッシング現象を明らかにし、セマンティックグラフレイアウトにおける潜在的な最適化機会を明らかにする。
さらに、我々は、SiHGNNと呼ばれるHGNNのための軽量ハードウェアアクセラレーターフロントエンドを提案する。
このアクセラレータフロントエンドには、効率的なセマンティックグラフ生成のためのツリーベースのセマンティックグラフビルダが組み込まれており、セマンティックグラフレイアウトを最適化するための新しいグラフリストラクタを備えている。
実験の結果、SiHGNNは最先端のHGNNアクセラレーターを2.95$\times$の平均性能向上を達成することができることがわかった。
Heterogeneous Graph Neural Networks (HGNNs) have expanded graph representation learning to heterogeneous graph fields. Recent studies have demonstrated their superior performance across various applications, including medical analysis and recommendation systems, often surpassing existing methods. However, GPUs often experience inefficiencies when executing HGNNs due to their unique and complex execution patterns. Compared to traditional Graph Neural Networks, these patterns further exacerbate irregularities in memory access. To tackle these challenges, recent studies have focused on developing domain-specific accelerators for HGNNs. Nonetheless, most of these efforts have concentrated on optimizing the datapath or scheduling data accesses, while largely overlooking the potential benefits that could be gained from leveraging the inherent properties of the semantic graph, such as its topology, layout, and generation. In this work, we focus on leveraging the properties of semantic graphs to enhance HGNN performance. First, we analyze the Semantic Graph Build (SGB) stage and identify significant opportunities for data reuse during semantic graph generation. Next, we uncover the phenomenon of buffer thrashing during the Graph Feature Processing (GFP) stage, revealing potential optimization opportunities in semantic graph layout. Furthermore, we propose a lightweight hardware accelerator frontend for HGNNs, called SiHGNN. This accelerator frontend incorporates a tree-based Semantic Graph Builder for efficient semantic graph generation and features a novel Graph Restructurer for optimizing semantic graph layouts. Experimental results show that SiHGNN enables the state-of-the-art HGNN accelerator to achieve an average performance improvement of 2.95$\times$. | 翻訳日:2024-08-28 13:33:40 公開日:2024-08-27 |
# 自己回帰変換言語モデルにおけるファクチュアルアソシエーションのリコールと編集の再考
Relation Also Knows: Rethinking the Recall and Editing of Factual Associations in Auto-Regressive Transformer Language Models ( http://arxiv.org/abs/2408.15091v1 ) ライセンス: Link先を確認 | Xiyu Liu, Zhengxiao Liu, Naibin Gu, Zheng Lin, Wanli Ma, Ji Xiang, Weiping Wang, | (参考訳) 自己回帰トランスフォーマー言語モデル(LM)における事実関連の記憶とリコールは、位置するモデルの重みを直接修正することによって知識編集を刺激し、多くの注目を集めている。
ほとんどの編集作業は、主に主題知識に焦点を当てた既存の知識リコールの解釈の指導の下で知識編集を行う。
しかし、これらの解釈は深刻な欠陥があり、関係情報を無視し、編集の過度に一般化する問題に繋がる。
本研究では,トランスフォーマーLMの知識リコールを推論中に解釈し,過度な一般化を避けるために知識編集に適用する,新たな関係性に着目した視点を見いだす。
新たなR-Specificity criterionを補足したデータセットの実験結果から,他の基準に照らしながら過剰な一般化を著しく軽減し,今後の研究における主観的編集の優位性を損なうことが明らかとなった。
The storage and recall of factual associations in auto-regressive transformer language models (LMs) have drawn a great deal of attention, inspiring knowledge editing by directly modifying the located model weights. Most editing works achieve knowledge editing under the guidance of existing interpretations of knowledge recall that mainly focus on subject knowledge. However, these interpretations are seriously flawed, neglecting relation information and leading to the over-generalizing problem for editing. In this work, we discover a novel relation-focused perspective to interpret the knowledge recall of transformer LMs during inference and apply it on knowledge editing to avoid over-generalizing. Experimental results on the dataset supplemented with a new R-Specificity criterion demonstrate that our editing approach significantly alleviates over-generalizing while remaining competitive on other criteria, breaking the domination of subject-focused editing for future research. | 翻訳日:2024-08-28 13:33:40 公開日:2024-08-27 |
# 双対学習による拘束拡散モデル
Constrained Diffusion Models via Dual Training ( http://arxiv.org/abs/2408.15094v1 ) ライセンス: Link先を確認 | Shervin Khalafi, Dongsheng Ding, Alejandro Ribeiro, | (参考訳) 拡散モデルは、拡散過程を通じて与えられたデータセットの確率分布を合成し、高い忠実度で新しいデータポイントを生成できる能力で有名になった。
しかし、拡散過程はトレーニングデータセットに基づいてバイアスデータを生成する傾向にある。
この問題に対処するために,所望の分布に基づいて拡散制約を付与し,制約付き拡散モデルを構築する。
具体的には,生成データの分布に制約を課しながら,原データと生成データとの分布差を低減することを目的とした,制約分散最適化問題として,要求下での拡散モデルのトレーニングを行った。
本稿では,制約付き拡散モデルを用いて,目的と制約の最適なトレードオフを実現する混合データ分布から新しいデータを生成することを示す。
制約付き拡散モデルを訓練するために、二元学習アルゴリズムを開発し、訓練された制約付き拡散モデルの最適性を特徴付ける。
制約付きモデルの有効性を2つの制約付き生成タスクで実証的に実証する。
i) 推論中にすべてのクラスから適切なサンプリングを保証するために、制約付きでモデルをトレーニングする、1つ以上の過小評価されたクラスを持つデータセットについて検討する。
(II) オーバーフィッティングを回避しつつ, トレーニング済み拡散モデルを微調整し, 新たなデータセットからサンプリングする。
Diffusion models have attained prominence for their ability to synthesize a probability distribution for a given dataset via a diffusion process, enabling the generation of new data points with high fidelity. However, diffusion processes are prone to generating biased data based on the training dataset. To address this issue, we develop constrained diffusion models by imposing diffusion constraints based on desired distributions that are informed by requirements. Specifically, we cast the training of diffusion models under requirements as a constrained distribution optimization problem that aims to reduce the distribution difference between original and generated data while obeying constraints on the distribution of generated data. We show that our constrained diffusion models generate new data from a mixture data distribution that achieves the optimal trade-off among objective and constraints. To train constrained diffusion models, we develop a dual training algorithm and characterize the optimality of the trained constrained diffusion model. We empirically demonstrate the effectiveness of our constrained models in two constrained generation tasks: (i) we consider a dataset with one or more underrepresented classes where we train the model with constraints to ensure fairly sampling from all classes during inference; (ii) we fine-tune a pre-trained diffusion model to sample from a new dataset while avoiding overfitting. | 翻訳日:2024-08-28 13:33:40 公開日:2024-08-27 |
# 最小限の変更による後処理フェアネス
Post-processing fairness with minimal changes ( http://arxiv.org/abs/2408.15096v1 ) ライセンス: Link先を確認 | Federico Di Gennaro, Thibault Laugel, Vincent Grari, Xavier Renard, Marcin Detyniecki, | (参考訳) 本稿では,モデルに依存しない新しいポストプロセッシングアルゴリズムを提案する。
さらに,本アルゴリズムは偏りの予測と偏りの予測の最小限の変更を強制するように設計されている。
提案手法では,ブラックボックス分類器が生成する確率スコアのロジット値に乗算係数を適用する。
本手法の有効性を実証的評価により実証し, フェアネス研究において広く用いられている2つのデータセットの他の4つのデバイアスアルゴリズムと比較した。
In this paper, we introduce a novel post-processing algorithm that is both model-agnostic and does not require the sensitive attribute at test time. In addition, our algorithm is explicitly designed to enforce minimal changes between biased and debiased predictions; a property that, while highly desirable, is rarely prioritized as an explicit objective in fairness literature. Our approach leverages a multiplicative factor applied to the logit value of probability scores produced by a black-box classifier. We demonstrate the efficacy of our method through empirical evaluations, comparing its performance against other four debiasing algorithms on two widely used datasets in fairness research. | 翻訳日:2024-08-28 13:33:40 公開日:2024-08-27 |
# データ駆動型3Dプリントシェルの非線形変形設計
Data-Driven Nonlinear Deformation Design of 3D-Printable Shells ( http://arxiv.org/abs/2408.15097v1 ) ライセンス: Link先を確認 | Samuel Silverman, Kelsey L. Snapp, Keith A. Brown, Emily Whiting, | (参考訳) 特定の機械的特性を持つ構造の設計と製造には、設計パラメータと性能の複雑な関係を理解する必要がある。
非線形変形において、設計と性能の関係を理解することはますます複雑になる。
弾性変形のモデリングは成功したが、シミュレーションベースの手法は塑性と密度を示す大きな弾塑性変形をモデル化するのに苦労した。
本研究では,3次元プリント可能なシェルの設計・性能関係と圧縮力変位挙動を学習するための実験データに基づくニューラルネットワークを提案する。
何千もの物理的実験に基づいて、我々のネットワークは前方および逆設計の両方を補助し、所望の弾塑性および超弾性変形を示す殻を生成する。
生成した設計のサブセットを製造および試験により検証する。
さらに,複数のアプリケーションを対象としたカスタムシェル生成において,ネットワークの逆設計の有効性を示す。
Designing and fabricating structures with specific mechanical properties requires understanding the intricate relationship between design parameters and performance. Understanding the design-performance relationship becomes increasingly complicated for nonlinear deformations. Though successful at modeling elastic deformations, simulation-based techniques struggle to model large elastoplastic deformations exhibiting plasticity and densification. We propose a neural network trained on experimental data to learn the design-performance relationship between 3D-printable shells and their compressive force-displacement behavior. Trained on thousands of physical experiments, our network aids in both forward and inverse design to generate shells exhibiting desired elastoplastic and hyperelastic deformations. We validate a subset of generated designs through fabrication and testing. Furthermore, we demonstrate the network's inverse design efficacy in generating custom shells for several applications. | 翻訳日:2024-08-28 13:33:40 公開日:2024-08-27 |
# CLIP-AGIQA:CLIPによるAI生成画像品質評価の性能向上
CLIP-AGIQA: Boosting the Performance of AI-Generated Image Quality Assessment with CLIP ( http://arxiv.org/abs/2408.15098v1 ) ライセンス: Link先を確認 | Zhenchen Tang, Zichuan Wang, Bo Peng, Jing Dong, | (参考訳) 生成技術の急速な発展に伴い、AIGI(AI-Generated Images)は日常生活の様々な側面に広く応用されている。
しかし、技術が未成熟であるため、生成した画像の品質は異なるため、生成した画像の品質評価技術を開発することが重要である。
生成画像の品質を評価するためにいくつかのモデルが提案されているが、生成画像の絶え間なく増加し、多様なカテゴリに直面した場合には不十分である。
そのため、画像の品質を評価するためのより高度で効果的なモデルの開発が急務である。
近年の研究では、画像品質評価における視覚言語モデルCLIPの意義を探求し、自然画像の品質評価に有効であることが確認されている。
しかし, 生成画像への応用は十分には研究されていない。
本稿では、このアイデアに基づいて、生成された画像の品質を評価するCLIPの可能性をさらに探求する。
生成画像の品質評価のためのCLIPベースの回帰モデルであるCLIP-AGIQAを設計し、CLIPにカプセル化された豊富な視覚的およびテキスト的知識を活用する。
特に,CLIPのテキスト知識を品質評価に活用するために,複数カテゴリの学習可能なプロンプトを実装した。
AGIQA-3KやAIGCIQA2023などの画像品質評価ベンチマークの大規模な実験では、CLIP-AGIQAが既存のIQAモデルより優れており、生成された画像の品質を評価する上で優れた結果が得られた。
With the rapid development of generative technologies, AI-Generated Images (AIGIs) have been widely applied in various aspects of daily life. However, due to the immaturity of the technology, the quality of the generated images varies, so it is important to develop quality assessment techniques for the generated images. Although some models have been proposed to assess the quality of generated images, they are inadequate when faced with the ever-increasing and diverse categories of generated images. Consequently, the development of more advanced and effective models for evaluating the quality of generated images is urgently needed. Recent research has explored the significant potential of the visual language model CLIP in image quality assessment, finding that it performs well in evaluating the quality of natural images. However, its application to generated images has not been thoroughly investigated. In this paper, we build on this idea and further explore the potential of CLIP in evaluating the quality of generated images. We design CLIP-AGIQA, a CLIP-based regression model for quality assessment of generated images, leveraging rich visual and textual knowledge encapsulated in CLIP. Particularly, we implement multi-category learnable prompts to fully utilize the textual knowledge in CLIP for quality assessment. Extensive experiments on several generated image quality assessment benchmarks, including AGIQA-3K and AIGCIQA2023, demonstrate that CLIP-AGIQA outperforms existing IQA models, achieving excellent results in evaluating the quality of generated images. | 翻訳日:2024-08-28 13:33:40 公開日:2024-08-27 |
# No Regrets: カリキュラム発見のためのRegret近似の調査と改善
No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery ( http://arxiv.org/abs/2408.15099v1 ) ライセンス: Link先を確認 | Alexander Rutherford, Michael Beukman, Timon Willi, Bruno Lacerda, Nick Hawes, Jakob Foerster, | (参考訳) 下流のパフォーマンスを改善するためにトレーニングに使用するデータや環境は、強化学習において長く、非常にトピックな問題である。
特に、非教師なし環境設計(UED)手法は、適応的なカリキュラムによってエージェントがイン・オブ・アウト・ディストリビューション・タスクに対して堅牢であることから、近年注目を集めている。
これらの手法が、現実のロボット工学の問題に強くインスパイアされた、新しい設定に適用された場合、どの程度堅牢であるかを問う。
驚いたことに、最先端のUEDメソッドは、ドメインランダム化(DR)のna\"{i}veベースラインを改良しないか、あるいはそれを行うためにかなりのハイパーパラメータチューニングを必要としている。
我々の分析は、エージェントが時折解決するが、必ずしも必ずしも解決しないような設定を見つける際に、'learnability'の直感的な測度を予測できない基礎的なスコアリング関数が原因であることを示している。
この手法は、我々のドメインやMinigridの標準 UED ドメインなど、いくつかのバイナリアウトカム環境において、UED メソッドや DR よりも優れています。
さらに,リスク条件値(CVaR)を忠実に反映し,ロバスト性を直接測定する新たな逆評価手法を導入する。
すべてのコードをオープンソースにして、最終ポリシーの視覚化を以下に公開しています。
What data or environments to use for training to improve downstream performance is a longstanding and very topical question in reinforcement learning. In particular, Unsupervised Environment Design (UED) methods have gained recent attention as their adaptive curricula enable agents to be robust to in- and out-of-distribution tasks. We ask to what extent these methods are themselves robust when applied to a novel setting, closely inspired by a real-world robotics problem. Surprisingly, we find that the state-of-the-art UED methods either do not improve upon the na\"{i}ve baseline of Domain Randomisation (DR), or require substantial hyperparameter tuning to do so. Our analysis shows that this is due to their underlying scoring functions failing to predict intuitive measures of ``learnability'', i.e., in finding the settings that the agent sometimes solves, but not always. Based on this, we instead directly train on levels with high learnability and find that this simple and intuitive approach outperforms UED methods and DR in several binary-outcome environments, including on our domain and the standard UED domain of Minigrid. We further introduce a new adversarial evaluation procedure for directly measuring robustness, closely mirroring the conditional value at risk (CVaR). We open-source all our code and present visualisations of final policies here: https://github.com/amacrutherford/sampling-for-learnability. | 翻訳日:2024-08-28 13:33:40 公開日:2024-08-27 |
# MTMamba++: マンバベースのデコーダによるマルチタスクDense Scene理解の強化
MTMamba++: Enhancing Multi-Task Dense Scene Understanding via Mamba-Based Decoders ( http://arxiv.org/abs/2408.15101v1 ) ライセンス: Link先を確認 | Baijiong Lin, Weisen Jiang, Pengguang Chen, Shu Liu, Ying-Cong Chen, | (参考訳) 複数の密集予測タスクのモデルを訓練するマルチタスク密集シーン理解には、幅広い応用シナリオがある。
長距離依存の捕捉とクロスタスク相互作用の強化は、マルチタスクの密接な予測に不可欠である。
本稿では,マルチタスクシーン理解のための新しいアーキテクチャであるMTMamba++を提案する。
コアブロックには、セルフタスクのMamba(STM)ブロックとクロスタスクのMamba(CTM)ブロックの2種類がある。
STMは状態空間モデルを活用することで長距離依存を処理する一方、CTMはタスク間の情報交換を容易にするためにタスクインタラクションを明示的にモデル化する。
本研究では,F-CTMとS-CTMという2種類のCTMブロックを設計し,機能的視点と意味論的視点からタスク間相互作用を強化する。
NYUDv2、PASCAL-Context、Cityscapesデータセットの実験では、CNNベースのメソッドとTransformerベースのメソッドよりもMTMamba++の方が優れたパフォーマンスを示している。
コードはhttps://github.com/EnVision-Research/MTMamba.comで入手できる。
Multi-task dense scene understanding, which trains a model for multiple dense prediction tasks, has a wide range of application scenarios. Capturing long-range dependency and enhancing cross-task interactions are crucial to multi-task dense prediction. In this paper, we propose MTMamba++, a novel architecture for multi-task scene understanding featuring with a Mamba-based decoder. It contains two types of core blocks: self-task Mamba (STM) block and cross-task Mamba (CTM) block. STM handles long-range dependency by leveraging state-space models, while CTM explicitly models task interactions to facilitate information exchange across tasks. We design two types of CTM block, namely F-CTM and S-CTM, to enhance cross-task interaction from feature and semantic perspectives, respectively. Experiments on NYUDv2, PASCAL-Context, and Cityscapes datasets demonstrate the superior performance of MTMamba++ over CNN-based and Transformer-based methods. The code is available at https://github.com/EnVision-Research/MTMamba. | 翻訳日:2024-08-28 13:23:24 公開日:2024-08-27 |
# ライセンスプレートの超解法を強化する - レイアウト認識とキャラクタ駆動アプローチ
Enhancing License Plate Super-Resolution: A Layout-Aware and Character-Driven Approach ( http://arxiv.org/abs/2408.15103v1 ) ライセンス: Link先を確認 | Valfride Nascimento, Rayson Laroca, Rafael O. Ribeiro, William Robson Schwartz, David Menotti, | (参考訳) ディープラーニングによるライセンスプレート認識(LPR)の大幅な進歩にもかかわらず、ほとんどの改善は明確な文字を持つ高解像度画像に依存している。
このシナリオは、交通監視がしばしば低解像度でぼやけた画像をキャプチャする現実世界の状況を反映していない。
これらの条件下では、文字は背景や隣接する文字と混同されがちであり、正確なLPRは困難である。
この問題に対処するために,LCOFL(Layout and Character Oriented Focal Loss)という新たな損失関数を導入する。
我々は、変形可能な畳み込みと共有重み付けを用いた文字特徴学習を強化し、光学文字認識(OCR)モデルを用いたGANベースのトレーニングアプローチを用いて超解像過程を導出する。
実験結果から, 文字再構成の精度は向上し, 定量化と定性化の両面で, 最先端の2つの手法に優れていた。
私たちのコードはhttps://github.com/valfride/lpsr-lacdで公開されています。
Despite significant advancements in License Plate Recognition (LPR) through deep learning, most improvements rely on high-resolution images with clear characters. This scenario does not reflect real-world conditions where traffic surveillance often captures low-resolution and blurry images. Under these conditions, characters tend to blend with the background or neighboring characters, making accurate LPR challenging. To address this issue, we introduce a novel loss function, Layout and Character Oriented Focal Loss (LCOFL), which considers factors such as resolution, texture, and structural details, as well as the performance of the LPR task itself. We enhance character feature learning using deformable convolutions and shared weights in an attention module and employ a GAN-based training approach with an Optical Character Recognition (OCR) model as the discriminator to guide the super-resolution process. Our experimental results show significant improvements in character reconstruction quality, outperforming two state-of-the-art methods in both quantitative and qualitative measures. Our code is publicly available at https://github.com/valfride/lpsr-lacd | 翻訳日:2024-08-28 13:23:24 公開日:2024-08-27 |
# ランダム性のイリュージョン:アドレス空間レイアウトランダム化実装の実証分析
The Illusion of Randomness: An Empirical Analysis of Address Space Layout Randomization Implementations ( http://arxiv.org/abs/2408.15107v1 ) ライセンス: Link先を確認 | Lorenzo Binosi, Gregorio Barzasi, Michele Carminati, Mario Polino, Stefano Zanero, | (参考訳) アドレス空間レイアウトランダム化(ASLR, Address Space Layout Randomization)は、プロセスのメモリレイアウトをランダム化することによってエクスプロイトを軽減するために、現代のオペレーティングシステムが採用する重要な防御機構である。
しかし、現実には、ASLRの現実世界の実装は不完全であり、攻撃者が悪用できる弱点に直面している。
この研究は、Linux、MacOS、Windowsを含む主要なデスクトッププラットフォームにおけるASLRの有効性を評価し、様々なプロセス、スレッド、システム再起動にまたがるメモリオブジェクトの配置のばらつきを調べる。
特に、メモリオブジェクトの位置のサンプルを収集し、これらの配置のランダム性を測定する統計的解析を行い、メモリレイアウトを調べて、このランダム性を低下させる可能性のあるオブジェクトのパターンを見つける。
結果として、Linuxディストリビューションのようなシステムの中には、堅牢なランダム化を提供するものもあるが、WindowsやMacOSのようなシステムは、実行可能なコードやライブラリのような重要な領域を適切にランダム化できないことが多い。
さらに、Linux 5.18以降のライブラリのエントロピーの大幅なエントロピー削減と、攻撃者が利用の複雑さを著しく低減するために活用できる相関パスの同定を行う。
最終的に、重大度に基づいて識別された弱点をランク付けし、概念実証攻撃によるエントロピー推定を検証する。
簡単に言うと,本論文は,異なるオペレーティングシステム間でASLRの有効性を総合的に評価し,ASLR実装を強化するオペレーティング・システム(OS)ベンダーの機会を強調している。
Address Space Layout Randomization (ASLR) is a crucial defense mechanism employed by modern operating systems to mitigate exploitation by randomizing processes' memory layouts. However, the stark reality is that real-world implementations of ASLR are imperfect and subject to weaknesses that attackers can exploit. This work evaluates the effectiveness of ASLR on major desktop platforms, including Linux, MacOS, and Windows, by examining the variability in the placement of memory objects across various processes, threads, and system restarts. In particular, we collect samples of memory object locations, conduct statistical analyses to measure the randomness of these placements and examine the memory layout to find any patterns among objects that could decrease this randomness. The results show that while some systems, like Linux distributions, provide robust randomization, others, like Windows and MacOS, often fail to adequately randomize key areas like executable code and libraries. Moreover, we find a significant entropy reduction in the entropy of libraries after the Linux 5.18 version and identify correlation paths that an attacker could leverage to reduce exploitation complexity significantly. Ultimately, we rank the identified weaknesses based on severity and validate our entropy estimates with a proof-of-concept attack. In brief, this paper provides the first comprehensive evaluation of ASLR effectiveness across different operating systems and highlights opportunities for Operating System (OS) vendors to strengthen ASLR implementations. | 翻訳日:2024-08-28 13:23:24 公開日:2024-08-27 |
# コメントと課題: 技術的負債の文書化とは?
Comments or Issues: Where to Document Technical Debt? ( http://arxiv.org/abs/2408.15109v1 ) ライセンス: Link先を確認 | Laerte Xavier, João Eduardo Montandon, Marco Tulio Valente, | (参考訳) Self-Admitted Technical Debt (SATD)は、開発者がソースコードコメント(SATD-C)やイシュー(SATD-I)を使って負債を文書化する技術的負債の一種である。
しかし、開発者がどちらかを選ぶように促す状況は、いまだに不明である。
本稿では,190のGitHubプロジェクトから抽出した74K SATD-Cと20K SATD-Iインスタンスを含む大規模データセットを用いて,両者の負債を調査する。
その結果、デベロッパがいつコメントやイシューを使って技術的負債を報告すべきかを決めるための13のガイドラインが提供されました。
Self-Admitted Technical Debt (SATD) is a form of Technical Debt where developers document the debt using source code comments (SATD-C) or issues (SATD-I). However, it is still unclear the circumstances that drive developers to choose one or another. In this paper, we survey authors of both types of debts using a large-scale dataset containing 74K SATD-C and 20K SATD-I instances, extracted from 190 GitHub projects. As a result, we provide 13 guidelines to support developers to decide when to use comments or issues to report Technical Debt. | 翻訳日:2024-08-28 13:23:24 公開日:2024-08-27 |
# AnomalousPatchCore: 異常サンプルの産業的異常検出への応用を探る
AnomalousPatchCore: Exploring the Use of Anomalous Samples in Industrial Anomaly Detection ( http://arxiv.org/abs/2408.15113v1 ) ライセンス: Link先を確認 | Mykhailo Koshil, Tilman Wegener, Detlef Mentrup, Simone Frintrop, Christian Wilms, | (参考訳) 視覚検査(英: visual inspection)または産業異常検出(英: industrial anomaly detection)は、製造業において最も一般的な品質管理タイプの一つである。
この課題は、回路基板の画像に欠落した部品である画像が与えられた異常の有無を識別し、その後の手動検査を行うことである。
近年、産業的異常検出が急増しているが、ほとんどの異常検出手法は依然として通常のサンプルからの知識のみを利用しており、頻繁に入手可能な異常サンプルからの情報の活用に失敗した。
さらに、一般的な画像分類データセットに基づいて事前訓練された、非常に一般的な特徴抽出器にも大きく依存している。
本稿では、これらの欠点に対処し、異常な特徴を識別するための正常および異常なドメイン内サンプルを微調整した特徴抽出器と、その後のメモリバンクに基づいて、新しい異常検出システムAnomalousPatchCore~(APC)を提案する。
APCの特徴抽出器を微調整するために,異常検出の異なる側面に対処する3つの補助的タスクを提案する。
MVTecデータセットを広範囲に評価したところ、APCは異常検出において最先端のシステムよりも優れており、特に工業的異常検出において、その後の手動検査では特に重要である。
詳細なアブレーション研究では,APCの特性についてさらに検討する。
Visual inspection, or industrial anomaly detection, is one of the most common quality control types in manufacturing. The task is to identify the presence of an anomaly given an image, e.g., a missing component on an image of a circuit board, for subsequent manual inspection. While industrial anomaly detection has seen a surge in recent years, most anomaly detection methods still utilize knowledge only from normal samples, failing to leverage the information from the frequently available anomalous samples. Additionally, they heavily rely on very general feature extractors pre-trained on common image classification datasets. In this paper, we address these shortcomings and propose the new anomaly detection system AnomalousPatchCore~(APC) based on a feature extractor fine-tuned with normal and anomalous in-domain samples and a subsequent memory bank for identifying unusual features. To fine-tune the feature extractor in APC, we propose three auxiliary tasks that address the different aspects of anomaly detection~(classification vs. localization) and mitigate the effect of the imbalance between normal and anomalous samples. Our extensive evaluation on the MVTec dataset shows that APC outperforms state-of-the-art systems in detecting anomalies, which is especially important in industrial anomaly detection given the subsequent manual inspection. In detailed ablation studies, we further investigate the properties of our APC. | 翻訳日:2024-08-28 13:23:24 公開日:2024-08-27 |
# 空間的共振器を用いた非教師付き暗黙的ニューラルシェイプ表現学習
Few-Shot Unsupervised Implicit Neural Shape Representation Learning with Spatial Adversaries ( http://arxiv.org/abs/2408.15114v1 ) ライセンス: Link先を確認 | Amine Ouasfi, Adnane Boukhayma, | (参考訳) Inlicit Neural Representationsは、複雑なデータモダリティをキャプチャする強力なフレームワークとして有名になり、3D形状から画像やオーディオまで幅広い範囲に及んでいる。
3次元形状表現の領域内では、ニューラルネットワーク符号距離関数(SDF)は複雑な形状幾何を忠実に符号化する顕著な可能性を示している。
しかし、地上の真実の監督がなければ、スパース3Dポイントの雲からSDFを学習することは、非常に難しい課題である。
近年の手法では, 学習の規則化にはスムーズさの先行に頼っているが, 本手法では, 学習したSDFを改善するために, 形状の逆サンプルを活用する正規化項を導入する。
提案手法の有効性を概説し,ベースラインに対するSDF学習の改善能力と,合成データと実データを用いた最先端技術について述べる。
Implicit Neural Representations have gained prominence as a powerful framework for capturing complex data modalities, encompassing a wide range from 3D shapes to images and audio. Within the realm of 3D shape representation, Neural Signed Distance Functions (SDF) have demonstrated remarkable potential in faithfully encoding intricate shape geometry. However, learning SDFs from sparse 3D point clouds in the absence of ground truth supervision remains a very challenging task. While recent methods rely on smoothness priors to regularize the learning, our method introduces a regularization term that leverages adversarial samples around the shape to improve the learned SDFs. Through extensive experiments and evaluations, we illustrate the efficacy of our proposed method, highlighting its capacity to improve SDF learning with respect to baselines and the state-of-the-art using synthetic and real data. | 翻訳日:2024-08-28 13:23:24 公開日:2024-08-27 |
# 非反射的アライメントの安定性の評価
Evaluating Stability of Unreflective Alignment ( http://arxiv.org/abs/2408.15116v1 ) ライセンス: Link先を確認 | James Lucassen, Mark Henry, Philippa Wright, Owen Yeung, | (参考訳) AIアライメントに対する多くの理論的障害は、反射的安定性の結果である。
しかし、反射安定に起因する問題は、現在のLLMには明らかに存在しないため、認知労働の安全な委任を可能にするために解決する必要があるかどうかについては意見の相違が生じる。
本稿では,将来のLCMにおいて反射的安定性の問題が発生するメカニズムとして,CPCの安定化を提案する。
CPC安定化の2つのリスク要因について述べる。
1) CPC ベースの後退と後退
2) 選好不安定性。
これらのリスク要因について予備評価を開発し、フロンティアLSMに適用する。
以上の結果から,現在のLCMでは,スケールと能力の増大がCPCベースのステップバックと選好不安定の増大に結びついており,CPC安定化が今後のLCMの反射安定性問題を引き起こす可能性が示唆された。
Many theoretical obstacles to AI alignment are consequences of reflective stability - the problem of designing alignment mechanisms that the AI would not disable if given the option. However, problems stemming from reflective stability are not obviously present in current LLMs, leading to disagreement over whether they will need to be solved to enable safe delegation of cognitive labor. In this paper, we propose Counterfactual Priority Change (CPC) destabilization as a mechanism by which reflective stability problems may arise in future LLMs. We describe two risk factors for CPC-destabilization: 1) CPC-based stepping back and 2) preference instability. We develop preliminary evaluations for each of these risk factors, and apply them to frontier LLMs. Our findings indicate that in current LLMs, increased scale and capability are associated with increases in both CPC-based stepping back and preference instability, suggesting that CPC-destabilization may cause reflective stability problems in future LLMs. | 翻訳日:2024-08-28 13:23:24 公開日:2024-08-27 |
# DIFR3CT : 平面X線からの確率的3次元CT再構成のための潜時拡散法
DIFR3CT: Latent Diffusion for Probabilistic 3D CT Reconstruction from Few Planar X-Rays ( http://arxiv.org/abs/2408.15118v1 ) ライセンス: Link先を確認 | Yiran Sun, Hana Baroudi, Tucker Netherton, Laurence Court, Osama Mawlawi, Ashok Veeraraghavan, Guha Balakrishnan, | (参考訳) CTスキャンは、多くの臨床疾患の可視化と診断の標準であり、外部放射線治療の計画立案に必要である。
残念なことに、低リソースと中リソースの設定でCTスキャナーが利用できることは、非常に可変である。
平面X線撮影装置はより一般的であるが、3次元解剖学の限られた2次元観察しか提供できない。
本研究は, 平面X線観測から可塑性CT体積の分布を生成することができる3次元潜時拡散モデルDIFR3CTを提案する。
DIFR3CTは、各X線から2次元特徴を接合した3次元空間に融合させ、これらの融合した特徴を低次元潜在空間で拡散条件で行う。
LIDCおよび術中CTデータセットの標準画素レベル(PSNR, SSIM)において,DIFR3CTが近年のスパースCT再建ベースラインより優れていることを示す広範な実験を行った。
また,DIFR3CTはモンテカルロサンプリングによる不確実な定量化をサポートし,再現信頼性を計測する機会を提供することを示した。
最後に, 乳房自動放射線治療のためのDIFR3CTを評価する予備試験を行い, 有望な実現可能性を示した。
私たちのコードはhttps://github.com/yransun/DIFR3CTで公開されています。
Computed Tomography (CT) scans are the standard-of-care for the visualization and diagnosis of many clinical ailments, and are needed for the treatment planning of external beam radiotherapy. Unfortunately, the availability of CT scanners in low- and mid-resource settings is highly variable. Planar x-ray radiography units, in comparison, are far more prevalent, but can only provide limited 2D observations of the 3D anatomy. In this work we propose DIFR3CT, a 3D latent diffusion model, that can generate a distribution of plausible CT volumes from one or few (<10) planar x-ray observations. DIFR3CT works by fusing 2D features from each x-ray into a joint 3D space, and performing diffusion conditioned on these fused features in a low-dimensional latent space. We conduct extensive experiments demonstrating that DIFR3CT is better than recent sparse CT reconstruction baselines in terms of standard pixel-level (PSNR, SSIM) on both the public LIDC and in-house post-mastectomy CT datasets. We also show that DIFR3CT supports uncertainty quantification via Monte Carlo sampling, which provides an opportunity to measure reconstruction reliability. Finally, we perform a preliminary pilot study evaluating DIFR3CT for automated breast radiotherapy contouring and planning -- and demonstrate promising feasibility. Our code is available at https://github.com/yransun/DIFR3CT. | 翻訳日:2024-08-28 13:23:24 公開日:2024-08-27 |
# 可変自己回帰列モデルを用いたUrduデジタルテキスト文字認識
Urdu Digital Text Word Optical Character Recognition Using Permuted Auto Regressive Sequence Modeling ( http://arxiv.org/abs/2408.15119v1 ) ライセンス: Link先を確認 | Ahmed Mustafa, Ijlal Baig, Hasan Sajid, | (参考訳) 本稿では,デジタルウルドゥー文字認識に特化して設計された,革新的な単語レベル光学文字認識(OCR)モデルを提案する。
変換器をベースとしたアーキテクチャとアテンション機構を利用して、約160,000Urduテキストイメージの包括的なデータセットに基づいてトレーニングを行い、文字誤り率(CER)0.178を達成した。
このモデルの強みは、双方向のコンテキスト情報を活用して認識精度を高めることで、コンテキスト認識と反復的改善を可能にする、permuted autoregressive sequence (PARSeq) モデルを組み込んだ独自のアーキテクチャにある。
さらに、様々なUrduテキストスタイル、フォント、バリエーションを扱う能力は、現実世界のシナリオにおける適用性を高める。
その有望な結果にもかかわらず、このモデルには、ぼやけた画像の難しさ、非水平方向、パターン、線、その他のテキストのオーバーレイなど、いくつかの制限がある。
さらに、後続または後続の句読点が認識プロセスにノイズをもたらすことがある。
これらの課題に取り組むことは将来の研究の焦点であり、モデルをさらに洗練し、データ拡張技術を探究し、ハイパーパラメータを最適化し、より正確で効率的なウルドゥー文字認識のためのコンテキスト改善を統合することを目的としている。
This research paper introduces an innovative word-level Optical Character Recognition (OCR) model specifically designed for digital Urdu text recognition. Utilizing transformer-based architectures and attention mechanisms, the model was trained on a comprehensive dataset of approximately 160,000 Urdu text images, achieving a character error rate (CER) of 0.178, which highlights its superior accuracy in recognizing Urdu characters. The model's strength lies in its unique architecture, incorporating the permuted autoregressive sequence (PARSeq) model, which allows for context-aware inference and iterative refinement by leveraging bidirectional context information to enhance recognition accuracy. Furthermore, its capability to handle a diverse range of Urdu text styles, fonts, and variations enhances its applicability in real-world scenarios. Despite its promising results, the model has some limitations, such as difficulty with blurred images, non-horizontal orientations, and overlays of patterns, lines, or other text, which can occasionally lead to suboptimal performance. Additionally, trailing or following punctuation marks can introduce noise into the recognition process. Addressing these challenges will be a focus of future research, aiming to refine the model further, explore data augmentation techniques, optimize hyperparameters, and integrate contextual improvements for more accurate and efficient Urdu text recognition. | 翻訳日:2024-08-28 13:23:24 公開日:2024-08-27 |
# スマートバイオメディカルデバイスのためのEU規制付きXAIのアライメント:コンプライアンス分析の方法論
Aligning XAI with EU Regulations for Smart Biomedical Devices: A Methodology for Compliance Analysis ( http://arxiv.org/abs/2408.15121v1 ) ライセンス: Link先を確認 | Francesco Sovrano, Michael Lognoul, Giulia Vilone, | (参考訳) 重要な投資と開発は、医療と医療の応用に人工知能(AI)を統合することとなり、医療技術における高度な制御システムへと繋がった。
しかし、AIシステムの不透明さは、透明性や信頼性など、このようなセンシティブなアプリケーションに必要な重要な特性に関する懸念を提起する。
本研究は、医療機器のスマートバイオエレクトロニクスの文脈において、主要なEU規制の説明要件を満たすための、最も適切な説明可能なAI(XAI)手法を選択するプロセスを検討することで、これらの懸念に対処する。
採用されている方法論は、制御メカニズム(オープンループ、クローズドループ、セミクローズドループシステム)によってスマートデバイスを分類し、その技術を掘り下げることから始まる。
そして、これらの規則を分析して、様々なデバイスと関連する目標について、それらの説明可能性要件を定義します。
同時に,その説明目的によってXAI手法を分類する。
これにより、法的説明可能性要件とXAI説明目標とを一致させ、それらを達成するのに適したXAIアルゴリズムを決定することができる。
我々の発見は、XAIアルゴリズムが異なる種類の医療機器のEU規制と整合しているという微妙な理解を提供する。
我々は、慢性疾患管理から高度な補綴物まで、様々な神経インプラントの実践的ケーススタディを通じてこれを実証する。
本研究は、バイオエレクトロニクスにおけるXAI応用とEU規制の厳格な規定の整合における重要なギャップを埋めるものである。
開発者と研究者のための実践的なフレームワークを提供し、AIイノベーションが医療技術の進歩を確実にし、法的および倫理的基準に準拠している。
Significant investment and development have gone into integrating Artificial Intelligence (AI) in medical and healthcare applications, leading to advanced control systems in medical technology. However, the opacity of AI systems raises concerns about essential characteristics needed in such sensitive applications, like transparency and trustworthiness. Our study addresses these concerns by investigating a process for selecting the most adequate Explainable AI (XAI) methods to comply with the explanation requirements of key EU regulations in the context of smart bioelectronics for medical devices. The adopted methodology starts with categorising smart devices by their control mechanisms (open-loop, closed-loop, and semi-closed-loop systems) and delving into their technology. Then, we analyse these regulations to define their explainability requirements for the various devices and related goals. Simultaneously, we classify XAI methods by their explanatory objectives. This allows for matching legal explainability requirements with XAI explanatory goals and determining the suitable XAI algorithms for achieving them. Our findings provide a nuanced understanding of which XAI algorithms align better with EU regulations for different types of medical devices. We demonstrate this through practical case studies on different neural implants, from chronic disease management to advanced prosthetics. This study fills a crucial gap in aligning XAI applications in bioelectronics with stringent provisions of EU regulations. It provides a practical framework for developers and researchers, ensuring their AI innovations advance healthcare technology and adhere to legal and ethical standards. | 翻訳日:2024-08-28 13:23:24 公開日:2024-08-27 |
# 宇宙からのメタン検出と定量化のための機械学習
Machine Learning for Methane Detection and Quantification from Space -- A survey ( http://arxiv.org/abs/2408.15122v1 ) ライセンス: Link先を確認 | Enno Tiemann, Shanyu Zhou, Alexander Kläser, Konrad Heidler, Rochelle Schneider, Xiao Xiang Zhu, | (参考訳) メタン(CH_4)は、20年間で二酸化炭素(CO_2)よりも86倍の温室効果ガスであり、大気汚染物質としても機能する。
高放射能の強制力と比較的短い大気寿命 (9\textpm1 years) を考えると、メタンは気候変動に重要な意味を持つため、メタン排出量の削減は気候変動の効果的な緩和に不可欠である。
この研究は、ショートウェーブ赤外線(SWIR)帯域におけるメタン点源検出センサの既存の情報を拡張する。
従来の機械学習(ML)アプローチと同様に、最先端の技術をレビューする。
このようなMLモデルで使用されるアーキテクチャとデータは、メタンプラムのセグメンテーションとエミッションレート推定のために別々に議論される。
伝統的に専門家は、メタン検出のための労働集約的な手作業による方法に依存している。
しかし、MLアプローチによりスケーラビリティが向上する。
分析の結果,MLモデルは従来の手法,特にU-netとTransformerアーキテクチャをベースとした畳み込みニューラルネットワーク(CNN)よりも優れていることがわかった。
これらのMLモデルはメタン感受性スペクトルデータから貴重な情報を抽出し、より正確な検出を可能にする。
データ、センサー仕様、評価指標のバリエーションによって、これらの手法を比較する際に問題が発生する。
これを解決するために、既存のデータセットとメトリクスについて議論し、利用可能なリソースの概要を提供し、オープンな研究課題を特定する。
最後に、MLの潜在的な将来的な進歩を探求し、モデルのコンパラビリティ、大規模なデータセット作成、そして欧州連合の今後のメタン戦略のアプローチを強調します。
Methane (CH_4) is a potent anthropogenic greenhouse gas, contributing 86 times more to global warming than Carbon Dioxide (CO_2) over 20 years, and it also acts as an air pollutant. Given its high radiative forcing potential and relatively short atmospheric lifetime (9\textpm1 years), methane has important implications for climate change, therefore, cutting methane emissions is crucial for effective climate change mitigation. This work expands existing information on operational methane point source detection sensors in the Short-Wave Infrared (SWIR) bands. It reviews the state-of-the-art for traditional as well as Machine Learning (ML) approaches. The architecture and data used in such ML models will be discussed separately for methane plume segmentation and emission rate estimation. Traditionally, experts rely on labor-intensive manually adjusted methods for methane detection. However, ML approaches offer greater scalability. Our analysis reveals that ML models outperform traditional methods, particularly those based on convolutional neural networks (CNN), which are based on the U-net and transformer architectures. These ML models extract valuable information from methane-sensitive spectral data, enabling a more accurate detection. Challenges arise when comparing these methods due to variations in data, sensor specifications, and evaluation metrics. To address this, we discuss existing datasets and metrics, providing an overview of available resources and identifying open research problems. Finally, we explore potential future advances in ML, emphasizing approaches for model comparability, large dataset creation, and the European Union's forthcoming methane strategy. | 翻訳日:2024-08-28 13:23:24 公開日:2024-08-27 |
# ペプチドのフル原子時間相関ダイナミクスのためのフォースガイドブリッジマッチング
Force-Guided Bridge Matching for Full-Atom Time-Coarsened Dynamics of Peptides ( http://arxiv.org/abs/2408.15126v1 ) ライセンス: Link先を確認 | Ziyang Yu, Wenbing Huang, Yang Liu, | (参考訳) 分子動力学(MD)シミュレーションは、材料科学、化学、薬理学の分野において、いくつかの分野において、置換不可能でユビキタスである。
従来のMDシミュレーションは、MDシミュレーションの広範な適用を制限する長期均衡時間問題と同様に、数値安定性に悩まされている。
近年,この制限を克服するために,より大規模な時間スケールにおける状態遷移機構を学習する,時間粗大化力学のためのディープラーニングアプローチの急激な開発が進められている。
しかしながら,提案手法が低効率な新しい状態として受け入れられることは滅多にない,再サンプリング手法によってボルツマン分布を目標とする手法はごくわずかである。
本研究では,フル原子時間粗大化力学のためのブリッジマッチングに物理前処理を組み込んだ新しいフレームワークであるFBMを提案する。
我々のよく設計された中間力場の誘導により、FBMは余分なステップなしで直接推論によりボルツマン様の分布を目標にすることができる。
小ペプチドに関する実験は、網羅的な指標で我々の優越性を検証し、未知のペプチド系への転移性を示す。
Molecular Dynamics (MD) simulations are irreplaceable and ubiquitous in fields of materials science, chemistry, pharmacology just to name a few. Conventional MD simulations are plagued by numerical stability as well as long equilibration time issues, which limits broader applications of MD simulations. Recently, a surge of deep learning approaches have been devised for time-coarsened dynamics, which learns the state transition mechanism over much larger time scales to overcome these limitations. However, only a few methods target the underlying Boltzmann distribution by resampling techniques, where proposals are rarely accepted as new states with low efficiency. In this work, we propose a force-guided bridge matching model, FBM, a novel framework that first incorporates physical priors into bridge matching for full-atom time-coarsened dynamics. With the guidance of our well-designed intermediate force field, FBM is feasible to target the Boltzmann-like distribution by direct inference without extra steps. Experiments on small peptides verify our superiority in terms of comprehensive metrics and demonstrate transferability to unseen peptide systems. | 翻訳日:2024-08-28 13:23:24 公開日:2024-08-27 |
# T-FAKE: 顔のランドマークのための熱画像の合成
T-FAKE: Synthesizing Thermal Images for Facial Landmarking ( http://arxiv.org/abs/2408.15127v1 ) ライセンス: Link先を確認 | Philipp Flotho, Moritz Piening, Anna Kukleva, Gabriele Steidl, | (参考訳) 顔分析は、セキュリティ、自律運転、エンターテイメント、ヘルスケアなど、幅広いアプリケーションにおいて重要なコンポーネントである。
様々な顔のRGBデータセットが利用可能であるにもかかわらず、生命科学、医学、バイオメトリックスにおいて重要な役割を果たす熱モダリティはほとんど見過ごされてきた。
このギャップに対処するために、スパースと密集したランドマークを備えた新しい大規模合成熱データセットであるT-FAKEデータセットを導入する。
データセットの作成を容易にするため,RGB面へのサーマルスタイルの移動を可能にする新しいRGB2熱損失関数を提案する。
サーマルパッチとRGBパッチ間のワッサースタイン距離と臨床温度分布の統計解析を利用して、生成したサーマルイメージが実際の試料とよく似ていることを確かめる。
RGB2熱損失関数に基づくRGB2熱伝達を用いて、顔の大規模合成熱データセットであるT-FAKEデータセットを作成する。
新たなT-FAKEデータセット、確率的ランドマーク予測、ラベル適応ネットワークを活用して、異なるランドマーク規則における熱画像のランドマーク検出方法の大幅な改善を示す。
我々のモデルは、スパース70点のランドマークと密度478点のランドマークアノテーションの両方で優れた性能を示している。
私たちのコードとモデルはhttps://github.com/phflot/tfake.comで公開されています。
Facial analysis is a key component in a wide range of applications such as security, autonomous driving, entertainment, and healthcare. Despite the availability of various facial RGB datasets, the thermal modality, which plays a crucial role in life sciences, medicine, and biometrics, has been largely overlooked. To address this gap, we introduce the T-FAKE dataset, a new large-scale synthetic thermal dataset with sparse and dense landmarks. To facilitate the creation of the dataset, we propose a novel RGB2Thermal loss function, which enables the transfer of thermal style to RGB faces. By utilizing the Wasserstein distance between thermal and RGB patches and the statistical analysis of clinical temperature distributions on faces, we ensure that the generated thermal images closely resemble real samples. Using RGB2Thermal style transfer based on our RGB2Thermal loss function, we create the T-FAKE dataset, a large-scale synthetic thermal dataset of faces. Leveraging our novel T-FAKE dataset, probabilistic landmark prediction, and label adaptation networks, we demonstrate significant improvements in landmark detection methods on thermal images across different landmark conventions. Our models show excellent performance with both sparse 70-point landmarks and dense 478-point landmark annotations. Our code and models are available at https://github.com/phflot/tfake. | 翻訳日:2024-08-28 13:23:24 公開日:2024-08-27 |
# 機械学習のエネルギー消費評価 : 体系的文献レビューと実験
Evaluating the Energy Consumption of Machine Learning: Systematic Literature Review and Experiments ( http://arxiv.org/abs/2408.15128v1 ) ライセンス: Link先を確認 | Charlotte Rodriguez, Laura Degioanni, Laetitia Kameni, Richard Vidal, Giovanni Neglia, | (参考訳) 機械学習(ML)のエネルギー消費をモニタリングし、理解し、最適化することは、MLのエネルギー使用量を評価する必要がある様々な理由である。
しかし、全てのユースケースでこの疑問に答えられる普遍的なツールが存在しないため、特定のユースケースのエネルギー消費を評価する方法に意見の相違があるかもしれない。
ツールとメソッドは異なるアプローチに基づいており、それぞれに独自の利点と欠点があります。
私たちはこの課題に2つのアプローチで対処します。
まず,機械学習か汎用ソフトウェアかに関わらず,MLのエネルギー消費(トレーニングと推論の両方)を評価するためのすべてのツールや手法について,体系的な文献レビューを行う。
第2に、これらのツールとメソッドの選択を比較するために、実験的なプロトコルを開発し、使用します。
この比較は、異なる性質(ビジョン、言語)と計算複雑性の様々なMLタスクの質的かつ定量的である。
系統的な文献レビューは、基本的なエネルギーモニタリングから消費最適化に至るまで、MLのエネルギー消費を評価するためのツールや手法の配列を理解するための包括的なガイドとして機能する。
さらなる調査のために、2つのオープンソースリポジトリが提供されている。
最初のものは、この作業を複製したり、現在のレビューを拡張するために使用できるツールを含んでいる。
第2のリポジトリには実験的なプロトコルが格納されており、ユーザーは新しいMLコンピューティングタスクと追加のエネルギー評価ツールでプロトコルを拡張できる。
Monitoring, understanding, and optimizing the energy consumption of Machine Learning (ML) are various reasons why it is necessary to evaluate the energy usage of ML. However, there exists no universal tool that can answer this question for all use cases, and there may even be disagreement on how to evaluate energy consumption for a specific use case. Tools and methods are based on different approaches, each with their own advantages and drawbacks, and they need to be mapped out and explained in order to select the most suitable one for a given situation. We address this challenge through two approaches. First, we conduct a systematic literature review of all tools and methods that permit to evaluate the energy consumption of ML (both at training and at inference), irrespective of whether they were originally designed for machine learning or general software. Second, we develop and use an experimental protocol to compare a selection of these tools and methods. The comparison is both qualitative and quantitative on a range of ML tasks of different nature (vision, language) and computational complexity. The systematic literature review serves as a comprehensive guide for understanding the array of tools and methods used in evaluating energy consumption of ML, for various use cases going from basic energy monitoring to consumption optimization. Two open-source repositories are provided for further exploration. The first one contains tools that can be used to replicate this work or extend the current review. The second repository houses the experimental protocol, allowing users to augment the protocol with new ML computing tasks and additional energy evaluation tools. | 翻訳日:2024-08-28 13:23:24 公開日:2024-08-27 |
# 実例の集合を最終ユーザへ説明するためのLCMの使用
Using LLMs for Explaining Sets of Counterfactual Examples to Final Users ( http://arxiv.org/abs/2408.15133v1 ) ライセンス: Link先を確認 | Arturo Fredes, Jordi Vitria, | (参考訳) 因果関係は、単なる相関に頼るのではなく、予測モデル内の変数間の真の因果関係を理解するために不可欠である。
自動意思決定シナリオでは、因果推論手法が基礎となるデータ生成プロセスを分析し、特徴の操作と反実例の作成によってモデルの判断の説明を可能にする。
これらのカウンターファクトリーは、最小限の要素が変更される仮説的なシナリオを探求し、エンドユーザに自分たちの状況を変えるための貴重な情報を提供する。
しかし、生データ解析に慣れていないエンドユーザーにとっては、複数の対策を解釈することは困難である。
本研究では,LLMを用いた表データの分類における結果の変化につながるアクションの自然言語説明を生成するために,反事実を用いた新しい多段階パイプラインを提案する。
このパイプラインは、人間の推論を模倣する小さなタスクを通じて、対実的ケースに基づいた意思決定を導出するように設計されている。
公開データセットを用いて各種実験を行い, 最終説明の整合性, 内容の質を評価するためのクローズドループ評価法を提案した。
結果は有望だが、他のデータセットによるさらなる実験や人的評価は行わなければならない。
Causality is vital for understanding true cause-and-effect relationships between variables within predictive models, rather than relying on mere correlations, making it highly relevant in the field of Explainable AI. In an automated decision-making scenario, causal inference methods can analyze the underlying data-generation process, enabling explanations of a model's decision by manipulating features and creating counterfactual examples. These counterfactuals explore hypothetical scenarios where a minimal number of factors are altered, providing end-users with valuable information on how to change their situation. However, interpreting a set of multiple counterfactuals can be challenging for end-users who are not used to analyzing raw data records. In our work, we propose a novel multi-step pipeline that uses counterfactuals to generate natural language explanations of actions that will lead to a change in outcome in classifiers of tabular data using LLMs. This pipeline is designed to guide the LLM through smaller tasks that mimic human reasoning when explaining a decision based on counterfactual cases. We conducted various experiments using a public dataset and proposed a method of closed-loop evaluation to assess the coherence of the final explanation with the counterfactuals, as well as the quality of the content. Results are promising, although further experiments with other datasets and human evaluations should be carried out. | 翻訳日:2024-08-28 13:23:24 公開日:2024-08-27 |
# リリースフリーピエゾ-オプトメカニカル量子トランスデューサの設計
Design of a release-free piezo-optomechanical quantum transducer ( http://arxiv.org/abs/2408.15134v1 ) ライセンス: Link先を確認 | Paul Burger, Joey Frey, Johan Kolvik, David Hambraeus, Raphaël Van Laer, | (参考訳) マイクロ波と光光子の量子トランスダクションは、光光子が提供する長距離接続と超伝導マイクロ波量子ビットの決定論的量子演算を組み合わせることができる。
量子マイクロ波-光学変換への有望なアプローチは、中間機械モードとピエゾ-オプトメカニカル相互作用を用いる。
これまでのところ、そのようなトランスデューサは基盤となる基板から放出され、機械的磁場を閉じ込め、適切な熱アンカーを防ぎ、光吸収によるノイズ効率のトレードオフを生み出している。
本稿では,このノイズ効率トレードオフを回避することを目的とした,非持続型圧電オプトメカニカルトランスデューサについて紹介する。
本稿では,シリコンオンサファイア(SOS)リリースフリートランスデューサの提案と設計を行う。
提案手法は,サファイア基板上に無放出ニオブ酸リチウム電気機械結晶とシリコン光学結晶を統合し,マイクロ波および機械的コヒーレンスとともに熱アンカーの改善を目的とする。
チップ表面にしっかりとガイドされたハイウェーブベクターのメカニカルモードを利用する。
量子科学と工学以外にも、提案されたプラットフォームと設計原則は、統合フォトニクスにおける低消費電力のアコホースト光学系にとって魅力的なものである。
Quantum transduction between microwave and optical photons could combine the long-range connectivity provided by optical photons with the deterministic quantum operations of superconducting microwave qubits. A promising approach to quantum microwave-optics transduction uses an intermediary mechanical mode along with piezo-optomechanical interactions. So far, such transducers have been released from their underlying substrate to confine mechanical fields -- preventing proper thermal anchoring and creating a noise-efficiency trade-off resulting from optical absorption. Here, we introduce a release-free, i.e. non-suspended, piezo-optomechanical transducer intended to circumvent this noise-efficiency trade-off. We propose and design a silicon-on-sapphire (SOS) release-free transducer with appealing piezo- and optomechanical performance. Our proposal integrates release-free lithium niobate electromechanical crystals with silicon optomechanical crystals on a sapphire substrate meant to improve thermal anchoring along with microwave and mechanical coherence. It leverages high-wavevector mechanical modes firmly guided on the chip surface. Beyond quantum science and engineering, the proposed platform and design principles are attractive for low-power acousto-optic systems in integrated photonics. | 翻訳日:2024-08-28 13:13:36 公開日:2024-08-27 |
# Hilbert-Pólya Conjecture に対するハミルトニアンについて
On the Hamiltonian for the Hilbert-Pólya Conjecture ( http://arxiv.org/abs/2408.15135v1 ) ライセンス: Link先を確認 | Enderalp Yakaboylu, | (参考訳) 最近の写本~[J. Phys. A: Math. Theor. 57 235204 (2024)]では、ヒルベルト=ピオリア説のハミルトニアン候補が紹介されている。
ここでは、対応する固有函数が二乗可積分であること、そして決定的に、固有値が実であることをエレガントに示す。
後者はリーマン仮説を証明するための重要なステップである。
In a recent manuscript~[J. Phys. A: Math. Theor. 57 235204 (2024)], a candidate Hamiltonian for the Hilbert-P\'olya Conjecture was introduced. Here, we elegantly demonstrate that the corresponding eigenfunctions are square-integrable and, crucially, that the eigenvalues are real. The latter represents a significant step toward proving the Riemann Hypothesis. | 翻訳日:2024-08-28 13:13:36 公開日:2024-08-27 |
# ベイズニューラルネットワークを用いた低予算シミュレーションに基づく推論
Low-Budget Simulation-Based Inference with Bayesian Neural Networks ( http://arxiv.org/abs/2408.15136v1 ) ライセンス: Link先を確認 | Arnaud Delaunoy, Maxence de la Brassinne Bonardeaux, Siddharth Mishra-Sharma, Gilles Louppe, | (参考訳) シミュレーションに基づく推論手法は、訓練シミュレーションが限られた場合や高価な場合、データポーア方式では不正確であることが示されている。
このような状況下では、推論ネットワークは特に過度に適合する傾向があり、ネットワーク重みの識別性の欠如に起因する計算の不確実性を考慮していないと、信頼性の低い結果につながる可能性がある。
この問題に対処するために、低予算シミュレーションに基づく推論においてベイズニューラルネットワークを用いることを提案し、したがって、後部近似の計算の不確かさを明示的に考慮する。
我々は、推論に適したベイズニューラルネットワークのファミリを設計し、たとえ$O(10)$のシミュレーションが利用可能であっても、テストベンチマークでうまく校正された後部へと導かれることを示す。
このことは、単一シミュレーションが計算的に高価である宇宙論の分野における問題として、非常に高価なシミュレータを用いて、信頼性の高いシミュレーションベースの推論を実行する可能性を開く。
ベイジアンニューラルネットワークは,数百のシミュレーションで情報的,よく校正された後続推定を導出することを示す。
Simulation-based inference methods have been shown to be inaccurate in the data-poor regime, when training simulations are limited or expensive. Under these circumstances, the inference network is particularly prone to overfitting, and using it without accounting for the computational uncertainty arising from the lack of identifiability of the network weights can lead to unreliable results. To address this issue, we propose using Bayesian neural networks in low-budget simulation-based inference, thereby explicitly accounting for the computational uncertainty of the posterior approximation. We design a family of Bayesian neural network priors that are tailored for inference and show that they lead to well-calibrated posteriors on tested benchmarks, even when as few as $O(10)$ simulations are available. This opens up the possibility of performing reliable simulation-based inference using very expensive simulators, as we demonstrate on a problem from the field of cosmology where single simulations are computationally expensive. We show that Bayesian neural networks produce informative and well-calibrated posterior estimates with only a few hundred simulations. | 翻訳日:2024-08-28 13:13:36 公開日:2024-08-27 |
# トランスフォーマーが構造化データをどのように学習するか--階層的フィルタリングからの洞察
How transformers learn structured data: insights from hierarchical filtering ( http://arxiv.org/abs/2408.15138v1 ) ライセンス: Link先を確認 | Jerome Garnier-Brun, Marc Mézard, Emanuele Moscato, Luca Saglietti, | (参考訳) 本研究では,木上の配列の生成モデルに対する階層的フィルタリング手法を導入し,データ中の位置相関範囲の制御を可能にする。
この制御された設定を活用することで、バニラエンコーダのみのトランスフォーマーアーキテクチャが、ルート分類とマスキング言語モデリングの両方に最適なBelief Propagationアルゴリズムを実装できることを示す。
ネットワークをトレーニングする際、階層層の増大に対応するより大きな距離での相関が順次含まれる。
フィルタの度合いの異なるモデルのアテンションマップに注目することで,トランスフォーマー層がどのように成功するかを分析する。
これらのアテンションマップは相関関係の反復的階層的再構成の明確な証拠を示し、これらの観測結果をネットワークサイズを考慮した正確な推論アルゴリズムの実装に関連付けることができる。
We introduce a hierarchical filtering procedure for generative models of sequences on trees, enabling control over the range of positional correlations in the data. Leveraging this controlled setting, we provide evidence that vanilla encoder-only transformer architectures can implement the optimal Belief Propagation algorithm on both root classification and masked language modeling tasks. Correlations at larger distances corresponding to increasing layers of the hierarchy are sequentially included as the network is trained. We analyze how the transformer layers succeed by focusing on attention maps from models trained with varying degrees of filtering. These attention maps show clear evidence for iterative hierarchical reconstruction of correlations, and we can relate these observations to a plausible implementation of the exact inference algorithm for the network sizes considered. | 翻訳日:2024-08-28 13:13:36 公開日:2024-08-27 |
# ゼーマン効果の低コスト実証:定性的観察から定量的実験へ
Low-cost demonstration of the Zeeman effect: From qualitative observation to quantitative experiments ( http://arxiv.org/abs/2408.15142v1 ) ライセンス: Link先を確認 | Shao-Han Qin, Yu-Han Ma, | (参考訳) 基本的な量子現象であるゼーマン効果は、磁場と原子系の相互作用を示す。
この効果の精密な分光測定は著しく進歩しているが、教育目的のためのシンプルで視覚的にアクセス可能な実演は残っていない。
ここでは、ゼーマン効果を直接視覚的に観察できる低コストな実験について述べる。
私たちのセットアップでは、ナトリウム蒸気ランプの前に置かれるナトリウム(テーブル塩から)を含む炎が伴います。
炎に磁場を印加すると、炎によって放たれる影が顕著に明るくなり、ゼーマン効果の鮮明で裸眼で示される。
さらに, この装置を用いて2種類の定量的実験を行い, 磁場強度とナトリウム濃度の影響について検討した。
この革新的なアプローチは、学部・高校レベルで原子物理学を教えるための実験的なデモンストレーションを豊かにするだけでなく、学生が実体験を通じてゼーマン効果を探求するためのオープンなプラットフォームも提供する。
The Zeeman effect, a fundamental quantum phenomenon, demonstrates the interaction between magnetic fields and atomic systems. While precise spectroscopic measurements of this effect have advanced significantly, there remains a lack of simple, visually accessible demonstrations for educational purposes. Here, we present a low-cost experiment that allows for direct visual observation of the Zeeman effect. Our setup involves a flame containing sodium (from table salt) placed in front of a sodium vapor lamp. When a magnetic field is applied to the flame, the shadow cast by the flame noticeably lightens, providing a clear, naked-eye demonstration of the Zeeman effect. Furthermore, we conduct two quantitative experiments using this setup, examining the effects of varying magnetic field strength and sodium concentration. This innovative approach not only enriches the experimental demonstration for teaching atomic physics at undergraduate and high school levels but also provides an open platform for students to explore the Zeeman effect through hands-on experience. | 翻訳日:2024-08-28 13:13:36 公開日:2024-08-27 |
# 画像復元に向けた予備探査
A Preliminary Exploration Towards General Image Restoration ( http://arxiv.org/abs/2408.15143v1 ) ライセンス: Link先を確認 | Xiangtao Kong, Jinjin Gu, Yihao Liu, Wenlong Zhang, Xiangyu Chen, Yu Qiao, Chao Dong, | (参考訳) 個々の画像復元作業における深層モデルの成功にもかかわらず,(1)一般化能力の欠如,(2)現実のシナリオにおける複雑で未知の劣化など,これらの作業が現実の用途に適用されないよう,少なくとも2つの技術的課題が存在する。
個々の画像復元作業に適した、既存のディープモデルはしばしばこれらの課題に効果的に対処するのに不足する。
本稿では,これらの課題を統一モデル内で解決することを目的とした一般画像復元(GIR)と呼ばれる新しい問題を提案する。
GIRは、一般的な目的のために、ほとんどの個々の画像復元タスク(画像のデノイング、デブロアリング、デライニング、超解像)とそれらの組み合わせをカバーしている。
本稿では,問題定義や一般化性能の網羅的意義など,GIRの本質的側面を概説する。
さらに,新しいデータセットの確立とGIRモデルの徹底的な評価フレームワークについて論じる。
我々は、GIR課題に対処するための既存のアプローチを包括的に評価し、その強みと実用的課題を明らかにする。
これらの手法を解析することにより、GIRの有効性だけでなく、その実践的実装の難しさも浮き彫りにする。
最後に、これらのモデルの振る舞いを理解し、解釈して、将来の方向性を刺激する試みも行います。
我々の研究は、新しい価値ある研究の方向性を開拓し、一般的なビジョンの研究に貢献することができる。
Despite the tremendous success of deep models in various individual image restoration tasks, there are at least two major technical challenges preventing these works from being applied to real-world usages: (1) the lack of generalization ability and (2) the complex and unknown degradations in real-world scenarios. Existing deep models, tailored for specific individual image restoration tasks, often fall short in effectively addressing these challenges. In this paper, we present a new problem called general image restoration (GIR) which aims to address these challenges within a unified model. GIR covers most individual image restoration tasks (\eg, image denoising, deblurring, deraining and super-resolution) and their combinations for general purposes. This paper proceeds to delineate the essential aspects of GIR, including problem definition and the overarching significance of generalization performance. Moreover, the establishment of new datasets and a thorough evaluation framework for GIR models is discussed. We conduct a comprehensive evaluation of existing approaches for tackling the GIR challenge, illuminating their strengths and pragmatic challenges. By analyzing these approaches, we not only underscore the effectiveness of GIR but also highlight the difficulties in its practical implementation. At last, we also try to understand and interpret these models' behaviors to inspire the future direction. Our work can open up new valuable research directions and contribute to the research of general vision. | 翻訳日:2024-08-28 13:13:36 公開日:2024-08-27 |
# muPRL: 実際の障害に基づいた深層強化学習のための突然変異テストパイプライン
muPRL: A Mutation Testing Pipeline for Deep Reinforcement Learning based on Real Faults ( http://arxiv.org/abs/2408.15150v1 ) ライセンス: Link先を確認 | Deepak-George Thomas, Matteo Biagiola, Nargiz Humbatova, Mohammad Wardat, Gunel Jahangirova, Hridesh Rajan, Paolo Tonella, | (参考訳) 強化学習(Reinforcement Learning, RL)は、自動運転車の運転やヒューマノイドロボットの制御など、複雑なシーケンシャルなタスクに対処できるエージェントの訓練に採用されている。
それに対応して、RL剤が生産に入る前に適切に試験されたことを確実にするためには、新しいアプローチが必要である。
特に、注入された欠陥(突然変異)が実際の欠陥を模倣するという仮定の下では、突然変異検査は非常に有望である。
本稿では,レポジトリマイニングによって得られた実RL断層の分類について述べる。
次に、そのような実断層から派生した突然変異演算子を示し、ツール muPRL に実装する。
最後に, 実験結果について考察し, muPRL が弱いテストジェネレータと強く区別する上で有効であることを示し, 生成したテストシナリオの妥当性について開発者に有用なフィードバックを提供する。
Reinforcement Learning (RL) is increasingly adopted to train agents that can deal with complex sequential tasks, such as driving an autonomous vehicle or controlling a humanoid robot. Correspondingly, novel approaches are needed to ensure that RL agents have been tested adequately before going to production. Among them, mutation testing is quite promising, especially under the assumption that the injected faults (mutations) mimic the real ones. In this paper, we first describe a taxonomy of real RL faults obtained by repository mining. Then, we present the mutation operators derived from such real faults and implemented in the tool muPRL. Finally, we discuss the experimental results, showing that muPRL is effective at discriminating strong from weak test generators, hence providing useful feedback to developers about the adequacy of the generated test scenarios. | 翻訳日:2024-08-28 13:13:36 公開日:2024-08-27 |
# 自動RCカーシリーズにおけるローカルプランナー型スタンレー制御の評価
Evaluation of Local Planner-Based Stanley Control in Autonomous RC Car Racing Series ( http://arxiv.org/abs/2408.15152v1 ) ライセンス: Link先を確認 | Máté Fazekas, Zalán Demeter, János Tóth, Ármin Bogár-Németh, Gergely Bári, | (参考訳) 本稿では,自動RCカーレースの制御手法を提案する。
提案手法は,実際のLiDARポイントクラウド上でのみローカルパス計画を実行するため,事前にマップ構築フェーズを必要としない。
レース制御アルゴリズムは、ラップタイムを最小化するために、実際のトラックレイアウトに最適化する能力を持つ必要がある。
本研究では,低域と高速域の両方で移動を安定させるために,Stanleyコントローラを付加制御部品で改良し,適応的なルックアヘッド点を統合することにより,移動距離低減のためのシャープ・ダイナミック・コーナーリングを誘導する。
開発した手法を1/10サイズのRCカーでテストし,F110thレースにおけるベースソリューションから最適設定までのチューニング手順を示す。
さらに,提案手法は,より単純なリアクティブ手法との比較と,大域的最適軌道計算のオフラインマップ構築を含む,より複雑な最適化手法とを併用して評価する。
提案手法の性能は, ラップタイムを参照して, 提案手法が平均速度を8%以下に抑えるのが特徴である。
これは、適切なチューニングを行うことで、局所的な計画ベースの手法がより複雑な最適化ベースの手法に匹敵することを示す。
これにより、最先端手法に比べて性能ギャップは10%以下となる。
さらに,提案手法は実シナリオと極めて類似性が高いため,自動車産業の文脈で興味深い結果が得られる。
This paper proposes a control technique for autonomous RC car racing. The presented method does not require any map-building phase beforehand since it operates only local path planning on the actual LiDAR point cloud. Racing control algorithms must have the capability to be optimized to the actual track layout for minimization of lap time. In the examined one, it is guaranteed with the improvement of the Stanley controller with additive control components to stabilize the movement in both low and high-speed ranges, and with the integration of an adaptive lookahead point to induce sharp and dynamic cornering for traveled distance reduction. The developed method is tested on a 1/10-sized RC car, and the tuning procedure from a base solution to the optimal setting in a real F1Tenth race is presented. Furthermore, the proposed method is evaluated with a comparison to a more simple reactive method, and in parallel to a more complex optimization-based technique that involves offline map building the global optimal trajectory calculation. The performance of the proposed method compared to the latter, referring to the lap time, is that the proposed one has only 8% lower average speed. This demonstrates that with appropriate tuning, a local planning-based method can be comparable with a more complex optimization-based one. Thus, the performance gap is lower than 10% from the state-of-the-art method. Moreover, the proposed technique has significantly higher similarity to real scenarios, therefore the results can be interesting in the context of automotive industry. | 翻訳日:2024-08-28 13:13:36 公開日:2024-08-27 |
# MABのペイオフとしての遅延
Delay as Payoff in MAB ( http://arxiv.org/abs/2408.15158v1 ) ライセンス: Link先を確認 | Ofir Schlisselberg, Ido Cohen, Tal Lancewicki, Yishay Mansour, | (参考訳) 本稿では,従来の確率的マルチアームバンド問題 (MAB) の変種について検討し,エージェント(コストや報酬)の支払いが遅れており,遅延の程度と直接対応している。
この設定は、ルートを選択するのにデータパケットがネットワークを横断するのに要する時間(遅延がエージェントのコストとなる場所)や、コンテンツを選択するのにウェブページで費やす時間(遅延がエージェントの報酬となる場所)など、多くの現実のシナリオを忠実にモデル化する。
当社の主なコントリビューションは、コストと報酬の設定の両方に関して、上と下の境界の厳格さです。
ここでは、$T$はステップの最大数、$\Delta_i$はサブ最適ギャップ、$d^*$は腕の最小遅延である。
遅延が報酬となる場合、$\sum_{i:\Delta_i > 0}\frac{\log T}{\Delta_i} + \bar{d}$ の最適後悔を示す。
これは、一般的な遅延依存のペイオフ設定における後悔よりも改善され、$\sum_{i:\Delta_i > 0}\frac{\log T}{\Delta_i} + D$にスケールする。
私たちの後悔は、コストシナリオと報酬シナリオの違いを強調し、コストシナリオの改善が報酬よりも重要であることを示すことです。
最後に,実験的な評価とともに理論的結果に付随する。
In this paper, we investigate a variant of the classical stochastic Multi-armed Bandit (MAB) problem, where the payoff received by an agent (either cost or reward) is both delayed, and directly corresponds to the magnitude of the delay. This setting models faithfully many real world scenarios such as the time it takes for a data packet to traverse a network given a choice of route (where delay serves as the agent's cost); or a user's time spent on a web page given a choice of content (where delay serves as the agent's reward). Our main contributions are tight upper and lower bounds for both the cost and reward settings. For the case that delays serve as costs, which we are the first to consider, we prove optimal regret that scales as $\sum_{i:\Delta_i > 0}\frac{\log T}{\Delta_i} + d^*$, where $T$ is the maximal number of steps, $\Delta_i$ are the sub-optimality gaps and $d^*$ is the minimal expected delay amongst arms. For the case that delays serves as rewards, we show optimal regret of $\sum_{i:\Delta_i > 0}\frac{\log T}{\Delta_i} + \bar{d}$, where $\bar d$ is the second maximal expected delay. These improve over the regret in the general delay-dependent payoff setting, which scales as $\sum_{i:\Delta_i > 0}\frac{\log T}{\Delta_i} + D$, where $D$ is the maximum possible delay. Our regret bounds highlight the difference between the cost and reward scenarios, showing that the improvement in the cost scenario is more significant than for the reward. Finally, we accompany our theoretical results with an empirical evaluation. | 翻訳日:2024-08-28 13:13:36 公開日:2024-08-27 |
# 手話コミュニケーションの強化:顔表情合成のための感覚と意味の統合
Empowering Sign Language Communication: Integrating Sentiment and Semantics for Facial Expression Synthesis ( http://arxiv.org/abs/2408.15159v1 ) ライセンス: Link先を確認 | Rafael Azevedo, Thiago Coutinho, João Ferreira, Thiago Gomes, Erickson Nascimento, | (参考訳) 口頭言語からの文章を手動と非手動のジェスチャーの列に翻訳することは、聴覚障害や難聴者のためのより包括的な社会を構築する上で重要な役割を担っている。
特に、顔の表情(非マニュアル)は、話される文の文法を符号化し、句読点、代名詞、強調記号を適用している。
これらの非手動ジェスチャーは、話されている文の意味と、話者の感情の発声と密接に関連している。
しかしながら、ほとんどの手話生成(SLP)アプローチは手動ジェスチャーの合成に重点を置いており、話者表現のモデリングに重点を置いていない。
本稿では,手話のための表情合成に焦点をあてた新しい手法を提案する。
我々の目標は、表情生成に感情情報を統合することで手話生成を改善することである。
このアプローチは文の感情と意味的特徴を活用して意味のある表現空間からサンプルし、手作業以外のコンポーネントのバイアスを手話生成プロセスに統合する。
本手法を評価するために,Frechet Gesture Distance (FGD)を拡張し,Frechet Expression Distance (FED) と呼ばれる新しい指標を提案し,顔の特定領域の品質を評価するために幅広い指標を適用した。
実験の結果,本手法は,How2SignとPHOENIX14Tデータセットの競合よりも優れていることがわかった。
さらに、我々のアーキテクチャは、よりシンプルで、訓練が容易で、感情を利用して表情を生成することができる、慎重に設計されたグラフピラミッドに基づいている。
Translating written sentences from oral languages to a sequence of manual and non-manual gestures plays a crucial role in building a more inclusive society for deaf and hard-of-hearing people. Facial expressions (non-manual), in particular, are responsible for encoding the grammar of the sentence to be spoken, applying punctuation, pronouns, or emphasizing signs. These non-manual gestures are closely related to the semantics of the sentence being spoken and also to the utterance of the speaker's emotions. However, most Sign Language Production (SLP) approaches are centered on synthesizing manual gestures and do not focus on modeling the speakers expression. This paper introduces a new method focused in synthesizing facial expressions for sign language. Our goal is to improve sign language production by integrating sentiment information in facial expression generation. The approach leverages a sentence sentiment and semantic features to sample from a meaningful representation space, integrating the bias of the non-manual components into the sign language production process. To evaluate our method, we extend the Frechet Gesture Distance (FGD) and propose a new metric called Frechet Expression Distance (FED) and apply an extensive set of metrics to assess the quality of specific regions of the face. The experimental results showed that our method achieved state of the art, being superior to the competitors on How2Sign and PHOENIX14T datasets. Moreover, our architecture is based on a carefully designed graph pyramid that makes it simpler, easier to train, and capable of leveraging emotions to produce facial expressions. | 翻訳日:2024-08-28 13:13:36 公開日:2024-08-27 |
# SWAPとTranspose by displacement, Stabilizer Renyi Entropies for continuous variables and qudits and other applications
SWAP and Transpose by displacements, Stabilizer Renyi entropies for continuous variables and qudits and other applications ( http://arxiv.org/abs/2408.15161v1 ) ライセンス: Link先を確認 | Israel Klich, | (参考訳) 本稿では、SWAP演算子に対して、任意の次元量子系に有効な反相関なハイゼンベルク・ワイル変位の平均として有用な公式を強調する。
応用として、ワイル関数の正規化アイデンティティを迅速に証明し、最近提案されたRenyi Stabilizer entropyの一般化としてワイルマジックとウィグナーマジックに適用する方法を示す。
In this note, I highlight a useful formula for the SWAP operator as an average of anti-correlated Heisenberg-Weyl displacements, valid for arbitrary-dimensional quantum systems. As an application I show how the relation can be used to quickly prove normalization identities for the Weyl function, and apply the result to Weyl magic and Wigner magic as the generalization of the recently suggested Renyi Stabilizer entropy to q-dits and CV. | 翻訳日:2024-08-28 13:13:36 公開日:2024-08-27 |
# 長距離相互作用の機械学習のための潜在エワルド和法
Latent Ewald summation for machine learning of long-range interactions ( http://arxiv.org/abs/2408.15165v1 ) ライセンス: Link先を確認 | Bingqing Cheng, | (参考訳) 機械学習の原子間ポテンシャル(MLIP)は、静電気や分散力のような長距離相互作用を無視することが多い。
本研究では,局所的な原子ディスクリプタから潜伏変数を学習し,この変数にエワルド和を適用することにより,長距離相互作用の簡易かつ効率的な手法を提案する。
荷電, 極性, 無極性分子二量体, バルク水, 水蒸気界面などのシステムでは, 標準的な短距離MLIPは, メッセージパッシングを用いても非物理的な予測を導出できることを示した。
長距離モデルはこれらのアーティファクトを効果的に排除し、短距離MLIPの計算コストの約2倍に過ぎなかった。
Machine learning interatomic potentials (MLIPs) often neglect long-range interactions, such as electrostatic and dispersion forces. In this work, we introduce a straightforward and efficient method to account for long-range interactions by learning a latent variable from local atomic descriptors and applying an Ewald summation to this variable. We demonstrate that in systems including charged, polar, or apolar molecular dimers, bulk water, and water-vapor interface, standard short-ranged MLIPs can lead to unphysical predictions even when employing message passing. The long-range models effectively eliminate these artifacts, with only about twice the computational cost of short-range MLIPs. | 翻訳日:2024-08-28 13:13:36 公開日:2024-08-27 |
# 検索拡張現実の文脈における原子的事実を含む指標を用いたテキスト要約事実度の測定
Measuring text summarization factuality using atomic facts entailment metrics in the context of retrieval augmented generation ( http://arxiv.org/abs/2408.15171v1 ) ライセンス: Link先を確認 | N. E. Kriman, | (参考訳) 2022年にChatGPTが導入されて以来、大規模言語モデル(LLM)の利用は大幅に増加し、様々なアプリケーションでその価値が証明されている。
しかし、企業や商業でLLMを採用する上での大きな課題は、不正確な情報を生み出す傾向にある。
本稿では,LLMが生成した要約の事実性を,ソーステキストと比較して推定する手法を提案する。
提案手法は,Naive Bayes分類を用いて生成したコンテンツの精度を評価する。
The use of large language models (LLMs) has significantly increased since the introduction of ChatGPT in 2022, demonstrating their value across various applications. However, a major challenge for enterprise and commercial adoption of LLMs is their tendency to generate inaccurate information, a phenomenon known as "hallucination." This project proposes a method for estimating the factuality of a summary generated by LLMs when compared to a source text. Our approach utilizes Naive Bayes classification to assess the accuracy of the content produced. | 翻訳日:2024-08-28 13:13:36 公開日:2024-08-27 |
# X-Reflect:マルチモーダルレコメンデーションのためのクロスリフレクションプロンプト
X-Reflect: Cross-Reflection Prompting for Multimodal Recommendation ( http://arxiv.org/abs/2408.15172v1 ) ライセンス: Link先を確認 | Hanjia Lyu, Ryan Rossi, Xiang Chen, Md Mehrab Tanjim, Stefano Petrangeli, Somdeb Sarkhel, Jiebo Luo, | (参考訳) LMM(Large Language Models)とLMM(Large Multimodal Models)は,項目記述の充実効果を高め,レコメンデーションシステムの精度を向上させる。
しかし、既存のアプローチのほとんどは、テキストのみのプロンプトや、テキストと視覚の両方から得られる補完的な情報を十分に活用しない基本的なマルチモーダル戦略に依存している。
本稿では,テキストと画像間の支援的・矛盾する情報をLMMに明示的に識別・調整するよう促すことにより,これらの制約に対処する新しいフレームワークであるクロス・リフレクション・プロンプト(Cross-Reflex Prompting)を提案する。
両方のモダリティからのニュアンスな洞察を捉えることで、このアプローチはより包括的で文脈的にリッチなアイテム表現を生成する。
2つの広く利用されているベンチマークで行った大規模な実験により、提案手法は下流の推薦精度において、既存の基準値よりも優れていることが示された。
さらに、異なるLMMバックボーン間のフレームワークの一般化可能性や、プロンプト戦略の堅牢性を評価し、最適化のための洞察を提供する。
本研究は、マルチモーダル情報の統合の重要性を強調し、マルチモーダルレコメンデーションシステムにおけるアイテム理解を改善するための新しいソリューションを提案する。
Large Language Models (LLMs) and Large Multimodal Models (LMMs) have been shown to enhance the effectiveness of enriching item descriptions, thereby improving the accuracy of recommendation systems. However, most existing approaches either rely on text-only prompting or employ basic multimodal strategies that do not fully exploit the complementary information available from both textual and visual modalities. This paper introduces a novel framework, Cross-Reflection Prompting, termed X-Reflect, designed to address these limitations by prompting LMMs to explicitly identify and reconcile supportive and conflicting information between text and images. By capturing nuanced insights from both modalities, this approach generates more comprehensive and contextually richer item representations. Extensive experiments conducted on two widely used benchmarks demonstrate that our method outperforms existing prompting baselines in downstream recommendation accuracy. Additionally, we evaluate the generalizability of our framework across different LMM backbones and the robustness of the prompting strategies, offering insights for optimization. This work underscores the importance of integrating multimodal information and presents a novel solution for improving item understanding in multimodal recommendation systems. | 翻訳日:2024-08-28 13:13:36 公開日:2024-08-27 |
# 効率的なマルチエージェント強化学習のための爆発的近似対称性
Exploiting Approximate Symmetry for Efficient Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2408.15173v1 ) ライセンス: Link先を確認 | Batuhan Yardim, Niao He, | (参考訳) 平均場ゲーム(MFG)は、対称性の下で大規模マルチエージェント強化学習問題を解決する重要なツールとなっている。
しかし、正確な対称性の仮定はMFGの適用性を制限する。
さらに、MFGに関するほとんどの研究は、実世界の有限エージェントゲームでは容易に利用できない既知のMFGモデルへのアクセスを前提としている。
本研究では,任意の有限プレイヤ,おそらく非対称なゲームから「誘導的MFG」に拡張する方法論を提供することにより,MFGの適用性を広げる。
まず、$N$-player の動的ゲームは、明示的な Kirszbraun 拡張によって、無限プレーヤ連続体に対称性を持ち、滑らかに拡張できることを示す。
次に、近似置換不変性を含む動的集団ゲームの新しいクラスである$\alpha,\beta$-symmetricゲームの概念を提案する。
$\alpha,\beta$-symmetric game に対して、明示的な近似境界を確立し、誘導MFG のナッシュポリシーが$N$-player dynamic game の近似ナッシュであることを証明した。
我々は,TD学習が有限サンプル保証付き$N$-playerゲームのトラジェクトリを用いて小さなバイアスに収束することを示し,明示的なMFGモデルを構築することなく,対称性学習を可能にする。
最後に、単調性を満たす特定のゲームに対して、シンメトリゼーションバイアスに$\varepsilon$-Nashを学習するために$N$-agentゲームに対して$\widetilde{\mathcal{O}}(\varepsilon^{-6})$のサンプル複雑性を証明する。
我々の理論は、何千ものエージェントによるMARLベンチマークの評価によって支持されている。
Mean-field games (MFG) have become significant tools for solving large-scale multi-agent reinforcement learning problems under symmetry. However, the assumption of exact symmetry limits the applicability of MFGs, as real-world scenarios often feature inherent heterogeneity. Furthermore, most works on MFG assume access to a known MFG model, which might not be readily available for real-world finite-agent games. In this work, we broaden the applicability of MFGs by providing a methodology to extend any finite-player, possibly asymmetric, game to an "induced MFG". First, we prove that $N$-player dynamic games can be symmetrized and smoothly extended to the infinite-player continuum via explicit Kirszbraun extensions. Next, we propose the notion of $\alpha,\beta$-symmetric games, a new class of dynamic population games that incorporate approximate permutation invariance. For $\alpha,\beta$-symmetric games, we establish explicit approximation bounds, demonstrating that a Nash policy of the induced MFG is an approximate Nash of the $N$-player dynamic game. We show that TD learning converges up to a small bias using trajectories of the $N$-player game with finite-sample guarantees, permitting symmetrized learning without building an explicit MFG model. Finally, for certain games satisfying monotonicity, we prove a sample complexity of $\widetilde{\mathcal{O}}(\varepsilon^{-6})$ for the $N$-agent game to learn an $\varepsilon$-Nash up to symmetrization bias. Our theory is supported by evaluations on MARL benchmarks with thousands of agents. | 翻訳日:2024-08-28 13:13:36 公開日:2024-08-27 |
# マルチトラック音楽アレンジメントのための事前学習型音楽言語モデルのアンロック可能性
Unlocking Potential in Pre-Trained Music Language Models for Versatile Multi-Track Music Arrangement ( http://arxiv.org/abs/2408.15176v1 ) ライセンス: Link先を確認 | Longshen Ou, Jingwei Zhao, Ziyu Wang, Gus Xia, Ye Wang, | (参考訳) 大規模な言語モデルは、象徴的な音楽生成を含む様々な領域で重要な機能を示している。
しかし、これらの事前訓練されたモデルを制御可能な音楽アレンジメントタスクに活用するには、それぞれ異なる形態の音楽情報を必要とするため、新しい課題が残されている。
本稿では,バンドアレンジメント,ピアノリダクション,ドラムアレンジメント,音声分離を含む複数のマルチトラックアレンジメントタスクに対して,記号型音楽言語モデルの微調整を可能にする統合シーケンス・ツー・シーケンス・フレームワークを提案する。
実験の結果,提案手法は,4つのタスクにまたがるタスク固有のベースラインに比べて,高い音質を実現することがわかった。
さらに,探索分析に関する追加実験により,学習前フェーズは,タスク固有の微調整のみでは入手が困難である音楽条件を理解するための本質的な知識をモデルに備わっていることを示す。
Large language models have shown significant capabilities across various domains, including symbolic music generation. However, leveraging these pre-trained models for controllable music arrangement tasks, each requiring different forms of musical information as control, remains a novel challenge. In this paper, we propose a unified sequence-to-sequence framework that enables the fine-tuning of a symbolic music language model for multiple multi-track arrangement tasks, including band arrangement, piano reduction, drum arrangement, and voice separation. Our experiments demonstrate that the proposed approach consistently achieves higher musical quality compared to task-specific baselines across all four tasks. Furthermore, through additional experiments on probing analysis, we show the pre-training phase equips the model with essential knowledge to understand musical conditions, which is hard to acquired solely through task-specific fine-tuning. | 翻訳日:2024-08-28 13:03:51 公開日:2024-08-27 |
# コンピュータビジョンタスクにおけるトランスフォーマーモデルの検討:グローバルコンテキストと空間的関係の把握
A Review of Transformer-Based Models for Computer Vision Tasks: Capturing Global Context and Spatial Relationships ( http://arxiv.org/abs/2408.15178v1 ) ライセンス: Link先を確認 | Gracile Astlin Pereira, Muhammad Hussain, | (参考訳) トランスフォーマーベースのモデルは自然言語処理(NLP)の状況を変え、コンピュータビジョンタスクに顕著な成功を収めている。
これらのモデルは、長距離の依存関係とコンテキスト情報をキャプチャする能力で有名だが、コンピュータビジョンにおける従来の畳み込みニューラルネットワーク(CNN)に代わる有望な代替手段を提供する。
本稿では,コンピュータビジョンタスクに適応した様々なトランスフォーマーアーキテクチャについて概観する。
これらのモデルが画像のグローバルなコンテキストや空間的関係を捉え、画像分類、オブジェクト検出、セグメンテーションといったタスクに優れることを示す。
トランスフォーマーモデルの主要なコンポーネント、トレーニング方法論、パフォーマンスメトリクスを分析して、その強み、制限、最近の進歩を強調します。
さらに,コンピュータビジョンにおけるトランスフォーマーモデルの研究の方向性と応用について論じ,今後の発展への影響について考察する。
Transformer-based models have transformed the landscape of natural language processing (NLP) and are increasingly applied to computer vision tasks with remarkable success. These models, renowned for their ability to capture long-range dependencies and contextual information, offer a promising alternative to traditional convolutional neural networks (CNNs) in computer vision. In this review paper, we provide an extensive overview of various transformer architectures adapted for computer vision tasks. We delve into how these models capture global context and spatial relationships in images, empowering them to excel in tasks such as image classification, object detection, and segmentation. Analyzing the key components, training methodologies, and performance metrics of transformer-based models, we highlight their strengths, limitations, and recent advancements. Additionally, we discuss potential research directions and applications of transformer-based models in computer vision, offering insights into their implications for future advancements in the field. | 翻訳日:2024-08-28 13:03:51 公開日:2024-08-27 |
# VQEによる1次元トポロジカルモデルにおける準退化基底状態の検出
Detecting quasi-degenerate ground states in 1D topological models via VQE ( http://arxiv.org/abs/2408.15179v1 ) ライセンス: Link先を確認 | Carola Ciaramelletti, Martin Beseda, Mirko Consiglio, Luca Lepori, Tony J. G. Apollaro, Simone Paganelli, | (参考訳) 変分量子固有解法 (VQE) アルゴリズムを用いて, Su-Schrieffer-Heeger 開鎖と Kitaev 開鎖の正確な基底状態について検討した。
これらのモデルは、熱力学の極限で単一粒子エネルギーが消滅するエッジモードを特徴とする対称性で保護された位相位相をホストする。
同じ事実は、標準のVQEアルゴリズムが有限鎖に対して正しい基底状態に収束することを妨げている。
特に、この準縮退性は、典型的なスピン系のように、小さな摂動によって取り除けない。
この問題は、VQEの進化に適切な制約を課し、同じ進化に沿ってヒルベルト空間のプローブ部分を制限するために、適切な変動回路を構築することで解決する。
これらの制約はトポロジカル位相の一般的な性質と研究されたハミルトニアンの両方に由来する。
このようにして、改良されたVQEアルゴリズムは各位相における正確な基底状態への正確な収束を達成する。
このアプローチは、比較的多くの量子ビットを持つシステムでも達成された非常に高い忠実さのおかげで、現実的なシステムや、おそらく異なるトポロジを持つシステムにも、大きな適用性を約束する。
We study the exact ground states of the Su--Schrieffer--Heeger open chain and of the Kitaev open chain, using the Variational Quantum Eigensolver (VQE) algorithm. These models host symmetry-protected topological phases, characterized by edge modes with vanishing single-particle energy in the thermodynamic limit. The same fact prevents the standard VQE algorithm from converging to the correct ground state for finite chains, since it is quasi-degenerate in energy with other many-body states. Notably, this quasi-degeneracy cannot be removed by small perturbations, as in typical spin systems. We address this issue by imposing appropriate constraints on the VQE evolution and constructing appropriate variational circuits, to restrict the probed portion of the Hilbert space along the same evolution. These constraints stem from both general properties of the topological phases and of the studied Hamiltonians. In this way, the improved VQE algorithm achieves an accurate convergence to the exact ground states in each phase. The present approach promises large applicability, also to realistic systems and possibly with different topology, thanks to the very high fidelity achieved also on systems with a relatively high number of qubits. | 翻訳日:2024-08-28 13:03:51 公開日:2024-08-27 |
# 非線形還元次数モデリングにおける潜時ダイナミクス学習について
On latent dynamics learning in nonlinear reduced order modeling ( http://arxiv.org/abs/2408.15183v1 ) ライセンス: Link先を確認 | Nicola Farenga, Stefania Fresca, Simone Brivio, Andrea Manzoni, | (参考訳) 本研究では,パラメータ化非線形時間依存PDEの次数モデリングのための潜在力学モデル(LDM)の数学的枠組みを提案する。
我々のフレームワークは、この後者のタスクを非線形次元減少問題とみなし、(未知の)力学系に従って潜在状態の進化を制限している。
フルオーダーモデル (FOM) 解の LDM 近似に対する誤差と安定性の推定を導出するために, 時間連続的な設定を用いる。
時間分割設定において、明示的なRunge-Kuttaスキームを用いることによる影響を分析し、その結果、$\Delta\text{LDM}$の定式化を行い、さらに学習可能な$\Delta\text{LDM}_\theta$について検討する。
さらに、パラメータ化ニューラルODEの概念を拡張し、最近、様々な入力パラメータを持つデータ駆動動的システムを構築する方法として提案され、アフィン変調機構を用いて入力パラメータ情報を注入する畳み込みアーキテクチャとして、空間コヒーレンスを維持することができる畳み込みオートエンコーダニューラルネットワークを設計し、潜時レベルでの解釈可能性を高める。
Burgers や advection-reaction-diffusion 方程式を含む数値実験は、複数クエリの文脈において、FOM の解の時間連続近似を得ることのできるフレームワークの能力を示し、所定精度を維持しながら、任意の時点における LDM 近似をクエリできる。
本研究は, 時間依存パラメータ化PDEの精度と近似能力を向上するための, 数学的に厳密な枠組みである LDM の顕著な可能性を明らかにするものである。
In this work, we present the novel mathematical framework of latent dynamics models (LDMs) for reduced order modeling of parameterized nonlinear time-dependent PDEs. Our framework casts this latter task as a nonlinear dimensionality reduction problem, while constraining the latent state to evolve accordingly to an (unknown) dynamical system. A time-continuous setting is employed to derive error and stability estimates for the LDM approximation of the full order model (FOM) solution. We analyze the impact of using an explicit Runge-Kutta scheme in the time-discrete setting, resulting in the $\Delta\text{LDM}$ formulation, and further explore the learnable setting, $\Delta\text{LDM}_\theta$, where deep neural networks approximate the discrete LDM components, while providing a bounded approximation error with respect to the FOM. Moreover, we extend the concept of parameterized Neural ODE - recently proposed as a possible way to build data-driven dynamical systems with varying input parameters - to be a convolutional architecture, where the input parameters information is injected by means of an affine modulation mechanism, while designing a convolutional autoencoder neural network able to retain spatial-coherence, thus enhancing interpretability at the latent level. Numerical experiments, including the Burgers' and the advection-reaction-diffusion equations, demonstrate the framework's ability to obtain, in a multi-query context, a time-continuous approximation of the FOM solution, thus being able to query the LDM approximation at any given time instance while retaining a prescribed level of accuracy. Our findings highlight the remarkable potential of the proposed LDMs, representing a mathematically rigorous framework to enhance the accuracy and approximation capabilities of reduced order modeling for time-dependent parameterized PDEs. | 翻訳日:2024-08-28 13:03:51 公開日:2024-08-27 |
# PoseWatch: 時空間ポストークン化を用いた人中心ビデオ異常検出のためのトランスフォーマーベースアーキテクチャ
PoseWatch: A Transformer-based Architecture for Human-centric Video Anomaly Detection Using Spatio-temporal Pose Tokenization ( http://arxiv.org/abs/2408.15185v1 ) ライセンス: Link先を確認 | Ghazal Alinezhad Noghre, Armin Danesh Pazho, Hamed Tabkhi, | (参考訳) ビデオ異常検出(VAD)は、特に異常事象の予測不能で頻度の低い性質と、それらが起こる多様な動的環境が相まって、コンピュータビジョンにおいて重要な課題となる。
この領域の専門分野である人間中心のVADは、人間の振る舞いのバリエーション、データの潜在的なバイアス、および人間の被写体に関連する重大なプライバシー上の懸念など、さらなる複雑さに直面している。
これらの問題は、堅牢かつ一般化可能なモデルの開発を複雑にしている。
これらの課題に対処するため、最近の進歩は、プライバシの懸念を緩和し、外観バイアスを低減し、バックグラウンド干渉を最小限に抑えるために、人間のポーズを高レベルな機能として活用する、ポーズベースのVADに焦点を当てている。
本稿では,人間中心のポーズに基づくVADに特化して設計された,新しいトランスフォーマーベースのアーキテクチャであるPoseWatchを紹介する。
PoseWatchは、時間とともに人間の動きを表現しやすくし、より広範な人間の行動分析タスクにも有用である、革新的な時空間ポースと相対ポース(ST-PRP)トークン化手法を備えている。
アーキテクチャのコアである統一エンコーダツインデコーダ(UETD)は、ビデオデータの異常な振る舞いの検出を大幅に改善する。
複数のベンチマークデータセットにわたる広範囲な評価は、PoseWatchが既存のメソッドを一貫して上回り、ポーズベースのVADにおける新しい最先端性を確立していることを示している。
この研究は、PoseWatchの有効性を実証するだけでなく、人間の行動分析を進めるために自然言語処理技術とコンピュータビジョンを統合する可能性も強調している。
Video Anomaly Detection (VAD) presents a significant challenge in computer vision, particularly due to the unpredictable and infrequent nature of anomalous events, coupled with the diverse and dynamic environments in which they occur. Human-centric VAD, a specialized area within this domain, faces additional complexities, including variations in human behavior, potential biases in data, and substantial privacy concerns related to human subjects. These issues complicate the development of models that are both robust and generalizable. To address these challenges, recent advancements have focused on pose-based VAD, which leverages human pose as a high-level feature to mitigate privacy concerns, reduce appearance biases, and minimize background interference. In this paper, we introduce PoseWatch, a novel transformer-based architecture designed specifically for human-centric pose-based VAD. PoseWatch features an innovative Spatio-Temporal Pose and Relative Pose (ST-PRP) tokenization method that enhances the representation of human motion over time, which is also beneficial for broader human behavior analysis tasks. The architecture's core, a Unified Encoder Twin Decoders (UETD) transformer, significantly improves the detection of anomalous behaviors in video data. Extensive evaluations across multiple benchmark datasets demonstrate that PoseWatch consistently outperforms existing methods, establishing a new state-of-the-art in pose-based VAD. This work not only demonstrates the efficacy of PoseWatch but also highlights the potential of integrating Natural Language Processing techniques with computer vision to advance human behavior analysis. | 翻訳日:2024-08-28 13:03:51 公開日:2024-08-27 |
# 簡単にアクセスできるオンラインソーシャルメディアメトリクスは、誤情報共有ユーザーを効果的に識別する
Easy-access online social media metrics can effectively identify misinformation sharing users ( http://arxiv.org/abs/2408.15186v1 ) ライセンス: Link先を確認 | Júlia Számely, Alessandro Galeazzi, Júlia Koltai, Elisa Omodei, | (参考訳) 誤報は研究者によって広く研究されている重要な課題であるが、一次株主を特定するためのデータを取得することは費用がかかり難い。
そこで本稿では,誤報の可能性が低いソーシャルメディア利用者を差別化するための低障壁アプローチを提案する。
これまでの研究から得られた知見を活かして、平均的な1日平均ツイート数、アカウント年齢といった、簡単にアクセスできるオンラインソーシャルネットワークのメトリクスが、X(以前はTwitterと呼ばれていた)上の潜在的な事実の少ないコンテンツスプレッダーを特定するのに役立つことを実証した。
高いツイート頻度は共有コンテンツの事実性の低さと正に関連しているのに対し、アカウント年齢はそれと負に関連していることがわかった。
また、その効果のいくつか、つまり、フォローしたアカウントの数と生成したツイート数も、ユーザーのフォロワー数によって異なることがわかった。
以上の結果から,これらのソーシャル・ネットワークの指標を頼りにすることで,誤情報を拡散しやすいユーザを識別し,ソーシャルメディア・プラットフォーム上で効果的に誤情報に対処できる可能性が示唆された。
Misinformation poses a significant challenge studied extensively by researchers, yet acquiring data to identify primary sharers is costly and challenging. To address this, we propose a low-barrier approach to differentiate social media users who are more likely to share misinformation from those who are less likely. Leveraging insights from previous studies, we demonstrate that easy-access online social network metrics -- average daily tweet count, and account age -- can be leveraged to help identify potential low factuality content spreaders on X (previously known as Twitter). We find that higher tweet frequency is positively associated with low factuality in shared content, while account age is negatively associated with it. We also find that some of the effects, namely the effect of the number of accounts followed and the number of tweets produced, differ depending on the number of followers a user has. Our findings show that relying on these easy-access social network metrics could serve as a low-barrier approach for initial identification of users who are more likely to spread misinformation, and therefore contribute to combating misinformation effectively on social media platforms. | 翻訳日:2024-08-28 13:03:51 公開日:2024-08-27 |
# テキストに基づく認知症評価への音響ポーズコンテキストの注入
Infusing Acoustic Pause Context into Text-Based Dementia Assessment ( http://arxiv.org/abs/2408.15188v1 ) ライセンス: Link先を確認 | Franziska Braun, Sebastian P. Bayerl, Florian Hönig, Hartmut Lehfeld, Thomas Hillemacher, Tobias Bocklet, Korbinian Riedhammer, | (参考訳) 音声ポーズは、内容と構造とともに、認知症を検出するための価値ある非侵襲的なバイオマーカーを提供する。
本研究は, 認知障害, 軽度認知障害, アルツハイマー認知症を伴わない被験者の認知状態を, 臨床的評価に基づいて区別するために, トランスフォーマーに基づく言語モデルにおける停止強調文字の使用について検討した。
我々は,発症,モニタリング,認知症排除という3つのバイナリ分類課題に対処する。
この性能は、ドイツ語の言語頻度テストと画像記述テストの実験を通じて評価され、異なる音声生成コンテキストにおけるモデルの有効性を比較した。
本研究は,テキストベースラインから,ポーズ情報と音響コンテキストの付加効果について検討する。
課題に応じてテストを選択することを示し、同様に語彙的停止情報と音響的相互注意は異なる形で寄与する。
Speech pauses, alongside content and structure, offer a valuable and non-invasive biomarker for detecting dementia. This work investigates the use of pause-enriched transcripts in transformer-based language models to differentiate the cognitive states of subjects with no cognitive impairment, mild cognitive impairment, and Alzheimer's dementia based on their speech from a clinical assessment. We address three binary classification tasks: Onset, monitoring, and dementia exclusion. The performance is evaluated through experiments on a German Verbal Fluency Test and a Picture Description Test, comparing the model's effectiveness across different speech production contexts. Starting from a textual baseline, we investigate the effect of incorporation of pause information and acoustic context. We show the test should be chosen depending on the task, and similarly, lexical pause information and acoustic cross-attention contribute differently. | 翻訳日:2024-08-28 13:03:51 公開日:2024-08-27 |
# 6カ月児脳に対する8段階自動切開法
Automatic 8-tissue Segmentation for 6-month Infant Brains ( http://arxiv.org/abs/2408.15198v1 ) ライセンス: Link先を確認 | Yilan Dong, Vanessa Kyriakopoulou, Irina Grigorescu, Grainne McAlonan, Dafnis Batalle, Maria Deprez, | (参考訳) 多くの研究が、特に幼児期や幼児期の非定型的脳発達は、自閉症などの神経発達状態と診断される可能性が高まることを強調している。
多くの幼児研究において、形態学的解析のための正確な脳組織分節が不可欠である。
しかし,T1強調画像とT2強調画像で組織コントラストが変化する白色物質(WM)ミエリン化が進行しているため,6カ月児における自動組織セグメンテーションは特に困難である。
一方、専門家による手動ラベリングは時間と労力がかかる。
そこで本研究では,6カ月児脳に対する最初の8段階分割パイプラインを提案する。
このパイプラインは、新生児形成Human Connectome Project構造パイプラインにセグメント化された新生児画像を含む、私たちの縦方向のデータを活用するために、ドメイン適応(DA)技術を利用する。
パイプラインは生の6ヶ月の画像を入力として、出力として8段階のセグメンテーションを生成し、エンドツーエンドのセグメンテーションパイプラインを形成する。
分節組織は、WM、グレーマター(GM)、脳脊髄液(CSF)、心室、小脳、基底神経節、脳幹、海馬/アミグダラを含む。
CycleGAN と Attention U-Net を併用し, 生後6ヶ月画像と生後6か月画像のコントラスト変換を行い, 合成した6か月画像(生後6か月画像と生後6か月画像)に組織セグメンテーションを行った。
さらに、Infant Brain extract and Analysis Toolbox(iBEAT)と別の注意U-Netのセグメンテーション出力を組み込んで、パフォーマンスをさらに向上させ、エンドツーエンドセグメンテーションパイプラインを構築する。
DICEのスコアは0.92、HD95は1.6、ASSDは0.42である。
Numerous studies have highlighted that atypical brain development, particularly during infancy and toddlerhood, is linked to an increased likelihood of being diagnosed with a neurodevelopmental condition, such as autism. Accurate brain tissue segmentations for morphological analysis are essential in numerous infant studies. However, due to ongoing white matter (WM) myelination changing tissue contrast in T1- and T2-weighted images, automatic tissue segmentation in 6-month infants is particularly difficult. On the other hand, manual labelling by experts is time-consuming and labor-intensive. In this study, we propose the first 8-tissue segmentation pipeline for six-month-old infant brains. This pipeline utilizes domain adaptation (DA) techniques to leverage our longitudinal data, including neonatal images segmented with the neonatal Developing Human Connectome Project structural pipeline. Our pipeline takes raw 6-month images as inputs and generates the 8-tissue segmentation as outputs, forming an end-to-end segmentation pipeline. The segmented tissues include WM, gray matter (GM), cerebrospinal fluid (CSF), ventricles, cerebellum, basal ganglia, brainstem, and hippocampus/amygdala. Cycle-Consistent Generative Adversarial Network (CycleGAN) and Attention U-Net were employed to achieve the image contrast transformation between neonatal and 6-month images and perform tissue segmentation on the synthesized 6-month images (neonatal images with 6-month intensity contrast), respectively. Moreover, we incorporated the segmentation outputs from Infant Brain Extraction and Analysis Toolbox (iBEAT) and another Attention U-Net to further enhance the performance and construct the end-to-end segmentation pipeline. Our evaluation with real 6-month images achieved a DICE score of 0.92, an HD95 of 1.6, and an ASSD of 0.42. | 翻訳日:2024-08-28 13:03:51 公開日:2024-08-27 |
# SpecGuard: 物理的攻撃による自律走行ロボットの仕様回復
SpecGuard: Specification Aware Recovery for Robotic Autonomous Vehicles from Physical Attacks ( http://arxiv.org/abs/2408.15200v1 ) ライセンス: Link先を確認 | Pritam Dash, Ethan Chan, Karthik Pattabiraman, | (参考訳) ロボット自律車両(RAV)は、認識のためにセンサーに依存し、安全かつタイムリーな操作のために厳格なミッション仕様(高度、速度、ジオフェンスの制約など)に従う。
物理的攻撃はRAVのセンサーを破損させ、ミッションの失敗を引き起こす。
このような攻撃からRAVを回収するには、RAVの安全性とタイムリーな運用を保証するために、攻撃中であってもミッション仕様に準拠する堅牢な制御技術が必要である。
本稿では,ミッション仕様に準拠し,RAVを安全に回収する技術であるSpecGuardを提案する。
SpecGuardには2つのイノベーションがある。
まず、Deep Reinforcement Learning (Deep-RL)を用いて、ミッション仕様を取り入れ、回復制御ポリシーを学ぶアプローチを導入する。
我々は、RAVの複雑な力学を反映したコンプライアンスベースの報酬構造を設計し、SpecGuardが複数のミッション仕様を同時に満たすことを可能にする。
第二に、SpecGuardには、攻撃によるセンサーの摂動を最小限に抑える技術である状態再構成が組み込まれている。
この再構築は、効果的な敵の訓練を可能にし、攻撃時の堅牢性に対する回復制御ポリシーを最適化する。
私たちはSpecGuardを仮想と実の両方のRAVで評価し、クラッシュやストールを伴わずに、異なるセンサーに対する攻撃下で92%のリカバリ成功率を達成することを発見した。
SpecGuardは、以前の作業よりも2倍高いリカバリ成功を実現し、実際のRAVで約15%のパフォーマンスオーバーヘッドを発生させる。
Robotic Autonomous Vehicles (RAVs) rely on their sensors for perception, and follow strict mission specifications (e.g., altitude, speed, and geofence constraints) for safe and timely operations. Physical attacks can corrupt the RAVs' sensors, resulting in mission failures. Recovering RAVs from such attacks demands robust control techniques that maintain compliance with mission specifications even under attacks to ensure the RAV's safety and timely operations. We propose SpecGuard, a technique that complies with mission specifications and performs safe recovery of RAVs. There are two innovations in SpecGuard. First, it introduces an approach to incorporate mission specifications and learn a recovery control policy using Deep Reinforcement Learning (Deep-RL). We design a compliance-based reward structure that reflects the RAV's complex dynamics and enables SpecGuard to satisfy multiple mission specifications simultaneously. Second, SpecGuard incorporates state reconstruction, a technique that minimizes attack induced sensor perturbations. This reconstruction enables effective adversarial training, and optimizing the recovery control policy for robustness under attacks. We evaluate SpecGuard in both virtual and real RAVs, and find that it achieves 92% recovery success rate under attacks on different sensors, without any crashes or stalls. SpecGuard achieves 2X higher recovery success than prior work, and incurs about 15% performance overhead on real RAVs. | 翻訳日:2024-08-28 13:03:51 公開日:2024-08-27 |
# 視覚に基づくダイナミクス予測における位置符号化の検討
An Investigation on The Position Encoding in Vision-Based Dynamics Prediction ( http://arxiv.org/abs/2408.15201v1 ) ライセンス: Link先を確認 | Jiageng Zhu, Hanchen Xie, Jiazhi Li, Mahyar Khayatkhoei, Wael AbdAlmageed, | (参考訳) RGB画像と単純なオブジェクト記述を利用してオブジェクト状態を予測するビジョンベースの動的予測モデルの成功にもかかわらず、それらは環境のミスアライメントによって挑戦された。
セグメンテーション(セグメンテーション)やバウンディングボックス(バウンディングボックス)といった,環境コンテキストとオブジェクト抽象を一体化することで,視覚領域のミスアライメントの課題を効果的に軽減できることを示したが,議論は環境コンテキストの抽象化に焦点が当てられ,オブジェクト抽象としてバウンディングボックスを使用することについての洞察が不足している。
さらに,本論文では,オブジェクトの視覚的外観が除去された場合でも,直接ネットワークに入力される代わりに,オブジェクト境界ボックスだけで,動的予測のための関心プーリング操作を通じて,十分な位置情報を間接的に提供できることに気付いた。
しかし,従来の文献では,このような位置情報を動的予測モデルに暗黙的にエンコードする方法に関する議論は見過ごされていた。
そこで本稿では,出力特徴に抽象化されたオブジェクトとしてバウンディングボックスを用いて位置情報を符号化するプロセスと必要な条件について,詳細な研究を行う。
さらに, 環境条件が変化すると, 動的予測性能が損なわれるように, 対象抽象物のみを用いた制限について検討する。
Despite the success of vision-based dynamics prediction models, which predict object states by utilizing RGB images and simple object descriptions, they were challenged by environment misalignments. Although the literature has demonstrated that unifying visual domains with both environment context and object abstract, such as semantic segmentation and bounding boxes, can effectively mitigate the visual domain misalignment challenge, discussions were focused on the abstract of environment context, and the insight of using bounding box as the object abstract is under-explored. Furthermore, we notice that, as empirical results shown in the literature, even when the visual appearance of objects is removed, object bounding boxes alone, instead of being directly fed into the network, can indirectly provide sufficient position information via the Region of Interest Pooling operation for dynamics prediction. However, previous literature overlooked discussions regarding how such position information is implicitly encoded in the dynamics prediction model. Thus, in this paper, we provide detailed studies to investigate the process and necessary conditions for encoding position information via using the bounding box as the object abstract into output features. Furthermore, we study the limitation of solely using object abstracts, such that the dynamics prediction performance will be jeopardized when the environment context varies. | 翻訳日:2024-08-28 13:03:51 公開日:2024-08-27 |
# 安定化器符号の標準形式と有限ブロック長境界
Canonical Form and Finite Blocklength Bounds for Stabilizer Codes ( http://arxiv.org/abs/2408.15202v1 ) ライセンス: Link先を確認 | Dimiter Ostrev, | (参考訳) まず、任意のサイズとランクの安定化器パリティチェック行列の標準形式を導出する。
次に、Clifford 群の近縁な正準形式は $O(n^3)$ for $n$ qubits で計算できる。
最後に、安定化符号とパウリ雑音に対する有限ブロック長境界の関連問題を考察した。
ハッシュ境界の有限ブロック長精製法が導出され、コセットを推測する代用として誤差を推測する引数が存在しないことが、達成可能性境界を著しく向上させることを示した。
First, a canonical form for stabilizer parity check matrices of arbitrary size and rank is derived. Next, it is shown that the closely related canonical form of the Clifford group can be computed in time $O(n^3)$ for $n$ qubits, which improves upon the previously known time $O(n^6)$. Finally, the related problem of finite blocklength bounds for stabilizer codes and Pauli noise is studied. A finite blocklength refinement of the hashing bound is derived, and it is shown that no argument that uses guessing the error as a substitute for guessing the coset can lead to a significantly better achievability bound. | 翻訳日:2024-08-28 13:03:51 公開日:2024-08-27 |
# 信頼できない LLM アノテーションは信頼された結論に使えるか?
Can Unconfident LLM Annotations Be Used for Confident Conclusions? ( http://arxiv.org/abs/2408.15204v1 ) ライセンス: Link先を確認 | Kristina Gligorić, Tijana Zrnic, Cinoo Lee, Emmanuel J. Candès, Dan Jurafsky, | (参考訳) 大規模言語モデル(LLM)は、さまざまなタスクにわたる人間ラッカーと高い合意を示し、人間のデータ収集の課題を緩和する可能性を示している。
計算社会科学(CSS)では、研究者は遅くて高価な人間のアノテーションを補完するためにLLMアノテーションを活用している。
それでも、下流の結論の妥当性を損なうことなく、LLMアノテーションの収集と使用に関するガイドラインは限定的のままである。
LLMアノテーションとLCM信頼度インジケータを組み合わせて,どのアノテーションを収集すべきかを戦略的に選択する手法である信頼性駆動推論(Confidence-Driven Inference)を導入する。
我々のアプローチは、低品質のLLMアノテーションに対する保護が伴い、人間のアノテーションにのみ依存している場合よりも、結論が有効で正確であることを保証する。
テキストの丁寧さ,姿勢,バイアスの3つのCSS設定における統計的推定タスクにおけるベースラインに対する信頼性駆動推論の有効性を示す。
デモにはCSS設定を使用しますが、信頼性駆動推論を使用して、幅広いNLP問題に対して、ほとんどの標準量を推定することができます。
Large language models (LLMs) have shown high agreement with human raters across a variety of tasks, demonstrating potential to ease the challenges of human data collection. In computational social science (CSS), researchers are increasingly leveraging LLM annotations to complement slow and expensive human annotations. Still, guidelines for collecting and using LLM annotations, without compromising the validity of downstream conclusions, remain limited. We introduce Confidence-Driven Inference: a method that combines LLM annotations and LLM confidence indicators to strategically select which human annotations should be collected, with the goal of producing accurate statistical estimates and provably valid confidence intervals while reducing the number of human annotations needed. Our approach comes with safeguards against LLM annotations of poor quality, guaranteeing that the conclusions will be both valid and no less accurate than if we only relied on human annotations. We demonstrate the effectiveness of Confidence-Driven Inference over baselines in statistical estimation tasks across three CSS settings--text politeness, stance, and bias--reducing the needed number of human annotations by over 25% in each. Although we use CSS settings for demonstration, Confidence-Driven Inference can be used to estimate most standard quantities across a broad range of NLP problems. | 翻訳日:2024-08-28 13:03:51 公開日:2024-08-27 |
# 手動のプロンプト依存性を低減するための幻覚の活用 : 即時セグメンテーション
Leveraging Hallucinations to Reduce Manual Prompt Dependency in Promptable Segmentation ( http://arxiv.org/abs/2408.15205v1 ) ライセンス: Link先を確認 | Jian Hu, Jiayi Lin, Junchi Yan, Shaogang Gong, | (参考訳) プロンプタブルなセグメンテーションは、典型的には、各所望のオブジェクトのセグメンテーションを導くために、インスタンス固有の手動プロンプトを必要とする。
このようなニーズを最小限に抑えるために、単一のタスクジェネリックプロンプトを使用して、異なるオブジェクトの様々なイメージを同じタスクに分割するタスクジェネリックプロンプトが導入された。
現在の手法では、MLLM(Multimodal Large Language Models)を使用して、タスクジェネリックプロンプトから詳細なインスタンス固有のプロンプトを推論し、セグメンテーション精度を向上させる。
このセグメンテーションの有効性は、これらの導出されたプロンプトの精度に大きく依存する。
しかし、MLLMは推論中に幻覚に悩まされ、不正確なプロンプトを引き起こす。
既存の手法では、モデルを改善するための幻覚の除去に重点を置いているが、MLLMの幻覚は、個々の画像を超えて訓練済みの大規模知識を表現するため、正しく活用された場合、貴重な文脈的洞察を明らかにすることができると論じている。
本稿では,画像からタスク関連情報を抽出するために幻覚を利用し,その精度を検証し,生成したプロンプトの精度を向上させる。
具体的には、プロンプト・マスクサイクル生成フレームワーク(ProMaC)をプロンプトジェネレータとマスクジェネレータで導入し、プロンプトジェネレータは、最初はテスト画像上の拡張文脈知識を抽出するための幻覚を探索し、これらの幻覚を正確にインスタンス固有のプロンプトに還元し、マスクジェネレータにマスクセマンティックアライメントによるタスクセマンティクスと整合したマスクを生成するよう指示する。
生成されたマスクは、プロンプトジェネレータを反復的にタスク関連の画像領域に集中させ、無関係な幻覚を減らし、より良いプロンプトとマスクを共同で生成する。
5つのベンチマークの実験では、ProMaCの有効性が示されている。
https://lwpyh.github.io/ProMaC/
Promptable segmentation typically requires instance-specific manual prompts to guide the segmentation of each desired object. To minimize such a need, task-generic promptable segmentation has been introduced, which employs a single task-generic prompt to segment various images of different objects in the same task. Current methods use Multimodal Large Language Models (MLLMs) to reason detailed instance-specific prompts from a task-generic prompt for improving segmentation accuracy. The effectiveness of this segmentation heavily depends on the precision of these derived prompts. However, MLLMs often suffer hallucinations during reasoning, resulting in inaccurate prompting. While existing methods focus on eliminating hallucinations to improve a model, we argue that MLLM hallucinations can reveal valuable contextual insights when leveraged correctly, as they represent pre-trained large-scale knowledge beyond individual images. In this paper, we utilize hallucinations to mine task-related information from images and verify its accuracy for enhancing precision of the generated prompts. Specifically, we introduce an iterative Prompt-Mask Cycle generation framework (ProMaC) with a prompt generator and a mask generator.The prompt generator uses a multi-scale chain of thought prompting, initially exploring hallucinations for extracting extended contextual knowledge on a test image.These hallucinations are then reduced to formulate precise instance-specific prompts, directing the mask generator to produce masks that are consistent with task semantics by mask semantic alignment. The generated masks iteratively induce the prompt generator to focus more on task-relevant image areas and reduce irrelevant hallucinations, resulting jointly in better prompts and masks. Experiments on 5 benchmarks demonstrate the effectiveness of ProMaC. Code given in https://lwpyh.github.io/ProMaC/. | 翻訳日:2024-08-28 13:03:51 公開日:2024-08-27 |
# 大規模言語モデルにおけるカバレッジ基準の調査: 脱獄攻撃による詳細な研究
Investigating Coverage Criteria in Large Language Models: An In-Depth Study Through Jailbreak Attacks ( http://arxiv.org/abs/2408.15207v1 ) ライセンス: Link先を確認 | Shide Zhou, Tianlin Li, Kailong Wang, Yihao Huang, Ling Shi, Yang Liu, Haoyu Wang, | (参考訳) 大規模言語モデル(LLM)の急速な進歩は、人工知能の風景を著しく形作っているが、センシティブなドメインへの展開は、特に悪質な搾取への感受性のために、重大な懸念を引き起こす。
この状況は、より厳密で包括的な評価方法の必要性を浮き彫りにして、事前デプロイテストの不十分さを浮き彫りにしている。
本研究は,これらの脆弱性の特定における従来のカバレッジ基準の有効性を評価するための総合的実証分析であり,特にジェイルブレイク攻撃の圧倒問題に重点を置いている。
我々の研究はLLMの隠れ状態のクラスタリング解析から始まり、これらの状態の固有の特性が様々な種類のクエリを区別できることを実証した。
次に、これらの基準を基準レベル、層レベル、トークンレベルという3つの重要な次元で評価する。
正常クエリとジェイルブレイククエリの処理の間には,ニューロンの活性化パターンに有意な相違がみられ,クラスタリング結果の相関がみられた。
これらの知見を生かして,ニューラルアクティベーション機能を利用したリアルタイムジェイルブレイク攻撃検出手法を提案する。
我々の分類器は、敵の攻撃につながる可能性のあるものを含む、平均96.33%のジェイルブレイククエリを識別する。
我々の研究の重要性は、LLMセキュリティの複雑な課題に対処するための包括的アプローチにある。
モデルの最初のトークン出力から瞬時に検出を行うことで,LLMを組み込んだ将来的なシステムの実現を約束し,堅牢なリアルタイム検出機能を実現する。
この研究は、LLMセキュリティテストの理解を深め、よりレジリエントなAIシステムの開発に重要な基礎を築いた。
The swift advancement of large language models (LLMs) has profoundly shaped the landscape of artificial intelligence; however, their deployment in sensitive domains raises grave concerns, particularly due to their susceptibility to malicious exploitation. This situation underscores the insufficiencies in pre-deployment testing, highlighting the urgent need for more rigorous and comprehensive evaluation methods. This study presents a comprehensive empirical analysis assessing the efficacy of conventional coverage criteria in identifying these vulnerabilities, with a particular emphasis on the pressing issue of jailbreak attacks. Our investigation begins with a clustering analysis of the hidden states in LLMs, demonstrating that intrinsic characteristics of these states can distinctly differentiate between various types of queries. Subsequently, we assess the performance of these criteria across three critical dimensions: criterion level, layer level, and token level. Our findings uncover significant disparities in neuron activation patterns between the processing of normal and jailbreak queries, thereby corroborating the clustering results. Leveraging these findings, we propose an innovative approach for the real-time detection of jailbreak attacks by utilizing neural activation features. Our classifier demonstrates remarkable accuracy, averaging 96.33% in identifying jailbreak queries, including those that could lead to adversarial attacks. The importance of our research lies in its comprehensive approach to addressing the intricate challenges of LLM security. By enabling instantaneous detection from the model's first token output, our method holds promise for future systems integrating LLMs, offering robust real-time detection capabilities. This study advances our understanding of LLM security testing, and lays a critical foundation for the development of more resilient AI systems. | 翻訳日:2024-08-28 13:03:51 公開日:2024-08-27 |
# 自動テキスト分析によるアメリカ合衆国大統領および州知事演説におけるポピュリスト言語分類
Classifying populist language in American presidential and governor speeches using automatic text analysis ( http://arxiv.org/abs/2408.15213v1 ) ライセンス: Link先を確認 | Olaf van der Veen, Semir Dzebo, Levi Littvay, Kirk Hawkins, Oren Dar, | (参考訳) ポピュリズム(英: Populism)は、しばしば用いられる概念であるが、測ることの難しい概念である。
全体的格付けやコンテンツ分析のような定性的評価は、膨大な時間と労力を必要とするため、どの政治家をポピュリストに分類すべきで、どの政治家をポピュリストに分類すべきで、どれがポピュリストに分類すべきでないかを素早く調査することは困難である。
本稿では,ポピュリスト言語の使用を推定するために,自動分類モデルの訓練と検証を行うパイプラインを開発する。
我々は、2010年から2018年までの300人の州知事演説と2016年の大統領選挙候補者の45回の演説で、ポピュリストと同一視された文に基づいてモデルを訓練する。
これらのモデルは、知事演説の84%、大統領演説の89%を含む、ほとんどのスピーチを正しく分類している。
これらの結果は、異なる期間(最近のアメリカの知事では92%の精度で)、異なる量のデータ(類似の結果を得るために1つのカテゴリーに70の訓練文がある)、そして個々のスピーチの代わりに政治家を分類する場合に及んでいる。
このパイプラインは、政治家の演説におけるポピュリスト言語の使用の体系的および迅速な分類を最適化する効果的なツールである。
Populism is a concept that is often used but notoriously difficult to measure. Common qualitative measurements like holistic grading or content analysis require great amounts of time and labour, making it difficult to quickly scope out which politicians should be classified as populist and which should not, while quantitative methods show mixed results when it comes to classifying populist rhetoric. In this paper, we develop a pipeline to train and validate an automated classification model to estimate the use of populist language. We train models based on sentences that were identified as populist and pluralist in 300 US governors' speeches from 2010 to 2018 and in 45 speeches of presidential candidates in 2016. We find that these models classify most speeches correctly, including 84% of governor speeches and 89% of presidential speeches. These results extend to different time periods (with 92% accuracy on more recent American governors), different amounts of data (with as few as 70 training sentences per category achieving similar results), and when classifying politicians instead of individual speeches. This pipeline is thus an effective tool that can optimise the systematic and swift classification of the use of populist language in politicians' speeches. | 翻訳日:2024-08-28 13:03:51 公開日:2024-08-27 |
# Fundus2Video: 臨床知識による静的ファンドス写真からのクロスモーダルな血管造影ビデオ生成
Fundus2Video: Cross-Modal Angiography Video Generation from Static Fundus Photography with Clinical Knowledge Guidance ( http://arxiv.org/abs/2408.15217v1 ) ライセンス: Link先を確認 | Weiyi Zhang, Siyu Huang, Jiancheng Yang, Ruoyu Chen, Zongyuan Ge, Yingfeng Zheng, Danli Shi, Mingguang He, | (参考訳) Fundus Fluorescein Angiography(FFA)は、網膜血管動態を評価し、眼疾患の診断を支援する重要なツールである。
しかし、Color Fundus (CF) 画像と比較すると、侵襲的な性質とアクセシビリティの低下が大きな課題となっている。
現在のCFからFFAへの変換法は静的生成に限られている。
本研究では,静的CF画像からの動的FFAビデオ生成の先駆者となる。
本稿では,スムーズでメモリ節約なフレーム・バイ・フレームFFA合成のための自己回帰型GANを提案する。
FFA領域の動的病変変化に焦点をあてるため,臨床経験に基づく知識マスクを設計する。
このマスクを応用して,本手法は,重要な領域の創出と画素誤認識問題への対処を目的とした,知識ブースト注意,知識認識識別器,マスク強調パッチNCE損失などの革新的な知識マスク誘導技術を統合した。
提案手法は、他の一般的なビデオ生成手法と比較して、1503.21のFVDと11.81のPSNRのFVDを達成する。
眼科医による人間の評価は、その高い世代品質を確認します。
特に,我々の知識マスクは,従来のFFAに代わる有望な非侵襲的な研究・臨床応用のマスクとして,監督された病変セグメンテーションマスクを超越している。
コードはhttps://github.com/Michi-3000/Fundus2Videoで入手できる。
Fundus Fluorescein Angiography (FFA) is a critical tool for assessing retinal vascular dynamics and aiding in the diagnosis of eye diseases. However, its invasive nature and less accessibility compared to Color Fundus (CF) images pose significant challenges. Current CF to FFA translation methods are limited to static generation. In this work, we pioneer dynamic FFA video generation from static CF images. We introduce an autoregressive GAN for smooth, memory-saving frame-by-frame FFA synthesis. To enhance the focus on dynamic lesion changes in FFA regions, we design a knowledge mask based on clinical experience. Leveraging this mask, our approach integrates innovative knowledge mask-guided techniques, including knowledge-boosted attention, knowledge-aware discriminators, and mask-enhanced patchNCE loss, aimed at refining generation in critical areas and addressing the pixel misalignment challenge. Our method achieves the best FVD of 1503.21 and PSNR of 11.81 compared to other common video generation approaches. Human assessment by an ophthalmologist confirms its high generation quality. Notably, our knowledge mask surpasses supervised lesion segmentation masks, offering a promising non-invasive alternative to traditional FFA for research and clinical applications. The code is available at https://github.com/Michi-3000/Fundus2Video. | 翻訳日:2024-08-28 12:53:10 公開日:2024-08-27 |
# Histo-Diffusion: 包括的品質評価によるデジタル診断のための拡散超解法
Histo-Diffusion: A Diffusion Super-Resolution Method for Digital Pathology with Comprehensive Quality Assessment ( http://arxiv.org/abs/2408.15218v1 ) ライセンス: Link先を確認 | Xuan Xu, Saarthak Kapse, Prateek Prasanna, | (参考訳) デジタル病理学は過去10年間で大きく進歩し、WSI(Whole Slide Images)は正確な疾患診断に不可欠な膨大なデータを含んでいる。
高分解能 WSI は正確な診断には不可欠であるが, 走査装置の技術的制限やスライド装置のバリアビリティは, これらの画像の取得を妨げる可能性がある。
GAN(Generative Adversarial Networks)は自然画像の超解像処理に有効であるが、オーバーフィッティングやモード崩壊のために病理学に苦慮することが多い。
従来の評価基準は、病理組織像の複雑な特徴を評価するのに不足しており、堅牢な病理組織学的評価方法を必要とする。
デジタル病理学における超高解像度画像の生成と評価に特化して設計された新しい拡散法であるHisto-Diffusionを紹介する。
病理組織学の復元モジュールと、高品質な画像を生成するための制御可能な拡散モジュールを含む。
われわれは2つの病理組織学的データセットをキュレートし、デジタル病理画像の品質を徹底的に評価するために、全参照指標と非参照指標の両方を組み込んだ総合的な評価戦略を提案した。
複数のデータセットと最先端手法の比較分析により,Histo-DiffusionがGANより優れていることが明らかになった。
本手法は,多彩な入力サイズから多能性生成を処理し,診断過程において有意義な支援を行うことのできる,病理組織像超解像のための汎用的ソリューションを提供する。
Digital pathology has advanced significantly over the last decade, with Whole Slide Images (WSIs) encompassing vast amounts of data essential for accurate disease diagnosis. High-resolution WSIs are essential for precise diagnosis but technical limitations in scanning equipment and variablity in slide preparation can hinder obtaining these images. Super-resolution techniques can enhance low-resolution images; while Generative Adversarial Networks (GANs) have been effective in natural image super-resolution tasks, they often struggle with histopathology due to overfitting and mode collapse. Traditional evaluation metrics fall short in assessing the complex characteristics of histopathology images, necessitating robust histology-specific evaluation methods. We introduce Histo-Diffusion, a novel diffusion-based method specially designed for generating and evaluating super-resolution images in digital pathology. It includes a restoration module for histopathology prior and a controllable diffusion module for generating high-quality images. We have curated two histopathology datasets and proposed a comprehensive evaluation strategy which incorporates both full-reference and no-reference metrics to thoroughly assess the quality of digital pathology images. Comparative analyses on multiple datasets with state-of-the-art methods reveal that Histo-Diffusion outperforms GANs. Our method offers a versatile solution for histopathology image super-resolution, capable of handling multi-resolution generation from varied input sizes, providing valuable support in diagnostic processes. | 翻訳日:2024-08-28 12:53:10 公開日:2024-08-27 |
# FRAMER/Miu:Tagged Pointer-based Capability and Basic Cost of Memory Safety & Coherence (Position Paper)
FRAMER/Miu: Tagged Pointer-based Capability and Fundamental Cost of Memory Safety & Coherence (Position Paper) ( http://arxiv.org/abs/2408.15219v1 ) ライセンス: Link先を確認 | Myoung Jin Nam, | (参考訳) メモリ安全性などのシステムの正当性を保証することは、攻撃者がそもそも悪用する可能性のあるセキュリティ上の脆弱性を排除できる。
しかし、高い予測不可能なパフォーマンス劣化は依然として大きな課題である。
運用デプロイメントの完全なシステム正当性を達成することが極めて困難であることを認識して,パフォーマンス,検出カバレッジ,相互運用性,精度,検出タイミングのトレードオフを行う。
本研究は、総合的なシステム保護とそれを得るために必要なコストのバランスをとり、ソフトウェアとハードウェアの望ましい役割を特定し、単独のソフトウェアソリューションとしてタグ付きポインタベースの機能システムと将来のハードウェア設計のためのプロトタイプを提供する。
本稿では、これらの目標を達成するためのFRAMER/Miuジェネリックフレームワークのフォローアップ計画を示す。
Ensuring system correctness, such as memory safety, can eliminate security vulnerabilities that attackers could exploit in the first place. However, high and unpredictable performance degradation remains a primary challenge. Recognizing that it is extremely difficult to achieve complete system correctness for production deployment, researchers make trade-offs between performance, detection coverage, interoperability, precision, and detection timing. This research strikes a balance between comprehensive system protection and the costs required to obtain it, identifies the desirable roles of software and hardware, and presents a tagged pointer-based capability system as a stand-alone software solution and a prototype for future hardware design. This paper presents follow-up plans for the FRAMER/Miu generic framework to achieve these goals. | 翻訳日:2024-08-28 12:53:10 公開日:2024-08-27 |
# LLMの防衛は、人間のジェイルブレイクにはまだ耐えられない
LLM Defenses Are Not Robust to Multi-Turn Human Jailbreaks Yet ( http://arxiv.org/abs/2408.15221v1 ) ライセンス: Link先を確認 | Nathaniel Li, Ziwen Han, Ian Steneker, Willow Primack, Riley Goodside, Hugh Zhang, Zifan Wang, Cristina Menghini, Summer Yue, | (参考訳) 最近の大規模言語モデル(LLM)の防御は、敵が攻撃しても有害なクエリを拒否するモデルの能力を大幅に改善した。
しかし、LLMの防御は、現実世界の悪意のある使用に対して不十分な脅威モデルである1ターンの会話において、自動的な敵攻撃に対して主に評価される。
マルチターンヒトジェイルブレイクが重大な脆弱性を発見でき、HarmBenchの攻撃成功率(ASR)を70%以上越え、単一桁のASRと自動単ターン攻撃を報告している。
人間のジェイルブレイクはまた、未学習の防御の脆弱性を明らかにし、未学習のモデルから二重用途のバイオセキュリティ知識を回復することに成功した。
我々はこれらの結果を537個のマルチターンジェイルブレイクにまたがる2,912個のプロンプトのデータセットであるMHJ(Multi-Turn Human Jailbreaks)にコンパイルする。
我々はMHJを、数十の商業的レッドチームで開発されたジェイルブレイク戦術のコンペレーションと共に公開し、LLM防衛の強化に向けた研究を支援します。
Recent large language model (LLM) defenses have greatly improved models' ability to refuse harmful queries, even when adversarially attacked. However, LLM defenses are primarily evaluated against automated adversarial attacks in a single turn of conversation, an insufficient threat model for real-world malicious use. We demonstrate that multi-turn human jailbreaks uncover significant vulnerabilities, exceeding 70% attack success rate (ASR) on HarmBench against defenses that report single-digit ASRs with automated single-turn attacks. Human jailbreaks also reveal vulnerabilities in machine unlearning defenses, successfully recovering dual-use biosecurity knowledge from unlearned models. We compile these results into Multi-Turn Human Jailbreaks (MHJ), a dataset of 2,912 prompts across 537 multi-turn jailbreaks. We publicly release MHJ alongside a compendium of jailbreak tactics developed across dozens of commercial red teaming engagements, supporting research towards stronger LLM defenses. | 翻訳日:2024-08-28 12:53:10 公開日:2024-08-27 |
# 3DスライダにおけるSAM & SAM 2:SegmentWithSAM Extension for Annotating Medical Images
SAM & SAM 2 in 3D Slicer: SegmentWithSAM Extension for Annotating Medical Images ( http://arxiv.org/abs/2408.15224v1 ) ライセンス: Link先を確認 | Zafer Yildiz, Yuwen Chen, Maciej A. Mazurowski, | (参考訳) 3D医療データのアノテーションを作成するのに時間がかかり、しばしば専門的な専門知識を必要とする。
このプロセスを支援するために様々なツールが実装されている。
Segment Anything Model 2 (SAM 2) は、ビデオに注釈を付けるように設計された汎用的なプロンプトベースのセグメンテーションアルゴリズムを提供する。
本稿では,このモデルを3次元医用画像のアノテーションに適用し,一般的なアノテーションソフトウェアである3Dスライダの拡張という形で実装する。
この拡張により、ユーザーは2Dスライスにポイントプロンプトを配置し、アノテーションマスクを生成し、これらのアノテーションを1つの方向または双方向の方法で全ボリュームにわたって伝達することができる。
私たちのコードはhttps://github.com/mazurowski-lab/SlicerSegmentWithSAMで公開されています。
Creating annotations for 3D medical data is time-consuming and often requires highly specialized expertise. Various tools have been implemented to aid this process. Segment Anything Model 2 (SAM 2) offers a general-purpose prompt-based segmentation algorithm designed to annotate videos. In this paper, we adapt this model to the annotation of 3D medical images and offer our implementation in the form of an extension to the popular annotation software: 3D Slicer. Our extension allows users to place point prompts on 2D slices to generate annotation masks and propagate these annotations across entire volumes in either single-directional or bi-directional manners. Our code is publicly available on https://github.com/mazurowski-lab/SlicerSegmentWithSAM and can be easily installed directly from the Extension Manager of 3D Slicer as well. | 翻訳日:2024-08-28 12:53:10 公開日:2024-08-27 |
# 古典的数値手法による量子アルゴリズムの自動合成
Automated Synthesis of Quantum Algorithms via Classical Numerical Techniques ( http://arxiv.org/abs/2408.15225v1 ) ライセンス: Link先を確認 | Yuxin Huang, Benjamin E. Grossman-Ponemon, David A. B. Hyde, | (参考訳) 量子コンピュータのアルゴリズムを自動合成する問題に対して,古典計算機の数値最適化と線形代数アルゴリズムを適用した。
このフレームワークを用いてこれらの古典的領域からいくつかの共通技術を適用し,それらの問題に対する適合性と性能を数値的に検討する。
提案手法は,シングルキュービットシステムと大規模システムで評価される。
提案手法の最初の部分は、量子回路やアルゴリズムの合成効果を表す単一のユニタリ行列を出力するが、既存のツール - とそれらの性能 - を用いて、そのような行列を基本量子ゲートの積に分解する。
所望の入出力例から始めて、私たちのコードは最終的に量子回路図を作成します。
コードを研究コミュニティに(受け入れ次第)リリースします。
We apply numerical optimization and linear algebra algorithms for classical computers to the problem of automatically synthesizing algorithms for quantum computers. Using our framework, we apply several common techniques from these classical domains and numerically examine their suitability for and performance on this problem. Our methods are evaluated on single-qubit systems as well as on larger systems. While the first part of our proposed method outputs a single unitary matrix representing the composite effects of a quantum circuit or algorithm, we use existing tools - and assess the performance of these - to factor such a matrix into a product of elementary quantum gates. This enables our pipeline to be truly end-to-end: starting from desired input/output examples, our code ultimately results in a quantum circuit diagram. We release our code to the research community (upon acceptance). | 翻訳日:2024-08-28 12:53:10 公開日:2024-08-27 |
# 積分表現によるエントロピーの連続性
Continuity of entropies via integral representations ( http://arxiv.org/abs/2408.15226v1 ) ライセンス: Link先を確認 | Mario Berta, Ludovico Lami, Marco Tomamichel, | (参考訳) 量子相対エントロピーのフレンケルの積分表現は、量子情報測度に対する連続性境界を導出する自然な枠組みを提供することを示した。
我々の主な一般結果は、第一引数に対する量子相対エントロピーに対する次元独立半連続関係である。
1)条件付きエントロピーの厳密な連続性関係、(2)量子エントロピーに関するファンヌ=オーデナート不等式の強いバージョン、(3)量子エントロピーに関するより強固な連続性関係、(4)量子キャパシティに関するより優れた連続性関係、(4)量子キャパシティのおよそ分解性のあるチャネルの量子キャパシティのより良い推定、(5)エンタングル化コストに関する改善された連続性関係、(6)無限次元エンタングルメント理論における漸近変換率に関する一般境界、(7)Christandl, Ferrara, Lanenによる予想の証明。
We show that Frenkel's integral representation of the quantum relative entropy provides a natural framework to derive continuity bounds for quantum information measures. Our main general result is a dimension-independent semi-continuity relation for the quantum relative entropy with respect to the first argument. Using it, we obtain a number of results: (1) a tight continuity relation for the conditional entropy in the case where the two states have equal marginals on the conditioning system, resolving a conjecture by Wilde in this special case; (2) a stronger version of the Fannes-Audenaert inequality on quantum entropy; (3) a tighter continuity relation for quantum capacity; (4) better estimates on the quantum capacity of approximately degradable channels; (5) an improved continuity relation for the entanglement cost; (6) general upper bounds on asymptotic transformation rates in infinite-dimensional entanglement theory; and (7) a proof of a conjecture due to Christandl, Ferrara, and Lancien on the continuity of 'filtered' relative entropy distances. | 翻訳日:2024-08-28 12:53:10 公開日:2024-08-27 |
# DCT-CryptoNets: 周波数領域におけるプライベート推論のスケーリング
DCT-CryptoNets: Scaling Private Inference in the Frequency Domain ( http://arxiv.org/abs/2408.15231v1 ) ライセンス: Link先を確認 | Arjun Roy, Kaushik Roy, | (参考訳) 完全同型暗号化(FHE)と機械学習の収束は、機密データの個人推論に前例のない機会を提供する。
FHEは、暗号化されたデータに直接計算を可能にし、データやモデルの機密性を含む、マシンラーニングパイプライン全体を保護する。
しかし、ディープニューラルネットワークのための既存のFHEベースの実装は、計算コスト、レイテンシ、スケーラビリティにおいて重大な課題に直面し、実際のデプロイメントを制限している。
本稿では、これらの問題に対処するために周波数領域学習を利用する新しいアプローチであるDCT-CryptoNetsを紹介する。
本手法は、JPEG圧縮によく用いられる離散コサイン変換(DCT)を用いて、周波数領域で直接動作する。
このアプローチは本質的にはリモートコンピューティングサービスと互換性があり、画像は通常圧縮されたフォーマットで送信され保存される。
DCT-CryptoNetsは、知覚的に関連する低周波成分に着目して、同型演算の計算負担を削減する。
これは画像分類タスクの以前の作業と比較して5.3$\times$の大幅な遅延削減によって実証され、画像Net推論の2.5時間以内の新たなデモンストレーションは、同等の計算リソースの前の作業に比べて12.5時間ダウンした。
さらに、DCT-CryptoNetsは、可変性を$\pm$2.5\%から$\pm$1.0\%に減らして、暗号化精度の信頼性を向上させる。
本研究は,実世界のアプリケーションで見られる高解像度画像に対して,効率的かつ実用的なプライバシー保護深層学習を実現するための,有望な道筋を示すものである。
The convergence of fully homomorphic encryption (FHE) and machine learning offers unprecedented opportunities for private inference of sensitive data. FHE enables computation directly on encrypted data, safeguarding the entire machine learning pipeline, including data and model confidentiality. However, existing FHE-based implementations for deep neural networks face significant challenges in computational cost, latency, and scalability, limiting their practical deployment. This paper introduces DCT-CryptoNets, a novel approach that leverages frequency-domain learning to tackle these issues. Our method operates directly in the frequency domain, utilizing the discrete cosine transform (DCT) commonly employed in JPEG compression. This approach is inherently compatible with remote computing services, where images are usually transmitted and stored in compressed formats. DCT-CryptoNets reduces the computational burden of homomorphic operations by focusing on perceptually relevant low-frequency components. This is demonstrated by substantial latency reduction of up to 5.3$\times$ compared to prior work on image classification tasks, including a novel demonstration of ImageNet inference within 2.5 hours, down from 12.5 hours compared to prior work on equivalent compute resources. Moreover, DCT-CryptoNets improves the reliability of encrypted accuracy by reducing variability (e.g., from $\pm$2.5\% to $\pm$1.0\% on ImageNet). This study demonstrates a promising avenue for achieving efficient and practical privacy-preserving deep learning on high resolution images seen in real-world applications. | 翻訳日:2024-08-28 12:53:10 公開日:2024-08-27 |
# 未知の未知へ:言語モデルエージェント会話への参加を通してのヒューマンラーニング
Into the Unknown Unknowns: Engaged Human Learning through Participation in Language Model Agent Conversations ( http://arxiv.org/abs/2408.15232v1 ) ライセンス: Link先を確認 | Yucheng Jiang, Yijia Shao, Dekun Ma, Sina J. Semnani, Monica S. Lam, | (参考訳) 言語モデル(LM)を利用したチャットボットと生成検索エンジンは具体的な質問に答えるのに優れているが、未知の地形の情報を見つけることはユーザにとって依然として困難である。
子どもや生徒が親や教師の会話に耳を傾け,参加することで学習する一般的な教育シナリオをエミュレートするために,協調的STORM(Co-STORM)を作成する。
ユーザがすべての質問をしなければならないQAシステムとは異なり、Co-STORMでは、複数のLMエージェント間の会話を観察し、時には操縦することができる。
エージェントはユーザの代理として質問を行い、未知の未知をセレンディピティーに発見する。
Co-STORMは、ユーザとの対話を容易にするために、発見された情報をダイナミックマインドマップに整理することで、ユーザによる会話の追跡を支援し、最終的には、テイクアウトとして包括的なレポートを生成する。
自動評価のために,実際の情報検索記録をユーザ目標として収集し,WildSeekデータセットを構築する。
Co-STORMは、談話トレースとレポート品質の両方でベースラインメソッドより優れています。
さらに人間による評価では、70%の参加者が検索エンジンよりもCo-STORMを好み、78%がRAGチャットボットよりもCo-STORMを好んでいる。
While language model (LM)-powered chatbots and generative search engines excel at answering concrete queries, discovering information in the terrain of unknown unknowns remains challenging for users. To emulate the common educational scenario where children/students learn by listening to and participating in conversations of their parents/teachers, we create Collaborative STORM (Co-STORM). Unlike QA systems that require users to ask all the questions, Co-STORM lets users observe and occasionally steer the discourse among several LM agents. The agents ask questions on the user's behalf, allowing the user to discover unknown unknowns serendipitously. To facilitate user interaction, Co-STORM assists users in tracking the discourse by organizing the uncovered information into a dynamic mind map, ultimately generating a comprehensive report as takeaways. For automatic evaluation, we construct the WildSeek dataset by collecting real information-seeking records with user goals. Co-STORM outperforms baseline methods on both discourse trace and report quality. In a further human evaluation, 70% of participants prefer Co-STORM over a search engine, and 78% favor it over a RAG chatbot. | 翻訳日:2024-08-28 12:53:10 公開日:2024-08-27 |
# 学習型マルチビューステレオ:サーベイ
Learning-based Multi-View Stereo: A Survey ( http://arxiv.org/abs/2408.15235v1 ) ライセンス: Link先を確認 | Fangjinhua Wang, Qingtian Zhu, Di Chang, Quankai Gao, Junlin Han, Tong Zhang, Richard Hartley, Marc Pollefeys, | (参考訳) 3D再構成はシーンの高密度な3D構造を復元することを目的としている。
Augmented/Virtual Reality (AR/VR)、自律運転、ロボット工学など、さまざまなアプリケーションにおいて重要な役割を果たす。
異なる視点から捉えたシーンの複数のビューを活用することで、Multi-View Stereo (MVS)アルゴリズムは包括的な3D表現を合成し、複雑な環境における正確な再構築を可能にする。
その効率性と有効性のため、MVSは画像ベースの3D再構成において重要な方法となっている。
近年,ディープラーニングの成功により,従来の手法に対して優れた性能を達成し,多くの学習ベースのMVS手法が提案されている。
本研究では,これらの学習手法を,深度マップベース,ボクセルベース,NeRFベース,3次元ガウススプラッティングベース,大型フィードフォワード方式に分類する。
これらのうち、深度マップに基づく手法は、その簡潔さ、柔軟性、拡張性から、MSVのメインファミリーである。
本調査では,本稿執筆時の文献を概観する。
本稿では,これらの学習に基づく手法について検討し,その性能を一般的なベンチマークで要約し,将来的な研究方向性について論じる。
3D reconstruction aims to recover the dense 3D structure of a scene. It plays an essential role in various applications such as Augmented/Virtual Reality (AR/VR), autonomous driving and robotics. Leveraging multiple views of a scene captured from different viewpoints, Multi-View Stereo (MVS) algorithms synthesize a comprehensive 3D representation, enabling precise reconstruction in complex environments. Due to its efficiency and effectiveness, MVS has become a pivotal method for image-based 3D reconstruction. Recently, with the success of deep learning, many learning-based MVS methods have been proposed, achieving impressive performance against traditional methods. We categorize these learning-based methods as: depth map-based, voxel-based, NeRF-based, 3D Gaussian Splatting-based, and large feed-forward methods. Among these, we focus significantly on depth map-based methods, which are the main family of MVS due to their conciseness, flexibility and scalability. In this survey, we provide a comprehensive review of the literature at the time of this writing. We investigate these learning-based methods, summarize their performances on popular benchmarks, and discuss promising future research directions in this area. | 翻訳日:2024-08-28 12:53:10 公開日:2024-08-27 |
# ラマのマンバ--ハイブリッドモデルの蒸留・加速
The Mamba in the Llama: Distilling and Accelerating Hybrid Models ( http://arxiv.org/abs/2408.15237v1 ) ライセンス: Link先を確認 | Junxiong Wang, Daniele Paliotta, Avner May, Alexander M. Rush, Tri Dao, | (参考訳) Mambaのような線形RNNアーキテクチャは、言語モデリングにおいてTransformerモデルと競合し、有利なデプロイメント特性を持つ。
大規模トランスフォーマーモデルのトレーニングに重点を置いていることから、これらの事前訓練されたモデルをデプロイメントに変換する上での課題について検討する。
注目層からの線形射影重みを学術的なGPU資源で再利用することにより,大規模な変換器を線形RNNに蒸留することが可能であることを実証した。
その結果生まれたハイブリッドモデルは、チャットベンチマークにおけるオリジナルのTransformerに匹敵するパフォーマンスを達成し、チャットベンチマークと一般的なベンチマークの両方で数兆のトークンで、ゼロからトレーニングされたオープンソースのハイブリッドMambaモデルを上回っます。
さらに,Mambaとハイブリッドモデルの推論速度を高速化するハードウェア対応投機的復号アルゴリズムを提案する。
全体として、計算資源が限られているため、元の注目層の多くを取り除き、結果のモデルからより効率的に生成できることを示す。
Llama3-8B-Instruct から抽出したトップパフォーマンスモデルでは,AlpacaEval 2 の GPT-4 と MT-Bench の 7.35 に対して29.61 の勝利率を達成し,最良命令調整線形 RNN モデルを上回った。
Linear RNN architectures, like Mamba, can be competitive with Transformer models in language modeling while having advantageous deployment characteristics. Given the focus on training large-scale Transformer models, we consider the challenge of converting these pretrained models for deployment. We demonstrate that it is feasible to distill large Transformers into linear RNNs by reusing the linear projection weights from attention layers with academic GPU resources. The resulting hybrid model, which incorporates a quarter of the attention layers, achieves performance comparable to the original Transformer in chat benchmarks and outperforms open-source hybrid Mamba models trained from scratch with trillions of tokens in both chat benchmarks and general benchmarks. Moreover, we introduce a hardware-aware speculative decoding algorithm that accelerates the inference speed of Mamba and hybrid models. Overall we show how, with limited computation resources, we can remove many of the original attention layers and generate from the resulting model more efficiently. Our top-performing model, distilled from Llama3-8B-Instruct, achieves a 29.61 length-controlled win rate on AlpacaEval 2 against GPT-4 and 7.35 on MT-Bench, surpassing the best instruction-tuned linear RNN model. | 翻訳日:2024-08-28 12:53:10 公開日:2024-08-27 |
# Generative Inbetweening:キーフレーム補間のための画像と映像のモデルへの適応
Generative Inbetweening: Adapting Image-to-Video Models for Keyframe Interpolation ( http://arxiv.org/abs/2408.15239v1 ) ライセンス: Link先を確認 | Xiaojuan Wang, Boyang Zhou, Brian Curless, Ira Kemelmacher-Shlizerman, Aleksander Holynski, Steven M. Seitz, | (参考訳) 本稿では,一対の入力キーフレーム間のコヒーレントな動きを伴う映像系列を生成する手法を提案する。
我々は、キーフレーム補間、すなわち2つの入力フレーム間でビデオを生成するために、事前訓練された大規模画像間拡散モデル(元々は、1つの入力画像から時間的に動画を転送するように訓練された)を適用した。
この適応を軽量な微調整技術により実現し、代わりに単一の入力画像からビデオが後方に移動することを予測するモデルのバージョンを生成する。
このモデル(元の前方移動モデルとともに)は、その後、2つのキーフレームから始まる重なり合うモデル推定を組み合わせた双方向拡散サンプリングプロセスで使用される。
実験により,本手法は既存の拡散法と従来のフレーム補間法の両方に優れることがわかった。
We present a method for generating video sequences with coherent motion between a pair of input key frames. We adapt a pretrained large-scale image-to-video diffusion model (originally trained to generate videos moving forward in time from a single input image) for key frame interpolation, i.e., to produce a video in between two input frames. We accomplish this adaptation through a lightweight fine-tuning technique that produces a version of the model that instead predicts videos moving backwards in time from a single input image. This model (along with the original forward-moving model) is subsequently used in a dual-directional diffusion sampling process that combines the overlapping model estimates starting from each of the two keyframes. Our experiments show that our method outperforms both existing diffusion-based methods and traditional frame interpolation techniques. | 翻訳日:2024-08-28 12:53:10 公開日:2024-08-27 |
# 生成検証:次世代予測としてのリワードモデリング
Generative Verifiers: Reward Modeling as Next-Token Prediction ( http://arxiv.org/abs/2408.15240v1 ) ライセンス: Link先を確認 | Lunjun Zhang, Arian Hosseini, Hritik Bansal, Mehran Kazemi, Aviral Kumar, Rishabh Agarwal, | (参考訳) 検証や報酬モデルはしばしば、大きな言語モデル(LLM)の推論性能を高めるために使われる。
一般的なアプローチはBest-of-N法であり、LLMによって生成されるN候補解は検証器によってランク付けされ、最もよい解が選択される。
LLMベースの検証は、通常、解を採点するために識別分類器として訓練されるが、事前訓練されたLLMのテキスト生成能力は利用しない。
この制限を克服するために、我々は、ユビキタスな次世代予測目標を用いて、検証とソリューション生成を共同で行うトレーニング検証を提案する。
このような生成検証器(genRM)は、標準的な検証器と比較して、命令チューニングとシームレスに統合し、チェーン・オブ・シント推論を可能にし、多数決による推論時間計算を有効活用することで、LLMのいくつかの利点を享受できる。
我々は,アルゴリズムおよび小学校数学推論タスクにおいて,Gemmaベースの検証器を用いる場合,差別的検証器やLLM-as-a-Judgeよりも優れた性能を示し,Best-of-Nで解決した問題の割合が16~64%向上したことを示した。
さらに、GenRMはデータセットのサイズ、モデルキャパシティ、推論時間計算に好適にスケール可能であることを示す。
Verifiers or reward models are often used to enhance the reasoning performance of large language models (LLMs). A common approach is the Best-of-N method, where N candidate solutions generated by the LLM are ranked by a verifier, and the best one is selected. While LLM-based verifiers are typically trained as discriminative classifiers to score solutions, they do not utilize the text generation capabilities of pretrained LLMs. To overcome this limitation, we instead propose training verifiers using the ubiquitous next-token prediction objective, jointly on verification and solution generation. Compared to standard verifiers, such generative verifiers (GenRM) can benefit from several advantages of LLMs: they integrate seamlessly with instruction tuning, enable chain-of-thought reasoning, and can utilize additional inference-time compute via majority voting for better verification. We demonstrate that when using Gemma-based verifiers on algorithmic and grade-school math reasoning tasks, GenRM outperforms discriminative verifiers and LLM-as-a-Judge, showing a 16-64% improvement in the percentage of problems solved with Best-of-N. Furthermore, we show that GenRM scales favorably across dataset size, model capacity, and inference-time compute. | 翻訳日:2024-08-28 12:53:10 公開日:2024-08-27 |
# GenRec: 拡散モデルによるビデオ生成と認識の統合
GenRec: Unifying Video Generation and Recognition with Diffusion Models ( http://arxiv.org/abs/2408.15241v1 ) ライセンス: Link先を確認 | Zejia Weng, Xitong Yang, Zhen Xing, Zuxuan Wu, Yu-Gang Jiang, | (参考訳) ビデオ拡散モデルは、大規模データセット上で強い時空間先行を学習することにより、高品質なビデオを生成することができる。
本稿では,生成プロセスから派生したものがビデオ認識に適したのか,最終的に生成と認識の協調最適化を行うかを検討することを目的とする。
GenRecは、ランダムなフレーム条件付けプロセスでトレーニングされた最初の統一されたフレームワークで、一般化された時空間表現を学習する。
結果として得られるフレームワークは、生成と認識を自然にサポートすることができ、さらに重要なことは、視覚的な入力が限られた情報を含む場合でも堅牢である。
広範囲にわたる実験は、認識と生成の両方にGenRecの有効性を示す。
特にGenRecは、SSV2とK400でそれぞれ75.8%と87.2%の精度で、競争力のある性能を実現している。
GenRecはまた、SSV2とEK-100データセット上で46.5と49.3のFVDスコアを達成し、最高のクラス条件の画像-ビデオ生成結果も実行している。
さらに、GenRecは限られたフレームしか観察できないシナリオにおいて、異常な堅牢性を示す。
Video diffusion models are able to generate high-quality videos by learning strong spatial-temporal priors on large-scale datasets. In this paper, we aim to investigate whether such priors derived from a generative process are suitable for video recognition, and eventually joint optimization of generation and recognition. Building upon Stable Video Diffusion, we introduce GenRec, the first unified framework trained with a random-frame conditioning process so as to learn generalized spatial-temporal representations. The resulting framework can naturally supports generation and recognition, and more importantly is robust even when visual inputs contain limited information. Extensive experiments demonstrate the efficacy of GenRec for both recognition and generation. In particular, GenRec achieves competitive recognition performance, offering 75.8% and 87.2% accuracy on SSV2 and K400, respectively. GenRec also performs the best class-conditioned image-to-video generation results, achieving 46.5 and 49.3 FVD scores on SSV2 and EK-100 datasets. Furthermore, GenRec demonstrates extraordinary robustness in scenarios that only limited frames can be observed. | 翻訳日:2024-08-28 12:53:10 公開日:2024-08-27 |
# クロスビュー不確実性を考慮したドローン支援型道路ガウシアンスプラッティング
Drone-assisted Road Gaussian Splatting with Cross-view Uncertainty ( http://arxiv.org/abs/2408.15242v1 ) ライセンス: Link先を確認 | Saining Zhang, Baijun Ye, Xiaoxue Chen, Yuantao Chen, Zongzheng Zhang, Cheng Peng, Yongliang Shi, Hao Zhao, | (参考訳) 大規模道路シーンのロバストでリアルなレンダリングは、自動運転シミュレーションにおいて不可欠である。
近年,3次元ガウススプラッティング(3D-GS)はニューラルレンダリングにおいて画期的な進歩を遂げているが,大規模な道路シーンレンダリングの一般的な忠実度は入力画像によって制限されることが多い。
直感的には、ドローンの観点からのデータは、地上車両の観点からのデータと相補的な視点を与え、シーンの再構築とレンダリングの完全性を高めることができる。
しかし、3D-GSでは大きな視界差を示す空地画像と地上画像とのNaivelyトレーニングが大きなコンバージェンス課題となり、道路ビューの性能改善は目覚ましいものではなかった。
道路ビューの新規な視線合成を強化し,航空情報を効果的に活用するために,従来の3D-GSトレーニングのように全ての画素を重み付けするのではなく,地上画像が学習結果の劣る領域の合成を支援する不確実性認識訓練を設計する。
カービューアンサンブルに基づくレンダリングの不確実性と空中画像とをマッチングし,各画素のトレーニングプロセスへの寄与を重み付けることにより,初めて3D-GSにクロスビュー不確実性を導入する。
さらに,評価指標を体系的に定量化するために,道路シーンの航空画像と地上画像の両方からなる高品質な合成データセットを組み立てる。
Robust and realistic rendering for large-scale road scenes is essential in autonomous driving simulation. Recently, 3D Gaussian Splatting (3D-GS) has made groundbreaking progress in neural rendering, but the general fidelity of large-scale road scene renderings is often limited by the input imagery, which usually has a narrow field of view and focuses mainly on the street-level local area. Intuitively, the data from the drone's perspective can provide a complementary viewpoint for the data from the ground vehicle's perspective, enhancing the completeness of scene reconstruction and rendering. However, training naively with aerial and ground images, which exhibit large view disparity, poses a significant convergence challenge for 3D-GS, and does not demonstrate remarkable improvements in performance on road views. In order to enhance the novel view synthesis of road views and to effectively use the aerial information, we design an uncertainty-aware training method that allows aerial images to assist in the synthesis of areas where ground images have poor learning outcomes instead of weighting all pixels equally in 3D-GS training like prior work did. We are the first to introduce the cross-view uncertainty to 3D-GS by matching the car-view ensemble-based rendering uncertainty to aerial images, weighting the contribution of each pixel to the training process. Additionally, to systematically quantify evaluation metrics, we assemble a high-quality synthesized dataset comprising both aerial and ground images for road scenes. | 翻訳日:2024-08-28 12:53:10 公開日:2024-08-27 |
# 拡散モデルエキスパートの連鎖による無訓練長ビデオ生成
Training-free Long Video Generation with Chain of Diffusion Model Experts ( http://arxiv.org/abs/2408.13423v2 ) ライセンス: Link先を確認 | Wenhao Li, Yichao Cao, Xiu Su, Xi Lin, Shan You, Mingkai Zheng, Yi Chen, Chang Xu, | (参考訳) ビデオ生成モデルは、映画製作などの分野で大きな可能性を秘めている。
しかし、現在のビデオ拡散モデルでは、高い計算コストが必要であり、ビデオ生成タスクの複雑さのため、最適以下の結果が得られる。
本稿では,ビデオ生成をより簡単なサブタスクに分解する,効率的な高品質なビデオ生成フレームワークである \textbf{ConFiner} を提案する。
オフザシェルフ拡散モデルの専門家の鎖で高品質なビデオを生成することができ、それぞれが切り離されたサブタスクを担当している。
改良期間中に,複数の拡散専門家の能力を単一のサンプリングにマージできるコーディネート・デノナイジングを導入する。
さらに,ConFiner-Long フレームワークを設計し,ConFiner 上で3つの制約戦略で長いコヒーレントなビデオを生成する。
実験の結果、推測コストのわずか10%のコストで、私たちのConFinerは、すべての客観的および主観的メトリクスでLavieやModelscopeのような代表モデルを超えています。
そしてConFiner-Longは、600フレームまでの高品質でコヒーレントなビデオを生成することができる。
Video generation models hold substantial potential in areas such as filmmaking. However, current video diffusion models need high computational costs and produce suboptimal results due to high complexity of video generation task. In this paper, we propose \textbf{ConFiner}, an efficient high-quality video generation framework that decouples video generation into easier subtasks: structure \textbf{con}trol and spatial-temporal re\textbf{fine}ment. It can generate high-quality videos with chain of off-the-shelf diffusion model experts, each expert responsible for a decoupled subtask. During the refinement, we introduce coordinated denoising, which can merge multiple diffusion experts' capabilities into a single sampling. Furthermore, we design ConFiner-Long framework, which can generate long coherent video with three constraint strategies on ConFiner. Experimental results indicate that with only 10\% of the inference cost, our ConFiner surpasses representative models like Lavie and Modelscope across all objective and subjective metrics. And ConFiner-Long can generate high-quality and coherent videos with up to 600 frames. | 翻訳日:2024-08-28 12:43:02 公開日:2024-08-27 |
# ALIAS: 効率的な制約のないポリシによるDAG学習
ALIAS: DAG Learning with Efficient Unconstrained Policies ( http://arxiv.org/abs/2408.13448v2 ) ライセンス: Link先を確認 | Bao Duong, Hung Le, Thin Nguyen, | (参考訳) 近年、強化学習(RL)は、観測データから有向非巡回因果グラフ(DAG)を学習するためのスコアベースのアプローチにおいて、従来の局所ヒューリスティックの代替として有望であることが証明されている。
しかし、複雑な非巡回性制約は、既存の方法でのDAGの広大な空間の効率的な探索に依然として挑戦している。
本研究では,ALIAS(reinforced dAg Learning wIthout Acyclicity constraints)を紹介する。
本手法は,DAGの連続空間を全DAGの空間に直接変換する新しいパラメトリゼーションにより,1ステップでDAGを最適2次複雑性で生成する効率的なポリシを特徴とする。
提案手法は,ポリシー勾配法と確立されたスコアリング関数を利用して,より効率的に探索空間をナビゲートすることを可能にする。
さらに、合成データセットと実データセットの両方において、ますます困難な実験条件に対する因果発見の最先端技術と比較して、ALIASの強い性能を示す説得力のある実証的証拠を提供する。
Recently, reinforcement learning (RL) has proved a promising alternative for conventional local heuristics in score-based approaches to learning directed acyclic causal graphs (DAGs) from observational data. However, the intricate acyclicity constraint still challenges the efficient exploration of the vast space of DAGs in existing methods. In this study, we introduce ALIAS (reinforced dAg Learning wIthout Acyclicity conStraints), a novel approach to causal discovery powered by the RL machinery. Our method features an efficient policy for generating DAGs in just a single step with an optimal quadratic complexity, fueled by a novel parametrization of DAGs that directly translates a continuous space to the space of all DAGs, bypassing the need for explicitly enforcing acyclicity constraints. This approach enables us to navigate the search space more effectively by utilizing policy gradient methods and established scoring functions. In addition, we provide compelling empirical evidence for the strong performance of ALIAS in comparison with state-of-the-arts in causal discovery over increasingly difficult experiment conditions on both synthetic and real datasets. | 翻訳日:2024-08-28 12:43:02 公開日:2024-08-27 |
# 逆勾配エピソードメモリによる連続RLデータの増大
Data Augmentation for Continual RL via Adversarial Gradient Episodic Memory ( http://arxiv.org/abs/2408.13452v2 ) ライセンス: Link先を確認 | Sihao Wu, Xingyu Zhao, Xiaowei Huang, | (参考訳) Reinforcement Learning(RL)トレーニングプロセスにおいて重要な役割を果たす学習のデータ効率は、連続環境を持つ連続RLにおいてさらに重要になる。
連続RLでは、学習者は定常的でないシーケンシャルなタスクと対話し、以前の知識を忘れずに新しいタスクを学習する必要がある。
しかし、連続RLのためのデータ拡張の実装についてはほとんど研究されていない。
本稿では,連続RLにおけるデータ拡張の有効性について検討する。
具体的には,(1)既存のデータ拡張手法を要約し,(2)連続RLの新たな拡張方法を含む連続RLのためのベンチマークデータ拡張(Adv-GEM)を提案する。
大規模な実験により、ロボット制御タスクにおいて、ランダム振幅スケーリング、ステートスウィッチ、ミックスアップ、逆方向拡張、Adv-GEMなどのデータ拡張が、その平均性能、破滅的な忘れ、前方移動といった面で、既存の連続RLアルゴリズムを改善できることが示されている。
すべてのデータ拡張メソッドはプラグインモジュールとして実装され、連続RLメソッドに簡単に統合できる。
Data efficiency of learning, which plays a key role in the Reinforcement Learning (RL) training process, becomes even more important in continual RL with sequential environments. In continual RL, the learner interacts with non-stationary, sequential tasks and is required to learn new tasks without forgetting previous knowledge. However, there is little work on implementing data augmentation for continual RL. In this paper, we investigate the efficacy of data augmentation for continual RL. Specifically, we provide benchmarking data augmentations for continual RL, by (1) summarising existing data augmentation methods and (2) including a new augmentation method for continual RL: Adversarial Augmentation with Gradient Episodic Memory (Adv-GEM). Extensive experiments show that data augmentations, such as random amplitude scaling, state-switch, mixup, adversarial augmentation, and Adv-GEM, can improve existing continual RL algorithms in terms of their average performance, catastrophic forgetting, and forward transfer, on robot control tasks. All data augmentation methods are implemented as plug-in modules for trivial integration into continual RL methods. | 翻訳日:2024-08-28 12:43:01 公開日:2024-08-27 |
# GNN:データ発見のためのグラフニューラルネットワークと大規模言語モデル
GNN: Graph Neural Network and Large Language Model for Data Discovery ( http://arxiv.org/abs/2408.13609v2 ) ライセンス: Link先を確認 | Thomas Hoang, | (参考訳) 我々のアルゴリズム GNN: Graph Neural Network and Large Language Model for Data Discovery (PLOD: Predictive Learning Optimal Data Discovery), \cite{Hoang2024BODBO} (BOD: Blindly Optimal Data Discovery) の利点を継承する。
これらの研究に加えて、GNNはグラフニューラルネットワークと大規模言語モデルの利点を活用し、PLODやMODでは理解できないテキストタイプ値を理解することにより、結果を予測するタスクをより信頼性の高いものにする。
GNNは、数値値だけでなく、テキスト値も理解し、データサイエンスと分析の目的を約束するPLODの拡張と見なすことができる。
Our algorithm GNN: Graph Neural Network and Large Language Model for Data Discovery inherit the benefits of \cite{hoang2024plod} (PLOD: Predictive Learning Optimal Data Discovery), \cite{Hoang2024BODBO} (BOD: Blindly Optimal Data Discovery) in terms of overcoming the challenges of having to predefine utility function and the human input for attribute ranking, which helps prevent the time-consuming loop process. In addition to these previous works, our algorithm GNN leverages the advantages of graph neural networks and large language models to understand text type values that cannot be understood by PLOD and MOD, thus making the task of predicting outcomes more reliable. GNN could be seen as an extension of PLOD in terms of understanding the text type value and the user's preferences, not only numerical values but also text values, making the promise of data science and analytics purposes. | 翻訳日:2024-08-28 12:43:01 公開日:2024-08-27 |
# Prompt-Softbox-Prompt:画像編集のための自由テキスト埋め込み制御
Prompt-Softbox-Prompt: A free-text Embedding Control for Image Editing ( http://arxiv.org/abs/2408.13623v2 ) ライセンス: Link先を確認 | Yitong Yang, Yinglin Wang, Jing Wang, Tian Zhang, | (参考訳) テキスト駆動拡散モデルは画像編集において顕著な成功を収めてきたが、これらのモデルにおいて重要な要素であるテキスト埋め込みは十分に研究されていない。
テキスト埋め込みの絡み合いと不透明さは、正確な画像編集を実現する上で重要な課題である。
本稿では,安定拡散XLにおけるテキスト埋め込みの包括的かつ詳細な解析を行い,三つの重要な知見を提供する。
まず、‘aug_embedding’はテキストの完全なセマンティックコンテンツをキャプチャするが、最終的な画像生成へのコントリビューションは比較的小さい。
第二に 'BOS' と 'Padding_embedding' には意味情報がない。
最後に、"EOS"はすべての単語の意味情報を保持し、最もスタイルのよい特徴を含んでいる。
それぞれの単語の埋め込みは、互いに干渉することなく、ユニークな役割を果たす。
そこで本研究では,PSP(Prompt-Softbox-Prompt)と呼ばれる自由テキスト埋め込み制御手法を用いて,制御可能な画像編集手法を提案する。
PSPは、クロスアテンション層にテキスト埋め込みを挿入または追加し、Softboxを使用してセマンティックインジェクションの特定の領域を定義し制御することで、正確な画像編集を可能にする。
この技術は、画像の他の領域を保存しながら、斜めの追加と置換を可能にする。
さらに、PSPは単にテキスト埋め込みを置き換えることでスタイル転送を実現することができる。
広範囲な実験結果から,PSPはオブジェクト置換,オブジェクト付加,スタイル移動といったタスクにおいて重要な結果をもたらすことが示された。
Text-driven diffusion models have achieved remarkable success in image editing, but a crucial component in these models-text embeddings-has not been fully explored. The entanglement and opacity of text embeddings present significant challenges to achieving precise image editing. In this paper, we provide a comprehensive and in-depth analysis of text embeddings in Stable Diffusion XL, offering three key insights. First, while the 'aug_embedding' captures the full semantic content of the text, its contribution to the final image generation is relatively minor. Second, 'BOS' and 'Padding_embedding' do not contain any semantic information. Lastly, the 'EOS' holds the semantic information of all words and contains the most style features. Each word embedding plays a unique role without interfering with one another. Based on these insights, we propose a novel approach for controllable image editing using a free-text embedding control method called PSP (Prompt-Softbox-Prompt). PSP enables precise image editing by inserting or adding text embeddings within the cross-attention layers and using Softbox to define and control the specific area for semantic injection. This technique allows for obejct additions and replacements while preserving other areas of the image. Additionally, PSP can achieve style transfer by simply replacing text embeddings. Extensive experimental results show that PSP achieves significant results in tasks such as object replacement, object addition, and style transfer. | 翻訳日:2024-08-28 12:43:01 公開日:2024-08-27 |
# 最近のイベントカメラのイノベーション: サーベイ
Recent Event Camera Innovations: A Survey ( http://arxiv.org/abs/2408.13627v2 ) ライセンス: Link先を確認 | Bharatesh Chakravarthi, Aayush Atul Verma, Kostas Daniilidis, Cornelia Fermuller, Yezhou Yang, | (参考訳) 人間の視覚システムにインスパイアされたイベントベースのビジョンは、低レイテンシ、高ダイナミックレンジ、消費電力の削減といったトランスフォーメーション機能を提供する。
本稿では、イベントカメラに関する総合的な調査を行い、その進化を経時的に追跡する。
イベントカメラの基本原則を導入し、それらを従来のフレームカメラと比較し、その特徴と運用上の違いを強調します。
この調査は、主要な製造業者による様々なイベントカメラモデル、重要な技術マイルストーン、そして影響力のある研究貢献をカバーしている。
さまざまな領域にわたる多様なアプリケーション領域を探索し、研究の進展に不可欠な実世界と合成データセットについて論じている。
また,テストおよび開発におけるイベントカメラシミュレータの役割についても論じる。
この調査は、イベントカメラの現在の状況を強化し、この急速に発展する分野におけるさらなるイノベーションを促すことを目的としている。
リサーチコミュニティをサポートするために、GitHubページ(https://github.com/chakravarthi589/Event-based-Vision_Resources)が過去と将来の研究項目を分類し、貴重なリソースを統合する。
Event-based vision, inspired by the human visual system, offers transformative capabilities such as low latency, high dynamic range, and reduced power consumption. This paper presents a comprehensive survey of event cameras, tracing their evolution over time. It introduces the fundamental principles of event cameras, compares them with traditional frame cameras, and highlights their unique characteristics and operational differences. The survey covers various event camera models from leading manufacturers, key technological milestones, and influential research contributions. It explores diverse application areas across different domains and discusses essential real-world and synthetic datasets for research advancement. Additionally, the role of event camera simulators in testing and development is discussed. This survey aims to consolidate the current state of event cameras and inspire further innovation in this rapidly evolving field. To support the research community, a GitHub page (https://github.com/chakravarthi589/Event-based-Vision_Resources) categorizes past and future research articles and consolidates valuable resources. | 翻訳日:2024-08-28 12:43:01 公開日:2024-08-27 |
# マルチトレーメントマーケティングキャンペーンにおける昇降モデリングの強化:スコアランキングと校正手法の活用
Enhancing Uplift Modeling in Multi-Treatment Marketing Campaigns: Leveraging Score Ranking and Calibration Techniques ( http://arxiv.org/abs/2408.13628v2 ) ライセンス: Link先を確認 | Yoon Tae Park, Ting Xu, Mohamed Anany, | (参考訳) 昇降モデリングは、特定のマーケティングキャンペーンに対してポジティブに反応する可能性のある個人を選択することで、マーケティング戦略の最適化に不可欠である。
この重要性は、多様な治療が利用可能であり、最も影響を与える可能性のある治療に顧客を割り当てたいという、マルチ処理マーケティングキャンペーンにおいてエスカレートします。
Causalmlのような便利なフレームワークを使ったアプローチは存在するが、マルチユースケースにおけるアップリフトモデリングの効果を高める余地はある。
本稿では, マーケティングキャンペーン全体のパフォーマンス向上のために, スコアランキングとキャリブレーション技術を活用して, マルチトリートキャンペーンにおける新たなモデリング手法を提案する。
本稿では,Meta Learnerフレームワーク(S,T,X)を含む既存のアップリフトモデルとその実環境シナリオにおけるアプリケーションについてレビューする。
さらに、多処理研究からの洞察を掘り下げて、この分野の複雑さと潜在的な進歩を強調します。
提案手法はメタラーナー校正と評価ランクに基づくオファー選択戦略を取り入れたものである。
実世界のデータセットによる大規模な実験の結果は、我々のアプローチの実用的メリットと優れた性能を示している。
本研究は, マーケティング分析における予測モデリングを推進し, キャンペーン戦略の最適化を目指す実践者に対して, スコアランキングとキャリブレーション技術を統合する上で重要な役割を担っている。
Uplift modeling is essential for optimizing marketing strategies by selecting individuals likely to respond positively to specific marketing campaigns. This importance escalates in multi-treatment marketing campaigns, where diverse treatment is available and we may want to assign the customers to treatment that can make the most impact. While there are existing approaches with convenient frameworks like Causalml, there are potential spaces to enhance the effect of uplift modeling in multi treatment cases. This paper introduces a novel approach to uplift modeling in multi-treatment campaigns, leveraging score ranking and calibration techniques to improve overall performance of the marketing campaign. We review existing uplift models, including Meta Learner frameworks (S, T, X), and their application in real-world scenarios. Additionally, we delve into insights from multi-treatment studies to highlight the complexities and potential advancements in the field. Our methodology incorporates Meta-Learner calibration and a scoring rank-based offer selection strategy. Extensive experiment results with real-world datasets demonstrate the practical benefits and superior performance of our approach. The findings underscore the critical role of integrating score ranking and calibration techniques in refining the performance and reliability of uplift predictions, thereby advancing predictive modeling in marketing analytics and providing actionable insights for practitioners seeking to optimize their campaign strategies. | 翻訳日:2024-08-28 12:43:01 公開日:2024-08-27 |
# 完全受動的状態と受動的状態を自由状態とする資源理論
Resource theories with completely passive states and passive states as free states ( http://arxiv.org/abs/2408.13641v2 ) ライセンス: Link先を確認 | Gianluca Francica, | (参考訳) 量子システムから抽出可能な作業は、いくつかの資源理論に関連付けられるリソースである。
完全受動的状態と受動的状態を自由状態として考えることにより、最大作業が単調な資源理論を定式化し、温度の定義が資源理論においてどのように重要な役割を果たすかを示す。
Work extractable from quantum system is a resource that can be related to some resource theory. By considering completely passive states and passive states as free states, we formulate resource theories where the maximum work extractable is a monotone, showing how the definition of a temperature plays a pivotal role in the resource theories. | 翻訳日:2024-08-28 12:43:01 公開日:2024-08-27 |
# CNN変換器による医用画像分割のための協調学習
CNN-Transformer Rectified Collaborative Learning for Medical Image Segmentation ( http://arxiv.org/abs/2408.13698v2 ) ライセンス: Link先を確認 | Lanhu Wu, Miao Zhang, Yongri Piao, Zhenyan Yao, Weibing Sun, Feng Tian, Huchuan Lu, | (参考訳) 診断・解析にはMIS(Automatic and accurate Medical Image segmentation)が不可欠である。
現在のMIS法は主に特徴モデリングのために畳み込みニューラルネットワーク(CNN)または自己保持機構(Transformer)に依存している。
しかし、CNNベースの手法は、グローバル依存が限られているため、不正確なローカライゼーションに悩まされる一方、Transformerベースの手法は、局所的な重点の欠如に対して、常に粗い境界を提示する。
いくつかのCNN-Transformerハイブリッド手法は、補完的な局所情報とグローバル情報を合成して性能を向上させるように設計されているが、CNNとTransformerの組み合わせは多数のパラメータを導入し、計算コストを増大させる。
そこで本稿では,CNN-Transformer rectified collaborative learning (CTRCL) フレームワークを提案する。
具体的には、ロジット空間における正確な知識伝達のために、学生ソフトラベルの誤り領域を適応的に選択し、修正する基礎的真理を導入した修正ロジット・ワイド・コラボレーティブ・ラーニング(RLCL)戦略を提案する。
また,CNNベースのモデルとトランスフォーマーベースのモデル間の効果的な知識伝達を実現するために,中間的特徴に類似したカテゴリ認識能力を与えることにより,クラス認識型特徴量協調学習(CFCL)戦略を提案する。
3つのMISベンチマークの大規模な実験により、私たちのCTRCLは、さまざまな評価基準の下で、最先端の協調学習方法よりも優れています。
Automatic and precise medical image segmentation (MIS) is of vital importance for clinical diagnosis and analysis. Current MIS methods mainly rely on the convolutional neural network (CNN) or self-attention mechanism (Transformer) for feature modeling. However, CNN-based methods suffer from the inaccurate localization owing to the limited global dependency while Transformer-based methods always present the coarse boundary for the lack of local emphasis. Although some CNN-Transformer hybrid methods are designed to synthesize the complementary local and global information for better performance, the combination of CNN and Transformer introduces numerous parameters and increases the computation cost. To this end, this paper proposes a CNN-Transformer rectified collaborative learning (CTRCL) framework to learn stronger CNN-based and Transformer-based models for MIS tasks via the bi-directional knowledge transfer between them. Specifically, we propose a rectified logit-wise collaborative learning (RLCL) strategy which introduces the ground truth to adaptively select and rectify the wrong regions in student soft labels for accurate knowledge transfer in the logit space. We also propose a class-aware feature-wise collaborative learning (CFCL) strategy to achieve effective knowledge transfer between CNN-based and Transformer-based models in the feature space by granting their intermediate features the similar capability of category perception. Extensive experiments on three popular MIS benchmarks demonstrate that our CTRCL outperforms most state-of-the-art collaborative learning methods under different evaluation metrics. | 翻訳日:2024-08-28 12:43:01 公開日:2024-08-27 |
# 雲に基づく変分量子アルゴリズムの検証
Verifiable cloud-based variational quantum algorithms ( http://arxiv.org/abs/2408.13713v2 ) ライセンス: Link先を確認 | Junhong Yang, Banghai Wang, Junyu Quan, Qin Li, | (参考訳) 変分量子アルゴリズム(VQA)は、量子機械学習(QML)のためのノイズの多い中間スケール量子(NISQ)デバイスで量子優位性を示す可能性がある。
しかしながら、量子リソースの高コストと限られた可用性を考えると、クラウドネットワークを介してVQAをデリゲートすることは、量子能力に制限のあるクライアントにとってより実用的なソリューションである。
近年,クラウドベースの量子リソース消費最小限のVQAにアンシラ駆動型量子計算(ADQC)を利用する,分散セキュアなクラウド量子コンピューティングプロトコルが提案されている。
しかし、それらのプロトコルは検証性に欠けており、サーバによる潜在的悪意のある振る舞いに公開している。
さらに、チャネル損失は、デリゲートされた変分回路のサイズが大きくなるにつれて、頻繁に再デリゲーションを必要とし、回路の複雑さの増加による検証が複雑になる。
本稿では,これらの課題に対処する新たなプロトコルを導入し,クラウドベースのVQAにおける検証可能性とチャネル損失耐性を両立させる。
Variational quantum algorithms (VQAs) have shown potential for quantum advantage with noisy intermediate-scale quantum (NISQ) devices for quantum machine learning (QML). However, given the high cost and limited availability of quantum resources, delegating VQAs via cloud networks is a more practical solution for clients with limited quantum capabilities. Recently, Shingu et al.[Physical Review A, 105, 022603 (2022)] proposed a variational secure cloud quantum computing protocol, utilizing ancilla-driven quantum computation (ADQC) for cloud-based VQAs with minimal quantum resource consumption. However, their protocol lacks verifiability, which exposes it to potential malicious behaviors by the server. Additionally, channel loss requires frequent re-delegation as the size of the delegated variational circuit grows, complicating verification due to increased circuit complexity. This paper introduces a new protocol to address these challenges and enhance both verifiability and tolerance to channel loss in cloud-based VQAs. | 翻訳日:2024-08-28 12:43:01 公開日:2024-08-27 |
# 部分回帰におけるブレークポイントの同定の改善とその応用
Improved identification of breakpoints in piecewise regression and its applications ( http://arxiv.org/abs/2408.13751v2 ) ライセンス: Link先を確認 | Taehyeong Kim, Hyungu Lee, Hayoung Choi, | (参考訳) 断片的回帰におけるブレークポイントの特定は、データフィッティングの信頼性と解釈可能性を高める上で重要である。
本稿では,分数次多項式回帰におけるブレークポイントを高精度かつ効率的に同定する,グリーディアルゴリズムに基づく新しいアルゴリズムを提案する。
アルゴリズムはブレークポイントを更新し、各ブレークポイントの近傍を探索することでエラーを最小限にする。
最適なブレークポイントを見つけるために、収束速度と安定性が速い。
さらに、最適なブレークポイント数を決定することができる。
実データおよび合成データの計算結果から,その精度は既存のどの手法よりも優れていることが示された。
実世界のデータセットは、提案アルゴリズムによるブレークポイントが貴重なデータ情報を提供することを示した。
Identifying breakpoints in piecewise regression is critical in enhancing the reliability and interpretability of data fitting. In this paper, we propose novel algorithms based on the greedy algorithm to accurately and efficiently identify breakpoints in piecewise polynomial regression. The algorithm updates the breakpoints to minimize the error by exploring the neighborhood of each breakpoint. It has a fast convergence rate and stability to find optimal breakpoints. Moreover, it can determine the optimal number of breakpoints. The computational results for real and synthetic data show that its accuracy is better than any existing methods. The real-world datasets demonstrate that breakpoints through the proposed algorithm provide valuable data information. | 翻訳日:2024-08-28 12:43:01 公開日:2024-08-27 |
# 大気環境シミュレーションによる海洋SARにおける人体検出アルゴリズムのロバスト性向上
Enhancing Robustness of Human Detection Algorithms in Maritime SAR through Augmented Aerial Images to Simulate Weather Conditions ( http://arxiv.org/abs/2408.13766v2 ) ライセンス: Link先を確認 | Miguel Tjia, Artem Kim, Elaine Wynette Wijaya, Hanna Tefara, Kevin Zhu, | (参考訳) 7,651件の捜索救助ミッション(SAR)が2024年に沿岸警備隊によって報告され、6ヶ月だけで1322機以上のSARヘリコプターが配備された。
YOLOの利用を通じて、異なる気象条件と照明をトレーニング用データセットから実行することが可能になった。
YOLOはCNNを使用して一連の畳み込み層とプール層を入力画像に適用し、畳み込み層が画像の主要な特徴を抽出する。
これにより、我々のYOLOモデルは、その精度を大幅に向上させ、検出精度を高めてSAR操作の効率を向上する可能性のある、異なる物体の識別を学べる。
本稿では,海中SARにおける人間の検出精度の向上を目的として,様々な標高や地質位置を含む頑健なデータセットと,異なる気象や照明をシミュレートしたデータ拡張を用いて評価する。
強化データセットをトレーニングしたモデルでは,ヒトのリコールスコアが0.891から0.911の範囲で,YOLOv5lモデルでは3.4\%向上した。
その結果、これらのモデルは、天候、明るさ、色調、コントラストの異なる実世界の条件に対してより堅牢であることが示された。
7,651 cases of Search and Rescue Missions (SAR) were reported by the United States Coast Guard in 2024, with over 1322 SAR helicopters deployed in the 6 first months alone. Through the utilizations of YOLO, we were able to run different weather conditions and lighting from our augmented dataset for training. YOLO then utilizes CNNs to apply a series of convolutions and pooling layers to the input image, where the convolution layers are able to extract the main features of the image. Through this, our YOLO model is able to learn to differentiate different objects which may considerably improve its accuracy, possibly enhancing the efficiency of SAR operations through enhanced detection accuracy. This paper aims to improve the model's accuracy of human detection in maritime SAR by evaluating a robust datasets containing various elevations and geological locations, as well as through data augmentation which simulates different weather and lighting. We observed that models trained on augmented datasets outperformed their non-augmented counterparts in which the human recall scores ranged from 0.891 to 0.911 with an improvement rate of 3.4\% on the YOLOv5l model. Results showed that these models demonstrate greater robustness to real-world conditions in varying of weather, brightness, tint, and contrast. | 翻訳日:2024-08-28 12:43:01 公開日:2024-08-27 |
# BCDNet:乳がん検出のための畳み込みニューラルネットワーク
BCDNet: A Convolutional Neural Network For Breast Cancer Detection ( http://arxiv.org/abs/2408.13800v2 ) ライセンス: Link先を確認 | Yujia Lin, Aiwei Lian, Mingyu Liao, Yipeng Liu, | (参考訳) 乳がんは浸潤性直腸癌 (Invasive Ductal Carcinoma:IDC) が最も多い亜型である。
この危険ながんの発生は増加し続けており、特に早期に正確かつ迅速な診断が重要となる。
現代のコンピュータ支援診断(CAD)システムは、ほとんどのケースに対処できるが、医療専門家は、強力なコンピューティングリソースを使わずに、現場でそれを使用する際の課題に直面している。
本稿では,BCDNetと呼ばれる新しいCNNモデルを提案する。このモデルは,89.5%の精度で組織像中のIDCを効果的に検出し,トレーニング時間を効果的に短縮する。
Previous research has established that breast cancer is a prevalent cancer type, with Invasive Ductal Carcinoma (IDC) being the most common subtype. The incidence of this dangerous cancer continues to rise, making accurate and rapid diagnosis, particularly in the early stages, critically important. While modern Computer-Aided Diagnosis (CAD) systems can address most cases, medical professionals still face challenges in using them in the field without powerful computing resources. In this paper, we propose a novel CNN model called BCDNet, which effectively detects IDC in histopathological images with an accuracy of up to 89.5% and reduces training time effectively. | 翻訳日:2024-08-28 12:43:01 公開日:2024-08-27 |
# 構造依存型ニューラルネットワークモデルによるトポロジー最適化のための一貫性機械学習
Consistent machine learning for topology optimization with microstructure-dependent neural network material models ( http://arxiv.org/abs/2408.13843v2 ) ライセンス: Link先を確認 | Harikrishnan Vijayakumaran, Jonathan B. Russ, Glaucio H. Paulino, Miguel A. Bessa, | (参考訳) トポロジ最適化と併用した付加的製造法により, 空間的に変化する材料構造を制御したマルチスケール構造の構築が可能となった。
しかしながら、非線形性の存在下でのそのような構造の位相最適化や逆設計は、計算的均質化法と微構造応答の微分パラメータ化の複雑さのために依然として困難である。
この課題の解決策は、材料応答とマイクロ構造記述子の間の効率的で微分可能なマッピングを提供する機械学習技術にある。
超弾性理論に基づく一貫した機械学習アプローチと均質化に基づく位相最適化戦略を融合させることにより、空間的に異なる構造を持つ大規模不均一構造を設計するための枠組みを提案する。
我々は、多凸性、客観性、物質対称性、熱力学的整合性などの重要な物理原理に従うニューラルネットワークを活用して、材料ミクロ構造記述子に依存する信頼性の高い構成的モデルを提供する。
本研究は, 有限変形下での不均一な超弾性構造の設計を最適化するために, 密度に基づくトポロジー最適化と一貫した機械学習モデルを統合する可能性を強調した。
Additive manufacturing methods together with topology optimization have enabled the creation of multiscale structures with controlled spatially-varying material microstructure. However, topology optimization or inverse design of such structures in the presence of nonlinearities remains a challenge due to the expense of computational homogenization methods and the complexity of differentiably parameterizing the microstructural response. A solution to this challenge lies in machine learning techniques that offer efficient, differentiable mappings between the material response and its microstructural descriptors. This work presents a framework for designing multiscale heterogeneous structures with spatially varying microstructures by merging a homogenization-based topology optimization strategy with a consistent machine learning approach grounded in hyperelasticity theory. We leverage neural architectures that adhere to critical physical principles such as polyconvexity, objectivity, material symmetry, and thermodynamic consistency to supply the framework with a reliable constitutive model that is dependent on material microstructural descriptors. Our findings highlight the potential of integrating consistent machine learning models with density-based topology optimization for enhancing design optimization of heterogeneous hyperelastic structures under finite deformations. | 翻訳日:2024-08-28 12:43:01 公開日:2024-08-27 |
# RT-Attack:ランダムトークンを使ってテキストと画像のモデルをジェイルブレイク
RT-Attack: Jailbreaking Text-to-Image Models via Random Token ( http://arxiv.org/abs/2408.13896v2 ) ライセンス: Link先を確認 | Sensen Gao, Xiaojun Jia, Yihao Huang, Ranjie Duan, Jindong Gu, Yang Liu, Qing Guo, | (参考訳) 近年,テキスト・ツー・イメージ(T2I)モデルは画像生成や編集において顕著な成功を収めているが,これらのモデルには多くの潜在的な問題があり,特に不適切なコンテンツやNot-Safe-For-Work(NSFW)を生成している。
攻撃の強化とそのような脆弱性の発見は、信頼性が高く実用的なT2Iモデルの開発を促進する可能性がある。
以前の研究のほとんどは、逆のプロンプトを生成するために勾配最適化を使用して、T2Iモデルをホワイトボックスシステムとして扱う。
しかし、実際のシナリオでは、モデルの勾配にアクセスすることはしばしば不可能である。
さらに,攻撃者が正確な勾配情報を得るのを防ぐために,グラデーションマスキングを用いた既存の防御手法が設計されている。
ブラックボックスのジェイルブレイク攻撃はいくつか検討されているが、それらは通常、単にセンシティブな単語を置き換えることに依存しており、最適以下の攻撃性能に繋がる。
この問題に対処するために,ランダム検索を利用した2段階のクエリベースのブラックボックス攻撃手法を提案する。
第1段階では、敵と標的の有害なプロンプト間の意味的類似性を最大化することにより、予備的なプロンプトを確立する。
第2段階では、この初期プロンプトを用いてアプローチを洗練し、このプロンプトから生成された画像とターゲットの有害プロンプトから生成された画像との類似性を最大化し、ジェイルブレイクを目的とした詳細な敵プロンプトを作成する。
大規模な実験により、最新のプロンプトチェッカー、ポストホック画像チェッカー、セキュアに訓練されたT2Iモデル、オンライン商用モデルに対する攻撃の有効性が検証された。
Recently, Text-to-Image(T2I) models have achieved remarkable success in image generation and editing, yet these models still have many potential issues, particularly in generating inappropriate or Not-Safe-For-Work(NSFW) content. Strengthening attacks and uncovering such vulnerabilities can advance the development of reliable and practical T2I models. Most of the previous works treat T2I models as white-box systems, using gradient optimization to generate adversarial prompts. However, accessing the model's gradient is often impossible in real-world scenarios. Moreover, existing defense methods, those using gradient masking, are designed to prevent attackers from obtaining accurate gradient information. While some black-box jailbreak attacks have been explored, these typically rely on simply replacing sensitive words, leading to suboptimal attack performance. To address this issue, we introduce a two-stage query-based black-box attack method utilizing random search. In the first stage, we establish a preliminary prompt by maximizing the semantic similarity between the adversarial and target harmful prompts. In the second stage, we use this initial prompt to refine our approach, creating a detailed adversarial prompt aimed at jailbreaking and maximizing the similarity in image features between the images generated from this prompt and those produced by the target harmful prompt. Extensive experiments validate the effectiveness of our method in attacking the latest prompt checkers, post-hoc image checkers, securely trained T2I models, and online commercial models. | 翻訳日:2024-08-28 12:43:01 公開日:2024-08-27 |
# 量子マルチモーダルコントラスト学習フレームワーク
Quantum Multimodal Contrastive Learning Framework ( http://arxiv.org/abs/2408.13919v2 ) ライセンス: Link先を確認 | Chi-Sheng Chen, Aidan Hung-Wen Tsai, Sheng-Chieh Huang, | (参考訳) 本稿では,脳波と画像データを統合するために量子エンコーダを用いたマルチモーダルコントラスト学習フレームワークを提案する。
この画期的な試みは、従来のマルチモーダル学習フレームワークにおける量子エンコーダの統合を探求するものである。
量子コンピューティングのユニークな特性を活用することで,表現学習能力を向上し,時系列と視覚情報を同時に分析するための堅牢なフレームワークを提供する。
量子エンコーダは脳波信号と画像特徴の複雑なパターンを効果的にキャプチャし、モダリティ間のコントラスト学習を改善することを実証する。
この研究は、特に時間的および視覚的なデータの同時解釈を必要とするアプリケーションにおいて、量子コンピューティングとマルチモーダルデータ分析を統合するための新たな道を開く。
In this paper, we propose a novel framework for multimodal contrastive learning utilizing a quantum encoder to integrate EEG (electroencephalogram) and image data. This groundbreaking attempt explores the integration of quantum encoders within the traditional multimodal learning framework. By leveraging the unique properties of quantum computing, our method enhances the representation learning capabilities, providing a robust framework for analyzing time series and visual information concurrently. We demonstrate that the quantum encoder effectively captures intricate patterns within EEG signals and image features, facilitating improved contrastive learning across modalities. This work opens new avenues for integrating quantum computing with multimodal data analysis, particularly in applications requiring simultaneous interpretation of temporal and visual data. | 翻訳日:2024-08-28 12:32:33 公開日:2024-08-27 |
# 教育のための時系列分析:方法,応用,今後の方向性
Time Series Analysis for Education: Methods, Applications, and Future Directions ( http://arxiv.org/abs/2408.13960v2 ) ライセンス: Link先を確認 | Shengzhong Mao, Chaoli Zhang, Yichi Song, Jindong Wang, Xiao-Jun Zeng, Zenglin Xu, Qingsong Wen, | (参考訳) 近年のシーケンシャルな教育データの収集・分析の進歩は、時系列分析を教育研究において重要な位置に押し上げ、データ駆動型意思決定の促進に欠かせない役割を浮き彫りにした。
しかし、これらの進歩をまとめる包括的な要約が欠如している。
本論文は,我々の知る限り,特に教育現場における時系列解析技術に関する総合的なレビューを初めて行ったものである。
まず、教育データ分析の展望を探求し、教育に関連するさまざまなデータソースとタイプを分類する。
次に, 予測, 分類, クラスタリング, 異常検出の4つの著名な時系列手法を, 教育環境における特定の応用点を推定する。
続いて、これらの手法が様々な教育課題にどのように適用されているかに注目し、複雑な教育課題を解決するために、複数の時系列手法の実践的な統合に焦点を当てた教育シナリオと応用について述べる。
最後に、パーソナライズされた学習分析、マルチモーダルデータ融合、教育時系列における大規模言語モデル(LLM)の役割など、今後の方向性について議論する。
本研究の貢献は,教育データの詳細な分類,特定の教育応用を用いた時系列手法の合成,教育分析における新たなトレンドと今後の研究機会の展望である。
関連する論文やリソースはプロジェクトページで定期的に更新されている。
Recent advancements in the collection and analysis of sequential educational data have brought time series analysis to a pivotal position in educational research, highlighting its essential role in facilitating data-driven decision-making. However, there is a lack of comprehensive summaries that consolidate these advancements. To the best of our knowledge, this paper is the first to provide a comprehensive review of time series analysis techniques specifically within the educational context. We begin by exploring the landscape of educational data analytics, categorizing various data sources and types relevant to education. We then review four prominent time series methods-forecasting, classification, clustering, and anomaly detection-illustrating their specific application points in educational settings. Subsequently, we present a range of educational scenarios and applications, focusing on how these methods are employed to address diverse educational tasks, which highlights the practical integration of multiple time series methods to solve complex educational problems. Finally, we conclude with a discussion on future directions, including personalized learning analytics, multimodal data fusion, and the role of large language models (LLMs) in educational time series. The contributions of this paper include a detailed taxonomy of educational data, a synthesis of time series techniques with specific educational applications, and a forward-looking perspective on emerging trends and future research opportunities in educational analysis. The related papers and resources are available and regularly updated at the project page. | 翻訳日:2024-08-28 12:32:33 公開日:2024-08-27 |
# チャフを通り抜ける:生成したコード候補のランク付けのための実行フィードバックの利用について
Sifting through the Chaff: On Utilizing Execution Feedback for Ranking the Generated Code Candidates ( http://arxiv.org/abs/2408.13976v2 ) ライセンス: Link先を確認 | Zhihong Sun, Yao Wan, Jia Li, Hongyu Zhang, Zhi Jin, Ge Li, Chen Lyu, | (参考訳) GPT-4、StarCoder、CodeLlamaといった大規模言語モデル(LLM)は、与えられた自然言語記述に基づいて自動的にコードを生成することによって、開発者がプログラミングにアプローチする方法を変えつつある。
進歩にもかかわらず、特に複雑なプログラミングタスクにおいて、構文的および意味論的に正しいコードを生成することは難しい。
通常、個人はLSMを使って複数の候補解を生成し、正しいコードを生成する可能性を高める。
しかし、これらの候補から正しいコードを選択することは、コードランキングとして知られるプロセスが大きな課題である。
コードランキングに関する現在の研究は、実行ベースおよび実行ベースでない方法に分類することができる。
実行ベースの手法は有効ではあるが、品質ユニットテストの欠如やセキュリティリスクなど、注目すべき制限に直面している。
CodeRankerのような非実行ベースのメソッドは、コードローダをトレーニングするための分類ラベルのみに依存するが、微妙なエラーをキャプチャし、詳細なエラー洞察を提供するのに苦労している。
両アプローチの長所と短所を認識し,新しい手法を提案する。
私たちの研究における重要な洞察は、効果的なコードランキングラが、分類ラベルのみに依存しているため、誤ったコードの根本原因を真に理解することが期待されていることです。
この問題に触発された本論文では,実行フィードバックを活用したコードランキングの革新的なアプローチである RankEF について述べる。
RankEFは、コード分類と実行フィードバック生成を統合するためにマルチタスク学習を採用している。
このアプローチにより、モデルが不正コードの背後にある理由を理解し、ランキングフェーズ中にコードを実行することなく、正しいソリューションと間違ったソリューションを区別することが可能になる。
3つのコード生成ベンチマークの実験では、RanEFが最先端のCodeRankerよりも大幅に優れていることが示されている。
Large Language Models (LLMs), such as GPT-4, StarCoder, and CodeLlama, are transforming the way developers approach programming by automatically generating code based on given natural language descriptions. Despite advancements, generating syntactically and semantically correct code remains challenging, especially for complex programming tasks. Typically, individuals generate multiple candidate solutions using LLMs to increase the likelihood of producing correct code. However, selecting the correct code from these candidates-a process known as code ranking-remains a major challenge. Current research on code ranking can be categorized into execution-based and non-execution-based methods. Execution-based methods, although effective, encounter notable limitations, such as scarcity of quality unit tests and security risks. Non-execution-based methods like CodeRanker, which rely solely on classification labels to train a code ranker, struggle to capture subtle errors and provide detailed error insights. Recognizing the strengths and limitations of both approaches, we propose a new method. The key insight of our work is that an effective code ranker is expected to genuinely comprehend the underlying causes of erroneous code, as relying solely on classification labels is insufficient. Inspired by this, this paper puts forward RankEF, an innovative approach for code ranking that leverages execution feedback. RankEF employs multi-task learning to integrate code classification with execution feedback generation. This approach enables the model to understand the reasons behind incorrect code, distinguishing between correct and incorrect solutions without the need to execute the code during the ranking phase. Experiments on three code generation benchmarks demonstrate that RankEF significantly outperforms the state-of-the-art CodeRanker. | 翻訳日:2024-08-28 12:32:33 公開日:2024-08-27 |
# Sentinel-2 MSIデータとGoogle Earth Engineによる香港の水質時系列予測の改善
Improving Water Quality Time-Series Prediction in Hong Kong using Sentinel-2 MSI Data and Google Earth Engine Cloud Computing ( http://arxiv.org/abs/2408.14010v2 ) ライセンス: Link先を確認 | Rohin Sood, Kevin Zhu, | (参考訳) 沿岸部における水質モニタリングは, 汚染や人的活動による劣化が進行しているため, 重要な課題である。
そこで本研究では,香港沿岸域におけるクロロフィルa (Chl-a), 懸濁固体 (SS), 濁度を予測する時系列モデルを構築した。
この研究は、Long Short-Term Memory (LSTM) Recurrent Neural Networksを活用し、予測精度を高めるために、広範囲の時間データセットを組み込んだ。
これらのモデルは、光学活性成分に着目したSentinel-2のスペクトルデータを使用し、選択された変数がChl-aとSSのスペクトル特性と密接に一致していることを示す。
その結果, 従来手法よりも予測性能が向上し, 連続的, 総合的な水質評価におけるリモートセンシング技術の可能性が浮き彫りになった。
Effective water quality monitoring in coastal regions is crucial due to the progressive deterioration caused by pollution and human activities. To address this, this study develops time-series models to predict chlorophyll-a (Chl-a), suspended solids (SS), and turbidity using Sentinel-2 satellite data and Google Earth Engine (GEE) in the coastal regions of Hong Kong. Leveraging Long Short-Term Memory (LSTM) Recurrent Neural Networks, the study incorporates extensive temporal datasets to enhance prediction accuracy. The models utilize spectral data from Sentinel-2, focusing on optically active components, and demonstrate that selected variables closely align with the spectral characteristics of Chl-a and SS. The results indicate improved predictive performance over previous methods, highlighting the potential for remote sensing technology in continuous and comprehensive water quality assessment. | 翻訳日:2024-08-28 12:32:33 公開日:2024-08-27 |
# 項目応答理論に基づくアルゴリズムポートフォリオ解析用Rモジュール
An Item Response Theory-based R Module for Algorithm Portfolio Analysis ( http://arxiv.org/abs/2408.14025v2 ) ライセンス: Link先を確認 | Brodie Oldfield, Sevvandi Kandanaarachchi, Ziqi Xu, Mario Andrés Muñoz, | (参考訳) 実験的な評価はAI研究、特に様々なタスクにわたるアルゴリズムの評価に不可欠である。
多くの研究はアルゴリズムの限られたセットを評価し、包括的ポートフォリオの中でその強みと弱点を完全に理解できなかった。
本稿では, AIRT-Module と呼ばれるアルゴリズムポートフォリオ評価のための項目応答理論 (IRT) に基づく解析ツールを提案する。
伝統的に教育心理学で使用されるIRTモデルは、質問に対する反応を用いて質問の難易度と生徒の能力をテストする。
IRTをアルゴリズムの評価に適用すると、AIRT-Module は Shiny Web アプリケーションと R パッケージの Airt を含む。
AIRT-Moduleは、アルゴリズムの異常性、一貫性、難易度、およびテストインスタンスの難易度を計算するために、アルゴリズムのパフォーマンス測定を使用する。
アルゴリズムの長所と短所は、テストインスタンスの難易度スペクトルを用いて可視化される。
AIRT-Moduleは、さまざまなテストインスタンスにわたるアルゴリズム機能の詳細な理解を提供するため、包括的なAIメソッドアセスメントが強化される。
https://sevvandi.shinyapps.io/AIRT/ で入手できる。
Experimental evaluation is crucial in AI research, especially for assessing algorithms across diverse tasks. Many studies often evaluate a limited set of algorithms, failing to fully understand their strengths and weaknesses within a comprehensive portfolio. This paper introduces an Item Response Theory (IRT) based analysis tool for algorithm portfolio evaluation called AIRT-Module. Traditionally used in educational psychometrics, IRT models test question difficulty and student ability using responses to test questions. Adapting IRT to algorithm evaluation, the AIRT-Module contains a Shiny web application and the R package airt. AIRT-Module uses algorithm performance measures to compute anomalousness, consistency, and difficulty limits for an algorithm and the difficulty of test instances. The strengths and weaknesses of algorithms are visualised using the difficulty spectrum of the test instances. AIRT-Module offers a detailed understanding of algorithm capabilities across varied test instances, thus enhancing comprehensive AI method assessment. It is available at https://sevvandi.shinyapps.io/AIRT/ . | 翻訳日:2024-08-28 12:32:33 公開日:2024-08-27 |
# Chain-of-Thought Promptingによる抑うつ診断の強化
Enhancing Depression Diagnosis with Chain-of-Thought Prompting ( http://arxiv.org/abs/2408.14053v2 ) ライセンス: Link先を確認 | Elysia Shi, Adithri Manda, London Chowdhury, Runeema Arun, Kevin Zhu, Michael Lam, | (参考訳) うつ病の兆候を検出するためにAIを使用する場合、AIモデルは習慣的にプリエンプティブな結論を引き出す。
我々は,患者健康アンケート8(PHQ-8)のスコアを評価するためのチェーン・オブ・シント(CoT)を用いることで,AIモデルによるスコアの精度が向上すると考えている。
以上の結果から,CoTを用いた場合のPHQ-8スコアは,CoTを使用しない場合と比較して,各被験者が報告した真のスコアと平均的に常に近かった。
我々の目標は、人間の会話の複雑さに対するAIモデルの理解を拡大し、患者の感情やトーンをより効果的に評価し、精神疾患の症状をより正確に識別できるようにすることです。
When using AI to detect signs of depressive disorder, AI models habitually draw preemptive conclusions. We theorize that using chain-of-thought (CoT) prompting to evaluate Patient Health Questionnaire-8 (PHQ-8) scores will improve the accuracy of the scores determined by AI models. In our findings, when the models reasoned with CoT, the estimated PHQ-8 scores were consistently closer on average to the accepted true scores reported by each participant compared to when not using CoT. Our goal is to expand upon AI models' understanding of the intricacies of human conversation, allowing them to more effectively assess a patient's feelings and tone, therefore being able to more accurately discern mental disorder symptoms; ultimately, we hope to augment AI models' abilities, so that they can be widely accessible and used in the medical field. | 翻訳日:2024-08-28 12:32:33 公開日:2024-08-27 |
# SONICS: Synthetic or Not -- Identifying Counterfeit Songs
SONICS: Synthetic Or Not -- Identifying Counterfeit Songs ( http://arxiv.org/abs/2408.14080v2 ) ライセンス: Link先を確認 | Md Awsafur Rahman, Zaber Ibn Abdul Hakim, Najibul Haque Sarker, Bishmoy Paul, Shaikh Anowarul Fattah, | (参考訳) 最近のAI生成楽曲の急増は、エキサイティングな可能性と挑戦を示している。
これらのツールは音楽制作を民主化する一方で、芸術的完全性とコンテンツキュレーションの保護のために、人間の作曲した曲とAI生成した曲を区別する能力も必要である。
フェイクソング検出における既存の研究とデータセットは、ボーカルがAIによって生成されるが、楽器音楽は実際の歌から供給される、歌声のディープフェイク検出(SVDD)のみに焦点を当てている。
しかし、このアプローチは、すべてのコンポーネント(声、歌詞、音楽、スタイル)をAI生成できる、現代のエンドツーエンドのAI生成曲には不十分である。
さらに、既存のデータセットには歌詞と音楽の多様性、長いデュレーション曲、オープンフェイクソングが欠けている。
これらのギャップに対処するため,Sano や Udio などの人気プラットフォームから,97k 以上の歌と49k 以上の合成歌からなる,エンドツーエンドの合成歌検出(SSD)のための新しいデータセット SONICS を紹介した。
さらに,既存の手法では見過ごされ,歌唱における時間的長期依存性を効果的に検出するためにモデル化することの重要性を強調した。
競合性能を維持しつつ,CNNやTransformerベースのモデルに比べて最大3倍高速で,メモリ効率が6倍高い新しいモデルSpecTTTraを提案する。
最後に、AIベースの評価ベンチマークとヒューマン評価ベンチマークの両方を提供し、現在の研究における別の欠陥に対処しています。
The recent surge in AI-generated songs presents exciting possibilities and challenges. While these tools democratize music creation, they also necessitate the ability to distinguish between human-composed and AI-generated songs for safeguarding artistic integrity and content curation. Existing research and datasets in fake song detection only focus on singing voice deepfake detection (SVDD), where the vocals are AI-generated but the instrumental music is sourced from real songs. However, this approach is inadequate for contemporary end-to-end AI-generated songs where all components (vocals, lyrics, music, and style) could be AI-generated. Additionally, existing datasets lack lyrics-music diversity, long-duration songs, and open fake songs. To address these gaps, we introduce SONICS, a novel dataset for end-to-end Synthetic Song Detection (SSD), comprising over 97k songs with over 49k synthetic songs from popular platforms like Suno and Udio. Furthermore, we highlight the importance of modeling long-range temporal dependencies in songs for effective authenticity detection, an aspect overlooked in existing methods. To capture these patterns, we propose a novel model, SpecTTTra, that is up to 3 times faster and 6 times more memory efficient compared to popular CNN and Transformer-based models while maintaining competitive performance. Finally, we offer both AI-based and Human evaluation benchmarks, addressing another deficiency in current research. | 翻訳日:2024-08-28 12:32:32 公開日:2024-08-27 |
# 学習因果ネットワークによる因果効果の推定
Estimating Causal Effects from Learned Causal Networks ( http://arxiv.org/abs/2408.14101v2 ) ライセンス: Link先を確認 | Anna Raichev, Alexander Ihler, Jin Tian, Rina Dechter, | (参考訳) 因果ダイアグラムと観測データが与えられた場合、同定可能な因果効果クエリ(例えば$P(Y|do(X)$)に応答する標準的なアプローチは、まず観測可能な変数に対する推定、あるいは確率的表現を生成し、観測データを用いて評価する。
本稿では、離散可観測変数に対する因果影響クエリに応答する代替パラダイムを提案する。
観測データから直接因果ベイズネットワークとその共起潜伏変数を学習することを提案する。
次に、学習したモデルに効率的な確率的グラフィカルモデル(PGM)アルゴリズムを適用し、クエリに応答する。
おそらく、この「emph{model completion}」学習アプローチは、特に推定式が計算的に困難になる大規模モデルにおいて、推定手法よりも効果的であることを示す。
ベイジアンネットワークのベンチマークコレクションと合成因果モデルを用いて,本手法の可能性について述べる。
The standard approach to answering an identifiable causal-effect query (e.g., $P(Y|do(X)$) when given a causal diagram and observational data is to first generate an estimand, or probabilistic expression over the observable variables, which is then evaluated using the observational data. In this paper, we propose an alternative paradigm for answering causal-effect queries over discrete observable variables. We propose to instead learn the causal Bayesian network and its confounding latent variables directly from the observational data. Then, efficient probabilistic graphical model (PGM) algorithms can be applied to the learned model to answer queries. Perhaps surprisingly, we show that this \emph{model completion} learning approach can be more effective than estimand approaches, particularly for larger models in which the estimand expressions become computationally difficult. We illustrate our method's potential using a benchmark collection of Bayesian networks and synthetically generated causal models. | 翻訳日:2024-08-28 12:32:32 公開日:2024-08-27 |
# GenFormer -- 生成された画像は、小さなデータセット上のトランスフォーマーのロバスト性を改善するために必要なすべてである
GenFormer -- Generated Images are All You Need to Improve Robustness of Transformers on Small Datasets ( http://arxiv.org/abs/2408.14131v2 ) ライセンス: Link先を確認 | Sven Oehri, Nikolas Ebert, Ahmed Abdullah, Didier Stricker, Oliver Wasenmüller, | (参考訳) 近年の研究では、視覚変換器(ViT)と畳み込みニューラルネットワーク(CNN)の競合精度と、その顕著な頑健さが示されている。
しかし、ViTsは十分なパフォーマンスを達成するために大量のデータを必要としているため、小さなデータセットへの応用は困難であり、CNNに遅れている。
そこで我々は、生成した画像を利用したデータ拡張戦略であるGenFormerを提案し、小型画像分類タスクにおける変換器の精度とロバスト性を向上させる。
総合評価では、確立した画像ネットの一般化とロバストネスベンチマークを小規模データドメインに転送することで、Tiny ImageNetの新しいテストセットとしてTiny ImageNetV2, -R, -Aを提案する。
同様に、MedMNIST-CとEuroSAT-Cを医療・航空分野において確立された詳細なデータセットの劣化試験セットとして導入する。
Tiny ImageNet, CIFAR, EuroSAT, MedMNISTなど, さまざまな領域の小さなデータセットで実施した一連の実験を通じて, 本手法の相乗効果を実証した。
さらに、訓練データに制限のある困難な条件下でのアプローチの有効性を実証し、CNNとViT間の小さなデータセット領域のギャップを埋めることにより、精度とロバスト性の両方において大幅な改善を示す。
Recent studies showcase the competitive accuracy of Vision Transformers (ViTs) in relation to Convolutional Neural Networks (CNNs), along with their remarkable robustness. However, ViTs demand a large amount of data to achieve adequate performance, which makes their application to small datasets challenging, falling behind CNNs. To overcome this, we propose GenFormer, a data augmentation strategy utilizing generated images, thereby improving transformer accuracy and robustness on small-scale image classification tasks. In our comprehensive evaluation we propose Tiny ImageNetV2, -R, and -A as new test set variants of Tiny ImageNet by transferring established ImageNet generalization and robustness benchmarks to the small-scale data domain. Similarly, we introduce MedMNIST-C and EuroSAT-C as corrupted test set variants of established fine-grained datasets in the medical and aerial domain. Through a series of experiments conducted on small datasets of various domains, including Tiny ImageNet, CIFAR, EuroSAT and MedMNIST datasets, we demonstrate the synergistic power of our method, in particular when combined with common train and test time augmentations, knowledge distillation, and architectural design choices. Additionally, we prove the effectiveness of our approach under challenging conditions with limited training data, demonstrating significant improvements in both accuracy and robustness, bridging the gap between CNNs and ViTs in the small-scale dataset domain. | 翻訳日:2024-08-28 12:32:32 公開日:2024-08-27 |
# SwiftBrush v2:教師より1段階の拡散モデル
SwiftBrush v2: Make Your One-step Diffusion Model Better Than Its Teacher ( http://arxiv.org/abs/2408.14176v2 ) ライセンス: Link先を確認 | Trung Dao, Thuan Hoang Nguyen, Thanh Le, Duc Vu, Khoi Nguyen, Cuong Pham, Anh Tran, | (参考訳) 本稿では,一段階のテキスト・画像拡散モデルであるSwiftBrushの性能向上を目標とし,多段階の安定拡散モデルと競合する。
SwiftBrushとSD Turbo:前者は画像の多様性に優れ、後者は画質に優れています。
この観察は、より優れた重量初期化と効率的なLoRA訓練を含む、トレーニング方法論における我々の提案した修正を動機付けている。
さらに,新しいCLIP損失の導入により,画像テキストのアライメントが向上し,画質が向上した。
注目すべきは、効率的なLoRAとフルトレーニングでトレーニングされたモデルの重みを組み合わせることで、新しい最先端のワンステップ拡散モデルを実現し、8.14のFIDを達成し、すべてのGANベースおよびマルチステップ安定拡散モデルを上回る。
プロジェクトのページはhttps://swiftbrushv2.github.ioで公開されている。
In this paper, we aim to enhance the performance of SwiftBrush, a prominent one-step text-to-image diffusion model, to be competitive with its multi-step Stable Diffusion counterpart. Initially, we explore the quality-diversity trade-off between SwiftBrush and SD Turbo: the former excels in image diversity, while the latter excels in image quality. This observation motivates our proposed modifications in the training methodology, including better weight initialization and efficient LoRA training. Moreover, our introduction of a novel clamped CLIP loss enhances image-text alignment and results in improved image quality. Remarkably, by combining the weights of models trained with efficient LoRA and full training, we achieve a new state-of-the-art one-step diffusion model, achieving an FID of 8.14 and surpassing all GAN-based and multi-step Stable Diffusion models. The project page is available at https://swiftbrushv2.github.io. | 翻訳日:2024-08-28 12:32:32 公開日:2024-08-27 |
# Text3DAug -- LiDARの認識のためのインスタンス拡張のプロンプト
Text3DAug -- Prompted Instance Augmentation for LiDAR Perception ( http://arxiv.org/abs/2408.14253v2 ) ライセンス: Link先を確認 | Laurenz Reichardt, Luca Uhr, Oliver Wasenmüller, | (参考訳) 都市シナリオのLiDARデータは、異種特性や固有のクラス不均衡など、ユニークな課題を提起する。
したがって、ディープラーニング手法を適用するには大規模なデータセットが必要である。
データセットの多様性を高めるための効率的な方法として、インスタンス拡張が登場した。
しかし、現在の手法では、3Dモデルの時間を要するキュレーションや、高価な手作業によるデータアノテーションが必要である。
このような制約を克服するために,生成モデルを利用した新しいアプローチであるText3DAugを提案する。
Text3DAugはラベル付きデータに依存しておらず、テキストからインスタンスやアノテーションを生成する最初のタイプである。
これにより、完全に自動化されたパイプラインが可能になり、実用的なアプリケーションで手作業の必要がなくなる。
さらに、Text3DAugはセンサー非依存であり、使用するLiDARセンサーに関係なく適用することができる。
LiDARのセグメンテーション、検出、新しいクラス発見に関する総合的な実験的分析は、Text3DAugが既存のメソッドやスタンドアロンメソッドを補うのに有効であることを示した。
コードは公開されている。
LiDAR data of urban scenarios poses unique challenges, such as heterogeneous characteristics and inherent class imbalance. Therefore, large-scale datasets are necessary to apply deep learning methods. Instance augmentation has emerged as an efficient method to increase dataset diversity. However, current methods require the time-consuming curation of 3D models or costly manual data annotation. To overcome these limitations, we propose Text3DAug, a novel approach leveraging generative models for instance augmentation. Text3DAug does not depend on labeled data and is the first of its kind to generate instances and annotations from text. This allows for a fully automated pipeline, eliminating the need for manual effort in practical applications. Additionally, Text3DAug is sensor agnostic and can be applied regardless of the LiDAR sensor used. Comprehensive experimental analysis on LiDAR segmentation, detection and novel class discovery demonstrates that Text3DAug is effective in supplementing existing methods or as a standalone method, performing on par or better than established methods, however while overcoming their specific drawbacks. The code is publicly available. | 翻訳日:2024-08-28 12:32:32 公開日:2024-08-27 |
# Foundation Models for Music: A Survey
Foundation Models for Music: A Survey ( http://arxiv.org/abs/2408.14340v2 ) ライセンス: Link先を確認 | Yinghao Ma, Anders Øland, Anton Ragni, Bleiz MacSen Del Sette, Charalampos Saitis, Chris Donahue, Chenghua Lin, Christos Plachouras, Emmanouil Benetos, Elio Quinton, Elona Shatri, Fabio Morreale, Ge Zhang, György Fazekas, Gus Xia, Huan Zhang, Ilaria Manco, Jiawen Huang, Julien Guinot, Liwei Lin, Luca Marinelli, Max W. Y. Lam, Megha Sharma, Qiuqiang Kong, Roger B. Dannenberg, Ruibin Yuan, Shangda Wu, Shih-Lun Wu, Shuqi Dai, Shun Lei, Shiyin Kang, Simon Dixon, Wenhu Chen, Wenhao Huang, Xingjian Du, Xingwei Qu, Xu Tan, Yizhi Li, Zeyue Tian, Zhiyong Wu, Zhizheng Wu, Ziyang Ma, Ziyu Wang, | (参考訳) 近年,大規模言語モデル (LLMs) や潜在拡散モデル (LDMs) といった基礎モデル (FMs) が音楽など様々な分野に多大な影響を与えている。
本総説では、表現学習、生成学習、マルチモーダル学習にまたがる、最先端(SOTA)事前学習モデルと音楽基礎モデルについて概観する。
まず,音楽産業における音楽の重要性を文脈化し,音楽におけるAIの進化を辿る。
ファンデーションモデルが対象とするモダリティを記述することにより、FM開発において多くの音楽表現が過小評価されていることを明らかにする。
そして,音楽理解,生成,医療応用におけるFMの可能性とともに,様々な音楽応用における従来の手法の汎用性の欠如に重点を置いている。
モデル事前学習のパラダイム、アーキテクチャの選択、トークン化、微調整の方法論、制御可能性の詳細を包括的に調べることで、命令チューニングやコンテキスト内学習、法則のスケーリング、創発的能力、そして長いシーケンスモデリングなど、十分に検討すべき重要なトピックを強調します。
専門のセクションでは、音楽エージェントへの洞察を提示し、データセットの徹底的な分析と、事前学習および下流タスクに不可欠な評価を添える。
最後に、倫理的考察の重要さを強調することによって、音楽におけるFM研究は、解釈可能性、透明性、人的責任、著作権問題といった問題にもっと焦点をあてるべきである、と提唱する。
本稿では,音楽分野における人間とAIの連携の軌跡を形成することを目的として,音楽分野におけるFMの今後の課題と動向について考察する。
In recent years, foundation models (FMs) such as large language models (LLMs) and latent diffusion models (LDMs) have profoundly impacted diverse sectors, including music. This comprehensive review examines state-of-the-art (SOTA) pre-trained models and foundation models in music, spanning from representation learning, generative learning and multimodal learning. We first contextualise the significance of music in various industries and trace the evolution of AI in music. By delineating the modalities targeted by foundation models, we discover many of the music representations are underexplored in FM development. Then, emphasis is placed on the lack of versatility of previous methods on diverse music applications, along with the potential of FMs in music understanding, generation and medical application. By comprehensively exploring the details of the model pre-training paradigm, architectural choices, tokenisation, finetuning methodologies and controllability, we emphasise the important topics that should have been well explored, like instruction tuning and in-context learning, scaling law and emergent ability, as well as long-sequence modelling etc. A dedicated section presents insights into music agents, accompanied by a thorough analysis of datasets and evaluations essential for pre-training and downstream tasks. Finally, by underscoring the vital importance of ethical considerations, we advocate that following research on FM for music should focus more on such issues as interpretability, transparency, human responsibility, and copyright issues. The paper offers insights into future challenges and trends on FMs for music, aiming to shape the trajectory of human-AI collaboration in the music realm. | 翻訳日:2024-08-28 12:32:32 公開日:2024-08-27 |
# エントロピーからの重力
Gravity from entropy ( http://arxiv.org/abs/2408.14391v2 ) ライセンス: Link先を確認 | Ginestra Bianconi, | (参考訳) 重力はエントロピー作用結合物質場と幾何学から導かれる。
基本的な考え方は、ローレンツ時空の計量を密度行列に関連付けることである。
物質場は時空を曲線とし、物質場によって誘導される計量を定義する。
エントロピー作用は、時空の計量と物質場によって誘導される計量の間の量子相対エントロピーである。
修正されたアインシュタイン方程式は、低結合状態のアインシュタイン方程式に還元された。
理論を単純化するために、専らスカラー物質場を考える。
この理論的な枠組みは、例えばフェルミオン性物質場とゲージ場を含めることで、異なる方向に拡張することができる。
この場の理論の正準量子化は、量子重力に対する新たな洞察をもたらす可能性がある。
Gravity is derived from an entropic action coupling matter fields with geometry. The fundamental idea is to relate the metric of Lorentzian spacetime to a density matrix. The matter fields curve spacetime, defining a metric induced by the matter fields. The entropic action is the quantum relative entropy between the metric of spacetime and the metric induced by the matter fields. The modified Einstein equations obtained reduce to the Einstein equations in the regime of low coupling. To simplify the theory, exclusively scalar matter fields are considered. This theoretical framework can be extended in different directions, for instance by including fermionic matter fields and gauge fields. A canonical quantization of this field theory could bring new insights into quantum gravity. | 翻訳日:2024-08-28 12:32:32 公開日:2024-08-27 |
# 領域分解に基づく非定常・非線形偏微分方程式の自己回帰学習モデル
A domain decomposition-based autoregressive deep learning model for unsteady and nonlinear partial differential equations ( http://arxiv.org/abs/2408.14461v2 ) ライセンス: Link先を確認 | Sheel Nidhan, Haoliang Jiang, Lalit Ghule, Clancy Umphrey, Rishikesh Ranade, Jay Pathak, | (参考訳) 本稿では,非定常・非線形偏微分方程式(PDE)を正確にモデル化するためのドメイン分割型ディープラーニング(DL)フレームワークであるTransient-CoMLSimを提案する。
フレームワークは2つの重要なコンポーネントで構成されています。
(a)畳み込みニューラルネットワーク(CNN)に基づくオートエンコーダアーキテクチャとその実装
(b)完全連結層からなる自己回帰モデル。
計算領域全体で動作する既存の最先端手法とは異なり、我々のCNNベースのオートエンコーダは、サブドメイン上で表現される解場と条件場の低次元基底を計算する。
タイムテッピングは完全に潜時空間で行われ、解変数と条件変数の埋め込みの時間履歴から解変数の埋め込みを生成する。
このアプローチは計算複雑性を低減させるだけでなく、スケーラビリティも向上し、大規模なシミュレーションに適している。
さらに, ロールアウトの安定性を向上させるために, 自己回帰モデルのトレーニングにおいて, カリキュラム学習(CL)アプローチを採用する。
ドメイン分割戦略は、予測の精度を維持しながら、配布外ドメインサイズへのスケーリングを可能にする。
FNO(Fourier Neural Operator)とU-Net(U-Net)という2つの広く使われているDLアーキテクチャに対して、我々のモデルをベンチマークし、我々のフレームワークは、正確性、目に見えないタイムステップへの外挿、幅広いユースケースに対する安定性において、それらよりも優れていることを実証した。
In this paper, we propose a domain-decomposition-based deep learning (DL) framework, named transient-CoMLSim, for accurately modeling unsteady and nonlinear partial differential equations (PDEs). The framework consists of two key components: (a) a convolutional neural network (CNN)-based autoencoder architecture and (b) an autoregressive model composed of fully connected layers. Unlike existing state-of-the-art methods that operate on the entire computational domain, our CNN-based autoencoder computes a lower-dimensional basis for solution and condition fields represented on subdomains. Timestepping is performed entirely in the latent space, generating embeddings of the solution variables from the time history of embeddings of solution and condition variables. This approach not only reduces computational complexity but also enhances scalability, making it well-suited for large-scale simulations. Furthermore, to improve the stability of our rollouts, we employ a curriculum learning (CL) approach during the training of the autoregressive model. The domain-decomposition strategy enables scaling to out-of-distribution domain sizes while maintaining the accuracy of predictions -- a feature not easily integrated into popular DL-based approaches for physics simulations. We benchmark our model against two widely-used DL architectures, Fourier Neural Operator (FNO) and U-Net, and demonstrate that our framework outperforms them in terms of accuracy, extrapolation to unseen timesteps, and stability for a wide range of use cases. | 翻訳日:2024-08-28 12:32:32 公開日:2024-08-27 |
# 大規模言語モデルのパラメータ効率の良い微調整のためのステップバイステップアンマキング
Step-by-Step Unmasking for Parameter-Efficient Fine-tuning of Large Language Models ( http://arxiv.org/abs/2408.14470v2 ) ライセンス: Link先を確認 | Aradhye Agarwal, Suhas K Ramesh, Ayan Sengupta, Tanmoy Chakraborty, | (参考訳) 下流タスク上での微調整大型言語モデル(LLM)は、かなりの計算資源を必要とする。
パラメータ効率細調整(PEFT)のクラスは、モデルパラメータのごく一部だけを選択的に微調整することで、これらの計算課題を軽減することを目的としている。
計算効率は良いが、これらの手法は、パラメータ選択時に導入された固有のバイアスのため、完全に調整されたモデルの性能にマッチしないことが多い。
従来の選択的PEFT技術は、事前に定義された予算(アンマスキングと呼ばれるプロセス)に基づいてパラメータの固定セットを使用し、パラメータの重要性を動的に捉えず、しばしば予算を超える結果になる。
パラメータ選択における探索と利用のバランスをとることでパラメータの重要度を連続的に動的に解き放つ新しいPEFT法である$\text{ID}^3$を導入する。
自然言語理解と生成タスクにまたがる15のタスクに関する実証的研究は,固定マスキングに基づくPEFT手法と比較して,本手法の有効性を実証する。
解析的に、$\text{ID}^3$は勾配更新数を2倍に減らし、計算効率が向上することを示した。
$\text{ID}^3$ はニューロンのランダム初期化に対して堅牢であるため、動的スパース化のためにアダプタやLoRAのような既存の加法および再パラメータ化に基づくPEFTモジュールにシームレスに統合することができる。
Fine-tuning large language models (LLMs) on downstream tasks requires substantial computational resources. A class of parameter-efficient fine-tuning (PEFT) aims to mitigate these computational challenges by selectively fine-tuning only a small fraction of the model parameters. Although computationally efficient, these techniques often fail to match the performance of fully fine-tuned models, primarily due to inherent biases introduced during parameter selection. Traditional selective PEFT techniques use a fixed set of parameters based on a predefined budget (a process also known as unmasking), failing to capture parameter importance dynamically and often ending up exceeding the budget. We introduce $\text{ID}^3$, a novel selective PEFT method that calculates parameter importance continually and dynamically unmasks parameters by balancing exploration and exploitation in parameter selection. Our empirical study on 15 tasks spanning natural language understanding and generative tasks demonstrates the effectiveness of our method compared to fixed-masking-based PEFT techniques. We analytically show that $\text{ID}^3$ reduces the number of gradient updates by a factor of two, enhancing computational efficiency. $\text{ID}^3$ is robust to random initialization of neurons and, therefore, can be seamlessly integrated into existing additive and reparametrization-based PEFT modules such as adapters and LoRA for dynamic sparsification. | 翻訳日:2024-08-28 12:32:32 公開日:2024-08-27 |