このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240808となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# LSST : MR画像のためのシングルショット軌道と再構成ネットワーク
LSST: Learned Single-Shot Trajectory and Reconstruction Network for MR Imaging ( http://arxiv.org/abs/2409.07457v1 ) ライセンス: Link先を確認 | Hemant Kumar Aggarwal, Sudhanya Chatterjee, Dattesh Shanbhag, Uday Patil, K. V. S. Hari, | (参考訳) 単発磁気共鳴(MR)イメージングは単発で全k空間データを取得し、全身イメージングに様々な応用がある。
しかし、単発高速スピンエコー(SSFSE)MR画像におけるk空間全体の長い取得時間は、取得した画像にT2-blurを導入するため、課題となる。
本研究では,SSFSE MR画像の再構成品質の向上を目的とした。
a) k-空間を測定するために軌道を最適化すること。
b) 取得プロセスを高速化するため、サンプルの取得を減らし、
(c)T2-blurの影響を減少させる。
提案手法は, 最大勾配強度とスルーレートによる物理制約に適応し, 終末学習フレームワーク内での軌道の最適化を行う。
8倍と16倍の加速係数を持つ公開されている高速MRIマルチチャネルデータセットで実験を行った。
ACL繊維は比較法よりも鋭いため,5点Quatスケールでの放射線技師の評価は再建品質の向上を示している。
Single-shot magnetic resonance (MR) imaging acquires the entire k-space data in a single shot and it has various applications in whole-body imaging. However, the long acquisition time for the entire k-space in single-shot fast spin echo (SSFSE) MR imaging poses a challenge, as it introduces T2-blur in the acquired images. This study aims to enhance the reconstruction quality of SSFSE MR images by (a) optimizing the trajectory for measuring the k-space, (b) acquiring fewer samples to speed up the acquisition process, and (c) reducing the impact of T2-blur. The proposed method adheres to physics constraints due to maximum gradient strength and slew-rate available while optimizing the trajectory within an end-to-end learning framework. Experiments were conducted on publicly available fastMRI multichannel dataset with 8-fold and 16-fold acceleration factors. An experienced radiologist's evaluation on a five-point Likert scale indicates improvements in the reconstruction quality as the ACL fibers are sharper than comparative methods. | 翻訳日:2024-09-15 05:11:34 公開日:2024-08-08 |
# インフォーマルな反例駆動型遺伝的プログラミングにおける世代計算の削減
Generational Computation Reduction in Informal Counterexample-Driven Genetic Programming ( http://arxiv.org/abs/2408.12604v1 ) ライセンス: Link先を確認 | Thomas Helmuth, Edward Pantridge, James Gunder Frazier, Lee Spector, | (参考訳) 逆example-driven genetic programming(CDGP)は、進化するプログラムを評価するために使用されるトレーニングケースを生成するために、形式的な制約として提供される仕様を使用する。
また、形式的な制約とユーザが提供するトレーニングデータを組み合わせて、シンボリック回帰問題を解決するように拡張されている。
ここでは,CDGPの基礎となる考え方を,正式な仕様なしでユーザが提供するトレーニングデータのみを用いて適用する方法を示す。
ソフトウェア合成問題に対する 'informal CDGP' という手法の適用例を示す。
以上の結果から,CDGPは標準GPよりも高速(プログラム実行が少ない)な解を求めることが明らかとなった。
さらに、非公式なCDGPに対して2つの新しい変種を提案する。
最後に, トレーニングセットの静的サブサンプルに対して, 非公式CDGPを比較することで, トレーニングセットへの逆例トレーニングケースの追加が有用であるかどうかを検討した。
Counterexample-driven genetic programming (CDGP) uses specifications provided as formal constraints to generate the training cases used to evaluate evolving programs. It has also been extended to combine formal constraints and user-provided training data to solve symbolic regression problems. Here we show how the ideas underlying CDGP can also be applied using only user-provided training data, without formal specifications. We demonstrate the application of this method, called ``informal CDGP,'' to software synthesis problems. Our results show that informal CDGP finds solutions faster (i.e. with fewer program executions) than standard GP. Additionally, we propose two new variants to informal CDGP, and find that one produces significantly more successful runs on about half of the tested problems. Finally, we study whether the addition of counterexample training cases to the training set is useful by comparing informal CDGP to using a static subsample of the training set, and find that the addition of counterexamples significantly improves performance. | 翻訳日:2024-09-01 17:12:14 公開日:2024-08-08 |
# 肺疾患の予測モデルのための畳み込みニューラルネットワーク
Convolutional Neural Networks for Predictive Modeling of Lung Disease ( http://arxiv.org/abs/2408.12605v1 ) ライセンス: Link先を確認 | Yingbin Liang, Xiqing Liu, Haohao Xia, Yiru Cang, Zitao Zheng, Yuanfang Yang, | (参考訳) 本稿では,HRNetとヴォイド畳み込み技術を組み合わせた革新的モデルであるPro-HRnet-CNNを提案する。
LIDC-IDRIデータセットを用いた実験により,従来のResNet-50と比較すると,Pro-HRnet-CNNは小型結節の特徴抽出および認識性能が向上し,検出精度が大幅に向上した。
特に、より小さな標的を検出する領域において、このモデルは精度を著しく向上させ、肺疾患の早期同定と予後の革新的な道の先駆者となった。
In this paper, Pro-HRnet-CNN, an innovative model combining HRNet and void-convolution techniques, is proposed for disease prediction under lung imaging. Through the experimental comparison on the authoritative LIDC-IDRI dataset, we found that compared with the traditional ResNet-50, Pro-HRnet-CNN showed better performance in the feature extraction and recognition of small-size nodules, significantly improving the detection accuracy. Particularly within the domain of detecting smaller targets, the model has exhibited a remarkable enhancement in accuracy, thereby pioneering an innovative avenue for the early identification and prognostication of pulmonary conditions. | 翻訳日:2024-09-01 17:12:14 公開日:2024-08-08 |
# マルチパラメトリックMRIによる乳癌患者の非侵襲的・パーソナライズドマネージメントに向けて
Towards Non-invasive and Personalized Management of Breast Cancer Patients from Multiparametric MRI via A Large Mixture-of-Modality-Experts Model ( http://arxiv.org/abs/2408.12606v1 ) ライセンス: Link先を確認 | Luyang Luo, Mingxiang Wu, Mei Li, Yi Xin, Qiong Wang, Varut Vardhanabhuti, Winnie CW Chu, Zhenhui Li, Juan Zhou, Pranav Rajpurkar, Hao Chen, | (参考訳) 乳腺MRI(英: Breast magnetic resonance imaging, MRI)は、乳がんの検出に最も敏感な撮像技術であり、高リスクの女性に日常的に使用される。
乳房MRIの包括的マルチパラメトリックプロトコルにもかかわらず、既存の人工知能に基づく研究は主に単一のシーケンスに依存しており、検証は限られている。
本稿では,マルチパラメトリックMRI情報を統一された構造に統合したMOME(Mixix-of-modality-experts model)を報告する。
我々は,中国北部,南東,南西の3つの病院から5,205人の患者を対象とし,このモデルの開発と広範囲な評価を行う,最大規模のマルチパラメトリック乳房MRIデータセットを収集した。
MOMEは乳癌の正確かつ堅牢な同定を証明した。
4名の放射線科医に比較して悪性度判定の成績は良好で, 0.913 AUROC, 0.948 AUPRC, 0.905 F1スコア, 0.723 MCC で成績は良好であった。
以上の結果から, BI-RADS 4症例の生検の必要性は7.3%, AUROCが0.709, AUROCが0.694, MOMEが0.694であった。
このモデルは、スケーラブルで解釈可能な推論をサポートし、モダリティの欠如に適応し、病変を強調し、モダリティの寄与を測定することで決定的な説明を提供する。
MOMEは、差別的で、堅牢で、スケーラブルで、解釈可能なマルチモーダルモデルを示し、マルチパラメトリックな乳がん画像データに基づく、非侵襲的でパーソナライズドな乳がん患者の管理の道を開く。
Breast magnetic resonance imaging (MRI) is the imaging technique with the highest sensitivity for detecting breast cancer and is routinely used for women at high risk. Despite the comprehensive multiparametric protocol of breast MRI, existing artificial intelligence-based studies predominantly rely on single sequences and have limited validation. Here we report a large mixture-of-modality-experts model (MOME) that integrates multiparametric MRI information within a unified structure, offering a noninvasive method for personalized breast cancer management. We have curated the largest multiparametric breast MRI dataset, involving 5,205 patients from three hospitals in the north, southeast, and southwest of China, for the development and extensive evaluation of our model. MOME demonstrated accurate and robust identification of breast cancer. It achieved comparable performance for malignancy recognition to that of four senior radiologists and significantly outperformed a junior radiologist, with 0.913 AUROC, 0.948 AUPRC, 0.905 F1 score, and 0.723 MCC. Our findings suggest that MOME could reduce the need for biopsies in BI-RADS 4 patients with a ratio of 7.3%, classify triple-negative breast cancer with an AUROC of 0.709, and predict pathological complete response to neoadjuvant chemotherapy with an AUROC of 0.694. The model further supports scalable and interpretable inference, adapting to missing modalities and providing decision explanations by highlighting lesions and measuring modality contributions. MOME exemplifies a discriminative, robust, scalable, and interpretable multimodal model, paving the way for noninvasive, personalized management of breast cancer patients based on multiparametric breast imaging data. | 翻訳日:2024-09-01 17:12:14 公開日:2024-08-08 |
# インタラクティブな実験設計:冷却システムの最適化
Interactive Design-of-Experiments: Optimizing a Cooling System ( http://arxiv.org/abs/2408.12607v1 ) ライセンス: Link先を確認 | Rainer Splechtna, Majid Behravan, Mario Jelovic, Denis Gracanin, Helwig Hauser, Kresimir Matkovic, | (参考訳) 冷却システムの最適化は、例えば電気自動車のキャビンやバッテリ冷却など、多くの場合において重要である。
このような最適化は複数の矛盾する目的によって制御され、多次元のパラメータ空間で実行される。
パラメータ空間の範囲、システムの非線形モデルの複雑さ、シミュレーションの実行に要する時間、シミュレーションでモデル化されていない要素は、反復的で半自動的なアプローチを必要とする。
本稿では,ユーザがp-hダイアグラムを使って反復的かつガイド付き最適化プロセスを実行する,インタラクティブなビジュアル最適化手法を提案する。
深層学習(DL)モデルでは,対象とするシステムの特性を推定し,パラメータ集合のアンサンブルのシステム特性を数値シミュレーションで計算する。
DLモデルは冷却システムの逆の近似としてのみ機能し、異なる競合する目的に応じて目標特性を選択することができるため、反復最適化プロセスが実現され、視覚的に関係のある複数の中間解が開発される。
標準的なp-h図は、このアプローチにインタラクティブに統合され、システム特性を表す追加の表現的尺度の二重かつインタラクティブな視覚表現によって補完される。
p-h図の既知の4点意味が、どのように二重データ表現に有意に伝達するかを示す。
自動車分野におけるこのアプローチの評価において,我々の解法は冷却システムの全体的な理解に役立ち,最適化時により高速な収束につながることがわかった。
The optimization of cooling systems is important in many cases, for example for cabin and battery cooling in electric cars. Such an optimization is governed by multiple, conflicting objectives and it is performed across a multi-dimensional parameter space. The extent of the parameter space, the complexity of the non-linear model of the system, as well as the time needed per simulation run and factors that are not modeled in the simulation necessitate an iterative, semi-automatic approach. We present an interactive visual optimization approach, where the user works with a p-h diagram to steer an iterative, guided optimization process. A deep learning (DL) model provides estimates for parameters, given a target characterization of the system, while numerical simulation is used to compute system characteristics for an ensemble of parameter sets. Since the DL model only serves as an approximation of the inverse of the cooling system and since target characteristics can be chosen according to different, competing objectives, an iterative optimization process is realized, developing multiple sets of intermediate solutions, which are visually related to each other. The standard p-h diagram, integrated interactively in this approach, is complemented by a dual, also interactive visual representation of additional expressive measures representing the system characteristics. We show how the known four-points semantic of the p-h diagram meaningfully transfers to the dual data representation. When evaluating this approach in the automotive domain, we found that our solution helped with the overall comprehension of the cooling system and that it lead to a faster convergence during optimization. | 翻訳日:2024-09-01 17:12:14 公開日:2024-08-08 |
# 連続多変量時間データの教師なし分類のためのフラガアルスパイクニューラルネットワーク
A frugal Spiking Neural Network for unsupervised classification of continuous multivariate temporal data ( http://arxiv.org/abs/2408.12608v1 ) ライセンス: Link先を確認 | Sai Deepesh Pokala, Marie Bernert, Takuya Nanami, Takashi Kohno, Timothée Lévi, Blaise Yvert, | (参考訳) 神経インタフェースが進歩するにつれて、ニューラルデータ記録のボリュームと複雑さが増大している。
これらのインターフェースは、ニューラルネットワークのパターンを自発的に抽出し解釈するために、効率的なリアルタイム処理アルゴリズムを要求する神経力学に関する豊富な情報をキャプチャする。
さらに、膨大なニューラルネットワークストリームのパターンが人間の目で容易に識別できないため、完全に教師なしの方法でそれを行うことが可能であることは、極めて重要である。
様々な静的およびシーケンシャルなパターン認識アプリケーションのためにパターン認識タスクを実行する上で、フォーマルディープニューラルネットワーク(DNN)は長い道のりを歩んでいる。
しかしながら、これらのネットワークは通常、トレーニングのために大きなラベル付きデータセットを必要とし、将来の脳インプラントへの埋め込みを防ぐために高い消費電力を持つ。
これらの問題に対処する別の方法として、神経型であり、進化する膜電位を持つより生物学的に可塑性なニューロンを使用するSpking Neural Networks (SNN)がある。
ここでは、連続データにおける多変量時間パターンの完全な教師なし識別と分類を、逐次的アプローチで行うために設計されたフラジアル単層SNNを紹介する。
少数のニューロンしか持たないこの戦略は,まず模擬データから,次に音声のメルケプストラム表現,最後にはマルチチャネルニューラルデータにおいて,重なり合う多変量時間パターンの認識に有効であることを示す。
このアプローチは、スパイク刺激依存性可塑性(STDP)、短期可塑性(STP)、本質的可塑性(IP)など、生物学的にインスパイアされた可塑性規則に依存している。
これらの結果から,複雑な多変量時間パターンの完全教師なしおよびオンライン互換学習のための,高自由度SNNへの道を開いた。
As neural interfaces become more advanced, there has been an increase in the volume and complexity of neural data recordings. These interfaces capture rich information about neural dynamics that call for efficient, real-time processing algorithms to spontaneously extract and interpret patterns of neural dynamics. Moreover, being able to do so in a fully unsupervised manner is critical as patterns in vast streams of neural data might not be easily identifiable by the human eye. Formal Deep Neural Networks (DNNs) have come a long way in performing pattern recognition tasks for various static and sequential pattern recognition applications. However, these networks usually require large labeled datasets for training and have high power consumption preventing their future embedding in active brain implants. An alternative aimed at addressing these issues are Spiking Neural Networks (SNNs) which are neuromorphic and use more biologically plausible neurons with evolving membrane potentials. In this context, we introduce here a frugal single-layer SNN designed for fully unsupervised identification and classification of multivariate temporal patterns in continuous data with a sequential approach. We show that, with only a handful number of neurons, this strategy is efficient to recognize highly overlapping multivariate temporal patterns, first on simulated data, and then on Mel Cepstral representations of speech sounds and finally on multichannel neural data. This approach relies on several biologically inspired plasticity rules, including Spike-timing-dependent plasticity (STDP), Short-term plasticity (STP) and intrinsic plasticity (IP). These results pave the way towards highly frugal SNNs for fully unsupervised and online-compatible learning of complex multivariate temporal patterns for future embedding in dedicated very-low power hardware. | 翻訳日:2024-09-01 17:12:14 公開日:2024-08-08 |
# 制御推論と状態空間ダイナミクスによるマルチエージェント軌道の高次予測
Enhanced Prediction of Multi-Agent Trajectories via Control Inference and State-Space Dynamics ( http://arxiv.org/abs/2408.12609v1 ) ライセンス: Link先を確認 | Yu Zhang, Yongxiang Zou, Haoyu Zhang, Zeyu Liu, Houcheng Li, Long Cheng, | (参考訳) 自律システムの分野では、近隣の車や歩行者の軌道を正確に予測することが安全性と運転効率の両立に不可欠である。
本稿では,状態空間の動的システムモデリングに基づくトラジェクティブ予測手法を提案する。
動的システムにおける状態推定の精度を高めるために,制御変数に対する新しいモデリング手法を提案する。
この手法は"Mixed Mamba"と呼ばれる新しいモデルを用いて初期制御状態の導出を行い、これらの変数の予測精度を向上させる。
提案するアプローチであるMoveroverは、グラフニューラルネットワークと状態空間モデルを統合することによって、マルチエージェントインタラクションの複雑さを効果的にキャプチャする。
この組み合わせは、さまざまなシナリオにわたるマルチエージェントトラジェクトリを予測する、堅牢でスケーラブルなフレームワークを提供する。
総合的な評価は、このモデルが様々なメトリクスやデータセットにまたがるいくつかの確立したベンチマークを上回り、自律システムにおける軌道予測を前進させる大きな可能性を浮き彫りにしていることを示している。
In the field of autonomous systems, accurately predicting the trajectories of nearby vehicles and pedestrians is crucial for ensuring both safety and operational efficiency. This paper introduces a novel methodology for trajectory forecasting based on state-space dynamic system modeling, which endows agents with models that have tangible physical implications. To enhance the precision of state estimations within the dynamic system, the paper also presents a novel modeling technique for control variables. This technique utilizes a newly introduced model, termed "Mixed Mamba," to derive initial control states, thereby improving the predictive accuracy of these variables. Moverover, the proposed approach ingeniously integrates graph neural networks with state-space models, effectively capturing the complexities of multi-agent interactions. This combination provides a robust and scalable framework for forecasting multi-agent trajectories across a range of scenarios. Comprehensive evaluations demonstrate that this model outperforms several established benchmarks across various metrics and datasets, highlighting its significant potential to advance trajectory forecasting in autonomous systems. | 翻訳日:2024-09-01 17:12:14 公開日:2024-08-08 |
# ジェネレーティブAIを使って標準化作業を支援する - 3GPPの場合
Using generative AI to support standardization work -- the case of 3GPP ( http://arxiv.org/abs/2408.12611v1 ) ライセンス: Link先を確認 | Miroslaw Staron, Jonathan Strom, Albin Karlsson, Wilhelm Meding, | (参考訳) 標準化プロセスは、意見の相違点を特定し、解決する能力に依存するパートナー間の合意に基づいて構築される。
3GPPやISOのような大規模な標準化組織は、不一致を正しくかつ効率的に識別し、議論し、合意に達することができる作業パッケージのリーダーに依存しています。
しかし、この仕事は労働集約的でコストがかかる。
本稿では,大規模言語モデルを用いて類似点,相違点,議論点を同定する問題に対処する。
デザインサイエンス研究において、我々は3GPP標準における複数のワークグループをリードする組織の1つと協働する。
私たちのゴールは、言語モデルがよりコスト効率が高く、より高速で、より信頼性の高いものにすることで、標準化プロセスをどのようにサポートできるかを理解することです。
本結果から,テキスト要約のための汎用モデルは,ドメインエキスパートとデリゲートのアセスメント(ピアソンの0.66と0.98の相関関係)とよく相関するが,標準化グループのためのより良い議論資料を提供するためには,ドメイン固有モデルが必要であることが示唆された。
Standardization processes build upon consensus between partners, which depends on their ability to identify points of disagreement and resolving them. Large standardization organizations, like the 3GPP or ISO, rely on leaders of work packages who can correctly, and efficiently, identify disagreements, discuss them and reach a consensus. This task, however, is effort-, labor-intensive and costly. In this paper, we address the problem of identifying similarities, dissimilarities and discussion points using large language models. In a design science research study, we work with one of the organizations which leads several workgroups in the 3GPP standard. Our goal is to understand how well the language models can support the standardization process in becoming more cost-efficient, faster and more reliable. Our results show that generic models for text summarization correlate well with domain expert's and delegate's assessments (Pearson correlation between 0.66 and 0.98), but that there is a need for domain-specific models to provide better discussion materials for the standardization groups. | 翻訳日:2024-09-01 17:12:14 公開日:2024-08-08 |
# 選挙における人工知能の認知的利用はAI禁止を支持している
Deceptive uses of Artificial Intelligence in elections strengthen support for AI ban ( http://arxiv.org/abs/2408.12613v1 ) ライセンス: Link先を確認 | Andreas Jungherr, Adrian Rauchfleisch, Alexander Wuttke, | (参考訳) 世界中の政党、政治家、キャンペーンは人工知能(AI)が選挙に勝つ方法を探っている。
しかし、これらの活動の影響は不明である。
本稿では,AIが選挙に与える影響を評価するためのフレームワークを提案する。
AIの選挙的利用は様々であり、さまざまなレベルの懸念と規制監督の必要性がある。
この多様性を説明するために、私たちはAI対応のキャンペーン利用を、キャンペーンオペレーション、投票者アウトリーチ、詐欺の3つのカテゴリにグループ化します。
この枠組みを用いて、米国人が選挙におけるAIについてどう考えるか、特定のキャンペーン選択の影響について、事前登録された代表調査と2つの事前登録された実験から、最初の体系的な証拠を提供する。
有意な発見は3つある。
1) 公民は,選挙における異なるAIの使用を区別し,AIが主に否定的だが,最も詐欺的使用に強く反対するのを見る。
2 AI実践は、関連する態度に悪影響を及ぼし、AI開発を止めるための公的支援を強化することができる。
3) 疑わしいAIの選挙的利用は激しく嫌われているが, 当事者に対する実質的な優遇罰にはならない。
詐欺行為とその外部性に対するインセンティブの誤った調整がある。
AIによる騙しから戦術上の優位性を防げるほど強いインセンティブを、世論にあてはめることはできない。
規制の監視と、AIの選挙的利用の体系的な外部監視の必要性がある。
それでも規制当局は、AIの使用の多様性を考慮に入れるべきであり、選挙人による使用を完全に非インセンティブにすべきではない。
All over the world, political parties, politicians, and campaigns explore how Artificial Intelligence (AI) can help them win elections. However, the effects of these activities are unknown. We propose a framework for assessing AI's impact on elections by considering its application in various campaigning tasks. The electoral uses of AI vary widely, carrying different levels of concern and need for regulatory oversight. To account for this diversity, we group AI-enabled campaigning uses into three categories -- campaign operations, voter outreach, and deception. Using this framework, we provide the first systematic evidence from a preregistered representative survey and two preregistered experiments (n=7,635) on how Americans think about AI in elections and the effects of specific campaigning choices. We provide three significant findings. 1) the public distinguishes between different AI uses in elections, seeing AI uses predominantly negative but objecting most strongly to deceptive uses; 2) deceptive AI practices can have adverse effects on relevant attitudes and strengthen public support for stopping AI development; 3) Although deceptive electoral uses of AI are intensely disliked, they do not result in substantial favorability penalties for the parties involved. There is a misalignment of incentives for deceptive practices and their externalities. We cannot count on public opinion to provide strong enough incentives for parties to forgo tactical advantages from AI-enabled deception. There is a need for regulatory oversight and systematic outside monitoring of electoral uses of AI. Still, regulators should account for the diversity of AI uses and not completely disincentivize their electoral use. | 翻訳日:2024-09-01 17:12:14 公開日:2024-08-08 |
# Image-Feature Weak-to-Strong Consistency:半教師付き学習のための拡張パラダイム
Image-Feature Weak-to-Strong Consistency: An Enhanced Paradigm for Semi-Supervised Learning ( http://arxiv.org/abs/2408.12614v1 ) ライセンス: Link先を確認 | Zhiyu Wu, Jinshi Cui, | (参考訳) Image-level weak-to-strong consistencyは、半教師付き学習(SSL)において、その単純さと印象的なパフォーマンスのために、主要なパラダイムである。
それにもかかわらず、このアプローチはすべての摂動をイメージレベルに制限し、ナイーブサンプルの過剰な存在に苦しむため、さらなる改善が必要である。
本稿では,多彩な強度と形状を持つ特徴レベルの摂動を導入し,拡張空間を拡大し,画像特徴の弱いストロング整合性パラダイムを確立する。
さらに,本パラダイムでは,2種類の摂動間の相互作用を促進する3重分岐構造を構築し,そのシナジーを高める。
さらに,本研究では, ナイーブサンプルと課題サンプルを区別する信頼性に基づく識別戦略を提案し, ナイーブサンプルのみに新たな課題を提起する。
特に、我々のパラダイムは既存のSSLメソッドとシームレスに統合できます。
提案手法をいくつかの代表的なアルゴリズムに適用し、ラベル付きサンプルに対するバランスの取れた分布と不均衡な分布を含む複数のベンチマークで実験を行う。
その結果,既存のSSLアルゴリズムの性能が大幅に向上した。
Image-level weak-to-strong consistency serves as the predominant paradigm in semi-supervised learning~(SSL) due to its simplicity and impressive performance. Nonetheless, this approach confines all perturbations to the image level and suffers from the excessive presence of naive samples, thus necessitating further improvement. In this paper, we introduce feature-level perturbation with varying intensities and forms to expand the augmentation space, establishing the image-feature weak-to-strong consistency paradigm. Furthermore, our paradigm develops a triple-branch structure, which facilitates interactions between both types of perturbations within one branch to boost their synergy. Additionally, we present a confidence-based identification strategy to distinguish between naive and challenging samples, thus introducing additional challenges exclusively for naive samples. Notably, our paradigm can seamlessly integrate with existing SSL methods. We apply the proposed paradigm to several representative algorithms and conduct experiments on multiple benchmarks, including both balanced and imbalanced distributions for labeled samples. The results demonstrate a significant enhancement in the performance of existing SSL algorithms. | 翻訳日:2024-09-01 17:12:14 公開日:2024-08-08 |
# GPT-4モデルは誤認の可視化を検出できるか?
Can GPT-4 Models Detect Misleading Visualizations? ( http://arxiv.org/abs/2408.12617v1 ) ライセンス: Link先を確認 | Jason Alexander, Priyal Nanda, Kai-Cheng Yang, Ali Sarvghad, | (参考訳) オンライン上での誤解を招く可視化の拡散、特に公衆衛生の危機や選挙といった重要な出来事では、大きなリスクが生じる。
本研究では, GPT-4 モデル (4V, 4o, 4o mini) の誤認を検知する能力について検討した。
様々な視覚的ミスリーダーを含むツイート・ビジュアル化ペアのデータセットを用いて、異なるレベルのガイダンスを持つ4つの実験条件下でこれらのモデルを検証した。
GPT-4モデルでは,事前トレーニング(ゼロショットを含む)を行わずに,ある程度の精度で誤誘導可視化を検出でき,ミスリーダーの定義(ゼロショットの誘導)が提供されると,性能が著しく向上することを示す。
しかしながら、単一のプロンプトエンジニアリング技術は、すべてのミスリーダータイプに最高の結果をもたらすわけではない。
具体的には、モデルにミスリーダの定義と例(ガイド付き数発)を提供することで、ミスリーダを推論する上でより効果的であることを証明し、ガイド付きゼロショットは設計ミスリーダにとってより良いパフォーマンスを発揮する。
本研究は、視覚的誤報を検出するために大きな視覚言語モデルを使用することの可能性と、検出精度を最適化するためのプロンプトエンジニアリングの重要性を明らかにする。
The proliferation of misleading visualizations online, particularly during critical events like public health crises and elections, poses a significant risk. This study investigates the capability of GPT-4 models (4V, 4o, and 4o mini) to detect misleading visualizations. Utilizing a dataset of tweet-visualization pairs containing various visual misleaders, we test these models under four experimental conditions with different levels of guidance. We show that GPT-4 models can detect misleading visualizations with moderate accuracy without prior training (naive zero-shot) and that performance notably improves when provided with definitions of misleaders (guided zero-shot). However, a single prompt engineering technique does not yield the best results for all misleader types. Specifically, providing the models with misleader definitions and examples (guided few-shot) proves more effective for reasoning misleaders, while guided zero-shot performs better for design misleaders. This study underscores the feasibility of using large vision-language models to detect visual misinformation and the importance of prompt engineering for optimized detection accuracy. | 翻訳日:2024-09-01 17:02:13 公開日:2024-08-08 |
# UWBの進歩:医療施設におけるデータネットワークの整備
Advancements in UWB: Paving the Way for Sovereign Data Networks in Healthcare Facilities ( http://arxiv.org/abs/2408.13124v1 ) ライセンス: Link先を確認 | Khan Reaz, Thibaud Ardoin, Lea Muth, Marian Margraf, Gerhard Wunder, Mahsa Kholghi, Kai Jansen, Christian Zenger, Julian Schmidt, Enrico Köppe, Zoran Utkovski, Igor Bjelakovic, Mathis Schmieder, Olaf Dressel, | (参考訳) ウルトラワイドバンド(UWB)技術は、精密なマイクロロケーション機能とロバスト性を備えた画期的な技術として再開発されている。
本稿では,UWB技術のセキュリティ面,特に認証のためのデバイス指紋認証の複雑さに注目し,最先端のディープラーニング技術のレンズを通して検討する。
さらに、主権的なUWBデータネットワークを実現することができるUWB標準の様々な拡張について検討する。
UWBデータ通信は、一般的な2.4〜GHz帯無線技術の使用が制限または禁止されている医療や超セキュア環境において大きな可能性を秘めていると我々は主張する。
主権のあるUWBネットワークは、そのような環境で安全なローカライゼーションと短距離データ通信を提供する代替手段として機能する可能性がある。
Ultra-Wideband (UWB) technology re-emerges as a groundbreaking ranging technology with its precise micro-location capabilities and robustness. This paper highlights the security dimensions of UWB technology, focusing in particular on the intricacies of device fingerprinting for authentication, examined through the lens of state-of-the-art deep learning techniques. Furthermore, we explore various potential enhancements to the UWB standard that could realize a sovereign UWB data network. We argue that UWB data communication holds significant potential in healthcare and ultra-secure environments, where the use of the common unlicensed 2.4~GHz band-centric wireless technology is limited or prohibited. A sovereign UWB network could serve as an alternative, providing secure localization and short-range data communication in such environments. | 翻訳日:2024-09-01 17:02:13 公開日:2024-08-08 |
# 想像された未来における誤った技術ソリューション:研究コミュニティにおけるAIハイプの起源と危険
Misrepresented Technological Solutions in Imagined Futures: The Origins and Dangers of AI Hype in the Research Community ( http://arxiv.org/abs/2408.15244v1 ) ライセンス: Link先を確認 | Savannah Thais, | (参考訳) 技術の発展、メディアの表現、公共の認識、そして政府の規制は、技術能力、ユーティリティ、リスクの集合的理解を生み出すために互いに循環的に影響を及ぼす。
これらの能力が過度に見積もられると、公衆を危険または有害な技術に従属させ、研究開発の方向を人為的に制限し、誤ったまたは有害な政策を可能にするリスクが高まる。
技術的ハイプの危険性は、AIの急速に進化する領域に特に関係している。
研究コミュニティをハイプの発展と普及の鍵となるものとして、研究コミュニティや社会に対するAIハイプの起源とリスクをより広く検討し、研究者、規制当局、そして一般大衆がこれらのリスクを緩和し、その技術に関する根拠のない主張の頻度を下げるための一連の措置を提案する。
Technology does not exist in a vacuum; technological development, media representation, public perception, and governmental regulation cyclically influence each other to produce the collective understanding of a technology's capabilities, utilities, and risks. When these capabilities are overestimated, there is an enhanced risk of subjecting the public to dangerous or harmful technology, artificially restricting research and development directions, and enabling misguided or detrimental policy. The dangers of technological hype are particularly relevant in the rapidly evolving space of AI. Centering the research community as a key player in the development and proliferation of hype, we examine the origins and risks of AI hype to the research community and society more broadly and propose a set of measures that researchers, regulators, and the public can take to mitigate these risks and reduce the prevalence of unfounded claims about the technology. | 翻訳日:2024-09-01 16:52:18 公開日:2024-08-08 |
# FPGAプラットフォームを用いた鉄道故障検出のためのエッジAIシステム
An Edge AI System Based on FPGA Platform for Railway Fault Detection ( http://arxiv.org/abs/2408.15245v1 ) ライセンス: Link先を確認 | Jiale Li, Yulin Fu, Dongwei Yan, Sean Longyu Ma, Chiu-Wing Sham, | (参考訳) 鉄道交通の安全性の要求が高まるにつれ、従来の鉄道検査法は現代の鉄道システムのニーズに合わないものとなった。
本研究では,鉄道故障検出における自動化と効率の課題に対処するため,FPGA(Field Programmable Gate Array)に基づく鉄道検査システムを提案する。
このエッジAIシステムは、カメラを介して画像を収集し、Convolutional Neural Networks(CNN)を使用して、トラック欠陥のリアルタイム検出を行い、障害情報を自動報告する。
このシステムのイノベーションは、その高度な自動化と検出効率にある。
このシステムで使用されるニューラルネットワークアプローチは、88.9%の精度を実現し、検出の信頼性と効率を大幅に向上させる。
実験により、FPGAベースのシステムは、それぞれGPUとCPUプラットフォーム上でのピア実装よりもエネルギー効率が1.39*と4.67*であることが示された。
As the demands for railway transportation safety increase, traditional methods of rail track inspection no longer meet the needs of modern railway systems. To address the issues of automation and efficiency in rail fault detection, this study introduces a railway inspection system based on Field Programmable Gate Array (FPGA). This edge AI system collects track images via cameras and uses Convolutional Neural Networks (CNN) to perform real-time detection of track defects and automatically reports fault information. The innovation of this system lies in its high level of automation and detection efficiency. The neural network approach employed by this system achieves a detection accuracy of 88.9%, significantly enhancing the reliability and efficiency of detection. Experimental results demonstrate that this FPGA-based system is 1.39* and 4.67* better in energy efficiency than peer implementation on the GPU and CPU platform, respectively. | 翻訳日:2024-09-01 16:52:18 公開日:2024-08-08 |
# ブロックチェーンシステムに基づく暗号取引所のハッシュアルゴリズムの性能評価
Evaluation of Hash Algorithm Performance for Cryptocurrency Exchanges Based on Blockchain System ( http://arxiv.org/abs/2408.11950v1 ) ライセンス: Link先を確認 | Abel C. H. Chen, | (参考訳) ブロックチェーンシステムは近年,特に暗号通貨やスマートコントラクトといったアプリケーションやサービスにおいて,研究の焦点の1つとして現れています。
このコンテキストでは、ハッシュ値はブロックチェーン内のブロックをリンクする上で重要な要素として機能し、ブロック内容の整合性を保証する。
したがって、ハッシュアルゴリズムはブロックチェーンシステムの完全性とセキュリティを保証するための重要なセキュリティ技術である。
本研究は主に,ブロックチェーンシステム内のPoW(Proof of Work)計算における主流ハッシュアルゴリズムのセキュリティと実行効率の分析に重点を置いている。
評価係数を提案し,各ハッシュアルゴリズムを評価するための比較実験を行う。
実験の結果, SHA-2, SHA-3, BLAKE2のセキュリティ面に有意差は認められなかった。
しかし、SHA-2とBLAKE2は計算時間を短くし、実行効率が向上したことを示している。
The blockchain system has emerged as one of the focal points of research in recent years, particularly in applications and services such as cryptocurrencies and smart contracts. In this context, the hash value serves as a crucial element in linking blocks within the blockchain, ensuring the integrity of block contents. Therefore, hash algorithms represent a vital security technology for ensuring the integrity and security of blockchain systems. This study primarily focuses on analyzing the security and execution efficiency of mainstream hash algorithms in the Proof of Work (PoW) calculations within blockchain systems. It proposes an evaluation factor and conducts comparative experiments to evaluate each hash algorithm. The experimental results indicate that there are no significant differences in the security aspects among SHA-2, SHA-3, and BLAKE2. However, SHA-2 and BLAKE2 demonstrate shorter computation times, indicating higher efficiency in execution. | 翻訳日:2024-08-25 13:51:32 公開日:2024-08-08 |
# 運転意図予測のための仮面脳波モデリング
Masked EEG Modeling for Driving Intention Prediction ( http://arxiv.org/abs/2408.07083v1 ) ライセンス: Link先を確認 | Jinzhao Zhou, Justin Sia, Yiqun Duan, Yu-Cheng Chang, Yu-Kai Wang, Chin-Teng Lin, | (参考訳) 眠気条件下での運転は、車両事故のリスクを著しく増大させる。
最近の研究は、脳波を使って眠気を検知し、運転による事故を防ぐことに重点を置いているが、運転シナリオにおけるシームレスな人間と機械の相互作用には、より汎用的な脳波ベースのシステムが必要である。
このシステムは、急激な動きによって引き起こされたアーティファクトにレジリエンスを示すとともに、運転者の意図を理解することができるべきである。
本稿では、BCI支援運転における新しい研究方向の開拓、運転意図に関連する神経パターンの研究、運転意図予測のための新しい方法を提案する。
特に, 独立成分分析を用いた脳波信号の予備解析では, 運転意図と中枢前頭葉と頭頂部における神経活動との密接な関係が示唆された。
群レベルでのパワースペクトル密度解析は、周波数領域における様々な駆動意図の顕著な区別も示している。
これらの脳のダイナミクスを活用するために,左旋回,右旋回,ストレート進行といった人間の運転意図を予測する新しい脳波モデリングフレームワークを提案する。
公共データセットの総合的量的および質的評価を含む広範囲な実験により、提案手法は様々な警戒状態における運転意図を予測するのに十分であることを示す。
具体的には,ドロージー運転に関する交通事故の軽減に期待できる可能性を示す,ドロージー運転者の運転意図の予測において,85.19%の精度が得られた。
特に,提案手法は,半数以上のチャネルが失われたり破損した場合の75%以上の精度を維持し,実生活運転における適応性を裏付けるものである。
Driving under drowsy conditions significantly escalates the risk of vehicular accidents. Although recent efforts have focused on using electroencephalography to detect drowsiness, helping prevent accidents caused by driving in such states, seamless human-machine interaction in driving scenarios requires a more versatile EEG-based system. This system should be capable of understanding a driver's intention while demonstrating resilience to artifacts induced by sudden movements. This paper pioneers a novel research direction in BCI-assisted driving, studying the neural patterns related to driving intentions and presenting a novel method for driving intention prediction. In particular, our preliminary analysis of the EEG signal using independent component analysis suggests a close relation between the intention of driving maneuvers and the neural activities in central-frontal and parietal areas. Power spectral density analysis at a group level also reveals a notable distinction among various driving intentions in the frequency domain. To exploit these brain dynamics, we propose a novel Masked EEG Modeling framework for predicting human driving intentions, including the intention for left turning, right turning, and straight proceeding. Extensive experiments, encompassing comprehensive quantitative and qualitative assessments on public dataset, demonstrate the proposed method is proficient in predicting driving intentions across various vigilance states. Specifically, our model attains an accuracy of 85.19% when predicting driving intentions for drowsy subjects, which shows its promising potential for mitigating traffic accidents related to drowsy driving. Notably, our method maintains over 75% accuracy when more than half of the channels are missing or corrupted, underscoring its adaptability in real-life driving. | 翻訳日:2024-08-15 15:18:29 公開日:2024-08-08 |
# ダイナミックハイパーグラフによるシークエンシャル医療訪問の予測
Dynamic Hypergraph-Enhanced Prediction of Sequential Medical Visits ( http://arxiv.org/abs/2408.07084v1 ) ライセンス: Link先を確認 | Wangying Yang, Zhizhong Wu, Zitao Zheng, Bo Zhang, Shi Bo, Yuanfang Yang, | (参考訳) 本研究では,電子カルテから将来の診断を精度良く予測する動的ハイパーグラフネットワーク(DHCE)モデルを提案する。
DHCEモデルは、患者の訪問履歴の中で急性および慢性疾患を識別・識別し、疾患間の複雑な高次相互作用をキャプチャする動的なハイパーグラフを構築することで、革新する。
医療用言語モデルによるエンコーディングを通じて反映される臨床イベントデータを、堅牢な患者表現に効果的に統合することで、従来のリカレントニューラルネットワークやグラフニューラルネットワークを超えている。
2つのベンチマークデータセット(MIMIC-IIIとMIMIC-IV)の広範な実験により、DHCEモデルは優れた性能を示し、逐次診断予測の精度において確立されたベースラインモデルを大幅に上回っている。
This study introduces a pioneering Dynamic Hypergraph Networks (DHCE) model designed to predict future medical diagnoses from electronic health records with enhanced accuracy. The DHCE model innovates by identifying and differentiating acute and chronic diseases within a patient's visit history, constructing dynamic hypergraphs that capture the complex, high-order interactions between diseases. It surpasses traditional recurrent neural networks and graph neural networks by effectively integrating clinical event data, reflected through medical language model-assisted encoding, into a robust patient representation. Through extensive experiments on two benchmark datasets, MIMIC-III and MIMIC-IV, the DHCE model exhibits superior performance, significantly outpacing established baseline models in the precision of sequential diagnosis prediction. | 翻訳日:2024-08-15 15:18:29 公開日:2024-08-08 |
# 最適化器の量子アルゴリズム
Quantum algorithms for optimizers ( http://arxiv.org/abs/2408.07086v1 ) ライセンス: Link先を確認 | Giacomo Nannicini, | (参考訳) これは量子アルゴリズムのPh.D.レベルのコースのための講義ノートのセットであり、量子最適化アルゴリズムに重点を置いている。
応用数学者や技術者向けに開発されており、以前の量子力学の背景を必要としない。
このコースの主なトピックは、厳密な計算モデルの導入に加えて、入出力モデル、量子探索、量子勾配アルゴリズム、行列演算アルゴリズム、半定値最適化のための行列乗算重み更新フレームワーク、断熱最適化である。
This is a set of lecture notes for a Ph.D.-level course on quantum algorithms, with an emphasis on quantum optimization algorithms. It is developed for applied mathematicians and engineers, and requires no previous background in quantum mechanics. The main topics of this course, in addition to a rigorous introduction to the computational model, are: input/output models, quantum search, the quantum gradient algorithm, matrix manipulation algorithms, the matrix multiplicative weights update framework for semidefinite optimization, adiabatic optimization. | 翻訳日:2024-08-15 15:18:29 公開日:2024-08-08 |
# Flow-Lenia.png: 圧縮によるマルチスケール複雑化の進展
Flow-Lenia.png: Evolving Multi-Scale Complexity by Means of Compression ( http://arxiv.org/abs/2408.06374v1 ) ライセンス: Link先を確認 | Tadashi Adachi, Solvi Arnold, Takafumi Mochizuki, Kimitoshi Yamazaki, | (参考訳) 本稿では, セルオートマトン状態のマルチスケール複雑性を定量化するための適合度尺度を提案する。
圧縮性の使用はコルモゴロフ複雑性(英語版)(Kolmogorov complexity)の概念に基づいている。
この適合関数を用いて、画像圧縮アルゴリズムを用いて、よく知られたフローレニアセルオートマトンにアクセスできる複雑さ範囲を探索し、状態圧縮性を評価する。
遺伝的アルゴリズムを用いてフローレニアパターンを進化させ、2つの主要な目的を持つ実験を行う。
1)特定の複雑性レベルのパターンを生成し、
2)フローレニアの複雑性領域の限界を探る。
進化したパターンは複雑さのターゲットを反映し、複雑さの人間の知覚と一致して、より複雑なパターンを生み出す。
このことは、我々のフィットネス関数が、与えられたハイパーパラメータ構成の下でフローレニアにアクセス可能な複雑性範囲の範囲内で、特定の複雑性目標にマッチするパターンを効果的に進化させることができることを示している。
We propose a fitness measure quantifying multi-scale complexity for cellular automaton states, using compressibility as a proxy for complexity. The use of compressibility is grounded in the concept of Kolmogorov complexity, which defines the complexity of an object by the size of its smallest representation. With this fitness function, we explore the complexity range accessible to the well-known Flow Lenia cellular automaton, using image compression algorithms to assess state compressibility. Using a Genetic Algorithm to evolve Flow Lenia patterns, we conduct experiments with two primary objectives: 1) generating patterns of specific complexity levels, and 2) exploring the extrema of Flow Lenia's complexity domain. Evolved patterns reflect the complexity targets, with higher complexity targets yielding more intricate patterns, consistent with human perceptions of complexity. This demonstrates that our fitness function can effectively evolve patterns that match specific complexity objectives within the bounds of the complexity range accessible to Flow Lenia under a given hyperparameter configuration. | 翻訳日:2024-08-14 19:48:49 公開日:2024-08-08 |
# 量子力学における測定過程の理解に向けて
Toward an understanding of the measurement process in quantum mechanics ( http://arxiv.org/abs/2408.06375v1 ) ライセンス: Link先を確認 | Alan Schaum, | (参考訳) 測定中に波動関数に何が起こるかを提案する。
測定装置の成分との相互作用の列は、量子力学的振幅のボルン解釈を生成する単純な確率過程でモデル化される。
A suggestion is made for what happens to a wave function during a measurement. A sequence of interactions with the components of a measurement device is modeled with a simple stochastic process that produces the Born interpretation of quantum mechanical amplitudes. | 翻訳日:2024-08-14 19:48:49 公開日:2024-08-08 |
# ゼロデイ攻撃とランサムウェア検出
Zero-day attack and ransomware detection ( http://arxiv.org/abs/2408.05244v1 ) ライセンス: Link先を確認 | Steven Jabulani Nhlapo, Mike Nkongolo Wa Nkongolo, | (参考訳) ゼロデイおよびランサムウェア攻撃は、従来のネットワーク侵入検知システム(NIDS)に挑戦し続け、タイムリーな脅威分類における制限を明らかにしている。
偽陽性と否定を減らそうとする努力にもかかわらず、重大な攻撃は継続され、高度なソリューションの必要性が強調された。
機械学習(ML)モデルはNIDSの強化を約束している。
本研究では,UGRansomeデータセットを用いて,ゼロデイおよびランサムウェア攻撃検出のための各種MLモデルのトレーニングを行う。
この結果は、ランダムフォレスト分類器(RFC)、XGBoost、Ensemble Methodsが精度、精度、リコール、F1スコアで完璧なスコアを得たことを示している。
対照的に、SVM(Support Vector Machine)とNB(Naive Bayes)のモデルでは性能が低かった。
他の研究と比較すると、決定木とアンサンブルメソッドの改善があり、それぞれ99.4%と97.7%である。
今後は、ゼロデイおよびランサムウェア攻撃のリアルタイム認識を改善するために、SMOTE(Synthetic Minority Over-Sampling Techniques)と多種多様、多種多様なデータセットを検討する必要がある。
Zero-day and ransomware attacks continue to challenge traditional Network Intrusion Detection Systems (NIDS), revealing their limitations in timely threat classification. Despite efforts to reduce false positives and negatives, significant attacks persist, highlighting the need for advanced solutions. Machine Learning (ML) models show promise in enhancing NIDS. This study uses the UGRansome dataset to train various ML models for zero-day and ransomware attacks detection. The finding demonstrates that Random Forest Classifier (RFC), XGBoost, and Ensemble Methods achieved perfect scores in accuracy, precision, recall, and F1-score. In contrast, Support Vector Machine (SVM) and Naive Bayes (NB) models performed poorly. Comparison with other studies shows Decision Trees and Ensemble Methods improvements, with accuracy around 99.4% and 97.7%, respectively. Future research should explore Synthetic Minority Over-sampling Techniques (SMOTEs) and diverse or versatile datasets to improve real-time recognition of zero-day and ransomware attacks. | 翻訳日:2024-08-13 19:54:11 公開日:2024-08-08 |
# Webにおけるアドバストアルゴリズムの改良-長期記憶ネットワークに基づくクリック予測
Improved Adaboost Algorithm for Web Advertisement Click Prediction Based on Long Short-Term Memory Networks ( http://arxiv.org/abs/2408.05245v1 ) ライセンス: Link先を確認 | Qixuan Yu, Xirui Tang, Feiyang Li, Zinan Cao, | (参考訳) 本稿では,Webページ広告におけるユーザクリックの予測精度の向上を目的とした,Long Short-Term Memory Networks (LSTMs)に基づくAdaboostアルゴリズムの改良について検討する。
いくつかの一般的な機械学習アルゴリズムと比較することにより、広告クリック予測における新しいモデルの利点を分析する。
提案する改良アルゴリズムは,ユーザの広告クリック予測において92%の精度で優れており,他の3つのベースモデルのうち,78.4%よりも13.6%の精度で改善されている。
この大幅な改善は、アルゴリズムがユーザーの行動特性や時系列パターンをより捉えることができることを示している。
さらに,本研究では,精度,リコール,F1スコアなど,他のパフォーマンス指標を用いたモデルの性能評価を行った。
その結果、LSTMに基づく改良されたAdaboostアルゴリズムは、これらの指標全てにおいて従来のモデルよりもはるかに優れており、その効果と優位性をさらに検証している。
特に複雑で動的に変化するユーザの振る舞いに直面している場合、モデルはより適応し、正確な予測を行うことができます。
モデルの実用性と信頼性を確保するため,本研究では,トレーニングセットとテストセットの精度差に着目した。
検証後、これらの2つのデータセット上で提案されたモデルの精度は1.7%しか変化しないが、これはモデルが優れた一般化能力を持ち、現実のシナリオに効果的に適用できることを示す小さな差である。
This paper explores an improved Adaboost algorithm based on Long Short-Term Memory Networks (LSTMs), which aims to improve the prediction accuracy of user clicks on web page advertisements. By comparing it with several common machine learning algorithms, the paper analyses the advantages of the new model in ad click prediction. It is shown that the improved algorithm proposed in this paper performs well in user ad click prediction with an accuracy of 92%, which is an improvement of 13.6% compared to the highest of 78.4% among the other three base models. This significant improvement indicates that the algorithm is more capable of capturing user behavioural characteristics and time series patterns. In addition, this paper evaluates the model's performance on other performance metrics, including accuracy, recall, and F1 score. The results show that the improved Adaboost algorithm based on LSTM is significantly ahead of the traditional model in all these metrics, which further validates its effectiveness and superiority. Especially when facing complex and dynamically changing user behaviours, the model is able to better adapt and make accurate predictions. In order to ensure the practicality and reliability of the model, this study also focuses on the accuracy difference between the training set and the test set. After validation, the accuracy of the proposed model on these two datasets only differs by 1.7%, which is a small difference indicating that the model has good generalisation ability and can be effectively applied to real-world scenarios. | 翻訳日:2024-08-13 19:54:11 公開日:2024-08-08 |
# グラフ上の異なるプライベートデータリリース:非効率性と不公平
Differentially Private Data Release on Graphs: Inefficiencies and Unfairness ( http://arxiv.org/abs/2408.05246v1 ) ライセンス: Link先を確認 | Ferdinando Fioretto, Diptangshu Sen, Juba Ziani, | (参考訳) ネットワークは、通信、医療、金融、エネルギー、交通など、多くの分野において重要な要素であり、そのようなネットワークに格納される情報は、通勤者のための位置情報やオンラインユーザーのためのパケットデータなど、センシティブなユーザーデータを含んでいることが多い。
したがって、ネットワークのデータリリースを考える場合、正確な数学的意味において定量化されている個人に関する情報を、データリリースメカニズムが漏らさないよう保証する必要がある。
微分プライバシ(DP)は、広く受け入れられ、正式な最先端技術であり、2020年の米国国勢調査、Appleユーザーのデバイスデータ、Googleの位置情報など、さまざまなリアルタイム設定で使用されている。
しかし、プライバシーに付加されるノイズは不正確さや偏見をもたらすため、DPの使用には新たな課題が伴う。
本研究の目的は,DPがネットワーク情報公開の文脈における偏見や不公平性に与える影響を特徴づけることである。
この目的のために、ネットワーク構造が全員に知られているネットワークリリース問題を考えるが、エッジ上の重みをプライベートにリリースする必要がある。
このプライベートリリースが、サードパーティによって実行される単純なダウンストリーム意思決定タスクに与える影響について検討する。
この設定は、正確なルーティング情報を提供しながらプライバシを保存する交通ネットワークにおける、非常に実践的な関連性があり、シナリオを反映している。
我々の研究は、これらのネットワーク化された決定問題におけるプライバシーに起因する偏見と不公平性に関する理論的根拠と実証的な証拠を提供する。
Networks are crucial components of many sectors, including telecommunications, healthcare, finance, energy, and transportation.The information carried in such networks often contains sensitive user data, like location data for commuters and packet data for online users. Therefore, when considering data release for networks, one must ensure that data release mechanisms do not leak information about individuals, quantified in a precise mathematical sense. Differential Privacy (DP) is the widely accepted, formal, state-of-the-art technique, which has found use in a variety of real-life settings including the 2020 U.S. Census, Apple users' device data, or Google's location data. Yet, the use of DP comes with new challenges, as the noise added for privacy introduces inaccuracies or biases and further, DP techniques can also distribute these biases disproportionately across different populations, inducing fairness issues. The goal of this paper is to characterize the impact of DP on bias and unfairness in the context of releasing information about networks, taking a departure from previous work which has studied these effects in the context of private population counts release (such as in the U.S. Census). To this end, we consider a network release problem where the network structure is known to all, but the weights on edges must be released privately. We consider the impact of this private release on a simple downstream decision-making task run by a third-party, which is to find the shortest path between any two pairs of nodes and recommend the best route to users. This setting is of highly practical relevance, mirroring scenarios in transportation networks, where preserving privacy while providing accurate routing information is crucial. Our work provides theoretical foundations and empirical evidence into the bias and unfairness arising due to privacy in these networked decision problems. | 翻訳日:2024-08-13 19:54:11 公開日:2024-08-08 |
# Early-Exitがエッジネットワークでモデル分散推論に到達
Early-Exit meets Model-Distributed Inference at Edge Networks ( http://arxiv.org/abs/2408.05247v1 ) ライセンス: Link先を確認 | Marco Colocrese, Erdem Koyuncu, Hulya Seferoglu, | (参考訳) 分散推論技術は、データ分散スキームとモデル分散スキームに広く分類することができる。
データ分散推論(DDI)では、各ワーカーはディープニューラルネットワーク(DNN)モデル全体を運ぶが、データのサブセットのみを処理する。
しかし、労働者にデータを送ると、特にデータが大きければ、高い通信コストが発生する。
新たなパラダイムはモデル分散推論(MDI)であり、各ワーカはDNNレイヤのサブセットしか持たない。
データを持つソースデバイスであるMDIでは、DNNのいくつかのレイヤを処理し、出力を隣のデバイス、すなわち残りのレイヤをオフロードする。
このプロセスは、すべてのレイヤが分散的に処理されるときに終わる。
本稿では,MDIの設計と開発を早期終了で検討し,対象の精度を達成すれば,対象の精度を達成できなくても,モデルの全レイヤを処理する必要がなくなることを主張する。
我々は、ソースにおけるデータ入力だけでなく、早期終了およびオフロードポリシーを適応的に決定するフレームワークMDI-Exitを設計する。
NVIDIA Nano Edgeデバイスの実稼働テストベッドの実験結果から、MDI-Exitは精度が固定されたときにより多くのデータを処理し、固定されたデータレートをより高い精度で処理することが示された。
Distributed inference techniques can be broadly classified into data-distributed and model-distributed schemes. In data-distributed inference (DDI), each worker carries the entire deep neural network (DNN) model but processes only a subset of the data. However, feeding the data to workers results in high communication costs, especially when the data is large. An emerging paradigm is model-distributed inference (MDI), where each worker carries only a subset of DNN layers. In MDI, a source device that has data processes a few layers of DNN and sends the output to a neighboring device, i.e., offloads the rest of the layers. This process ends when all layers are processed in a distributed manner. In this paper, we investigate the design and development of MDI with early-exit, which advocates that there is no need to process all the layers of a model for some data to reach the desired accuracy, i.e., we can exit the model without processing all the layers if target accuracy is reached. We design a framework MDI-Exit that adaptively determines early-exit and offloading policies as well as data admission at the source. Experimental results on a real-life testbed of NVIDIA Nano edge devices show that MDI-Exit processes more data when accuracy is fixed and results in higher accuracy for the fixed data rate. | 翻訳日:2024-08-13 19:54:11 公開日:2024-08-08 |
# 次世代AI時代のサイバー攻撃防御における空港デジタル双発機の役割と応用
The Role and Applications of Airport Digital Twin in Cyberattack Protection during the Generative AI Era ( http://arxiv.org/abs/2408.05248v1 ) ライセンス: Link先を確認 | Abraham Itzhak Weinberg, | (参考訳) 近年、空港がサイバー攻撃を拡大し、ますます高度化する脅威が顕在化している。
空港は戦略的国家資産と見なされているため、攻撃、特にサイバー攻撃から空港を守ることが重要な任務である。
空港のセキュリティを高める一つの方法は、Digital Twins (DTs)を使用することである。
本稿では、DTがセキュリティミッションをどのように強化できるかを示し、実証する。
DTとGenerative AI(GenAI)アルゴリズムの統合は、サイバー攻撃と戦うためのシナジーと新たなフロンティアにつながる可能性がある。
本稿では、シミュレーションを用いてサイバー攻撃シナリオをモデル化し、防衛をテストするための合成データを生成する方法を示す。
また、サイバー攻撃の際の弱点を特定し、優先順位付けし、修正を加速することで、DTを脆弱性評価の重要なツールとして使う方法についても論じている。
さらに,機械学習(ML)とGenAIアルゴリズムを用いた異常検出と脅威追跡のアプローチを示す。
さらに,DT演算子や利害関係者が利用できる影響予測と回復調整手法を提案する。
また、トレーニングとシミュレーションアルゴリズムと説明可能なAI(XAI)をDTプラットフォームに統合することで、人的要因を活用する方法も導入している。
最後に、DT環境で利用できる将来的なアプリケーションと技術について述べる。
In recent years, the threat facing airports from growing and increasingly sophisticated cyberattacks has become evident. Airports are considered a strategic national asset, so protecting them from attacks, specifically cyberattacks, is a crucial mission. One way to increase airports' security is by using Digital Twins (DTs). This paper shows and demonstrates how DTs can enhance the security mission. The integration of DTs with Generative AI (GenAI) algorithms can lead to synergy and new frontiers in fighting cyberattacks. The paper exemplifies ways to model cyberattack scenarios using simulations and generate synthetic data for testing defenses. It also discusses how DTs can be used as a crucial tool for vulnerability assessment by identifying weaknesses, prioritizing, and accelerating remediations in case of cyberattacks. Moreover, the paper demonstrates approaches for anomaly detection and threat hunting using Machine Learning (ML) and GenAI algorithms. Additionally, the paper provides impact prediction and recovery coordination methods that can be used by DT operators and stakeholders. It also introduces ways to harness the human factor by integrating training and simulation algorithms with Explainable AI (XAI) into the DT platforms. Lastly, the paper offers future applications and technologies that can be utilized in DT environments. | 翻訳日:2024-08-13 19:44:18 公開日:2024-08-08 |
# 乳がん, 肺がん, 前立腺癌における組織学的検討
Advancing oncology with federated learning: transcending boundaries in breast, lung, and prostate cancer. A systematic review ( http://arxiv.org/abs/2408.05249v1 ) ライセンス: Link先を確認 | Anshu Ankolekar, Sebastian Boie, Maryam Abdollahyan, Emanuela Gadaleta, Seyed Alireza Hasheminasab, Guang Yang, Charles Beauville, Nikolaos Dikaios, George Anthony Kastis, Michael Bussmann, Sara Khalid, Hagen Kruger, Philippe Lambin, Giorgos Papanastasiou, | (参考訳) Federated Learning(FL)は、オンコロジーにおける集中型機械学習(ML)の限界、特にプライバシー上の懸念を克服し、多様なマルチセンターデータのパワーを活用するための、有望なソリューションとして登場した。
この体系的なレビューは、腫瘍学における最先端のFLに関する現在の知識を合成し、乳がん、肺がん、前立腺がんに焦点をあてる。
これまでの調査と異なり,我々はFLのがん治療における実世界の実践と影響を概観的に評価し,MLの汎用性,パフォーマンス,データプライバシの向上に効果を実証した。
我々はFLにおける最先端の進歩を評価し、データプライバシー規制の厳格化に伴い、その普及を実証した。
FLは、レビューされた25研究のうち15研究において、集中型MLよりも優れており、多様なMLモデルと臨床応用を網羅し、精密医療のためのマルチモーダル情報の統合を容易にした。
現在、再現性、標準化、研究の方法論で特定されている課題にもかかわらず、現実のデータを活用し、臨床ニーズに対処することにおけるFLの実証可能な利点は、がん研究を前進させる大きな可能性を浮き彫りにしている。
今後,これらの制約に対処し,さらに進んだFL法を探求し,データの多様性をフル活用し,がん治療における最先端FLの変革力を実現することに注力することを提案する。
Federated Learning (FL) has emerged as a promising solution to address the limitations of centralised machine learning (ML) in oncology, particularly in overcoming privacy concerns and harnessing the power of diverse, multi-center data. This systematic review synthesises current knowledge on the state-of-the-art FL in oncology, focusing on breast, lung, and prostate cancer. Distinct from previous surveys, our comprehensive review critically evaluates the real-world implementation and impact of FL on cancer care, demonstrating its effectiveness in enhancing ML generalisability, performance and data privacy in clinical settings and data. We evaluated state-of-the-art advances in FL, demonstrating its growing adoption amid tightening data privacy regulations. FL outperformed centralised ML in 15 out of the 25 studies reviewed, spanning diverse ML models and clinical applications, and facilitating integration of multi-modal information for precision medicine. Despite the current challenges identified in reproducibility, standardisation and methodology across studies, the demonstrable benefits of FL in harnessing real-world data and addressing clinical needs highlight its significant potential for advancing cancer research. We propose that future research should focus on addressing these limitations and investigating further advanced FL methods, to fully harness data diversity and realise the transformative power of cutting-edge FL in cancer care. | 翻訳日:2024-08-13 19:44:18 公開日:2024-08-08 |
# FragPT2:摂動相互作用を組み込んだマルチフラグメント波動関数
FragPT2: Multi-Fragment Wavefunction Embedding with Perturbative Interactions ( http://arxiv.org/abs/2408.05250v1 ) ライセンス: Link先を確認 | Emiel Koridon, Souloke Sen, Lucas Visscher, Stefano Polla, | (参考訳) 埋め込み技術により、大きな分子系の局在化断片内の相関関係を効率的に記述し、低い理論レベルで環境を説明することができる。
FragPT2は、複数の相互作用するアクティブフラグメントに対処する新しい埋め込みフレームワークである。
フラグメントは、正準分子軌道の局在化によって構築される別個の活性空間に割り当てられる。
各フラグメントは、他のフラグメントから平均フィールドに自己整合的に埋め込まれた多重参照法で解決される。
最後に、フラッグメント間の相関は、マルチ参照摂動理論によって再導入される。
本フレームワークは, 分散, 電荷移動, スピン交換など, 各種プロセスの相対的重要性を解析するためのツールを提供する。
FragPT2は, 難燃性二量体, 複数の芳香族二量体, ブタジエンなど, 難燃性試験系をベンチマークする。
共有結合を切断することによって定義されるフラグメントに対しても,本手法が有効であることを示す。
Embedding techniques allow the efficient description of correlations within localized fragments of large molecular systems, while accounting for their environment at a lower level of theory. We introduce FragPT2: a novel embedding framework that addresses multiple interacting active fragments. Fragments are assigned separate active spaces, constructed by localizing canonical molecular orbitals. Each fragment is then solved with a multi-reference method, self-consistently embedded in the mean field from other fragments. Finally, inter-fragment correlations are reintroduced through multi-reference perturbation theory. Our framework provides an exhaustive classification of inter-fragment interaction terms, offering a tool to analyze the relative importance of various processes such as dispersion, charge transfer, and spin exchange. We benchmark FragPT2 on challenging test systems, including \ce{N_2} dimers, multiple aromatic dimers, and butadiene. We demonstrate that our method can be succesful even for fragments defined by cutting through a covalent bond. | 翻訳日:2024-08-13 19:44:18 公開日:2024-08-08 |
# ビッグデータの体系的文献マップ
A Systematic Literature Map on Big Data ( http://arxiv.org/abs/2408.05253v1 ) ライセンス: Link先を確認 | Rogerio Rossi, Kechi Hirama, Eduardo Ferreira Franco, | (参考訳) ビッグデータのパラダイムは、医療、科学、輸送、教育、政府サービスなど、多くの分野において、しっかりとした研究分野として確立されてきた。
広く議論されているにもかかわらず、このパラダイムについて合意された定義はないが、アカデミーや産業によって提案される概念は多い。
本研究は,ビッグデータパラダイムに関して実施および公表された研究の分析的視点を提供することを目的としている。
この手法は文献の体系的な地図であり、文献分析とコンテンツ分析を組み合わせて、研究作品のパノラマを描き、パターン、傾向、ギャップを識別する。
この結果から,適切なインフラストラクチャや標準の構築や定義など,研究と概念の両面で,今後の課題に対処し,パラダイムが効果的になり,期待されるメリットをもたらすためには,まだまだ長い道のりがあることがわかる。
The paradigm of Big Data has been established as a solid field of studies in many areas such as healthcare, science, transport, education, government services, among others. Despite widely discussed, there is no agreed definition about the paradigm although there are many concepts proposed by the academy and industry. This work aims to provide an analytical view of the studies conducted and published regarding the Big Data paradigm. The approach used is the systematic map of the literature, combining bibliometric analysis and content analysis to depict the panorama of research works, identifying patterns, trends, and gaps. The results indicate that there is still a long way to go, both in research and in concepts, such as building and defining adequate infrastructures and standards, to meet future challenges and for the paradigm to become effective and bring the expected benefits. | 翻訳日:2024-08-13 19:44:18 公開日:2024-08-08 |
# あらゆるものをアンサンブルする:敵対的堅牢性のためのマルチスケールアグリゲーション
Ensemble everything everywhere: Multi-scale aggregation for adversarial robustness ( http://arxiv.org/abs/2408.05446v1 ) ライセンス: Link先を確認 | Stanislav Fort, Balaji Lakshminarayanan, | (参考訳) 敵対的な例は、ディープニューラルネットワークの堅牢性、信頼性、アライメントに重大な課題をもたらす。
本稿では,マルチレゾリューション入力表現と中間層予測の動的自己認識を用いて,高品位表現を実現するための,新しい,使い易いアプローチを提案する。
中間層予測は、全分類器を騙すために作られた敵攻撃に固有の堅牢性を示すことを示すとともに、それらを動的にアンサンブルするために「textit{CrossMax}」と呼ぶVickreyオークションに基づくロバスト集約機構を提案する。
マルチレゾリューション入力とロバストなアンサンブルを組み合わせることで、CIFAR-10とCIFAR-100データセットに対して、敵のトレーニングや余分なデータなしで相当な敵のロバストベンチオートアタックスイート(L_\infty=8/255)の逆の精度が$\approx$72%(CIFAR-10)と$\approx$48%(CIFAR-100)に達する。
これは、CIFAR-10の上位3モデルに匹敵する結果であり、CIFAR-100の現在のベストな専用アプローチと比べて+5%の利得である。
CIFAR-10で$\approx$78%、CIFAR-100で$\approx$51%、SOTAをそれぞれ5%、9%改善し、より難しいデータセットでさらに向上しています。
我々は、広範囲な実験を通してアプローチを検証するとともに、敵の頑健さと深い表現の階層的な性質の間の相互作用についての洞察を提供する。
我々のモデルに対する単純な勾配に基づく攻撃は、対象クラスの人間解釈可能な画像と、解釈可能な画像変化をもたらすことを示す。
副産物として、事前学習した分類器とCLIPモデルを制御可能な画像生成器に変換し、大きな視覚言語モデルに対するトランスファー可能な攻撃を成功させる。
Adversarial examples pose a significant challenge to the robustness, reliability and alignment of deep neural networks. We propose a novel, easy-to-use approach to achieving high-quality representations that lead to adversarial robustness through the use of multi-resolution input representations and dynamic self-ensembling of intermediate layer predictions. We demonstrate that intermediate layer predictions exhibit inherent robustness to adversarial attacks crafted to fool the full classifier, and propose a robust aggregation mechanism based on Vickrey auction that we call \textit{CrossMax} to dynamically ensemble them. By combining multi-resolution inputs and robust ensembling, we achieve significant adversarial robustness on CIFAR-10 and CIFAR-100 datasets without any adversarial training or extra data, reaching an adversarial accuracy of $\approx$72% (CIFAR-10) and $\approx$48% (CIFAR-100) on the RobustBench AutoAttack suite ($L_\infty=8/255)$ with a finetuned ImageNet-pretrained ResNet152. This represents a result comparable with the top three models on CIFAR-10 and a +5 % gain compared to the best current dedicated approach on CIFAR-100. Adding simple adversarial training on top, we get $\approx$78% on CIFAR-10 and $\approx$51% on CIFAR-100, improving SOTA by 5 % and 9 % respectively and seeing greater gains on the harder dataset. We validate our approach through extensive experiments and provide insights into the interplay between adversarial robustness, and the hierarchical nature of deep representations. We show that simple gradient-based attacks against our model lead to human-interpretable images of the target classes as well as interpretable image changes. As a byproduct, using our multi-resolution prior, we turn pre-trained classifiers and CLIP models into controllable image generators and develop successful transferable attacks on large vision language models. | 翻訳日:2024-08-13 19:01:07 公開日:2024-08-08 |
# Internet of Things Security, Device Authentication and Access Control: レビュー
Internet of Things Security, Device Authentication and Access Control: A Review ( http://arxiv.org/abs/1901.07309v4 ) ライセンス: Link先を確認 | Inayat Ali, Sonia Sabir, Zahid Ullah, | (参考訳) IoT(Internet of Things)は、アカデミックや業界からの研究者の注目を集めた新興技術の1つだ。
モノのインターネットの背景にある考え方は、共通の目標を達成するために、インターネットによって可能になったものやデバイスを互いに、そして人間に相互に相互接続することである。
近い将来、IoTは私たちの環境にシームレスに統合されることが期待されます。
システムのセキュリティ上の妥協は、人間の生活に直接影響を与えます。
したがって、この技術のセキュリティとプライバシは解決すべき最も重要な問題である。
本稿では、IoTにおけるセキュリティ問題に関する詳細な研究を行い、IoTアーキテクチャの各レイヤにおけるサイバー攻撃の可能性について分類する。
また,IoTにおける暗号ソリューションや認証機構,キー管理など,従来のセキュリティソリューションに対する課題についても論じる。
デバイス認証とアクセス制御はIoTセキュリティの重要な領域であり、これまで調査されていない。
私たちは、最先端のデバイス認証とアクセス制御技術を1枚の紙に導入する努力に費やしました。
The Internet of Things (IoT) is one of the emerging technologies that has grabbed the attention of researchers from academia and industry. The idea behind Internet of things is the interconnection of internet enabled things or devices to each other and to humans, to achieve some common goals. In near future IoT is expected to be seamlessly integrated into our environment and human will be wholly solely dependent on this technology for comfort and easy life style. Any security compromise of the system will directly affect human life. Therefore security and privacy of this technology is foremost important issue to resolve. In this paper we present a thorough study of security problems in IoT and classify possible cyberattacks on each layer of IoT architecture. We also discuss challenges to traditional security solutions such as cryptographic solutions, authentication mechanisms and key management in IoT. Device authentication and access controls is an essential area of IoT security, which is not surveyed so far. We spent our efforts to bring the state of the art device authentication and access control techniques on a single paper. | 翻訳日:2024-08-12 21:17:20 公開日:2024-08-08 |
# 強局所量子系における雑音誘起サブ拡散に関するコメント
Comment on Noise-Induced Subdiffusion in Strongly Localized Quantum Systems ( http://arxiv.org/abs/2101.03786v3 ) ライセンス: Link先を確認 | Ehsan Gholami, | (参考訳) Gopalakrishnan、ISIS、Knapは、単一粒子ホッピングが最小のエネルギースケールである深部局在化限界における非マルコフ的デフォーカスノイズと結合した局所化系の輸送を研究する方法を用いた摂動的アプローチを採用した。
後の解析的および数値的な計算はすべて、深く局所化されたシステムに限られる。
それでも、結果の大部分では、この近似をこの制限の外で使用し、結果が間違っていた。
これらの間違った結果を指摘し、正しい結果が得られるパラメータ値の変更を提案する。
Gopalakrishnan, Islam, and Knap adopted a perturbative approach employing a method to investigate the transport in localized systems coupled to non-Markovian dephasing noise in the deeply localized limit where the single-particle hopping is the smallest energy scale. All their subsequent analytical and numerical calculations are limited to the deeply localized systems. Nevertheless, in the majority of their results, they used this approximation outside this limit which makes their results wrong. We point at these wrong results and propose the changes in the parameter values which can give correct results. | 翻訳日:2024-08-12 21:17:20 公開日:2024-08-08 |
# 自由度を含む電子崩壊過程スペクトル
Electronic decay process spectra including nuclear degrees of freedom ( http://arxiv.org/abs/2102.06040v3 ) ライセンス: Link先を確認 | Alexander Riegel, Elke Fasshauer, | (参考訳) 伝統的に原子の運動が焦点となる化学の分野では、我々は今、原子の運動が1秒からフェムト秒にまたがる超急速電子運動を探索し、それが等しく、その分野に関係があることを実証している。
超短パルス技術の出現は、原子や分子の電子的配置を直接観察する能力に革命をもたらした。
代表的な例として、オーガー・マイトナー崩壊や粒子間クーロン崩壊(ICD)がある。
しかし、真の課題は、理論モデルが不可欠であるこれらの観察を解釈することである。
Physで導入された分析フレームワークの上に構築する。
A 101, 043414 (2020)は、電子崩壊過程中に放出される電子のスペクトルを純粋に電子的観点から分析し、本論文は著しい進歩を示している。
この理論基盤を核力学に拡張し、ボルン・オッペンハイマー近似を利用して、これらの過程における電子運動と核運動の複雑な相互作用の理解を深める。
電子共鳴と電子最終状態の両方において、振動束縛状態の数が異なることを特徴とするいくつかの理論的ケースにおいて、核自由度を組み込むことによる影響を述べる。
このアプローチは複雑なスペクトルの特徴と異常なピーク形状を明らかにするだけでなく、その特異な干渉パターンを通じて複数の振動共鳴状態間のエネルギー差を抽出する方法も示している。
In the field of chemistry, where nuclear motion has traditionally been a focal point, we now explore the ultra-rapid electronic motion spanning attoseconds to femtoseconds, demonstrating that it is equally integral and relevant to the discipline. The advent of ultrashort attosecond pulse technology has revolutionized our ability to directly observe electronic rearrangements in atoms and molecules, offering a time-resolved insight into these swift processes. Prominent examples include Auger-Meitner decay and Interparticle Coulombic Decay (ICD). However, the real challenge lies in interpreting these observations, where theoretical models are indispensable. Building upon the analytical framework introduced in Phys. Rev. A 101, 043414 (2020), which analyzed the spectra of electrons emitted during electronic decay processes from a purely electronic perspective, our paper represents a significant advancement. We extend this theoretical base to include nuclear dynamics, utilizing the Born-Oppenheimer approximation to deepen our understanding of the intricate interaction between electronic and nuclear motion in these processes. We illustrate the impact of incorporating nuclear degrees of freedom in several theoretical cases characterized by different numbers of vibrational bound states in both the electronic resonance and the electronic final state. This approach not only clarifies complex spectral features and unusual peak shapes but also demonstrates a method for extracting the energy differences between multiple vibrational resonance states through their distinctive interference patterns. | 翻訳日:2024-08-12 21:17:20 公開日:2024-08-08 |
# 量子ネットワークにおけるコストベクトル解析とマルチパス絡み合いルーティング
Cost vector analysis & multi-path entanglement routing in quantum networks ( http://arxiv.org/abs/2105.00418v3 ) ライセンス: Link先を確認 | Hudson Leone, Nathaniel R. Miller, Deepesh Singh, Nathan K. Langford, Peter P. Rohde, | (参考訳) 量子ルーティングプロトコルを解析するための静的なフレームワークを提案し,それを「textit{cost-vector formalism}」と呼ぶ。
ここでは、量子ネットワークをマルチグラフとして再キャストし、エッジは、ある操作列の下に存在する2ビットのエンタングルメント資源を表す。
それぞれのエッジには、存在するペアの確率を表す \textit{transmission probability} と、ペアがテレポーテーションに適した確率である \textit{coherence probability} が重み付けされている。
エンタングルメントスワッピングや精製のようなルーティング操作は、エッジウェイトを更新するための比較的単純な規則で、マルチグラフ上の‘textit{contractions on the multi-graph} と解釈される。
さらに、量子メモリのための整合性資源理論を開発することにより、時間とともにルーティングシナリオを含むようにフォーマリズムを拡張した。
このフレームワークでルーティングを行うための初歩的な欲求アルゴリズムを開発し、様々な玩具ネットワークシナリオでそれらをテストする。
以上の結果から,より多くのノード(コンピュータ)が加わると,量子ネットワークの混雑は著しく改善しないことがわかった。
むしろ、少量の時間を待つことで、渋滞は取り除かれてしまう。
We present a static framework for analysing quantum routing protocols that we call the \textit{cost-vector formalism}. Here, quantum networks are recast as multi-graphs where edges represent two-qubit entanglement resources that \textit{could} exist under some sequence of operations. Each edge is weighted with a \textit{transmission probability} that represents the likelihood of the pair existing and a \textit{coherence probability} which is the likelihood that the pair is suitable for teleportation. Routing operations such as entanglement swapping and purification are then interpreted as \textit{contractions on the multi-graph} with relatively simple rules for updating the edge-weights. Moreover, we extend our formalism to include routing scenarios over time by developing a compatible resource theory for quantum memories. We develop rudimentary greedy algorithms for routing in this framework and test them over a variety of toy networking scenarios. Our results indicate that congestion in quantum networks does not improve significantly when more nodes (computers) are added. Rather, we find that congestion is all but eliminated by waiting a small amount of time. | 翻訳日:2024-08-12 21:11:46 公開日:2024-08-08 |
# Adaptive $τ$-Lasso:ロバストネスとOracleプロパティ
The Adaptive $τ$-Lasso: Robustness and Oracle Properties ( http://arxiv.org/abs/2304.09310v3 ) ライセンス: Link先を確認 | Emadaldin Mozafari-Majd, Visa Koivunen, | (参考訳) 本稿では,応答変数の粗悪な汚染を受ける高次元データセットを解析し,共変量(説明変数)を解析するための,ロバストな$\tau$-regression推定器の新たな正規化版を提案する。
その結果、アダプティブ $\tau$-Lasso と呼ばれる推定器は、外れ値や高平均点に対して堅牢である。
適応的な$\ell_1$-normのペナルティ項も組み込まれており、関連する変数の選択を可能にし、大きな真の回帰係数に関連するバイアスを低減する。
具体的には、この適応$\ell_1$-normのペナルティ項は、各回帰係数に重みを割り当てる。
固定数の予測子 $p$ に対して、適応 $\tau$-Lasso がオラクル特性を持ち、変数選択整合性と漸近正規性の両方を保証することを示す。
漸近正規性は、真の回帰ベクトル支持の知識を仮定して、真の支持に対応する回帰ベクトルのエントリにのみ適用される。
有限サンプル分解点と影響関数を確立することにより、その堅牢性を特徴づける。
我々は、広範囲なシミュレーションを行い、$\tau$-Lasso推定器のクラスが汚染されたデータと汚染されていないデータ設定の両方において堅牢で信頼性の高い性能を示すことを観察する。
また, シミュレーションによるロバスト性特性に関する理論的知見も検証した。
外れ値と高平均点に直面して、適応的な$\tau$-Lasso と $\tau$-Lasso 推定器は、この研究で考慮された全てのシナリオにおいて、他の競合する正規化推定器と比較して、予測と変数選択の精度の点で最高の性能または最も近い性能を達成する。
したがって、適応$\tau$-Lasso および $\tau$-Lasso 推定器は、特に高次元の設定やデータが外れ値や高平均点によって汚染された場合に、様々な疎線形回帰問題に対して魅力的なツールを提供する。
This paper introduces a new regularized version of the robust $\tau$-regression estimator for analyzing high-dimensional datasets subject to gross contamination in the response variables and covariates (explanatory variables). The resulting estimator, termed adaptive $\tau$-Lasso, is robust to outliers and high-leverage points. It also incorporates an adaptive $\ell_1$-norm penalty term, which enables the selection of relevant variables and reduces the bias associated with large true regression coefficients. More specifically, this adaptive $\ell_1$-norm penalty term assigns a weight to each regression coefficient. For a fixed number of predictors $p$, we show that the adaptive $\tau$-Lasso has the oracle property, ensuring both variable-selection consistency and asymptotic normality. Asymptotic normality applies only to the entries of the regression vector corresponding to the true support, assuming knowledge of the true regression vector support. We characterize its robustness by establishing the finite-sample breakdown point and the influence function. We carry out extensive simulations and observe that the class of $\tau$-Lasso estimators exhibits robustness and reliable performance in both contaminated and uncontaminated data settings. We also validate our theoretical findings on robustness properties through simulations. In the face of outliers and high-leverage points, the adaptive $\tau$-Lasso and $\tau$-Lasso estimators achieve the best performance or close-to-best performance in terms of prediction and variable selection accuracy compared to other competing regularized estimators for all scenarios considered in this study. Therefore, the adaptive $\tau$-Lasso and $\tau$-Lasso estimators provide attractive tools for a variety of sparse linear regression problems, particularly in high-dimensional settings and when the data is contaminated by outliers and high-leverage points. | 翻訳日:2024-08-12 21:11:46 公開日:2024-08-08 |
# バリューコンディション状態エントロピー探索による強化学習の高速化
Accelerating Reinforcement Learning with Value-Conditional State Entropy Exploration ( http://arxiv.org/abs/2305.19476v3 ) ライセンス: Link先を確認 | Dongyoung Kim, Jinwoo Shin, Pieter Abbeel, Younggyo Seo, | (参考訳) 探索のための有望な技術は、訪問状態空間の均一なカバレッジを奨励することによって、訪問状態分布のエントロピー、すなわち状態エントロピーの最大化である。
教師なしのセットアップでは有効だが、エージェントがタスク報酬を利用するために高価値の状態を訪問することを好んだ場合、タスク報酬を伴う教師付きセットアップで苦労する傾向がある。
このような選好は、分布がより均一になったときに増加する状態エントロピーの結果、低値状態領域への探索をバイアスする高値状態と低値状態の分布の不均衡を引き起こす。
この問題は、高値状態が状態空間内で狭く分散されているときに悪化し、エージェントがタスクを完了するのが難しくなる。
本稿では,各状態の値推定に基づいて条件付き状態エントロピーを別々に推定し,その平均値を最大化する新しい探索手法を提案する。
本手法は,固有ボーナスの計算に類似した値推定値を持つ訪問状態のみを考慮し,低値状態の分布が高値状態の探索に影響を与えることを防止し,その逆も抑制する。
提案手法は,MiniGrid,DeepMind Control Suite,Meta-Worldベンチマークの各タスクにおける各種強化学習アルゴリズムを,状態エントロピーベースラインの代替として大幅に高速化することを示す。
ソースコードはhttps://sites.google.com/view/rl-vcse.comで入手できる。
A promising technique for exploration is to maximize the entropy of visited state distribution, i.e., state entropy, by encouraging uniform coverage of visited state space. While it has been effective for an unsupervised setup, it tends to struggle in a supervised setup with a task reward, where an agent prefers to visit high-value states to exploit the task reward. Such a preference can cause an imbalance between the distributions of high-value states and low-value states, which biases exploration towards low-value state regions as a result of the state entropy increasing when the distribution becomes more uniform. This issue is exacerbated when high-value states are narrowly distributed within the state space, making it difficult for the agent to complete the tasks. In this paper, we present a novel exploration technique that maximizes the value-conditional state entropy, which separately estimates the state entropies that are conditioned on the value estimates of each state, then maximizes their average. By only considering the visited states with similar value estimates for computing the intrinsic bonus, our method prevents the distribution of low-value states from affecting exploration around high-value states, and vice versa. We demonstrate that the proposed alternative to the state entropy baseline significantly accelerates various reinforcement learning algorithms across a variety of tasks within MiniGrid, DeepMind Control Suite, and Meta-World benchmarks. Source code is available at https://sites.google.com/view/rl-vcse. | 翻訳日:2024-08-12 21:01:50 公開日:2024-08-08 |
# 次世代マルチコア光ファイバーを用いた高速オープン量子系の非マルコビアン性
Non-Markovianity in High-Dimensional Open Quantum Systems using Next-generation Multicore Optical Fibers ( http://arxiv.org/abs/2308.00094v4 ) ライセンス: Link先を確認 | Santiago Rojas-Rojas, Daniel Martínez, Kei Sawada, Luciano Pereira, Stephen P. Walborn, Esteban S. Gómez, Nadja K. Bernardes, Gustavo Lima, | (参考訳) 量子技術の出現に伴い、量子システムによるコミュニケーションタスクへの関心は、学術と産業の両方において高まっている。
それでも、現実のシナリオにおける量子状態の伝達は環境ノイズに縛られ、量子チャネルはオープンな量子システムである。
本研究では, 環境相互作用を確率位相フリップに対応する量子演算として特徴付けることで, マルチコア光ファイバにおける高次元オープン量子システムについて検討する。
実験用プラットフォームは現在、マルチコアファイバによる量子情報処理の最先端技術である。
与えられた進化段階では、システムのマルコフ的でない振る舞いを観察し、量子Vaultプロトコルの実証-基本実装を通して実証する。
マルチコアファイバにおける位相ノイズのより深い理解は、将来の通信ネットワークで採用される主要な候補であるため、いくつかの実世界の通信プロトコルを改善するだろう。
With the advent of quantum technology, the interest in communication tasks assisted by quantum systems has increased both in academia and industry. Nonetheless, the transmission of a quantum state in real-world scenarios is bounded by environmental noise, so that the quantum channel is an open quantum system. In this work, we study a high-dimensional open quantum system in a multicore optical fiber by characterizing the environmental interaction as quantum operations corresponding to probabilistic phase-flips. The experimental platform is currently state-of-the-art for quantum information processing with multicore fibers. At a given evolution stage we observe a non-Markovian behaviour of the system, which is demonstrated through a proof-of-principle implementation of the Quantum Vault protocol. A better understanding of phase-noise in multicore fibers will improve several real-world communication protocols, since they are a prime candidate to be adopted in future telecom networks. | 翻訳日:2024-08-12 21:01:50 公開日:2024-08-08 |
# 量子情報処理における集団ランダム化計測
Collective randomized measurements in quantum information processing ( http://arxiv.org/abs/2309.10745v2 ) ライセンス: Link先を確認 | Satoya Imai, Géza Tóth, Otfried Gühne, | (参考訳) 個々の粒子のランダム化測定という概念は量子システムを解析するのに有用であることが証明され、量子状態のシャドウトモグラフィーのような手法の中心となっている。
量子情報処理のツールとして,$\textit{collective}$ランダム化計測を導入する。
我々の考えは、量子システム上で集合角運動量の測定を行い、同時に多角的ユニタリを用いて方向を積極的に回転させることである。
結果の確率分布のモーメントに基づいて、集合参照フレーム独立な方法で量子絡みを特徴づける体系的なアプローチを提案する。
まず、このシナリオにおいて、既存のスピンスクイーズ不等式がアクセス可能であることを示す。
次に,3体相関に基づく絡み合い基準を,2体相関によるスピンスクイーズ不等式を超えて提示する。
最後に,空間的に分離した2つのアンサンブル間の絡み合いを特徴付けるために本手法を適用した。
The concept of randomized measurements on individual particles has proven to be useful for analyzing quantum systems and is central for methods like shadow tomography of quantum states. We introduce $\textit{collective}$ randomized measurements as a tool in quantum information processing. Our idea is to perform measurements of collective angular momentum on a quantum system and actively rotate the directions using simultaneous multilateral unitaries. Based on the moments of the resulting probability distribution, we propose systematic approaches to characterize quantum entanglement in a collective-reference-frame-independent manner. First, we show that existing spin-squeezing inequalities can be accessible in this scenario. Next, we present an entanglement criterion based on three-body correlations, going beyond spin-squeezing inequalities with two-body correlations. Finally, we apply our method to characterize entanglement between spatially-separated two ensembles. | 翻訳日:2024-08-12 21:01:50 公開日:2024-08-08 |
# 準最適計算基底状態転移
Almost-Optimal Computational Basis State Transpositions ( http://arxiv.org/abs/2309.12820v2 ) ライセンス: Link先を確認 | Steven Herbert, Julien Sorci, Yao Tang, | (参考訳) 我々は、$\Theta(n)$ gates を用いて、任意の$n$-qubit の計算基底状態変換を実行するための明示的な構成を与える。
これは、最低ケースの$\Omega(n/\log(nd))$とほぼ一致する。
We give an explicit construction to perform any $n$-qubit computational basis state transposition using $\Theta(n)$ gates. This nearly coincides with the lower bound $\Omega(n/\log(nd))$ on worst-case and average-case gate complexity to perform transpositions using a $d$-element gate-set, which we also prove. | 翻訳日:2024-08-12 21:01:50 公開日:2024-08-08 |
# ロボット群におけるNEAT創発行動の学習
Learning NEAT Emergent Behaviors in Robot Swarms ( http://arxiv.org/abs/2309.14663v2 ) ライセンス: Link先を確認 | Pranav Rajbhandari, Donald Sofge, | (参考訳) ロボット群を研究する際には、個々のエージェントの単純な局所的な行動から生じる複雑な集団行動が観察される。
しかし、望ましい集団行動を生み出すために個別の政策を学ぶという課題は、依然として難しい問題である。
本稿では,分散ロボット群アルゴリズムを訓練し,創発的行動を生成する方法を提案する。
動物における創発的行動の生物学的進化にインスパイアされた私たちは、進化的アルゴリズムを使って、個々の行動の個体群を訓練し、望ましい集団行動を生成する。
我々は,コッペリアシムシミュレータで実施したジョージア工科大学小型自律飛行場(GT-MABs)の空中ロボットプラットフォームシミュレーションを用いて実験を行った。
さらに,Anki Vectorロボットのシミュレーションを用いて,様々な動作モードにおけるアルゴリズムの有効性を検証した。
このアルゴリズムは、成功のためにやや複雑なグループ動作を必要とする様々なタスクで評価する。
これらのタスクには、エリアカバレッジタスクとウォールクライムタスクが含まれる。
私たちは、望む創発的な行動を示すために、デザインされたポリシーに対してアルゴリズムを使って進化した行動を比較する。
When researching robot swarms, many studies observe complex group behavior emerging from the individual agents' simple local actions. However, the task of learning an individual policy to produce a desired group behavior remains a challenging problem. We present a method of training distributed robotic swarm algorithms to produce emergent behavior. Inspired by the biological evolution of emergent behavior in animals, we use an evolutionary algorithm to train a population of individual behaviors to produce a desired group behavior. We perform experiments using simulations of the Georgia Tech Miniature Autonomous Blimps (GT-MABs) aerial robotics platforms conducted in the CoppeliaSim simulator. Additionally, we test on simulations of Anki Vector robots to display our algorithm's effectiveness on various modes of actuation. We evaluate our algorithm on various tasks where a somewhat complex group behavior is required for success. These tasks include an Area Coverage task and a Wall Climb task. We compare behaviors evolved using our algorithm against designed policies, which we create in order to exhibit the emergent behaviors we desire. | 翻訳日:2024-08-12 21:01:50 公開日:2024-08-08 |
# SteP: Webアクションのためのスタック化されたLLMポリシー
SteP: Stacked LLM Policies for Web Actions ( http://arxiv.org/abs/2310.03720v4 ) ライセンス: Link先を確認 | Paloma Sodhi, S. R. K. Branavan, Yoav Artzi, Ryan McDonald, | (参考訳) ウェブ上でのタスク実行は大きな言語モデル(LLM)に根本的な課題をもたらし、組み合わさった大規模なオープンワールドタスクやWebインターフェース間のバリエーションがある。
すべての可能性のある行動や状態を扱うための大きなプロンプトを単純に指定するのは極めて複雑であり、結果として無関係な動作間の動作リークが発生する。
異なるポリシーの分解はこの課題に対処できるが、ポリシー間の制御を慎重に行う必要がある。
SteP(Stacked LLM Policies for Web Actions)は,多種多様なWebタスクを動的に構成する手法である。
StePは、状態が制御状態、すなわちポリシー呼び出しの連鎖を表すポリシーのスタックであるマルコフ決定プロセスを定義する。
静的階層に制限された従来のメソッドとは異なり、StePはタスクの複雑さに適応する動的制御を可能にする。
我々は、WebArena、MiniWoB++、CRMなど、複数のベースラインとWeb環境に対してStePを評価する。
WebArenaでは、StePはGPT-4ポリシーを使用するSOTAよりも(14.9\%から33.5\%)改善されている。
私たちのコードとデータはhttps://asappresearch.github.io/webagents-stepで公開されています。
Performing tasks on the web presents fundamental challenges to large language models (LLMs), including combinatorially large open-world tasks and variations across web interfaces. Simply specifying a large prompt to handle all possible behaviors and states is extremely complex, and results in behavior leaks between unrelated behaviors. Decomposition to distinct policies can address this challenge, but requires carefully handing off control between policies. We propose Stacked LLM Policies for Web Actions (SteP), an approach to dynamically compose policies to solve a diverse set of web tasks. SteP defines a Markov Decision Process where the state is a stack of policies representing the control state, i.e., the chain of policy calls. Unlike traditional methods that are restricted to static hierarchies, SteP enables dynamic control that adapts to the complexity of the task. We evaluate SteP against multiple baselines and web environments including WebArena, MiniWoB++, and a CRM. On WebArena, SteP improves (14.9\% to 33.5\%) over SOTA that use GPT-4 policies, while on MiniWob++, SteP is competitive with prior works while using significantly less data. Our code and data are available at https://asappresearch.github.io/webagents-step. | 翻訳日:2024-08-12 20:51:27 公開日:2024-08-08 |
# スケーラブル圧電オプトメカニカルトランスデューサを用いた超伝導量子ビットの光学的読み出し
Optical readout of a superconducting qubit using a scalable piezo-optomechanical transducer ( http://arxiv.org/abs/2310.06026v3 ) ライセンス: Link先を確認 | T. C. van Thiel, M. J. Weaver, F. Berto, P. Duivestein, M. Lemang, K. L. Schuurman, M. Žemlička, F. Hijazi, A. C. Bernasconi, C. Ferrer, E. Lachman, M. Field, Y. Mohan, F. K. de Vries, C. C. Bultink, J. van Oven, J. Y. Mutus, R. Stockill, S. Gröblacher, | (参考訳) 超伝導量子プロセッサは、サイズと計算能力に大きな進歩をもたらした。
その結果、多数の超伝導量子ビットを動作させることによる実用的極低温限界は、さらなるスケーリングのボトルネックとなっている。
電気通信繊維の低熱伝導率と高密度光多重化能力のため、マイクロ波から光への変換による量子ビット信号処理は、低温空間と熱予算のひずみを著しく緩和する。
ここでは、同軸ケーブルを介して接続された超伝導トランスモンキュービットの光ファイバーを介して、完全に統合された圧電-オプトメカニカルトランスデューサへの光読み出しを実演する。
復調読み出し手法を用いて, 単発読み出し精度81%を達成する。
小さいフットプリント (0.15mm$^2$) とモジュラーファイバーベースのアーキテクチャのため、このデバイスプラットフォームは数千のキュービットで使用するためにスケールする可能性がある。
この結果から,大容量量子プロセッサの低散逸動作に対する圧電オプトメカニカルトランスダクションの可能性が示唆された。
Superconducting quantum processors have made significant progress in size and computing potential. As a result, the practical cryogenic limitations of operating large numbers of superconducting qubits are becoming a bottleneck for further scaling. Due to the low thermal conductivity and the dense optical multiplexing capacity of telecommunications fiber, converting qubit signal processing to the optical domain using microwave-to-optics transduction would significantly relax the strain on cryogenic space and thermal budgets. Here, we demonstrate optical readout through an optical fiber of a superconducting transmon qubit connected via a coaxial cable to a fully integrated piezo-optomechanical transducer. Using a demolition readout technique, we achieve a single shot readout fidelity of 81%. Due to the small footprint (<0.15mm$^2$) and the modular fiber-based architecture, this device platform has the potential to scale towards use with thousands of qubits. Our results illustrate the potential of piezo-optomechanical transduction for low-dissipation operation of large quantum processors. | 翻訳日:2024-08-12 20:51:27 公開日:2024-08-08 |
# 高次対称性からのゲージ理論の絡み合い特性
Entanglement Properties of Gauge Theories from Higher-Form Symmetries ( http://arxiv.org/abs/2311.16235v2 ) ライセンス: Link先を確認 | Wen-Tao Xu, Tibor Rakovszky, Michael Knap, Frank Pollmann, | (参考訳) 離散格子ゲージ理論における高次対称性と絡み合い特性の関係を考察し、位相秩序位相と高次対称性保護位相(SPT)位相の両方を示す。
本研究は,ガウス法則が創発的あるいは正確であるようなフラドキン・シェンカーモデルを一般化することに焦点を当てる。
位相図は、位相的に順序付けられた位相と、1-形式と0-形式対称性で保護された非自明なSPT位相を含む。
まず、絡み合う性質は、1-形式対称性とガウス法則が正確か創発的であるかに依存する。
創発的なガウス法則では、非自明なSPT相の絡み合いスペクトル(ES)は退化を示すが、これは1-形式対称性を明示的に破る弱い摂動に対して低エネルギーで頑健である。
ガウス法則と1-形式対称性がともに正確であるとき、ES縮退は広い。
この広範な縮退は脆弱であり、ガウスの法則を正確に保ちながら、正確な1-形式対称性を明示的に破る無限小の摂動によって完全に除去することができる。
第2に, 1-形式対称性が自発的に崩壊する位相秩序相におけるESを考える。
非自明な SPT 相の ES とは対照的に、自発的な高次対称性の破れは ES レベルの「半分」を除去し、一般に位相的に順序づけられた位相の非退化 ES をもたらす。
第3に,自然発生の高次対称性の破れとトポロジカルエントロピー(TEE)の関係を導出する。
この関係を用いて、ゲージ不変量を用いたフラドキン・シェンカーモデルの分解相で蒸留できる絡み合いエントロピーについて検討する。
1-形式対称性が創発的である場合,TEE は 1-形式対称性が正確な場合,壊れやすい場合,測定値に対して頑健であることを示す。
We explore the relationship between higher-form symmetries and entanglement properties in discrete lattice gauge theories, which can exhibit both topologically ordered phases and higher-form symmetry-protected topological (SPT) phases. Our study centers on generalizing the Fradkin-Shenker model, where the Gauss law constraint can be either emergent or exact. The phase diagram includes a topologically ordered phase and a non-trivial SPT phase protected by a 1-form and a 0-form symmetry. We obtain the following key findings: First, the entanglement properties depend on whether the 1-form symmetries and the Gauss law are exact or emergent. For the emergent Gauss law, the entanglement spectrum (ES) of the non-trivial SPT phase exhibits degeneracies, which are robust at low energies against weak perturbations that explicitly break the exact 1-form symmetry. When the Gauss law and the 1-form symmetry are both exact, the ES degeneracy is extensive. This extensive degeneracy is fragile and can be removed completely by infinitesimal perturbations that explicitly break the exact 1-form symmetry while keeping the Gauss law exact. Second, we consider the ES in the topologically ordered phase where 1-form symmetries are spontaneously broken. In contrast to the ES of the non-trivial SPT phase, we find that spontaneous higher-form symmetry breaking removes "half" of the ES levels, leading to a non-degenerate ES in the topologically ordered phase in general. Third, we derive a connection between spontaneous higher-form symmetry breaking and the topological entanglement entropy (TEE). Using this relation, we investigate the entanglement entropy that can be distilled in the deconfined phase of the original Fradkin-Shenker model using gauge-invariant measurements. We show that the TEE is robust against the measurement when the 1-form symmetry is emergent but fragile when the 1-form symmetry is exact. | 翻訳日:2024-08-12 20:40:55 公開日:2024-08-08 |
# DurFlex-EVC:並列生成による持続的フレキシブル感情音声変換
DurFlex-EVC: Duration-Flexible Emotional Voice Conversion with Parallel Generation ( http://arxiv.org/abs/2401.08095v3 ) ライセンス: Link先を確認 | Hyung-Seok Oh, Sang-Hoon Lee, Deok-Hyeon Cho, Seong-Whan Lee, | (参考訳) 感情的音声変換は、話者のアイデンティティを維持しながら、所望の感情状態に合うように、ピッチ、スペクトルエンベロープ、その他の音声特性を変更することを含む。
EVCの最近の進歩は、シーケンス・ツー・シーケンス・モデルのポテンシャルを利用してピッチと持続時間を同時にモデル化することである。
本研究では,変換の信頼性と効率を高めるために,並列音声生成に着目した。
本稿では,スタイルオートエンコーダとユニット整合器を統合した持続フレキシブルECV(DurFlex-EVC)を提案する。
以前の可変デュレーション並列生成モデルでは、テキストと音声のアライメントが必要だった。
自己教師付きモデル表現と離散音声単位を並列生成のコアとみなす。
スタイルオートエンコーダは、入力特徴のソーススタイルを分離し、ターゲットスタイルで適用することにより、コンテンツスタイルのゆがみを促進する。
単位整合器は感情コンテキストをモデル化して単位レベルの特徴を符号化する。
さらに、階層型スタイリズエンコーダを用いて特徴のスタイルを強化し、拡散型ジェネレータを用いて高品質なメルスペクトルを生成する。
提案手法の有効性は主観的,客観的評価によって検証され,ベースラインモデルよりも優れていることが実証された。
Emotional voice conversion involves modifying the pitch, spectral envelope, and other acoustic characteristics of speech to match a desired emotional state while maintaining the speaker's identity. Recent advances in EVC involve simultaneously modeling pitch and duration by exploiting the potential of sequence-to-sequence models. In this study, we focus on parallel speech generation to increase the reliability and efficiency of conversion. We introduce a duration-flexible EVC (DurFlex-EVC) that integrates a style autoencoder and a unit aligner. The previous variable-duration parallel generation model required text-to-speech alignment. We consider self-supervised model representation and discrete speech units to be the core of our parallel generation. The style autoencoder promotes content style disentanglement by separating the source style of the input features and applying them with the target style. The unit aligner encodes unit-level features by modeling emotional context. Furthermore, we enhance the style of the features with a hierarchical stylize encoder and generate high-quality Mel-spectrograms with a diffusion-based generator. The effectiveness of the approach has been validated through subjective and objective evaluations and has been demonstrated to be superior to baseline models. | 翻訳日:2024-08-12 20:40:55 公開日:2024-08-08 |
# ニューラルネットワークアンサンブルを用いた非定常流体流れの低次モデリング
Reduced-order modeling of unsteady fluid flow using neural network ensembles ( http://arxiv.org/abs/2402.05372v2 ) ライセンス: Link先を確認 | Rakesh Halder, Mohammadmehdi Ataei, Hesam Salehipour, Krzysztof Fidkowski, Kevin Maki, | (参考訳) 深層学習の利用は、全階モデルの低次元表現を得るために、低階モデル(ROM)でますます人気が高まっている。
畳み込みオートエンコーダ(CAE)はしばしば、偏微分方程式の解を含む空間的に分散したデータを扱うことに長けているため、この目的のために使用される。
非定常物理学問題に適用する場合、ROMは低次元潜在変数の時系列予測モデルも必要である。
時系列データのモデリングに有用なリカレントニューラルネットワークの一種であるLong Short-term memory(LSTM)ネットワークは、自動回帰時系列予測のためのデータ駆動ROMに頻繁に使用される。
長時間の地平線上で目に見えない設計ポイントで予測を行う場合、エラーの伝播は頻繁に発生する問題であり、早い段階でのエラーは時間とともに複雑化し、大きな不正確な結果をもたらす。
本研究では,一般的なアンサンブル学習手法であるバギングを用いて,全順序モデルの空間的再構成にCAEを用いて時系列予測にLSTMアンサンブルを使用する,CAE-eLSTM ROMと呼ばれる完全データ駆動ROMフレームワークを開発することを提案する。
2つの非定常流体力学問題に適用すると,提案手法は誤りの伝播を効果的に低減し,未知点における潜伏変数の時系列予測をより高精度に行うことができることを示す。
The use of deep learning has become increasingly popular in reduced-order models (ROMs) to obtain low-dimensional representations of full-order models. Convolutional autoencoders (CAEs) are often used to this end as they are adept at handling data that are spatially distributed, including solutions to partial differential equations. When applied to unsteady physics problems, ROMs also require a model for time-series prediction of the low-dimensional latent variables. Long short-term memory (LSTM) networks, a type of recurrent neural network useful for modeling sequential data, are frequently employed in data-driven ROMs for autoregressive time-series prediction. When making predictions at unseen design points over long time horizons, error propagation is a frequently encountered issue, where errors made early on can compound over time and lead to large inaccuracies. In this work, we propose using bagging, a commonly used ensemble learning technique, to develop a fully data-driven ROM framework referred to as the CAE-eLSTM ROM that uses CAEs for spatial reconstruction of the full-order model and LSTM ensembles for time-series prediction. When applied to two unsteady fluid dynamics problems, our results show that the presented framework effectively reduces error propagation and leads to more accurate time-series prediction of latent variables at unseen points. | 翻訳日:2024-08-12 20:30:23 公開日:2024-08-08 |
# 契約に基づく設計原理を用いた複雑システムのモジュール保証
Modular Assurance of Complex Systems Using Contract-Based Design Principles ( http://arxiv.org/abs/2402.12804v2 ) ライセンス: Link先を確認 | Dag McGeorge, Jon Arne Glomsrud, | (参考訳) 多くの安全クリティカルな産業は、複雑なシステムに信頼性を構築することは、保証のケースに枠づけられた証拠と構造化された議論によって達成できると合意している。
それにもかかわらず、実践的な産業経験によれば、複雑なシステムに適用した場合、保証ケースは厳格になり、開発や保守が困難になる可能性がある。
そこで本研究では,コンピュータサイエンスで開発された複雑性を管理する手法であるCBD(Contract-based Development)を用いて,モジュール化による保証ケースの簡素化を提案する。
本稿では, CBD を用いた一貫したモジュール保証ケースの構築など, 従来の課題を要約するだけでなく, CBD とアシュアランス・ケース・モジュールの議論を統合する新たなアプローチを提案する。
このアプローチにより、CBDを知らなくても、サブジェクタとドメインの専門家が一緒に保証ケースモジュールを構築できる。
これは、コンピュータサイエンス以外の分野の専門家がCBDを学ばなくても、保証ケースの学際的共同開発に貢献できるため、業界におけるこれらの手法の幅広い応用に役立つ。
業界経験は、高品質の保証ケースを開発するのに役立つ4つのルールを証明している。
この記事では、モジュラー保証が安全性、セキュリティ、パフォーマンスなど、さまざまな関心事の相互依存性を考慮に入れた保証を可能にする方法について説明する。
A growing number of safety-critical industries agree that building confidence in complex systems can be achieved through evidence and structured argumentation framed in assurance cases. Nevertheless, according to practical industry experience, assurance cases can easily become too rigorous and difficult to develop and maintain when applied to complex systems. Therefore, we propose to use contract-based development (CBD), a method to manage complexity originally developed in computer science, to simplify assurance cases by modularizing them. This paper will not only summarize relevant previous work such as constructing consistent modular assurance cases using CBD, but more importantly also propose a novel approach to integrate CBD with the argumentation in assurance case modules. This approach will allow subject-matter and domain experts to build assurance case modules together without having to know CBD. This can help a broader application of these methods in industry because subject matter experts outside of computer science can contribute to cross disciplinary co-development of assurance cases without having to learn CBD. Industry experience has proven four rules of thumb helpful for developing high-quality assurance cases. This article illustrates their usefulness and explains how modular assurance enables assurance that accounts for the interdependency of different concerns such as safety, security and performance. | 翻訳日:2024-08-12 20:30:23 公開日:2024-08-08 |
# 急激な不安定性を超えて--LLMにおける政治的世界観の信頼性と一貫性の評価
Beyond prompt brittleness: Evaluating the reliability and consistency of political worldviews in LLMs ( http://arxiv.org/abs/2402.17649v3 ) ライセンス: Link先を確認 | Tanise Ceron, Neele Falk, Ana Barić, Dmitry Nikolaev, Sebastian Padó, | (参考訳) 大きな言語モデル(LLM)が広く使われているため、それらが特定の"ワールドビュー"を組み込み、これらのビューが何を反映しているかを理解する必要がある。
近年の研究では、政治的アンケートにより、LLMは左利き(Feng et al , 2023; Motoki et al , 2024)を示すことが報告されている。
しかし、これらの傾きが信頼できるか(変動を促すために悪用されている)、また、その傾きが政策や政治的傾きに一貫したものであるかは定かではない。
我々は,EU7カ国から収集された投票支援アンケートのデータセットに基づいて,政治声明に対するLCMの姿勢の信頼性と整合性を評価する一連のテストを提案する。
本研究では, 7B から 70B までの大きさの LLM について検討し, パラメータ数によって信頼性が向上することを確認した。
より大規模なモデルは、左派政党との全体的な整合性を示すが、政策プログラムによって異なる: 環境保護、社会福祉国家、自由社会に対する(左派)肯定的な姿勢を示すだけでなく、(右派)法律や秩序も示し、外交政策や移民の分野において一貫した好みはない。
Due to the widespread use of large language models (LLMs), we need to understand whether they embed a specific "worldview" and what these views reflect. Recent studies report that, prompted with political questionnaires, LLMs show left-liberal leanings (Feng et al., 2023; Motoki et al., 2024). However, it is as yet unclear whether these leanings are reliable (robust to prompt variations) and whether the leaning is consistent across policies and political leaning. We propose a series of tests which assess the reliability and consistency of LLMs' stances on political statements based on a dataset of voting-advice questionnaires collected from seven EU countries and annotated for policy issues. We study LLMs ranging in size from 7B to 70B parameters and find that their reliability increases with parameter count. Larger models show overall stronger alignment with left-leaning parties but differ among policy programs: They show a (left-wing) positive stance towards environment protection, social welfare state and liberal society but also (right-wing) law and order, with no consistent preferences in the areas of foreign policy and migration. | 翻訳日:2024-08-12 20:30:23 公開日:2024-08-08 |
# メタラーニングによるドメインの一般化:サーベイ
Domain Generalization through Meta-Learning: A Survey ( http://arxiv.org/abs/2404.02785v2 ) ライセンス: Link先を確認 | Arsham Gholamzadeh Khoee, Yinan Yu, Robert Feldt, | (参考訳) ディープニューラルネットワーク(DNN)は人工知能に革命をもたらしたが、現実のアプリケーションでは避けられないドメインシフトのために一般的なシナリオであるOOD(out-of-distriion)データに直面すると、パフォーマンスが低下することが多い。
この制限は、トレーニングデータとテストデータが同じ分布を共有しているという一般的な仮定に由来する。
大量のデータと計算能力を持つにもかかわらず、DNNは分散シフトやラベル付きデータの制限に苦しむため、様々なタスクや領域にわたって過度に適合し、一般化が不十分になる。
メタラーニングは、様々なタスクにまたがる伝達可能な知識を高速な適応のために取得し、各タスクをスクラッチから学習する必要をなくし、有望なアプローチを示す。
本調査はメタラーニングの領域を掘り下げ,ドメインの一般化への貢献に焦点をあてたものである。
まず,ドメイン一般化のためのメタラーニングの概念を明らかにし,特徴抽出戦略と分類器学習手法に基づく新しい分類法を導入する。
さらに、データ可用性とドメインシフトに基づいて分類をナビゲートする上で、読者が特定の問題要件に合わせて適切なモデルを選択して開発できるように、決定グラフを提示する。
既存の方法と基礎理論の徹底的なレビューを通じて、この分野の基礎を概観する。
本調査は,有望な研究方向性に関する実践的洞察と情報的考察を提供する。
Deep neural networks (DNNs) have revolutionized artificial intelligence but often lack performance when faced with out-of-distribution (OOD) data, a common scenario due to the inevitable domain shifts in real-world applications. This limitation stems from the common assumption that training and testing data share the same distribution--an assumption frequently violated in practice. Despite their effectiveness with large amounts of data and computational power, DNNs struggle with distributional shifts and limited labeled data, leading to overfitting and poor generalization across various tasks and domains. Meta-learning presents a promising approach by employing algorithms that acquire transferable knowledge across various tasks for fast adaptation, eliminating the need to learn each task from scratch. This survey paper delves into the realm of meta-learning with a focus on its contribution to domain generalization. We first clarify the concept of meta-learning for domain generalization and introduce a novel taxonomy based on the feature extraction strategy and the classifier learning methodology, offering a granular view of methodologies. Additionally, we present a decision graph to assist readers in navigating the taxonomy based on data availability and domain shifts, enabling them to select and develop a proper model tailored to their specific problem requirements. Through an exhaustive review of existing methods and underlying theories, we map out the fundamentals of the field. Our survey provides practical insights and an informed discussion on promising research directions. | 翻訳日:2024-08-12 20:20:09 公開日:2024-08-08 |
# ニューラルネットワークオンチップのためのグラディエントベース自動混合精度量子化
Gradient-based Automatic Mixed Precision Quantization for Neural Networks On-Chip ( http://arxiv.org/abs/2405.00645v2 ) ライセンス: Link先を確認 | Chang Sun, Thea K. Årrestad, Vladimir Loncar, Jennifer Ngadiuba, Maria Spiropulu, | (参考訳) モデルのサイズとデプロイメント時の推論速度は、多くのディープラーニングアプリケーションにおいて大きな課題である。
これらの課題を克服するための有望な戦略は量子化である。
しかし、非常に低い精度で単純で均一な量子化を行うと、かなりの精度が失われる。
混合精度量子化(Mixed-precision Quantization)は、ネットワークの一部が他の部分と比べて性能を損なうことなく低い精度に対応できるという考えに基づいて、潜在的な解決策を提供する。
本研究では,高グラニュラリティ量子化(HGQ)について述べる。これは,勾配降下による最適化により,重み付きおよびアクティベーション毎の精度を微調整できる,革新的な量子化対応のトレーニング手法である。
このアプローチにより、FPGAやASICなどの任意のビット数で演算を行うことができるハードウェア上で、超低レイテンシと低電力ニューラルネットワークを実現することができる。
我々は,HGQが既存の手法をかなり上回り,最大20倍のリソース削減,5倍のレイテンシ向上を達成できることを示した。
Model size and inference speed at deployment time, are major challenges in many deep learning applications. A promising strategy to overcome these challenges is quantization. However, a straightforward uniform quantization to very low precision can result in significant accuracy loss. Mixed-precision quantization, based on the idea that certain parts of the network can accommodate lower precision without compromising performance compared to other parts, offers a potential solution. In this work, we present High Granularity Quantization (HGQ), an innovative quantization-aware training method that could fine-tune the per-weight and per-activation precision by making them optimizable through gradient descent. This approach enables ultra-low latency and low power neural networks on hardware capable of performing arithmetic operations with an arbitrary number of bits, such as FPGAs and ASICs. We demonstrate that HGQ can outperform existing methods by a substantial margin, achieving resource reduction by up to a factor of 20 and latency improvement by a factor of 5 while preserving accuracy. | 翻訳日:2024-08-12 20:10:25 公開日:2024-08-08 |
# Track2Act:インターネットビデオからポイントトラックを予測することで、汎用的なロボット操作を可能にする
Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation ( http://arxiv.org/abs/2405.01527v2 ) ライセンス: Link先を確認 | Homanga Bharadhwaj, Roozbeh Mottaghi, Abhinav Gupta, Shubham Tulsiani, | (参考訳) 我々は、ゼロショットロボット操作を可能にする汎用的な目標条件付きポリシーを学習し、テスト時間適応なしに、新しいシーンで見えない物体と対話する。
一般的な手法は、そのような一般化のための大量の実演データに依存しているが、我々は、Webビデオを活用して、もっともらしい対話計画を予測するアプローチを提案し、実世界でロボットの動作を得るためのタスク非依存の変換を学習する。
我々のフレームワークであるTrack2Actは、ゴールに基づいて、画像内のポイントが将来のタイムステップでどのように動くかを予測する。
これらの2次元トラック予測を用いて、操作対象物の剛体変換列を推定し、オープンループで実行可能なロボットエンドエフェクタのポーズを得る。
次に、いくつかの具体的デモンストレーションで訓練された閉ループポリシーにより、残余動作を予測することにより、このオープンループ計画を洗練する。
本手法は,学習可能なトラック予測と最小限のドメイン内ロボット固有のデータを必要とする残ポリシーを組み合わせることで,多種多様な汎用可能なロボット操作を可能にし,未知のタスク,オブジェクト,シーンにまたがるさまざまな実世界のロボット操作結果を示す。
https://homangab.github.io/track2act/
We seek to learn a generalizable goal-conditioned policy that enables zero-shot robot manipulation: interacting with unseen objects in novel scenes without test-time adaptation. While typical approaches rely on a large amount of demonstration data for such generalization, we propose an approach that leverages web videos to predict plausible interaction plans and learns a task-agnostic transformation to obtain robot actions in the real world. Our framework,Track2Act predicts tracks of how points in an image should move in future time-steps based on a goal, and can be trained with diverse videos on the web including those of humans and robots manipulating everyday objects. We use these 2D track predictions to infer a sequence of rigid transforms of the object to be manipulated, and obtain robot end-effector poses that can be executed in an open-loop manner. We then refine this open-loop plan by predicting residual actions through a closed loop policy trained with a few embodiment-specific demonstrations. We show that this approach of combining scalably learned track prediction with a residual policy requiring minimal in-domain robot-specific data enables diverse generalizable robot manipulation, and present a wide array of real-world robot manipulation results across unseen tasks, objects, and scenes. https://homangab.github.io/track2act/ | 翻訳日:2024-08-12 20:10:25 公開日:2024-08-08 |
# 都市域における大規模言語モデル(LLM)による無線ネットワークの展開
Large Language Models (LLMs) Assisted Wireless Network Deployment in Urban Settings ( http://arxiv.org/abs/2405.13356v2 ) ライセンス: Link先を確認 | Nurullah Sevim, Mostafa Ibrahim, Sabit Ekin, | (参考訳) LLM(Large Language Models)の出現は、言語理解とヒューマンライクなテキスト生成に革命をもたらし、この疑問を念頭に置いて、他の多くの分野から関心を集めている。
広く採用されているにもかかわらず、現在進行中の研究は、LSMを多様なシステムに統合する新しい方法を模索している。
本稿では,6G(第6世代)無線通信技術におけるLCMのパワーを活用するための新しい手法について検討する。
LLMのドメイン固有のタスクへの固有の適応性は、それらを6Gランドスケープにおける無線システムを強化するための主要な候補として位置づけている。
無線通信におけるネットワーク展開にLLMを利用する新しい強化学習(RL)フレームワークを提案する。
本手法では,都市環境下でLLMをコアとしてRLエージェントを訓練し,カバー範囲を最大化する。
エージェントの目的は、都市環境の複雑さをナビゲートし、最適なエリアカバレッジのためのネットワークパラメータを特定することである。
さらに、LLMを畳み込みニューラルネットワーク(CNN)と統合して、制限を緩和しながら、その強みを活かします。
Deep Deterministic Policy Gradient (DDPG)アルゴリズムは、トレーニング目的に使用される。
以上の結果から,LLM支援モデルはCNNモデルよりも優れ,少なくとも他のモデルよりも優れる可能性が示唆された。
The advent of Large Language Models (LLMs) has revolutionized language understanding and human-like text generation, drawing interest from many other fields with this question in mind: What else are the LLMs capable of? Despite their widespread adoption, ongoing research continues to explore new ways to integrate LLMs into diverse systems. This paper explores new techniques to harness the power of LLMs for 6G (6th Generation) wireless communication technologies, a domain where automation and intelligent systems are pivotal. The inherent adaptability of LLMs to domain-specific tasks positions them as prime candidates for enhancing wireless systems in the 6G landscape. We introduce a novel Reinforcement Learning (RL) based framework that leverages LLMs for network deployment in wireless communications. Our approach involves training an RL agent, utilizing LLMs as its core, in an urban setting to maximize coverage. The agent's objective is to navigate the complexities of urban environments and identify the network parameters for optimal area coverage. Additionally, we integrate LLMs with Convolutional Neural Networks (CNNs) to capitalize on their strengths while mitigating their limitations. The Deep Deterministic Policy Gradient (DDPG) algorithm is employed for training purposes. The results suggest that LLM-assisted models can outperform CNN-based models in some cases while performing at least as well in others. | 翻訳日:2024-08-12 18:19:02 公開日:2024-08-08 |
# 自動車シーン解析のためのレーダスペクトルランゲージモデル
Radar Spectra-Language Model for Automotive Scene Parsing ( http://arxiv.org/abs/2406.02158v2 ) ライセンス: Link先を確認 | Mariia Pushkareva, Yuri Feldman, Csaba Domokos, Kilian Rambach, Dotan Di Castro, | (参考訳) レーダーセンサーは低コスト、長距離、耐候性がある。
そのため、運転支援機能として広く利用されており、将来的には自動運転の成功に欠かせないものとなることが期待されている。
多くの知覚タスクでは、前処理されたレーダーポイント雲のみが考慮される。
対照的に、レーダースペクトルはレーダー測定の原型であり、レーダー点雲よりも多くの情報を含んでいる。
しかし、レーダースペクトルは解釈が難しい。
本研究では,自動走行の文脈において,スペクトルに含まれる意味情報を探究し,レーダスペクトルの解釈可能性の向上を目指す。
この目的のために、我々はレーダスペクトル言語モデルを作成し、自由テキストを用いてシーン要素が存在する場合のレーダスペクトル計測をクエリできる。
既存の視覚言語モデルの埋め込み空間をマッチングすることにより,レーダスペクトルデータの不足を克服する。
最後に、レーダスペクトルのみを用いたシーン検索における学習表現の利点について検討し、ベースラインモデルにスペクトルを注入するだけで、自由空間分割と物体検出の改善を得る。
Radar sensors are low cost, long-range, and weather-resilient. Therefore, they are widely used for driver assistance functions, and are expected to be crucial for the success of autonomous driving in the future. In many perception tasks only pre-processed radar point clouds are considered. In contrast, radar spectra are a raw form of radar measurements and contain more information than radar point clouds. However, radar spectra are rather difficult to interpret. In this work, we aim to explore the semantic information contained in spectra in the context of automated driving, thereby moving towards better interpretability of radar spectra. To this end, we create a radar spectra-language model, allowing us to query radar spectra measurements for the presence of scene elements using free text. We overcome the scarcity of radar spectra data by matching the embedding space of an existing vision-language model. Finally, we explore the benefit of the learned representation for scene retrieval using radar spectra only, and obtain improvements in free space segmentation and object detection merely by injecting the spectra embedding into a baseline model. | 翻訳日:2024-08-12 18:19:02 公開日:2024-08-08 |
# 確率的フレーム予測を用いた視覚表現学習
Visual Representation Learning with Stochastic Frame Prediction ( http://arxiv.org/abs/2406.07398v2 ) ライセンス: Link先を確認 | Huiwon Jang, Dongyoung Kim, Junsu Kim, Jinwoo Shin, Pieter Abbeel, Younggyo Seo, | (参考訳) 将来的なフレーム予測による画像表現の自己教師型学習は、有望な方向性であるが、依然として課題である。
これは、フレーム予測の未決定の性質のためであり、複数の潜在的な未来は1つの現在のフレームから生じる可能性がある。
本稿では,この課題に対処するために,フレーム予測における不確実性を捉えることを学習し,その表現学習の有効性を探求する確率的ビデオ生成の考え方を再考する。
具体的には,フレーム間の時間情報を学習するために,確率的フレーム予測モデルを訓練するフレームワークを設計する。
さらに,各フレーム内の密集情報を学習するために,共有デコーダアーキテクチャとともにマスク付き画像モデリングの補助的目的を導入する。
このアーキテクチャは、両目的を相乗的かつ計算効率のよい方法で組み合わせることができる。
本稿では,映像ラベルの伝搬や,映像のセグメンテーション,ポーズトラッキング,視覚に基づくロボットの移動,操作タスクなど,さまざまなタスクにおけるフレームワークの有効性を実証する。
コードはプロジェクトのWebページ(https://sites.google.com/view/2024rsp)で公開されている。
Self-supervised learning of image representations by predicting future frames is a promising direction but still remains a challenge. This is because of the under-determined nature of frame prediction; multiple potential futures can arise from a single current frame. To tackle this challenge, in this paper, we revisit the idea of stochastic video generation that learns to capture uncertainty in frame prediction and explore its effectiveness for representation learning. Specifically, we design a framework that trains a stochastic frame prediction model to learn temporal information between frames. Moreover, to learn dense information within each frame, we introduce an auxiliary masked image modeling objective along with a shared decoder architecture. We find this architecture allows for combining both objectives in a synergistic and compute-efficient manner. We demonstrate the effectiveness of our framework on a variety of tasks from video label propagation and vision-based robot learning domains, such as video segmentation, pose tracking, vision-based robotic locomotion, and manipulation tasks. Code is available on the project webpage: https://sites.google.com/view/2024rsp. | 翻訳日:2024-08-12 18:19:02 公開日:2024-08-08 |
# LLMによる嗜好評価の再考
Rethinking LLM-based Preference Evaluation ( http://arxiv.org/abs/2407.01085v2 ) ライセンス: Link先を確認 | Zhengyu Hu, Linxin Song, Jieyu Zhang, Zheyuan Xiao, Jingang Wang, Zhenyu Chen, Hui Xiong, | (参考訳) 大規模言語モデル (LLM) に基づく嗜好評価は, モデル応答の比較に広く用いられているが, より長い応答に対する顕著なバイアスが明らかとなり, それらの評価の信頼性に疑問が呈されている。
本稿では、データ中心の観点からLLM評価における長さバイアスについて検討し、14の一般的な好みデータセットと10の報酬モデルを分析した。
以上の結果から,ヒトの嗜好ラベル付けはより長い反応を好むことが示唆され,この素早い相関関係は報酬モデルによって学習され,トレーニング中に一致したモデルに伝播することがわかった。
選好評価指標,すなわち勝率を人間の観点から分解し,より深い要因を同定し,勝率はモデル応答の2つの軸によって影響を受けると結論づける。
制御実験は、応答長が情報量に影響を与えることにより評価に影響を与えることを示した。
応答長によって構成されることなく、コンテンツ品質を評価する信頼性の高い評価指標を確保するために、我々は、利率測定をシンプルかつ効果的に調整するAdapAlpacaを提案する。
具体的には,テストモデルの回答を同じ間隔で一致させるために基準回答の長さを調整することで,情報量と長さを相対的に偏り,公平なモデル評価を確実にする。
さらに,AlpacaEvalとAdapAlpacaを用いたDPOの長さバイアスについて検討した。
7B,13B,70BスケールでTulu2とTulu2-dpoを試験したところ,DPOがヒトの嗜好を高めることが判明したが,この上昇は応答長によって増幅され,AlpacaEvalはAdapAlpacaよりも高い利得を示した。
The use of large language model (LLM)-based preference evaluations has become widespread for comparing model responses, but it has revealed a notable bias towards longer responses, questioning the reliability of such evaluations. This paper explores the length bias in LLM evaluations from a data-centric perspective, analyzing 14 commonly used preference datasets and 10 reward models. Our findings indicate that human preference labeling favors longer responses and this spurious correlation is learned by the reward model and subsequently propagated to the aligned model during training. We decompose the preference evaluation metric, i.e., win rate, from the perspective of human to identify the deeper factors and conclude that the win rate is affected by two axes of model response: desirability and information mass, where the former is length-independent and related to trustworthiness, and the latter is length-dependent and can be represented by conditional entropy. Controlled experiments demonstrate that response length impacts evaluations by influencing information mass. To ensure reliable evaluation metrics that assess content quality without being confounded by response length, we propose AdapAlpaca, a simple yet effective adjustment to win rate measurement. Specifically, by adjusting the lengths of reference answers to match the test model's answers within the same interval, we debias information mass relative to length, ensuring a fair model evaluation. Furthermore, we investigate length bias in DPO using AlpacaEval and AdapAlpaca. By testing Tulu2 and Tulu2-dpo at 7B, 13B, and 70B scales, we found that DPO leads to higher human preference, but this gain is amplified by response length, with AlpacaEval showing higher win rates gain than AdapAlpaca. | 翻訳日:2024-08-12 18:09:10 公開日:2024-08-08 |
# マルチモーダル・セルフインストラクション:言語モデルを用いた合成抽象画像と視覚的推論インストラクション
Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning Instruction Using Language Model ( http://arxiv.org/abs/2407.07053v4 ) ライセンス: Link先を確認 | Wenqi Zhang, Zhenglin Cheng, Yuanyu He, Mengna Wang, Yongliang Shen, Zeqi Tan, Guiyang Hou, Mingqian He, Yanna Ma, Weiming Lu, Yueting Zhuang, | (参考訳) 現在の大きなマルチモーダルモデル(LMM)の多くは、自然のシーンや肖像画の写真を既に理解することができるが、抽象的なイメージ、例えばチャート、地図、レイアウト、視覚的推論などの理解は、まだごく初歩的なままである。
彼らはしばしば、時計から時間を読み、フローチャートを理解し、道路地図を使ってルートを計画するといった単純な日々のタスクに苦労する。
そこで我々は,大規模な抽象画像と視覚的推論命令を日常のシナリオで合成するために,大規模言語モデルとそのコード機能を利用するマルチモーダル・セルフインストラクトを設計する。
私たちの戦略は、チャート、テーブル、シミュレートされたマップ、ダッシュボード、フローチャート、関係グラフ、フロアプラン、ビジュアルパズルという8つのビジュアルシナリオのための11,193のインストラクションを備えたマルチモーダルベンチマークを作成しています。
このベンチマークは単純な線と幾何学的要素で構築され、抽象的イメージ理解、空間関係推論、視覚的要素誘導において、Claude-3.5-Sonnet や GPT-4o のような最も先進的な LMM の欠点を明らかにする。
さらに, 合成データの質を検証するため, 62,476の合成チャート, 表, 道路地図の指示を用いてLMMを微調整する。
その結果、チャート理解と地図ナビゲーションの性能が向上し、他の視覚的推論タスクに潜在的な利点が示された。
我々のコードは以下の通りである。
Although most current large multimodal models (LMMs) can already understand photos of natural scenes and portraits, their understanding of abstract images, e.g., charts, maps, or layouts, and visual reasoning capabilities remains quite rudimentary. They often struggle with simple daily tasks, such as reading time from a clock, understanding a flowchart, or planning a route using a road map. In light of this, we design a multi-modal self-instruct, utilizing large language models and their code capabilities to synthesize massive abstract images and visual reasoning instructions across daily scenarios. Our strategy effortlessly creates a multimodal benchmark with 11,193 instructions for eight visual scenarios: charts, tables, simulated maps, dashboards, flowcharts, relation graphs, floor plans, and visual puzzles. \textbf{This benchmark, constructed with simple lines and geometric elements, exposes the shortcomings of most advanced LMMs} like Claude-3.5-Sonnet and GPT-4o in abstract image understanding, spatial relations reasoning, and visual element induction. Besides, to verify the quality of our synthetic data, we fine-tune an LMM using 62,476 synthetic chart, table and road map instructions. The results demonstrate improved chart understanding and map navigation performance, and also demonstrate potential benefits for other visual reasoning tasks. Our code is available at: \url{https://github.com/zwq2018/Multi-modal-Self-instruct}. | 翻訳日:2024-08-12 18:09:10 公開日:2024-08-08 |
# SPIN:自然画像における部分粒度の階層的セグメンテーション
SPIN: Hierarchical Segmentation with Subpart Granularity in Natural Images ( http://arxiv.org/abs/2407.09686v2 ) ライセンス: Link先を確認 | Josh Myers-Dean, Jarek Reynolds, Brian Price, Yifei Fan, Danna Gurari, | (参考訳) 階層的セグメンテーションは、様々なレベルの粒度のセグメンテーションを作成する。
本稿では,SPIN(SubPartImageNet)と呼ばれる自然画像のサブパートアノテーションを用いた,最初の階層的セマンティックセマンティックセマンティックセマンティクスデータセットを紹介する。
また,アルゴリズムが階層レベルの空間的関係と意味的関係をいかにうまく捉えるかを評価するために,新しい評価指標を2つ導入した。
3つの異なるタスクにまたがる最新のモデルをベンチマークし、オブジェクト、部品、サブパート間の長所と短所を分析します。
コミュニティ全体の進展を促進するため、データセットをhttps://joshmyersdean.github.io/spin/index.htmlで公開しています。
Hierarchical segmentation entails creating segmentations at varying levels of granularity. We introduce the first hierarchical semantic segmentation dataset with subpart annotations for natural images, which we call SPIN (SubPartImageNet). We also introduce two novel evaluation metrics to evaluate how well algorithms capture spatial and semantic relationships across hierarchical levels. We benchmark modern models across three different tasks and analyze their strengths and weaknesses across objects, parts, and subparts. To facilitate community-wide progress, we publicly release our dataset at https://joshmyersdean.github.io/spin/index.html. | 翻訳日:2024-08-12 18:09:10 公開日:2024-08-08 |
# Lean-STaR: 思考と証明のインターリーブを学ぶ
Lean-STaR: Learning to Interleave Thinking and Proving ( http://arxiv.org/abs/2407.10040v3 ) ライセンス: Link先を確認 | Haohan Lin, Zhiqing Sun, Yiming Yang, Sean Welleck, | (参考訳) 従来の言語モデルに基づく定理証明は、十分な量の形式的証明データをトレーニングすることで、モデルが定理を証明することを学ぶと仮定する。
我々のキーとなる観察は、形式的な証明に存在しない多くの非公式な情報が、定理を証明するための学習に役立つことである。
例えば、人間は証明のステップを通して考えるが、この思考プロセスは結果のコードでは見えない。
証明の各ステップに先立って非公式な思考を生成するために、言語モデルをトレーニングするためのフレームワークであるLean-STaRを紹介します。
Lean-STaRは、言語モデルをトレーニングするための合成思考を生成するために、レトロスペクティブの地道戦略を使用している。
推論時に、トレーニングされたモデルは、各証明ステップにおける戦術の予測に先立って、直接思考を生成する。
自己学習の推論フレームワークに基づいて、専門家のイテレーションを適用して、モデルがサンプリングした正しい証明をさらに微調整し、リーンソルバを使って検証します。
Lean-STaRは、Lean定理の証明環境におけるminiF2F-testベンチマークの最先端の結果を達成し、ベースモデル(\boldsymbol{43.4\% \rightarrow 46.3\%,}$ Pass@64)よりも大幅に優れています。
また,拡張思考が定理証明過程の諸側面に与える影響を分析し,その効果について考察する。
Traditional language model-based theorem proving assumes that by training on a sufficient amount of formal proof data, a model will learn to prove theorems. Our key observation is that a wealth of informal information that is not present in formal proofs can be useful for learning to prove theorems. For instance, humans think through steps of a proof, but this thought process is not visible in the resulting code. We present Lean-STaR, a framework for training language models to produce informal thoughts prior to each step of a proof, thereby boosting the model's theorem-proving capabilities. Lean-STaR uses retrospective ground-truth tactics to generate synthetic thoughts for training the language model. At inference time, the trained model directly generates the thoughts prior to the prediction of the tactics in each proof step. Building on the self-taught reasoner framework, we then apply expert iteration to further fine-tune the model on the correct proofs it samples and verifies using the Lean solver. Lean-STaR achieves state-of-the-art results on the miniF2F-test benchmark within the Lean theorem proving environment, significantly outperforming base models ($\boldsymbol{43.4\% \rightarrow 46.3\%,}$ Pass@64). We also analyze the impact of the augmented thoughts on various aspects of the theorem proving process, providing insights into their effectiveness. | 翻訳日:2024-08-12 18:09:10 公開日:2024-08-08 |
# LLMによる慣性閉じ込め核融合予測
Inertial Confinement Fusion Forecasting via LLMs ( http://arxiv.org/abs/2407.11098v2 ) ライセンス: Link先を確認 | Mingkai Chen, Taowen Wang, James Chenhao Liang, Chuan Liu, Chunshu Wu, Qifan Wang, Ying Nian Wu, Michael Huang, Chuang Ren, Ang Li, Tong Geng, Dongfang Liu, | (参考訳) 制御された核融合エネルギーは、人類の文明の発展の鍵であると考えられている。
本研究では、慣性閉じ込め核融合(\texttt{ICF}$)の課題に対処するために、古典的な貯水池計算パラダイムとLarge Language Models(LLM)の新たな統合である$\textbf{Fusion-LLM}$を紹介する。
まず、融合特異的なプロンプトを付加した$\textit{LLM-anchored Reservoir}$を提案し、インロジョン中のホット電子力学の正確な予測を可能にする。
次に、時空間的に時間にわたってレーザー強度を記述するために、$\textit{Signal-Digesting Channels}$を開発し、$\textt{ICF}$入力のユニークな特性をキャプチャする。
最後に、予測の信頼性レベルを定量化するために$\textit{Confidence Scanner}$を設計します。
CAE 1.90, 0.14 $\textt{top-1}$ MAE, 0.11 $\textt{top-5}$ MAE in predicting Hard X-ray ($\texttt{HXR}$) energies of $\texttt{ICF}$ task。
さらに、物理実験に基づく最初の$\texttt{ICF}$ベンチマークである$\textbf{Fusion4AI}$を提示し、プラズマ物理学研究における新しいアイデアの育成と科学探査におけるLCMの有用性の向上を目的としている。
全体として、我々の研究は核融合エネルギーを推し進めるために、AIとプラズマ科学の革新的なシナジーを築こうとしている。
Controlled fusion energy is deemed pivotal for the advancement of human civilization. In this study, we introduce $\textbf{Fusion-LLM}$, a novel integration of Large Language Models (LLMs) with classical reservoir computing paradigms tailored to address challenges in Inertial Confinement Fusion ($\texttt{ICF}$). Our approach offers several key contributions: Firstly, we propose the $\textit{LLM-anchored Reservoir}$, augmented with a fusion-specific prompt, enabling accurate forecasting of hot electron dynamics during implosion. Secondly, we develop $\textit{Signal-Digesting Channels}$ to temporally and spatially describe the laser intensity across time, capturing the unique characteristics of $\texttt{ICF}$ inputs. Lastly, we design the $\textit{Confidence Scanner}$ to quantify the confidence level in forecasting, providing valuable insights for domain experts to design the $\texttt{ICF}$ process. Extensive experiments demonstrate the superior performance of our method, achieving 1.90 CAE, 0.14 $\texttt{top-1}$ MAE, and 0.11 $\texttt{top-5}$ MAE in predicting Hard X-ray ($\texttt{HXR}$) energies of $\texttt{ICF}$ tasks, which presents state-of-the-art comparisons against concurrent best systems. Additionally, we present $\textbf{Fusion4AI}$, the first $\texttt{ICF}$ benchmark based on physical experiments, aimed at fostering novel ideas in plasma physics research and enhancing the utility of LLMs in scientific exploration. Overall, our work strives to forge an innovative synergy between AI and plasma science for advancing fusion energy. | 翻訳日:2024-08-12 18:09:10 公開日:2024-08-08 |
# トークン化の基礎:統計的・計算的懸念
The Foundations of Tokenization: Statistical and Computational Concerns ( http://arxiv.org/abs/2407.11606v2 ) ライセンス: Link先を確認 | Juan Luis Gastaldi, John Terilla, Luca Malagutti, Brian DuSell, Tim Vieira, Ryan Cotterell, | (参考訳) トークン化(Tokenization) - アルファベット上の文字列を語彙上のトークンのシーケンスに変換するプラクティス。
特に、広く使われているエンドツーエンドのニューラルモデルに完全に統合されていない唯一の主要なステップである。
本稿では,トークン化の基礎を形式的観点から構築することで,この理論的ギャップに対処することを目的とする。
確率写像のカテゴリに関する基本特性を記述・拡張することにより,トークン化モデルを表現・解析するための統一的な枠組みを提案する。
このフレームワークにより、トークン化剤の使用に関する一般的な条件が確立できます。
特に,統計的推定器の整合性を維持するために,トークン化モデルに必要な,十分な条件を正式に確立する。
さらに,トークン化モデルの設計と実装に不可欠な統計的および計算上の懸念についても論じる。
本稿では,ニューラルネットワークモデリングの堅牢な理論的基盤に向けた第一歩として,その枠組みと成果について述べる。
Tokenization - the practice of converting strings of characters over an alphabet into sequences of tokens over a vocabulary - is a critical yet under-theorized step in the NLP pipeline. Notably, it remains the only major step not fully integrated into widely used end-to-end neural models. This paper aims to address this theoretical gap by laying the foundations of tokenization from a formal perspective. By articulating and extending basic properties about the category of stochastic maps, we propose a unified framework for representing and analyzing tokenizer models. This framework allows us to establish general conditions for the use of tokenizers. In particular, we formally establish the necessary and sufficient conditions for a tokenizer model to preserve the consistency of statistical estimators. Additionally, we discuss statistical and computational concerns crucial for the design and implementation of tokenizer models. The framework and results advanced in this paper represent a step toward a robust theoretical foundation for neural language modeling. | 翻訳日:2024-08-12 18:09:10 公開日:2024-08-08 |
# 開量子系のシミュレーションコストのローバウンド:リプシッツ連続性アプローチ
Lower bound for simulation cost of open quantum systems: Lipschitz continuity approach ( http://arxiv.org/abs/2407.15357v2 ) ライセンス: Link先を確認 | Zhiyan Ding, Marius Junge, Philipp Schleich, Peixue Wu, | (参考訳) 量子力学のシミュレーションは、量子コンピュータの最も有望な応用の1つである。
シミュレーションコストの上限は、様々な量子アルゴリズムを通して広範囲に研究されているが、特にオープン量子系の力学のシミュレーションにおいて、より低い境界を確立することに重点を置いている研究は少ない。
本研究では、幅広い量子マルコフ半群のクラスをシミュレートするための下界を計算するための一般的な枠組みを示す。
固定された一元集合が与えられた場合、量子シミュレーションコストを定量化するための凸回路深さの概念を導入し、必要な回路深さを分析し、特定の順序を達成する量子シミュレーションスキームを構築する。
我々のフレームワークは、単体および非単体量子力学の両方に適用でき、上界と下界がいくつかの例で一致することを示すことによって、下界技術の厳密性を示す。
Simulating quantum dynamics is one of the most promising applications of quantum computers. While the upper bound of the simulation cost has been extensively studied through various quantum algorithms, much less work has focused on establishing the lower bound, particularly for the simulation of open quantum system dynamics. In this work, we present a general framework to calculate the lower bound for simulating a broad class of quantum Markov semigroups. Given a fixed accessible unitary set, we introduce the concept of convexified circuit depth to quantify the quantum simulation cost and analyze the necessary circuit depth to construct a quantum simulation scheme that achieves a specific order. Our framework can be applied to both unital and non-unital quantum dynamics, and the tightness of our lower bound technique is illustrated by showing that the upper and lower bounds coincide in several examples. | 翻訳日:2024-08-12 18:09:10 公開日:2024-08-08 |
# グローバルサンプリングによる並列スプリット学習
Parallel Split Learning with Global Sampling ( http://arxiv.org/abs/2407.15738v2 ) ライセンス: Link先を確認 | Mohammad Kohankhaki, Ahmad Ayad, Mahdi Barhoush, Anke Schmeink, | (参考訳) IoTデバイスの拡大とディープラーニングの要求は、分散ディープラーニングシステムにおける大きな課題を浮き彫りにした。
並列分割学習は、リソース制約されたデバイス上での分散学習に適した分割学習の有望な派生として登場した。
しかし、並列分割学習は、大きな有効バッチサイズ、非独立で同一の分散データ、ストラグラー効果など、いくつかの課題に直面している。
我々は,これらの問題をサンプリングジレンマとみなし,サーバ側でミニバッチサンプリングプロセスを編成して対処することを提案する。
クライアント数から有効バッチサイズを分離し,ミニバッチの偏差を低減するため,一様グローバルサンプリングと呼ばれる新しい手法を提案する。
そこで本研究では,一様グローバルサンプリングを一般化し,バッチ偏差とトレーニング時間のトレードオフをバランスさせる,遅延ディリクレサンプリング(Latent Dirichlet Smpling)という新しい手法を提案する。
提案手法は,非独立かつ同一に分散した環境下でのモデル精度を最大34.1%向上し,ストラグラーの存在下でのトレーニング時間を最大62%削減する。
特に、遅延ディリクレサンプリングは、モデル精度を損なうことなくストラグラー効果を効果的に軽減し、また一様大域的なサンプリングと比較して計算オーバーヘッドを著しく増やす。
本研究は,並列分割学習における共通課題を軽減する手法の可能性を示すものである。
The expansion of IoT devices and the demands of deep learning have highlighted significant challenges in distributed deep learning systems. Parallel split learning has emerged as a promising derivative of split learning well suited for distributed learning on resource-constrained devices. However, parallel split learning faces several challenges, such as large effective batch sizes, non-independent and identically distributed data, and the straggler effect. We view these issues as a sampling dilemma and propose to address them by orchestrating a mini-batch sampling process on the server side. We introduce a new method called uniform global sampling to decouple the effective batch size from the number of clients and reduce the mini-batch deviation. To address the straggler effect, we introduce a novel method called Latent Dirichlet Sampling, which generalizes uniform global sampling to balance the trade-off between batch deviation and training time. Our simulations reveal that our proposed methods enhance model accuracy by up to 34.1% in non-independent and identically distributed settings and reduce the training time in the presence of stragglers by up to 62%. In particular, Latent Dirichlet Sampling effectively mitigates the straggler effect without compromising model accuracy or adding significant computational overhead compared to uniform global sampling. Our results demonstrate the potential of our methods to mitigate common challenges in parallel split learning. | 翻訳日:2024-08-12 18:09:10 公開日:2024-08-08 |
# ヒト発声におけるバイオマーカーの検討
Survey on biomarkers in human vocalizations ( http://arxiv.org/abs/2407.17505v2 ) ライセンス: Link先を確認 | Aki Härmä, Bert den Brinker, Ulf Grossekathofer, Okke Ouweltjes, Srikanth Nallanthighal, Sidharth Abrol, Vibhu Sharma, | (参考訳) 近年,話者の健康感を高めるために音声を使用する技術が増えてきている。
本研究は, 技術の一般的な分類法と今後の進歩と課題について概説する。
声道バイオマーカーは、しばしば別のセンサーの信号を近似したり、基礎となる精神的、認知的、生理的状態を特定する二次的な尺度である。
彼らの測定にはノイズ源として考えられる障害や不確実性が含まれており、バイオマーカーはその決定に関わる様々なノイズ源に関して粗い資格を有する。
提案されたバイオマーカーでは、エラーレベルが高いように見えるが、エラーが低く、したがって医療応用の候補になる可能性が高くなる、声のよいバイオマーカーが存在する。
Recent years has witnessed an increase in technologies that use speech for the sensing of the health of the talker. This survey paper proposes a general taxonomy of the technologies and a broad overview of current progress and challenges. Vocal biomarkers are often secondary measures that are approximating a signal of another sensor or identifying an underlying mental, cognitive, or physiological state. Their measurement involve disturbances and uncertainties that may be considered as noise sources and the biomarkers are coarsely qualified in terms of the various sources of noise involved in their determination. While in some proposed biomarkers the error levels seem high, there are vocal biomarkers where the errors are expected to be low and thus are more likely to qualify as candidates for adoption in healthcare applications. | 翻訳日:2024-08-12 17:59:25 公開日:2024-08-08 |
# 創発的初期化スキームによるニューラルネットワーク性能の向上
Advancing Neural Network Performance through Emergence-Promoting Initialization Scheme ( http://arxiv.org/abs/2407.19044v2 ) ライセンス: Link先を確認 | Johnny Jingze Li, Vivek Kurien George, Gabriel A. Silva, | (参考訳) 本稿では,Xavier や Kaiming などの従来の手法を改良した,比較的簡単なニューラルネットワーク初期化手法を提案する。
この手法は,Li(2023)が提案する出現対策の概念にインスパイアされ,より高い出現値を達成するために,レイヤワイド・ウェイト・スケーリング・ファクタを調整した。
この拡張は実装が容易で、GradInitと比較して初期化のための追加の最適化手順を必要としない。
我々は、画像認識のためのMLPや畳み込みアーキテクチャ、機械翻訳のためのトランスフォーマーなど、様々なアーキテクチャにおけるアプローチを評価した。
バッチ正規化の有無にかかわらず,モデル精度とトレーニング速度の両面で大幅に向上したことを示す。
我々の手法の単純さ、理論的革新、実証可能な経験的優位性は、ニューラルネットワークの初期化の実践を強力に強化する。
これらの結果は、出現を利用してニューラルネットワークトレーニング手法を改善するための有望な方向性を示唆している。
コードは、https://github.com/johnnyjingzeli/EmergenceInit.comで入手できる。
We introduce a novel yet straightforward neural network initialization scheme that modifies conventional methods like Xavier and Kaiming initialization. Inspired by the concept of emergence and leveraging the emergence measures proposed by Li (2023), our method adjusts the layer-wise weight scaling factors to achieve higher emergence values. This enhancement is easy to implement, requiring no additional optimization steps for initialization compared to GradInit. We evaluate our approach across various architectures, including MLP and convolutional architectures for image recognition, and transformers for machine translation. We demonstrate substantial improvements in both model accuracy and training speed, with and without batch normalization. The simplicity, theoretical innovation, and demonstrable empirical advantages of our method make it a potent enhancement to neural network initialization practices. These results suggest a promising direction for leveraging emergence to improve neural network training methodologies. Code is available at: https://github.com/johnnyjingzeli/EmergenceInit. | 翻訳日:2024-08-12 17:59:25 公開日:2024-08-08 |
# オープンウェイトLLMのタンパ抵抗保護
Tamper-Resistant Safeguards for Open-Weight LLMs ( http://arxiv.org/abs/2408.00761v2 ) ライセンス: Link先を確認 | Rishub Tamirisa, Bhrugu Bharathi, Long Phan, Andy Zhou, Alice Gatti, Tarun Suresh, Maxwell Lin, Justin Wang, Rowan Wang, Ron Arel, Andy Zou, Dawn Song, Bo Li, Dan Hendrycks, Mantas Mazeika, | (参考訳) 大規模言語モデル(LLM)の能力の急速な進歩は、悪意のある使用の可能性について、広く懸念されている。
オープンウェイト LLM は、モデルウェイトを変更する攻撃に対して、既存のセーフガードには堅牢性がないため、ユニークな課題を呈している。
例えば、最近の研究は、いくつかの微調整のステップで、拒否と未学習の保護を自明に除去できることを実証している。
これらの脆弱性は、オープンウェイト LLM の安全なリリースを可能にするための新しいアプローチを必要とする。
我々は,数千歩の微調整の後にも,敵が保護を除去できないような,タンパ耐性の保護具をオープンウェイトLLMに組み込む方法TARを開発した。
広汎な評価とレッド・チームリング分析において,本手法は良識を保ちながらタンパー抵抗を大幅に改善することがわかった。
以上の結果から, タンパー抵抗性はトラクタブルな問題であり, オープンウェイトLLMの安全性と安全性を向上させるために, 将来性のある新たな道を開くことが示唆された。
Rapid advances in the capabilities of large language models (LLMs) have raised widespread concerns regarding their potential for malicious use. Open-weight LLMs present unique challenges, as existing safeguards lack robustness to tampering attacks that modify model weights. For example, recent works have demonstrated that refusal and unlearning safeguards can be trivially removed with a few steps of fine-tuning. These vulnerabilities necessitate new approaches for enabling the safe release of open-weight LLMs. We develop a method, called TAR, for building tamper-resistant safeguards into open-weight LLMs such that adversaries cannot remove the safeguards even after thousands of steps of fine-tuning. In extensive evaluations and red teaming analyses, we find that our method greatly improves tamper-resistance while preserving benign capabilities. Our results demonstrate that tamper-resistance is a tractable problem, opening up a promising new avenue to improve the safety and security of open-weight LLMs. | 翻訳日:2024-08-12 17:59:25 公開日:2024-08-08 |
# 非凸スパースペナルティをもつ量子回帰のための分散平滑化ADMM
Decentralized Smoothing ADMM for Quantile Regression with Non-Convex Sparse Penalties ( http://arxiv.org/abs/2408.01307v2 ) ライセンス: Link先を確認 | Reza Mirzaeifard, Diyako Ghaderyan, Stefan Werner, | (参考訳) 急速に進化するIoT(Internet-of-Things)エコシステムでは、センサによって生成された分散データを扱う上で、効果的なデータ分析技術が不可欠である。
本稿では, 実効係数と非実効係数を効果的に区別できないサブ段階的手法のような既存手法の限界に対処するため, 量子化回帰のための乗算器(DSAD)の分散平滑化交互方向法を提案する。
提案手法は,ミニマックス・コンケーブペナルティ (MCP) やスムーズクリッピング絶対偏差 (SCAD) などの非凸性スパースペナルティを活用し,有意な予測器の同定と保持を改善する。
DSADはスムーズなADMMフレームワークに総変分ノルムを組み込み、分散ノード間のコンセンサスを実現し、異なるデータソース間で均一なモデル性能を確保する。
このアプローチは、分散環境での非凸ペナルティに関連する従来の収束課題を克服する。
本稿では,DSADの有効性を検証するための理論的証明と広範囲なシミュレーション結果について述べる。
In the rapidly evolving internet-of-things (IoT) ecosystem, effective data analysis techniques are crucial for handling distributed data generated by sensors. Addressing the limitations of existing methods, such as the sub-gradient approach, which fails to distinguish between active and non-active coefficients effectively, this paper introduces the decentralized smoothing alternating direction method of multipliers (DSAD) for penalized quantile regression. Our method leverages non-convex sparse penalties like the minimax concave penalty (MCP) and smoothly clipped absolute deviation (SCAD), improving the identification and retention of significant predictors. DSAD incorporates a total variation norm within a smoothing ADMM framework, achieving consensus among distributed nodes and ensuring uniform model performance across disparate data sources. This approach overcomes traditional convergence challenges associated with non-convex penalties in decentralized settings. We present theoretical proofs and extensive simulation results to validate the effectiveness of the DSAD, demonstrating its superiority in achieving reliable convergence and enhancing estimation accuracy compared with prior methods. | 翻訳日:2024-08-12 17:59:25 公開日:2024-08-08 |
# WalledEval: 大規模言語モデルのための総合的安全評価ツールキット
WalledEval: A Comprehensive Safety Evaluation Toolkit for Large Language Models ( http://arxiv.org/abs/2408.03837v2 ) ライセンス: Link先を確認 | Prannaya Gupta, Le Qi Yau, Hao Han Low, I-Shiang Lee, Hugo Maximus Lim, Yu Xin Teoh, Jia Hng Koh, Dar Win Liew, Rishabh Bhardwaj, Rajat Bhardwaj, Soujanya Poria, | (参考訳) WalledEvalは、大規模な言語モデル(LLM)を評価するために設計された、包括的なAI安全テストツールキットである。
オープンウェイトとAPIベースのモデルを含むさまざまなモデルに対応しており、多言語安全性、誇張された安全性、インジェクションのプロンプトといった領域をカバーする35以上の安全ベンチマークを備えている。
このフレームワークは LLM とジャッジベンチマークの両方をサポートし、カスタムミュータを組み込んで、将来の時制やパラフレーズなど、さまざまなテキストスタイルの変異に対する安全性をテストする。
さらに、WalledEvalは、新しく、小さく、パフォーマンスの高いコンテンツモデレーションツールであるWalledGuardと、文化的文脈における誇張された安全性を評価するベンチマークであるSGXSTestを導入した。
WalledEvalをhttps://github.com/walledai/walledevalで公開しています。
WalledEval is a comprehensive AI safety testing toolkit designed to evaluate large language models (LLMs). It accommodates a diverse range of models, including both open-weight and API-based ones, and features over 35 safety benchmarks covering areas such as multilingual safety, exaggerated safety, and prompt injections. The framework supports both LLM and judge benchmarking, and incorporates custom mutators to test safety against various text-style mutations such as future tense and paraphrasing. Additionally, WalledEval introduces WalledGuard, a new, small and performant content moderation tool, and SGXSTest, a benchmark for assessing exaggerated safety in cultural contexts. We make WalledEval publicly available at https://github.com/walledai/walledeval | 翻訳日:2024-08-12 17:49:41 公開日:2024-08-08 |
# CREST: 検索ベースの投機的デコーディングのためのデータストアを効果的に圧縮する
CREST: Effectively Compacting a Datastore For Retrieval-Based Speculative Decoding ( http://arxiv.org/abs/2408.04678v1 ) ライセンス: Link先を確認 | Sophia Ho, Jinsol Park, Patrick Wang, | (参考訳) 私たちはCREST(Compact Retrieval-Based Speculative Decoding)を紹介します。
RESTは、データストアからターゲット LLM が生成した最新の n 個のトークンの正確な n-gram マッチングを検索する、投機的デコーディングのためのドラフト技術である。
CRESTのキーとなる考え方は、少ないストレージスペースで同等のパフォーマンスを達成することを期待して、最も小さく最も一般的なn-gramのサブセットだけをデータストアに格納することだ。
n-gramのサブセットを格納することで、ストレージスペースが減少し、パフォーマンスが向上することがわかった。
CRESTは、RESTの許容トークン長を10.6-13.5xのストレージスペースと一致させ、HumanEvalとMT Benchベンチマークで同じストレージスペースを使用して、RESTよりも16.5-17.1%高い受け入れ長を達成する。
We present CREST (Compact Retrieval-Based Speculative Decoding), a redesign of REST that allows it to be effectively "compacted". REST is a drafting technique for speculative decoding based on retrieving exact n-gram matches of the most recent n tokens generated by the target LLM from a datastore. The key idea of CREST is to only store a subset of the smallest and most common n-grams in the datastore with the hope of achieving comparable performance with less storage space. We found that storing a subset of n-grams both reduces storage space and improves performance. CREST matches REST's accepted token length with 10.6-13.5x less storage space and achieves a 16.5-17.1% higher acceptance length than REST using the same storage space on the HumanEval and MT Bench benchmarks. | 翻訳日:2024-08-12 17:39:53 公開日:2024-08-08 |
# 脳波記録からの言語的ニューラル表現学習と文検索に向けて
Towards Linguistic Neural Representation Learning and Sentence Retrieval from Electroencephalogram Recordings ( http://arxiv.org/abs/2408.04679v1 ) ライセンス: Link先を確認 | Jinzhao Zhou, Yiqun Duan, Ziyi Zhao, Yu-Cheng Chang, Yu-Kai Wang, Thomas Do, Chin-Teng Lin, | (参考訳) 脳波を用いた非侵襲的脳信号からの言語情報の復号化は、その膨大な応用可能性から研究の注目を集めている。
近年,前訓練された大言語モデル(LLM)の出力生成能力を利用して,脳波信号を文にデコードする生成的枠組みが,多くの研究で採用されている。
しかし、このアプローチには、脳-コンピュータインタフェース(BCI)の言語的応用のさらなる発展を妨げるいくつかの欠点がある。
具体的には、脳波エンコーダが脳波データから意味情報を学習する能力は疑問視され、LLMデコーダはそのトレーニングメモリに基づいて文を生成する傾向は避けられない。
これらの問題は、脳波信号を文に変換する新しいアプローチを必要とする。
本稿では,これらの制約に対処し,言語脳波復号化研究の妥当性を高める新しい2段階パイプラインを提案する。
まず,コンフォーマーエンコーダを,単語レベルの分類のためのマスク付きコントラスト目的により訓練することにより,自然読解中に記録された脳波データから単語レベルの意味情報を学習できることを確認する。
脳波エンコーダからの予測に基づいて文章を検索するために,トレーニング不要の検索手法を用いる。
本論文では,提案手法の総合的な評価のために,広範囲な実験とアブレーション実験を行った。
上位予測候補の可視化により,脳波セグメントを類似の意味を持つ意味カテゴリーに効果的に分類し,未知の脳波記録からパターンを学習する能力を検証した。
本研究の探索的性質にもかかわらず,本手法は,脳波信号をテキストに変換するための信頼性の高いソリューションを提供することを約束するものであることを示唆している。
Decoding linguistic information from non-invasive brain signals using EEG has gained increasing research attention due to its vast applicational potential. Recently, a number of works have adopted a generative-based framework to decode electroencephalogram (EEG) signals into sentences by utilizing the power generative capacity of pretrained large language models (LLMs). However, this approach has several drawbacks that hinder the further development of linguistic applications for brain-computer interfaces (BCIs). Specifically, the ability of the EEG encoder to learn semantic information from EEG data remains questionable, and the LLM decoder's tendency to generate sentences based on its training memory can be hard to avoid. These issues necessitate a novel approach for converting EEG signals into sentences. In this paper, we propose a novel two-step pipeline that addresses these limitations and enhances the validity of linguistic EEG decoding research. We first confirm that word-level semantic information can be learned from EEG data recorded during natural reading by training a Conformer encoder via a masked contrastive objective for word-level classification. To achieve sentence decoding results, we employ a training-free retrieval method to retrieve sentences based on the predictions from the EEG encoder. Extensive experiments and ablation studies were conducted in this paper for a comprehensive evaluation of the proposed approach. Visualization of the top prediction candidates reveals that our model effectively groups EEG segments into semantic categories with similar meanings, thereby validating its ability to learn patterns from unspoken EEG recordings. Despite the exploratory nature of this work, these results suggest that our method holds promise for providing more reliable solutions for converting EEG signals into text. | 翻訳日:2024-08-12 17:30:10 公開日:2024-08-08 |
# 医療応用におけるLDMの実行促進のための動的フォグコンピューティング
Dynamic Fog Computing for Enhanced LLM Execution in Medical Applications ( http://arxiv.org/abs/2408.04680v1 ) ライセンス: Link先を確認 | Philipp Zagar, Vishnu Ravi, Lauren Aalami, Stephan Krusche, Oliver Aalami, Paul Schmiedmayer, | (参考訳) 大きな言語モデル(LLM)が大量の異種データを変換し、解釈し、理解する能力は、データ駆動型ケアデリバリーを強化する重要な機会となる。
しかしながら、保護された健康情報(PHI)の繊細な性質は、データプライバシとリモートLLMプラットフォームへの信頼に関する有効な懸念を提起する。
さらに、クラウドベースの人工知能(AI)サービスに関連するコストは、広く採用されるのを妨げ続けている。
これらの課題に対処するため,LLM実行環境を不透明で集中型のクラウドプロバイダから分散された動的フォグコンピューティングアーキテクチャに移行することを提案する。
ユーザのエッジデバイスやローカルネットワーク内の霧層など,より信頼性の高い環境でオープンウェイト LLM を実行することで,クラウドベースの LLM に関連するプライバシや信頼性,財務上の課題を軽減することを目指している。
さらに、異なるLLM実行層を迅速かつシームレスに活用し、デジタルヘルスアプリケーションにおけるLLM統合に対する障壁を低くするために設計されたオープンソースのフレームワークであるSpeziLLMについて紹介する。
SpeziLLMは6つのデジタルヘルスアプリケーションにまたがって幅広い適用性を示し、さまざまな医療環境においてその汎用性を示す。
The ability of large language models (LLMs) to transform, interpret, and comprehend vast quantities of heterogeneous data presents a significant opportunity to enhance data-driven care delivery. However, the sensitive nature of protected health information (PHI) raises valid concerns about data privacy and trust in remote LLM platforms. In addition, the cost associated with cloud-based artificial intelligence (AI) services continues to impede widespread adoption. To address these challenges, we propose a shift in the LLM execution environment from opaque, centralized cloud providers to a decentralized and dynamic fog computing architecture. By executing open-weight LLMs in more trusted environments, such as the user's edge device or a fog layer within a local network, we aim to mitigate the privacy, trust, and financial challenges associated with cloud-based LLMs. We further present SpeziLLM, an open-source framework designed to facilitate rapid and seamless leveraging of different LLM execution layers and lowering barriers to LLM integration in digital health applications. We demonstrate SpeziLLM's broad applicability across six digital health applications, showcasing its versatility in various healthcare settings. | 翻訳日:2024-08-12 17:30:10 公開日:2024-08-08 |
# 大規模言語モデルによる会話型AIは、知性面接における虚偽記憶を増幅する
Conversational AI Powered by Large Language Models Amplifies False Memories in Witness Interviews ( http://arxiv.org/abs/2408.04681v1 ) ライセンス: Link先を確認 | Samantha Chan, Pat Pataranutaporn, Aditya Suri, Wazeer Zulfikar, Pattie Maes, Elizabeth F. Loftus, | (参考訳) 本研究では,AIが人間の虚偽記憶に与える影響について検討した。
犯罪目撃者のインタビューをシミュレートし、人間とAIのインタラクションにおける示唆的質問を通じて、偽の記憶誘導を探索する。
制御,サーベイベース,事前記述型チャットボット,大言語モデル(LLM)を用いた生成型チャットボットの4つの条件がテストされた。
参加者(N=200)は犯罪ビデオを見て、割り当てられたAIインタビュアーや調査と対話し、5つの誤解を招く質問に答えた。
偽の記憶は1週間後に評価された。
その結果, 生成チャットボット条件は偽記憶形成を有意に増加させ, 制御値の3倍以上, 調査方法の1.7倍の即時記憶を誘導した。
生成チャットボットに対するユーザの反応の36.4%は、インタラクションによって誤解されている。
1週間後も、生成的チャットボットによって誘発される偽の記憶の数は一定であった。
しかし、これらの虚偽記憶に対する信頼は、1週間経っても支配者よりも高いままであった。
チャットボットに精通せず、AI技術に精通し、犯罪捜査にもっと興味があるユーザーは、偽の記憶に影響を受けやすい。
これらの発見は、警察のインタビューのようなセンシティブな文脈で高度なAIを使用することの潜在的なリスクを強調し、倫理的考慮の必要性を強調している。
This study examines the impact of AI on human false memories -- recollections of events that did not occur or deviate from actual occurrences. It explores false memory induction through suggestive questioning in Human-AI interactions, simulating crime witness interviews. Four conditions were tested: control, survey-based, pre-scripted chatbot, and generative chatbot using a large language model (LLM). Participants (N=200) watched a crime video, then interacted with their assigned AI interviewer or survey, answering questions including five misleading ones. False memories were assessed immediately and after one week. Results show the generative chatbot condition significantly increased false memory formation, inducing over 3 times more immediate false memories than the control and 1.7 times more than the survey method. 36.4% of users' responses to the generative chatbot were misled through the interaction. After one week, the number of false memories induced by generative chatbots remained constant. However, confidence in these false memories remained higher than the control after one week. Moderating factors were explored: users who were less familiar with chatbots but more familiar with AI technology, and more interested in crime investigations, were more susceptible to false memories. These findings highlight the potential risks of using advanced AI in sensitive contexts, like police interviews, emphasizing the need for ethical considerations. | 翻訳日:2024-08-12 17:30:10 公開日:2024-08-08 |
# ToolSandbox: LLMツール使用機能のステートフルで会話型、インタラクティブな評価ベンチマーク
ToolSandbox: A Stateful, Conversational, Interactive Evaluation Benchmark for LLM Tool Use Capabilities ( http://arxiv.org/abs/2408.04682v1 ) ライセンス: Link先を確認 | Jiarui Lu, Thomas Holleis, Yizhe Zhang, Bernhard Aumayer, Feng Nan, Felix Bai, Shuang Ma, Shen Ma, Mengyu Li, Guoli Yin, Zirui Wang, Ruoming Pang, | (参考訳) 近年の大規模言語モデル(LLM)の進歩は、ツール使用能力の包括的な評価を求める現実的な課題を解決するツール支援のLLMに、研究の関心を喚起した。
以前の作業では、単一ターンのユーザプロンプトに基づくステートレスWebサービス(RESTful API)の評価や、オフポリティダイアログのトラジェクトリに重点を置いていたが、ToolSandboxには、ステートフルツールの実行、ツール間の暗黙のステート依存性、オンポリティな会話評価をサポートする組み込みユーザシミュレータ、任意のトラジェクトリ上の中間および最終マイルストーンに対する動的評価戦略が含まれている。
オープンソースとプロプライエタリなモデルには大きなパフォーマンスギャップがあることを示し、ToolSandboxで定義されたState Dependency、Canonicalization、Insufficient Informationといった複雑なタスクは、最も有能なSOTA LLMでさえも挑戦しており、ツール利用LLM機能に対する新たな洞察を提供しています。
ToolSandbox評価フレームワークがhttps://github.com/apple/ToolSandboxでリリース
Recent large language models (LLMs) advancements sparked a growing research interest in tool assisted LLMs solving real-world challenges, which calls for comprehensive evaluation of tool-use capabilities. While previous works focused on either evaluating over stateless web services (RESTful API), based on a single turn user prompt, or an off-policy dialog trajectory, ToolSandbox includes stateful tool execution, implicit state dependencies between tools, a built-in user simulator supporting on-policy conversational evaluation and a dynamic evaluation strategy for intermediate and final milestones over an arbitrary trajectory. We show that open source and proprietary models have a significant performance gap, and complex tasks like State Dependency, Canonicalization and Insufficient Information defined in ToolSandbox are challenging even the most capable SOTA LLMs, providing brand-new insights into tool-use LLM capabilities. ToolSandbox evaluation framework is released at https://github.com/apple/ToolSandbox | 翻訳日:2024-08-12 17:30:10 公開日:2024-08-08 |
# トリガーインバージョンによるニューラルコードモデルのバックドアの除去
Eliminating Backdoors in Neural Code Models via Trigger Inversion ( http://arxiv.org/abs/2408.04683v1 ) ライセンス: Link先を確認 | Weisong Sun, Yuchen Chen, Chunrong Fang, Yebo Feng, Yuan Xiao, An Guo, Quanjun Zhang, Yang Liu, Baowen Xu, Zhenyu Chen, | (参考訳) ニューラルコードモデル(NCM)は、欠陥検出やクローン検出など、さまざまなコード理解タスクに広く使用されている。
しかし、近年の多くの研究では、そのようなモデルがバックドア攻撃に弱いことが示されている。
バックドアのNCMは通常、通常のコードスニペットで機能するが、敵が生成したトリガーで注入された有毒なコードスニペットに敵が予測する振る舞いを示す。
これは重大なセキュリティ上の脅威となる。
例えば、バックドア欠陥検出モデルでは、ユーザが提出した欠陥コードを非欠陥と誤分類することがある。
もしこの安全でないコードが自動運転システムのような重要なシステムに統合されれば、生命の安全につながる可能性がある。
しかし、NCMを標的としたバックドア攻撃に対する効果的な防御は緊急に必要である。
この問題に対処するため、本稿では、EliBadCodeと呼ばれるトリガーインバージョンに基づくバックドア防御手法を革新的に提案する。
EliBadCodeは最初にトリガートークンのモデル語彙をフィルタリングし、トリガーインバージョンのための検索スペースを削減し、トリガーインバージョンの有効性を高める。
そして、EliBadCodeはサンプル特異的なトリガ位置同定法を導入し、その後のトリガ反転に対する逆方向の摂動の干渉を低減し、効果的な逆トリガを効率よく生成する。
その後、EliBadCodeは、反転トリガを最適化するためにGreedy Coordinate Gradientアルゴリズムを使用し、反転トリガを浄化するためにトリガアンカリングメソッドを設計する。
最後に、EliBadCodeはモデルアンラーニングを通じてバックドアを削除する。
安全クリティカルな3つのコード理解タスクに使用される複数のNCMに対するバックドア攻撃の排除におけるEliBadCodeの有効性を評価する。
その結果、EliBadCodeはバックドアを効果的に排除し、モデルの通常の機能に最小限の悪影響を及ぼすことを示した。
Neural code models (NCMs) have been widely used for addressing various code understanding tasks, such as defect detection and clone detection. However, numerous recent studies reveal that such models are vulnerable to backdoor attacks. Backdoored NCMs function normally on normal code snippets, but exhibit adversary-expected behavior on poisoned code snippets injected with the adversary-crafted trigger. It poses a significant security threat. For example, a backdoored defect detection model may misclassify user-submitted defective code as non-defective. If this insecure code is then integrated into critical systems, like autonomous driving systems, it could lead to life safety. However, there is an urgent need for effective defenses against backdoor attacks targeting NCMs. To address this issue, in this paper, we innovatively propose a backdoor defense technique based on trigger inversion, called EliBadCode. EliBadCode first filters the model vocabulary for trigger tokens to reduce the search space for trigger inversion, thereby enhancing the efficiency of the trigger inversion. Then, EliBadCode introduces a sample-specific trigger position identification method, which can reduce the interference of adversarial perturbations for subsequent trigger inversion, thereby producing effective inverted triggers efficiently. Subsequently, EliBadCode employs a Greedy Coordinate Gradient algorithm to optimize the inverted trigger and designs a trigger anchoring method to purify the inverted trigger. Finally, EliBadCode eliminates backdoors through model unlearning. We evaluate the effectiveness of EliBadCode in eliminating backdoor attacks against multiple NCMs used for three safety-critical code understanding tasks. The results demonstrate that EliBadCode can effectively eliminate backdoors while having minimal adverse effects on the normal functionality of the model. | 翻訳日:2024-08-12 17:30:10 公開日:2024-08-08 |
# プライバシーと空域の安全性を超えて: 警察のドローンのためのガイドライン
Moving beyond privacy and airspace safety: Guidelines for just drones in policing ( http://arxiv.org/abs/2408.04684v1 ) ライセンス: Link先を確認 | Mateusz Dolata, Gerhard Schwabe, | (参考訳) ドローンの使用により、警察は効率と安全性が向上する可能性がある。
しかし、ドローンの使用が拒否された場合、警察に対する大衆の認識を損なう可能性がある。
したがって、警察は、ドローンの可能性を最大化するために、傍観者や広い社会の認識を考慮すべきである。
本稿では,52名の受験者が参加するフィールドトライアルにおいて,一般市民が提示する懸念について検討する。
グループインタビューの分析は、既存の文献や規制で広く議論されている、空域の安全とプライバシー以上の懸念が持たれていることを示唆している。
結果の解釈は、ドローン使用の正義が受容の重要な要因であることを示している。
組織的正義と収集されたデータの概念を活用することで、既存のポリシーを補完するドローンの運用のみのためのガイドラインのカタログを提案する。
我々は,公民と傍観者の懸念を法的作業に統合するための枠組みとして,組織司法の視点を提示する。
最後に,警察の行動の正当性に対する正義の関連性について論じ,研究・実践に影響を及ぼす。
The use of drones offers police forces potential gains in efficiency and safety. However, their use may also harm public perception of the police if drones are refused. Therefore, police forces should consider the perception of bystanders and broader society to maximize drones' potential. This article examines the concerns expressed by members of the public during a field trial involving 52 test participants. Analysis of the group interviews suggests that their worries go beyond airspace safety and privacy, broadly discussed in existing literature and regulations. The interpretation of the results indicates that the perceived justice of drone use is a significant factor in acceptance. Leveraging the concept of organizational justice and data collected, we propose a catalogue of guidelines for just operation of drones to supplement the existing policy. We present the organizational justice perspective as a framework to integrate the concerns of the public and bystanders into legal work. Finally, we discuss the relevance of justice for the legitimacy of the police's actions and provide implications for research and practice. | 翻訳日:2024-08-12 17:30:10 公開日:2024-08-08 |
# フェアネスの社会・アルゴリズミック構築に向けて:ライドヒーリングにおける自動価格設定を事例として
Towards the Socio-Algorithmic Construction of Fairness: The Case of Automatic Price-Surging in Ride-Hailing ( http://arxiv.org/abs/2408.04685v1 ) ライセンス: Link先を確認 | Mateusz Dolata, Gerhard Schwabe, | (参考訳) アルゴリズムは人間に影響を及ぼす決定を下し、偏見と差別を永続的に示している。
アルゴリズムによる決定は異なる解釈の対象となる。
アルゴリズムの行動は、道徳的評価と基準の矛盾の基礎である。
しかし、アルゴリズムがソーシャルな構築プロセスにどのように影響するかを理解していない。
このような理解がなければ、社会構築プロセスは破壊され、最終的には社会の道徳的進歩を妨げる可能性がある。
2022年4月12日にニューヨーク市で起きたブルックリン地下鉄の銃撃事件の後、大きな(5倍の)価格急騰の後に発生した公衆の談話を分析した。
2つの配車会社のアルゴリズムに関する決定については、多くの論争があった。
議論は、公平さとアルゴリズムの判断の正当性に関する様々な概念を中心に発展した。
この結果から, 言論に明記されていないアルゴリズムが, 公平性評価や概念構築に強く影響していることが示唆された。
彼らは交換を開始し、人々の期待を形成し、特定の集団と人々の連帯を喚起し、道徳的な十字軍のための手段である。
しかし、社会力にもとづく調整の対象となっている。
フェアネスの概念を構築するプロセスはもはや社会的ではなく、社会的なアルゴリズム的なプロセスになっている、と我々は主張する。
本研究では,公正性や倫理的構成概念の確立のためのメカニズムとして,社会アルゴリズム構築の理論を提案する。
Algorithms take decisions that affect humans, and have been shown to perpetuate biases and discrimination. Decisions by algorithms are subject to different interpretations. Algorithms' behaviors are basis for the construal of moral assessment and standards. Yet we lack an understanding of how algorithms impact on social construction processes, and vice versa. Without such understanding, social construction processes may be disrupted and, eventually, may impede moral progress in society. We analyze the public discourse that emerged after a significant (five-fold) price-surge following the Brooklyn Subway Shooting on April 12, 2022, in New York City. There was much controversy around the two ride-hailing firms' algorithms' decisions. The discussions evolved around various notions of fairness and the algorithms' decisions' justifiability. Our results indicate that algorithms, even if not explicitly addressed in the discourse, strongly impact on constructing fairness assessments and notions. They initiate the exchange, form people's expectations, evoke people's solidarity with specific groups, and are a vehicle for moral crusading. However, they are also subject to adjustments based on social forces. We claim that the process of constructing notions of fairness is no longer just social; it has become a socio-algorithmic process. We propose a theory of socio-algorithmic construction as a mechanism for establishing notions of fairness and other ethical constructs. | 翻訳日:2024-08-12 17:30:10 公開日:2024-08-08 |
# 第一原理に基づく大規模言語モデルに対するマルチターン・コンテキスト・ジェイルブレイク攻撃
Multi-Turn Context Jailbreak Attack on Large Language Models From First Principles ( http://arxiv.org/abs/2408.04686v1 ) ライセンス: Link先を確認 | Xiongtao Sun, Deyue Zhang, Dongdong Yang, Quanchen Zou, Hui Li, | (参考訳) 大規模言語モデル(LLM)は、インテリジェントな会話からテキスト生成に至るまで、多数のアプリケーションの性能を大幅に向上させた。
しかし、その固有のセキュリティ脆弱性は、特にジェイルブレイク攻撃に関して、ますます重大な課題になっている。
攻撃者はこれらのLLMのセキュリティメカニズムを回避でき、セキュリティ制約を破り、有害な出力を引き起こす。
マルチターン・セマンティック・ジェイルブレイク攻撃に着目し、攻撃戦略におけるマルチターン・ダイアログの役割について、既存の手法では具体的な考慮が欠如しており、連続的相互作用におけるセマンティックな差異が生じる。
そこで本稿では,ジェイルブレイク攻撃に対する支援を考慮し,マルチターン攻撃の理論的基盤を確立し,これに基づいてコンテキストベースのコンテキストベース統合ブラックボックスジェイルブレイク攻撃手法であるContext Fusion Attack (CFA)を提案する。
このアプローチでは、ターゲットからキー用語をフィルタリングして抽出し、これらの用語を囲むコンテキストシナリオを構築し、ターゲットを動的にシナリオに統合し、ターゲット内の悪意のあるキー用語を置き換え、それによって直接悪意のある意図を隠蔽する。
各種のLLMとレッドチームのデータセットを比較して、他のマルチターン攻撃戦略、特にLlama3とGPT-4に対する大きなアドバンテージを示すCFAの成功率、ばらつき、有害性を実証した。
Large language models (LLMs) have significantly enhanced the performance of numerous applications, from intelligent conversations to text generation. However, their inherent security vulnerabilities have become an increasingly significant challenge, especially with respect to jailbreak attacks. Attackers can circumvent the security mechanisms of these LLMs, breaching security constraints and causing harmful outputs. Focusing on multi-turn semantic jailbreak attacks, we observe that existing methods lack specific considerations for the role of multiturn dialogues in attack strategies, leading to semantic deviations during continuous interactions. Therefore, in this paper, we establish a theoretical foundation for multi-turn attacks by considering their support in jailbreak attacks, and based on this, propose a context-based contextual fusion black-box jailbreak attack method, named Context Fusion Attack (CFA). This method approach involves filtering and extracting key terms from the target, constructing contextual scenarios around these terms, dynamically integrating the target into the scenarios, replacing malicious key terms within the target, and thereby concealing the direct malicious intent. Through comparisons on various mainstream LLMs and red team datasets, we have demonstrated CFA's superior success rate, divergence, and harmfulness compared to other multi-turn attack strategies, particularly showcasing significant advantages on Llama3 and GPT-4. | 翻訳日:2024-08-12 17:30:10 公開日:2024-08-08 |
# EU人工知能法に基づく品質管理システムの設計
Design of a Quality Management System based on the EU Artificial Intelligence Act ( http://arxiv.org/abs/2408.04689v1 ) ライセンス: Link先を確認 | Henryk Mustroph, Stefanie Rinderle-Ma, | (参考訳) 欧州連合の人工知能法は、リスクの高いAIシステムの提供者とデプロイ者が品質管理システム(QMS)を確立することを規定している。
その他の基準の中で、QMSは助けとなる。
一 リスクを特定し、分析し、評価し、軽減すること。
二 訓練、検証及び試験データの遵守の証拠を確保すること。
三 AIシステムの設計及び品質の検証及び文書化。
現在の研究は、主にAIリスク評価と監査プロセスに関する概念的考察とフレームワーク設計に対処している。
しかし、リスクの高い、あるいは汎用的なAIシステムのチェックと文書化において、人間を積極的に支援する実践的なツールを見落としていることが多い。
本稿では,AIシステム検証とドキュメンテーションのためのQMSの法規制と汎用設計とアーキテクチャに基づく要件を提案することで,このギャップに対処する。
プロトタイプQMSの最初のバージョンが実装され、LLMをAIシステムの例として統合し、統合されたリスク管理サブサービスに焦点を当てている。
プロトタイプが評価されます
一 潜在的な利害関係者のシナリオを用いたユーザストーリーに基づく質的要件評価
二 必要なGPUストレージ及び性能の技術的評価。
The Artificial Intelligence Act of the European Union mandates that providers and deployers of high-risk AI systems establish a quality management system (QMS). Among other criteria, a QMS shall help to i) identify, analyze, evaluate, and mitigate risks, ii) ensure evidence of compliance with training, validation, and testing data, and iii) verify and document the AI system design and quality. Current research mainly addresses conceptual considerations and framework designs for AI risk assessment and auditing processes. However, it often overlooks practical tools that actively involve and support humans in checking and documenting high-risk or general-purpose AI systems. This paper addresses this gap by proposing requirements derived from legal regulations and a generic design and architecture of a QMS for AI systems verification and documentation. A first version of a prototype QMS is implemented, integrating LLMs as examples of AI systems and focusing on an integrated risk management sub-service. The prototype is evaluated on i) a user story-based qualitative requirements assessment using potential stakeholder scenarios and ii) a technical assessment of the required GPU storage and performance. | 翻訳日:2024-08-12 17:30:10 公開日:2024-08-08 |
# 大規模言語モデルとのリレーショナルデータベースインタラクションの改善:カラム記述とテキスト-SQLパフォーマンスへの影響
Improving Relational Database Interactions with Large Language Models: Column Descriptions and Their Impact on Text-to-SQL Performance ( http://arxiv.org/abs/2408.04691v1 ) ライセンス: Link先を確認 | Niklas Wretblad, Oskar Holmström, Erik Larsson, Axel Wiksäter, Oscar Söderlund, Hjalmar Öhman, Ture Pontén, Martin Forsberg, Martin Sörme, Fredrik Heintz, | (参考訳) リレーショナルデータベースは、曖昧な列や難解な解釈値などのテーブル内容の非形式的な記述に悩まされ、人間のユーザとText-to-SQLモデルの両方に影響を与えます。
本稿では,大規模言語モデル(LLM)を用いて,関係データベースのセマンティックレイヤとして情報的列記述を生成する。
BIRD-Bench 開発セットを用いて LLM と人間アノテータによって生成・洗練されたゴールド標準カラム記述付きデータセットである \textsc{ColSQL} を開発した。
GPT-4oとCommand R+は高品質な記述生成に優れていた。
さらに,モデル性能を評価するためにLLM-as-a-judgeを適用した。
この手法は人間の評価とうまく一致しないが、その可能性を探究し、改善すべき領域を特定するためを含む。
このタスクの自動評価の信頼性を向上させるには、さらなる作業が必要である。
また、詳細な列記述により、特に列が非形式的である場合、テキストからSQLへの実行精度が大幅に向上することがわかった。
本研究では,LLMを詳細なメタデータを生成する効果的なツールとして確立し,リレーショナルデータベースのユーザビリティを向上させる。
Relational databases often suffer from uninformative descriptors of table contents, such as ambiguous columns and hard-to-interpret values, impacting both human users and Text-to-SQL models. This paper explores the use of large language models (LLMs) to generate informative column descriptions as a semantic layer for relational databases. Using the BIRD-Bench development set, we created \textsc{ColSQL}, a dataset with gold-standard column descriptions generated and refined by LLMs and human annotators. We evaluated several instruction-tuned models, finding that GPT-4o and Command R+ excelled in generating high-quality descriptions. Additionally, we applied an LLM-as-a-judge to evaluate model performance. Although this method does not align well with human evaluations, we included it to explore its potential and to identify areas for improvement. More work is needed to improve the reliability of automatic evaluations for this task. We also find that detailed column descriptions significantly improve Text-to-SQL execution accuracy, especially when columns are uninformative. This study establishes LLMs as effective tools for generating detailed metadata, enhancing the usability of relational databases. | 翻訳日:2024-08-12 17:30:10 公開日:2024-08-08 |
# DeepVATSフレームワークにおける大規模時系列のスケーラビリティの探索
Exploring Scalability in Large-Scale Time Series in DeepVATS framework ( http://arxiv.org/abs/2408.04692v1 ) ライセンス: Link先を確認 | Inmaculada Santamaria-Valenzuela, Victor Rodriguez-Fernandez, David Camacho, | (参考訳) 視覚分析は、トレンド、異常、洞察を明らかにする能力のために、大規模な時系列の研究に不可欠である。
DeepVATSは、Deep Learning(Deep)とVisual Analytics(VA)をマージして、大規模時系列データ(TS)の分析を行うツールである。
相互接続モジュールが3つある。
Rで開発されたDeep Learningモジュールは、StorageモジュールへのデータセットとDeep Learningモデルのロードを管理する。
このモジュールは、モデルのトレーニングや、トレーニングされたモデルの潜在空間からの埋め込みの取得もサポートする。
StorageモジュールはWeights and Biasesシステムを使用して動作する。
その後、これらの埋め込みはVisual Analyticsモジュールで分析できる。
このモジュールはR Shinyアプリケーションに基づいて、埋め込み空間の射影とクラスタリングに関連するパラメータの調整を可能にする。
これらのパラメータが設定されると、埋め込みと時系列の両方を表すインタラクティブプロットが表示される。
本稿では,このツールを紹介し,ログ解析によるスケーラビリティについて検討する。
時系列の長さが変化しながら実行時間進化を調べる。
これは、大規模なデータシリーズを小さなサブセットに再サンプリングし、主要な実行時間とレンダリング時間をロギングすることで実現される。
Visual analytics is essential for studying large time series due to its ability to reveal trends, anomalies, and insights. DeepVATS is a tool that merges Deep Learning (Deep) with Visual Analytics (VA) for the analysis of large time series data (TS). It has three interconnected modules. The Deep Learning module, developed in R, manages the load of datasets and Deep Learning models from and to the Storage module. This module also supports models training and the acquisition of the embeddings from the latent space of the trained model. The Storage module operates using the Weights and Biases system. Subsequently, these embeddings can be analyzed in the Visual Analytics module. This module, based on an R Shiny application, allows the adjustment of the parameters related to the projection and clustering of the embeddings space. Once these parameters are set, interactive plots representing both the embeddings, and the time series are shown. This paper introduces the tool and examines its scalability through log analytics. The execution time evolution is examined while the length of the time series is varied. This is achieved by resampling a large data series into smaller subsets and logging the main execution and rendering times for later analysis of scalability. | 翻訳日:2024-08-12 17:30:10 公開日:2024-08-08 |
# LLMファインチューニングの性能とコスト評価
Understanding the Performance and Estimating the Cost of LLM Fine-Tuning ( http://arxiv.org/abs/2408.04693v1 ) ライセンス: Link先を確認 | Yuchen Xia, Jiho Kim, Yuhan Chen, Haojie Ye, Souvik Kundu, Cong, Hao, Nishil Talati, | (参考訳) LLM(Large Language Models)の訓練のコスト抑制の性質から、微調整は、限られた計算資源をコスト効率よく利用して特定のタスクにLLMを専門化するための魅力的な代替手段として登場した。
本稿では,Sparse Mixture of Experts (MoE) を用いたLCMファインタニングを特徴付け,その精度と実行時の性能を1つのGPUで解析する。
我々の評価は、MoEモデルのスパースモデルと高密度モデルのトレーニング効果に関するユニークな洞察を提供するとともに、最大バッチサイズ、実行時間分解、エンドツーエンドスループット、GPUハードウェア利用、負荷分散などのランタイム特性も提供する。
本研究は,LLMファインチューニングの性能向上に欠かせないMoE層の最適化について検討した。
プロファイリング結果を用いて,クラウド上でのLLM微調整のコストを推定する解析モデルの開発と評価を行った。
このモデルは、モデルとGPUアーキテクチャのパラメータに基づいて、LCMスループットとトレーニングコストを推定し、特定のモデルを微調整するコストを予算化するために、業界や学界の実践者を支援する。
Due to the cost-prohibitive nature of training Large Language Models (LLMs), fine-tuning has emerged as an attractive alternative for specializing LLMs for specific tasks using limited compute resources in a cost-effective manner. In this paper, we characterize sparse Mixture of Experts (MoE) based LLM fine-tuning to understand their accuracy and runtime performance on a single GPU. Our evaluation provides unique insights into the training efficacy of sparse and dense versions of MoE models, as well as their runtime characteristics, including maximum batch size, execution time breakdown, end-to-end throughput, GPU hardware utilization, and load distribution. Our study identifies the optimization of the MoE layer as crucial for further improving the performance of LLM fine-tuning. Using our profiling results, we also develop and validate an analytical model to estimate the cost of LLM fine-tuning on the cloud. This model, based on parameters of the model and GPU architecture, estimates LLM throughput and the cost of training, aiding practitioners in industry and academia to budget the cost of fine-tuning a specific model. | 翻訳日:2024-08-12 17:30:10 公開日:2024-08-08 |
# 波状暗黒物質の量子記述
A Quantum Description of Wave Dark Matter ( http://arxiv.org/abs/2408.04696v1 ) ライセンス: Link先を確認 | Dhong Yeon Cheong, Nicholas L. Rodd, Lian-Tao Wang, | (参考訳) ボソニックダークマター(DM)の基本的な量子的記述を概説し、従来の古典的波動図は、$m \ll 10~\textrm{eV}$という極限で現れる。
量子系に相応しいように、我々は、DMの可能な測定値とそのゆらぎに関する完全な情報をエンコードする密度行列から始める。
量子光学の基本的な結果に従えば、DMでは密度行列がコヒーレント状態に基づいてガウスの明示的な混合形式を取る可能性が最も高いと論じる。
これによる逸脱は、DM観測器の非ガウス的変動を生じさせ、DMの量子状態を直接探究することができる。
量子光学にインスパイアされたアプローチは、コヒーレンス時間や長さなど、しばしばヒューリスティックにのみ記述される様々な量を定義し、解釈することを可能にする。
定式化は、さらに波動-粒子遷移を通じてDMの連続的な記述を提供し、この2つの限界の間に様々な物理スケールの密度変動がどのように進化するかを調べ、波動と粒子の記述の境界付近でDMのユニークな挙動を明らかにするのに役立てる。
We outline a fundamentally quantum description of bosonic dark matter (DM) from which the conventional classical-wave picture emerges in the limit $m \ll 10~\textrm{eV}$. As appropriate for a quantum system, we start from the density matrix which encodes the full information regarding the possible measurements we could make of DM and their fluctuations. Following fundamental results in quantum optics, we argue that for DM it is most likely that the density matrix takes the explicitly mixed form of a Gaussian over the basis of coherent states. Deviations from this would generate non-Gaussian fluctuations in DM observables, allowing a direct probe of the quantum state of DM. Our quantum optics inspired approach allows us to rigorously define and interpret various quantities that are often only described heuristically, such as the coherence time or length. The formalism further provides a continuous description of DM through the wave-particle transition, which we exploit to study how density fluctuations over various physical scales evolve between the two limits and to reveal the unique behavior of DM near the boundary of the wave and particle descriptions. | 翻訳日:2024-08-12 17:30:10 公開日:2024-08-08 |
# qudit量子プロセッサ上でのスピン-1ハルデン相の構成
Constructing the spin-1 Haldane phase on a qudit quantum processor ( http://arxiv.org/abs/2408.04702v1 ) ライセンス: Link先を確認 | C. L. Edmunds, E. Rico, I. Arrazola, G. K. Brennen, M. Meth, R. Blatt, M. Ringbauer, | (参考訳) 対称性で保護された位相相は、量子物質の理解を根本的に変えた。
そのような物質の量子相の考古学的な例は、スピン-1 ハイゼンベルク鎖を含むハルデン相である。
しかし、そのような相の固有の量子的性質は、古典的な手段を用いてそれらを研究することを困難にしていることが多い。
ここでは、Haldane相内のスピン-1鎖をネイティブに設計するために、トラップイオンクエットを用いる。
Haldane 相における Affleck-Kennedy-Lieb-Tasaki (AKLT) 状態の生成のために,スケーラブルな決定論的手法を用いて,このシステムのトポロジ的特徴をqudit量子プロセッサ上で検討する。
特に, その短距離相関にもかかわらず, 状態の長距離文字列順序を検証し, 物理スピン-1粒子のスピン分数化をチェーンエッジの有効量子ビットに観察する。
量子プロセッサ上でのハルデン物理のネイティブ実現とスケーラブルな準備手順はスピン-1/2を超える幅広い系を効率的に探索するための扉を開く
Symmetry-protected topological phases have fundamentally changed our understanding of quantum matter. An archetypal example of such a quantum phase of matter is the Haldane phase, containing the spin-1 Heisenberg chain. The intrinsic quantum nature of such phases, however, often makes it challenging to study them using classical means. Here, we use trapped-ion qutrits to natively engineer spin-1 chains within the Haldane phase. Using a scalable, deterministic procedure to prepare the Affleck-Kennedy-Lieb-Tasaki (AKLT) state within the Haldane phase, we study the topological features of this system on a qudit quantum processor. Notably, we verify the long-range string order of the state, despite its short-range correlations, and observe spin fractionalization of the physical spin-1 particles into effective qubits at the chain edges, a defining feature of this system. The native realization of Haldane physics on a qudit quantum processor and the scalable preparation procedures open the door to the efficient exploration of a wide range of systems beyond spin-1/2 | 翻訳日:2024-08-12 17:30:10 公開日:2024-08-08 |
# 帯域限定ネットワークにおけるオーバーレイに基づく分散フェデレーション学習
Overlay-based Decentralized Federated Learning in Bandwidth-limited Networks ( http://arxiv.org/abs/2408.04705v1 ) ライセンス: Link先を確認 | Yudi Huang, Tingyang Sun, Ting He, | (参考訳) 分散化された連合学習(DFL)の新たな機械学習パラダイムは、中央集権的な調整なしに分散エージェントを直接学習することで、人工知能(AI)の展開を大幅に促進する、という約束を持っている。
DFLの通信効率向上に多大な努力を払っているにもかかわらず、既存のソリューションのほとんどは、近隣のエージェントが基盤となる通信ネットワークに物理的に隣接しているという単純な仮定に基づいており、多くのエッジネットワークで見られるように、一般的な帯域幅制限ネットワーク上での学習において、通信コストを正確に把握することができなかった。
本研究では,ネットワークトモグラフィの最近の進歩を活用し,帯域幅制限ネットワークにおける通信要求と通信スケジュールの協調設計を行う。
この問題の構造を慎重に解析することにより、各問題を効率的に解ける一連の最適化問題に分解し、総トレーニング時間を最小化する。
大規模データ駆動シミュレーションにより,本手法は最先端設計と比較してDFLを著しく高速化できることが示された。
The emerging machine learning paradigm of decentralized federated learning (DFL) has the promise of greatly boosting the deployment of artificial intelligence (AI) by directly learning across distributed agents without centralized coordination. Despite significant efforts on improving the communication efficiency of DFL, most existing solutions were based on the simplistic assumption that neighboring agents are physically adjacent in the underlying communication network, which fails to correctly capture the communication cost when learning over a general bandwidth-limited network, as encountered in many edge networks. In this work, we address this gap by leveraging recent advances in network tomography to jointly design the communication demands and the communication schedule for overlay-based DFL in bandwidth-limited networks without requiring explicit cooperation from the underlying network. By carefully analyzing the structure of our problem, we decompose it into a series of optimization problems that can each be solved efficiently, to collectively minimize the total training time. Extensive data-driven simulations show that our solution can significantly accelerate DFL in comparison with state-of-the-art designs. | 翻訳日:2024-08-12 17:30:10 公開日:2024-08-08 |
# MulliVC: サイクル一貫性を備えた多言語音声変換
MulliVC: Multi-lingual Voice Conversion With Cycle Consistency ( http://arxiv.org/abs/2408.04708v1 ) ライセンス: Link先を確認 | Jiawei Huang, Chen Zhang, Yi Ren, Ziyue Jiang, Zhenhui Ye, Jinglin Liu, Jinzheng He, Xiang Yin, Zhou Zhao, | (参考訳) 音声変換は、元の音声コンテンツを保存しながら、ターゲット話者に類似するようにソース話者の声を変更することを目的としている。
近年の音声変換の顕著な進歩にもかかわらず、多言語音声変換(モノリンガルとクロスリンガルの両方のシナリオを含む)はまだ広く研究されていない。
主な課題は2つある。
1)韻律的・調音的習慣の言語間での相当な変動
2) 同一話者からの対の多言語データセットの希少性について検討した。
本稿では,音色のみを変換する新しい音声変換システムであるMulliVCを提案する。
特に、MulliVCの各トレーニングステップは、3つの段階を含む: ステップ1では、モデルは単言語音声データで訓練され、ステップ2と3は、後続翻訳からインスピレーションを得て、同じ話者からの多言語データがない場合に、音色と他の情報(コンテンツ、韻律、その他の言語関連情報)をアンタングルする循環プロセスを構築する。
目的と主観の両方の結果から,MulliVCは単言語および言語横断の文脈において他の手法をはるかに上回り,システムの有効性とサイクル整合性を伴う3段階アプローチの実現可能性を示している。
オーディオサンプルはデモページ(mullivc.github.io)で確認できます。
Voice conversion aims to modify the source speaker's voice to resemble the target speaker while preserving the original speech content. Despite notable advancements in voice conversion these days, multi-lingual voice conversion (including both monolingual and cross-lingual scenarios) has yet to be extensively studied. It faces two main challenges: 1) the considerable variability in prosody and articulation habits across languages; and 2) the rarity of paired multi-lingual datasets from the same speaker. In this paper, we propose MulliVC, a novel voice conversion system that only converts timbre and keeps original content and source language prosody without multi-lingual paired data. Specifically, each training step of MulliVC contains three substeps: In step one the model is trained with monolingual speech data; then, steps two and three take inspiration from back translation, construct a cyclical process to disentangle the timbre and other information (content, prosody, and other language-related information) in the absence of multi-lingual data from the same speaker. Both objective and subjective results indicate that MulliVC significantly surpasses other methods in both monolingual and cross-lingual contexts, demonstrating the system's efficacy and the viability of the three-step approach with cycle consistency. Audio samples can be found on our demo page (mullivc.github.io). | 翻訳日:2024-08-12 17:18:49 公開日:2024-08-08 |
# リピータノードの量子ニューラルネットワークトレーニング
Quantum Neural Network Training of a Repeater Node ( http://arxiv.org/abs/2408.04709v1 ) ライセンス: Link先を確認 | Diego Fuentealba, Jack Dahn, James Steck, Elizabeth Behrman, | (参考訳) 堅牢でスケーラブルな量子ゲートの構築は、量子コンピューティングの分野で一意に難しい問題である。
実世界の量子コンピュータは、量子回路のデコヒーレンスと緩和時間によって特徴付けられる多くの種類のノイズに悩まされており、効率的な量子アルゴリズムを構築するのは非常に困難である。
量子リピータノード(quantum repeater node)は、2つの絡み合った入力と出力キュービットの状態を交換する回路である。
ロバスト量子リピータは、長距離量子ネットワークに必要なビルディングブロックである。
スワップゲートと呼ばれるこの問題に対する解決策はあるが、耐雑音性は乏しい。
機械学習は、他のノイズの多い高非線形システムを制御することを学ぶ能力によって示されるように、効率的で堅牢な量子アルゴリズム設計の鍵を握るかもしれない。
ここでは、スワップ操作を実行し、トレーニングされたQNNソリューションを標準スワップゲートと比較するために量子ニューラルネットワーク(QNN)を構築する。
量子ビットとQNNのシステムはMATLABで構築され、ノイズがシステムの堅牢性をテストするために人工的に付加される前に理想的な条件下で訓練される。
QNNは2つの量子ビットに対して容易に一般化でき、追加のトレーニングなしでより多くの量子ビットにスケールアップできる。
また, 量子ビットの数が増加するにつれて, 耐雑音性も増大し, 十分に大きなシステムでは耐雑音性が非常に高いことが判明した。
これは、ニューラルネットワークがこれらの堅牢なシステムを構築する能力を探求し始めます。
The construction of robust and scalable quantum gates is a uniquely hard problem in the field of quantum computing. Real-world quantum computers suffer from many forms of noise, characterized by the decoherence and relaxation times of a quantum circuit, which make it very hard to construct efficient quantum algorithms. One example is a quantum repeater node, a circuit that swaps the states of two entangled input and output qubits. Robust quantum repeaters are a necessary building block of long-distance quantum networks. A solution exists for this problem, known as a swap gate, but its noise tolerance is poor. Machine learning may hold the key to efficient and robust quantum algorithm design, as demonstrated by its ability to learn to control other noisy and highly nonlinear systems. Here, a quantum neural network (QNN) is constructed to perform the swap operation and compare a trained QNN solution to the standard swap gate. The system of qubits and QNN is constructed in MATLAB and trained under ideal conditions before noise is artificially added to the system to test robustness. We find that the QNN easily generalizes for two qubits and can be scaled up to more qubits without additional training. We also find that as the number of qubits increases, the noise tolerance increases with it, meaning a sufficiently large system can produce extremely noise-tolerant results. This begins to explore the ability of neural networks to construct those robust systems. | 翻訳日:2024-08-12 17:18:49 公開日:2024-08-08 |
# 実値関数の導出のための光学アルゴリズム
Optical Algorithm for Derivative of Real-Valued Functions ( http://arxiv.org/abs/2408.04710v1 ) ライセンス: Link先を確認 | Murilo H. Magiotto, Guilherme L. Zanin, Wesley B. Cardoso, Ardiley T. Avelar, Rafael M. Gomes, | (参考訳) 関数の導出は計算の問題を解くための基本的な道具である。
そのため、この課題を遂行できる物理系を調査する動機は多岐にわたる。
さらに,従来のコンピュータを代替する光学コンピュータを開発する可能性により,光学アルゴリズムが作成され,一次元実数値関数のパラ軸・単色レーザビームによる導出を実現するための実験装置が提案されている。
微分アルゴリズムを補完するため、2次元位相符号化関数を光ビームの強度プロファイルに転送できる新しい光学アルゴリズムを実験的に実装した。
さらに、光子の逆プロファイルの位相に符号化された関数のn番目の微分を実装する方法を示す。
The derivation of a function is a fundamental tool for solving problems in calculus. Consequently, the motivations for investigating physical systems capable of performing this task are numerous. Furthermore, the potential to develop an optical computer to replace conventional computers has led us to create an optical algorithm and propose an experimental setup for implementing the derivative of one-dimensional real-valued functions using a paraxial and monochromatic laser beam. To complement the differentiation algorithm, we have experimentally implemented a novel optical algorithm that can transfer a two-dimensional phase-encoded function to the intensity profile of a light beam. Additionally, we demonstrate how to implement the n-th derivative of functions encoded in the phase of the transverse profile of photons. | 翻訳日:2024-08-12 17:18:49 公開日:2024-08-08 |
# DyGMamba: 状態空間モデルによる連続時間動的グラフの長期的依存を効果的にモデル化する
DyGMamba: Efficiently Modeling Long-Term Temporal Dependency on Continuous-Time Dynamic Graphs with State Space Models ( http://arxiv.org/abs/2408.04713v1 ) ライセンス: Link先を確認 | Zifeng Ding, Yifeng Li, Yuan He, Antonio Norelli, Jingcheng Wu, Volker Tresp, Yunpu Ma, Michael Bronstein, | (参考訳) 連続時間動的グラフ(CTDG)の有用な表現の学習は、長いノードの相互作用履歴にまたがると同時に、微妙な時間的詳細を把握する必要があるため、困難である。
特に, より長い履歴をエンコードするには, 計算資源の増大が必要であり, 効率性を確保するためにCTDGモデルが低計算量を維持することが不可欠である; 一方, より強力なモデルでは, より長い履歴によって提供される拡張された文脈内で最も重要な時間情報を識別し, 選択する必要がある。
このような問題に対処するために,一般的なマンバ状態空間モデル(SSM)から派生したDyGMambaというCTDG表現学習モデルを提案する。
DyGMambaはまずノードレベルのSSMを利用して、履歴ノード間の相互作用のシーケンスを符号化する。
次に、別の時間レベルのSSMを使用して、履歴グラフに隠された時間パターンを利用し、その出力を使用して相互作用履歴から臨界情報を動的に選択する。
動的リンク予測タスクにおいてDyGMambaを実験的に検証する。
その結果,ほとんどの場合,我々のモデルは最先端技術を実現していることがわかった。
DyGMambaは計算資源の観点からも高い効率性を維持しており、限られた計算予算で長期間の依存関係をキャプチャすることができる。
Learning useful representations for continuous-time dynamic graphs (CTDGs) is challenging, due to the concurrent need to span long node interaction histories and grasp nuanced temporal details. In particular, two problems emerge: (1) Encoding longer histories requires more computational resources, making it crucial for CTDG models to maintain low computational complexity to ensure efficiency; (2) Meanwhile, more powerful models are needed to identify and select the most critical temporal information within the extended context provided by longer histories. To address these problems, we propose a CTDG representation learning model named DyGMamba, originating from the popular Mamba state space model (SSM). DyGMamba first leverages a node-level SSM to encode the sequence of historical node interactions. Another time-level SSM is then employed to exploit the temporal patterns hidden in the historical graph, where its output is used to dynamically select the critical information from the interaction history. We validate DyGMamba experimentally on the dynamic link prediction task. The results show that our model achieves state-of-the-art in most cases. DyGMamba also maintains high efficiency in terms of computational resources, making it possible to capture long temporal dependencies with a limited computation budget. | 翻訳日:2024-08-12 17:18:49 公開日:2024-08-08 |
# 拡散確率モデルによるゼロショット不確かさの定量化
Zero-Shot Uncertainty Quantification using Diffusion Probabilistic Models ( http://arxiv.org/abs/2408.04718v1 ) ライセンス: Link先を確認 | Dule Shu, Amir Barati Farimani, | (参考訳) テキスト・ツー・イメージ生成のような生成タスクにおける拡散確率モデルの成功は、科学計算やその他の領域でよく見られる回帰問題へのそれらの応用の探求を動機付けている。
この文脈では、拡散回帰モデルを用いてアンサンブル予測を行うことが、人気が高まっている。
そこで我々は,拡散モデルを用いて異なる回帰問題の解法におけるアンサンブル法の有効性を定量的に評価した。
本研究では,拡散モデルのアンサンブル予測をゼロショット不確実性定量化の手段とみなす。
1Dおよび2Dデータに関する広範な実験を通じて,アンサンブル法は様々な回帰タスクにおけるモデル予測精度を一貫して向上することを示した。
特に, 自己回帰予測の精度向上は, ポイントワイズ予測と比較して大きく, 平均二乗誤差と物理インフォームド損失の両方で向上が見られた。
さらに,アンサンブル予測誤差とアンサンブル分散の相関関係を明らかにするとともに,計算複雑性と予測精度のバランスと,基底事実が不明な実用アプリケーションにおける予測信頼性の監視に関する洞察を提供する。
本研究は,拡散アンサンブルの有用性を包括的に把握し,回帰問題解決における拡散モデルを用いた実践者にとって有用な参考となる。
The success of diffusion probabilistic models in generative tasks, such as text-to-image generation, has motivated the exploration of their application to regression problems commonly encountered in scientific computing and various other domains. In this context, the use of diffusion regression models for ensemble prediction is becoming a practice with increasing popularity. Under such background, we conducted a study to quantitatively evaluate the effectiveness of ensemble methods on solving different regression problems using diffusion models. We consider the ensemble prediction of a diffusion model as a means for zero-shot uncertainty quantification, since the diffusion models in our study are not trained with a loss function containing any uncertainty estimation. Through extensive experiments on 1D and 2D data, we demonstrate that ensemble methods consistently improve model prediction accuracy across various regression tasks. Notably, we observed a larger accuracy gain in auto-regressive prediction compared with point-wise prediction, and that enhancements take place in both the mean-square error and the physics-informed loss. Additionally, we reveal a statistical correlation between ensemble prediction error and ensemble variance, offering insights into balancing computational complexity with prediction accuracy and monitoring prediction confidence in practical applications where the ground truth is unknown. Our study provides a comprehensive view of the utility of diffusion ensembles, serving as a useful reference for practitioners employing diffusion models in regression problem-solving. | 翻訳日:2024-08-12 17:18:49 公開日:2024-08-08 |
# 散乱振幅の単純さを学習する
Learning the Simplicity of Scattering Amplitudes ( http://arxiv.org/abs/2408.04720v1 ) ライセンス: Link先を確認 | Clifford Cheung, Aurélien Dersy, Matthew D. Schwartz, | (参考訳) 複雑な表現の単純化と再編成は、特に理論上の高エネルギー物理学において科学的進歩の核心にある。
本研究は、スピンor-helicity変数で表される散乱振幅を単純化するタスクである、この課題の特定の側面への機械学習の適用について検討する。
エンコーダ・デコーダ変換器アーキテクチャは,一握りの項からなる式に対して,印象的な単純化を実現することを実証する。
長文表現は、コントラスト学習を用いて訓練された追加の埋め込みネットワークで実装され、より単純化しやすい部分表現を分離する。
結果として得られるフレームワークは、数百の項(量子場理論の計算における正規発生)で表現を、はるかに単純な等価表現に還元することができる。
5点グルーオン散乱のParke-Taylor式とスカラーおよびグラビトンを含む5点振幅の新しいコンパクト式を生成することができる。
インタラクティブなデモはhttps://spinorhelicity.streamlit.appで見ることができる。
The simplification and reorganization of complex expressions lies at the core of scientific progress, particularly in theoretical high-energy physics. This work explores the application of machine learning to a particular facet of this challenge: the task of simplifying scattering amplitudes expressed in terms of spinor-helicity variables. We demonstrate that an encoder-decoder transformer architecture achieves impressive simplification capabilities for expressions composed of handfuls of terms. Lengthier expressions are implemented in an additional embedding network, trained using contrastive learning, which isolates subexpressions that are more likely to simplify. The resulting framework is capable of reducing expressions with hundreds of terms - a regular occurrence in quantum field theory calculations - to vastly simpler equivalent expressions. Starting from lengthy input expressions, our networks can generate the Parke-Taylor formula for five-point gluon scattering, as well as new compact expressions for five-point amplitudes involving scalars and gravitons. An interactive demonstration can be found at https://spinorhelicity.streamlit.app . | 翻訳日:2024-08-12 17:18:49 公開日:2024-08-08 |
# 調査:データモダリティ変換におけるトランスフォーマーモデル
Survey: Transformer-based Models in Data Modality Conversion ( http://arxiv.org/abs/2408.04723v1 ) ライセンス: Link先を確認 | Elyas Rashno, Amir Eskandari, Aman Anand, Farhana Zulkernine, | (参考訳) トランスフォーマーは自然言語処理、コンピュータビジョン、オーディオ処理など、さまざまな人工知能領域で大きな進歩を遂げている。
この成功は当然、学術と産業の両方の研究者からかなりの関心を集めている。
その結果、多くのトランスフォーマー変種(しばしばX-formerと呼ばれる)がこれらの分野のために開発された。
しかし、これらのモダリティ固有の変換の徹底的で体系的なレビューはいまだに欠けている。
モダリティ・コンバージョン(Modality Conversion)は、人間が知覚情報を統合して解釈する方法を模倣して、ある形態の表現から別の形式へのデータの変換を行う。
本稿では, テキスト, 視覚, 音声の一次モーダル性に適用されたトランスフォーマーモデルについて, アーキテクチャ, 変換手法, 応用について論じる。
この調査は、モーダリティ変換に関する文献を合成することにより、AIによるコンテンツ生成と理解の進歩におけるトランスフォーマーの汎用性とスケーラビリティの基盤となることを目的としている。
Transformers have made significant strides across various artificial intelligence domains, including natural language processing, computer vision, and audio processing. This success has naturally garnered considerable interest from both academic and industry researchers. Consequently, numerous Transformer variants (often referred to as X-formers) have been developed for these fields. However, a thorough and systematic review of these modality-specific conversions remains lacking. Modality Conversion involves the transformation of data from one form of representation to another, mimicking the way humans integrate and interpret sensory information. This paper provides a comprehensive review of transformer-based models applied to the primary modalities of text, vision, and speech, discussing their architectures, conversion methodologies, and applications. By synthesizing the literature on modality conversion, this survey aims to underline the versatility and scalability of transformers in advancing AI-driven content generation and understanding. | 翻訳日:2024-08-12 17:18:49 公開日:2024-08-08 |
# 人工知能とポスト量子時代における次世代ネットワークのサービス拒否
Counter Denial of Service for Next-Generation Networks within the Artificial Intelligence and Post-Quantum Era ( http://arxiv.org/abs/2408.04725v1 ) ライセンス: Link先を確認 | Saleh Darzi, Attila A. Yavuz, | (参考訳) ネットワークシステムに対するサイバー脅威の増加と、AI技術の普及と処理能力の強化により、DoS(DoS)攻撃はますます洗練され、容易に実行できるようになった。
それらはシステムの可用性を目標としており、基盤となるセキュリティプロトコルを壊さずにシステム全体を妥協する。
その結果、多くの研究がDoS攻撃の予防、検出、緩和に重点を置いている。
しかし、最先端のシステム化の取り組みには、分離されたDoS対策、AIベースの研究の欠点、プライバシ、匿名性、認証、透明性といったDoS統合機能が欠如しているといった制限がある。
さらに、量子コンピュータの出現はDoSの攻撃と防御の観点からのゲームチェンジャーである。
この研究は、AI時代における(カウンタ)-DoSを調べることによって、これらのギャップに対処することを目的としており、また、適用時にPQ(post-quantum)セキュリティも検討している。
我々は、現在の文献の欠陥を強調し、これらのギャップを埋めるための相乗的テクニックに関する洞察を提供する。
我々は、DoS侵入検知のためのAIメカニズムを探求し、最先端機械学習モデルにおけるサイバーセキュリティ特性を評価し、DoSの文脈で兵器化されたAIを分析する。
また、フェデレートされた学習とブロックチェーンを通じて、協調的で分散されたDoSフレームワークについても検討する。
最後に,DoS防止・緩和のための次世代ネットワークシステムに統合可能なハニーポット,パズル,認証スキームなどの積極的なアプローチを評価する。
Given the rise in cyber threats to networked systems, coupled with the proliferation of AI techniques and enhanced processing capabilities, Denial of Service (DoS) attacks are becoming increasingly sophisticated and easily executable. They target system availability, compromising entire systems without breaking underlying security protocols. Consequently, numerous studies have focused on preventing, detecting, and mitigating DoS attacks. However, state-of-the-art systematization efforts have limitations such as isolated DoS countermeasures, shortcomings of AI-based studies, and a lack of DoS integration features like privacy, anonymity, authentication, and transparency. Additionally, the emergence of quantum computers is a game changer for DoS from attack and defense perspectives, yet it has remained largely unexplored. This study aims to address these gaps by examining (counter)-DoS in the AI era while also considering post-quantum (PQ) security when it applies. We highlight the deficiencies in the current literature and provide insights into synergistic techniques to bridge these gaps. We explore AI mechanisms for DoS intrusion detection, evaluate cybersecurity properties in cutting-edge machine learning models, and analyze weaponized AI in the context of DoS. We also investigate collaborative and distributed counter-DoS frameworks via federated learning and blockchains. Finally, we assess proactive approaches such as honeypots, puzzles, and authentication schemes that can be integrated into next-generation network systems for DoS prevention and mitigation. | 翻訳日:2024-08-12 17:18:49 公開日:2024-08-08 |
# 行列積状態としてのディック状態
Dicke states as matrix product states ( http://arxiv.org/abs/2408.04729v1 ) ライセンス: Link先を確認 | David Raveh, Rafael I. Nepomechie, | (参考訳) ディック状態に対する正確な正準行列積状態 (MPS) の表現を導出する: $|D^n_k\rangle$ は最小結合次元$\chi=k+1$ で、一般的な値は $n$ と $k$ であり、W-状態は最も単純な場合$k=1$ である。
我々は、このMPSを用いて、B\"artschi と Eidenbenz の帰納的アルゴリズムに関連付けて、ディック状態の逐次的生成のための量子回路を定式化する。
また、高スピンおよびキュディット・ディック状態に対する最小結合次元を持つ正確な正準MPS表現も見出す。
We derive an exact canonical matrix product state (MPS) representation for Dicke states $|D^n_k\rangle$ with minimal bond dimension $\chi=k+1$, for general values of $n$ and $k$, for which the W-state is the simplest case $k=1$. We use this MPS to formulate a quantum circuit for sequentially preparing Dicke states deterministically, relating it to the recursive algorithm of B\"artschi and Eidenbenz. We also find exact canonical MPS representations with minimal bond dimension for higher-spin and qudit Dicke states. | 翻訳日:2024-08-12 17:18:49 公開日:2024-08-08 |
# G4CMPシミュレーションツールキットを用いた新材料中の熱的フォノンのモデル化
Modeling Athermal Phonons in Novel Materials using the G4CMP Simulation Toolkit ( http://arxiv.org/abs/2408.04732v1 ) ライセンス: Link先を確認 | Israel Hernandez, Ryan Linehan, Rakshya Khatiwada, Kester Anyang, Daniel Baxter, Grace Bratrud, Enectali Figueroa-Feliciano, Lauren Hsu, Mike Kelsey, Dylan Temples, | (参考訳) 超伝導デバイスにおけるフォノンと電荷の伝播を理解することは、低閾値暗黒物質探索と超伝導量子ビットの相関誤差の制限の両方において重要な役割を果たす。
Geant4 Condensed Matter Physics (G4CMP)パッケージは、もともとCryogenic Dark Matter Search (CDMS)実験のために開発されたもので、シリコン検出器とゲルマニウム検出器内の電荷とフォノン輸送のモデルであり、フォノン因果、平均電荷キャリアドリフト速度、熱パルス伝播時間の実験によって検証されている。
本研究では、サファイア(Al$_{2}$O$_{3}$)、フッ化ガリウム(GaAs)、フッ化ガリウム(LiF)、タングステート(CaWO$_{4}$)、フッ化カルシウム(CaF$_{2}$)など、暗黒物質や量子コンピューティングのコミュニティに関心を寄せる新しい基板材料へのフォノン輸送能力を拡大するための簡潔な枠組みを提案する。
本研究では,これらの材料のフォノン輸送特性の生成にこの枠組みを用いることを実証し,これらの特性を利用可能な実験値と比較する。
Understanding phonon and charge propagation in superconducting devices plays an important role in both performing low-threshold dark matter searches and limiting correlated errors in superconducting qubits. The Geant4 Condensed Matter Physics (G4CMP) package, originally developed for the Cryogenic Dark Matter Search (CDMS) experiment, models charge and phonon transport within silicon and germanium detectors and has been validated by experimental measurements of phonon caustics, mean charge-carrier drift velocities, and heat pulse propagation times. In this work, we present a concise framework for expanding the capabilities for phonon transport to a number of other novel substrate materials of interest to the dark matter and quantum computing communities, including sapphire (Al$_{2}$O$_{3}$), gallium arsenide (GaAs), lithium fluoride (LiF), calcium tungstate (CaWO$_{4}$), and calcium fluoride (CaF$_{2}$). We demonstrate the use of this framework in generating phonon transport properties of these materials and compare these properties with experimentally-determined values where available. | 翻訳日:2024-08-12 17:18:49 公開日:2024-08-08 |
# 確率的デルタデバッグを深く掘り下げる - 洞察と単純化
Deep Dive into Probabilistic Delta Debugging: Insights and Simplifications ( http://arxiv.org/abs/2408.04735v1 ) ライセンス: Link先を確認 | Mengxiao Zhang, Zhenyang Xu, Yongqiang Tian, Xinru Cheng, Chengnian Sun, | (参考訳) L の要素リスト L と L のプロパティが与えられたとき、ddmin は L から無関係な要素を自動的に除去するように設計されたよく知られたテスト入力最小化アルゴリズムである。
近年、アドバンストなddminであるProbDDが提案され、最先端のパフォーマンスを実現している。
ベイズ最適化を用いて、ProbDD は L の各元が必須である可能性を予測し、どの元と何回削除されるべきなのかを統計的に決定する。
その結果, ProbDDの理論的確率モデルは複雑であり, 優れた性能を示す要因は明らかにされていない。
本稿では,確率モデルの簡易化とともに,確率およびサブセットサイズの変化の傾向を明らかにするため,ProbDDの詳細な理論解析を行う。
この分析を補完し、我々は、成功率分析、アブレーション研究、トレードオフと制限の分析を含む経験的な実験を行い、この最先端のアルゴリズムをよりよく理解し、デミスティフィケートする。
私たちの成功率分析は、サブセットや以前に試されたサブセットの補完を削除しようとする非効率なクエリをスキップすることで、ddminのボトルネックにProbDDがどのように対処しているかを示しています。
アブレーション研究では、ProbDDのランダム性は効率に有意な影響を与えないことが示されている。
これらの結果に基づき,ProbDDの簡易版であるCDDを提案し,理論と実装の複雑さを低減した。
また,CDDの性能評価も重要な結果である。
テスト入力の最小化とソフトウェアデブロ化における76ベンチマークの総合的な評価は、CDDがProbDDと同じ性能を達成できることを示している。
これらの知見は、将来のテスト入力最小化アルゴリズムの研究および応用のための貴重なガイダンスを提供する。
Given a list L of elements and a property that L exhibits, ddmin is a well-known test input minimization algorithm designed to automatically eliminate irrelevant elements from L. This algorithm is extensively adopted in test input minimization and software debloating. Recently, ProbDD, an advanced variant of ddmin, has been proposed and achieved state-of-the-art performance. Employing Bayesian optimization, ProbDD predicts the likelihood of each element in L being essential, and statistically decides which elements and how many should be removed each time. Despite its impressive results, the theoretical probabilistic model of ProbDD is complex, and the specific factors driving its superior performance have not been investigated. In this paper, we conduct the first in-depth theoretical analysis of ProbDD, clarifying trends in probability and subset size changes while simplifying the probability model. Complementing this analysis, we perform empirical experiments, including success rate analysis, ablation studies, and analysis on trade-offs and limitations, to better understand and demystify this state-of-the-art algorithm. Our success rate analysis shows how ProbDD addresses bottlenecks of ddmin by skipping inefficient queries that attempt to delete complements of subsets and previously tried subsets. The ablation study reveals that randomness in ProbDD has no significant impact on efficiency. Based on these findings, we propose CDD, a simplified version of ProbDD, reducing complexity in both theory and implementation. Besides, the performance of CDD validates our key findings. Comprehensive evaluations across 76 benchmarks in test input minimization and software debloating show that CDD can achieve the same performance as ProbDD despite its simplification. These insights provide valuable guidance for future research and applications of test input minimization algorithms. | 翻訳日:2024-08-12 17:18:49 公開日:2024-08-08 |
# 自動音声書き起こしシステムにおけるコーパスバイアス問題の定量化
Quantifying the Corpus Bias Problem in Automatic Music Transcription Systems ( http://arxiv.org/abs/2408.04737v1 ) ライセンス: Link先を確認 | Lukáš Samuel Marták, Patricia Hu, Gerhard Widmer, | (参考訳) AMT(Automatic Music Transcription)は、音楽の音声録音における音符認識のタスクである。
State-of-the-Art(SotA)ベンチマークはディープラーニングシステムに支配されている。
高品質なデータが不足しているため、それらは通常、古典的なピアノ音楽にのみ、あるいは主に焦点を当てて訓練され、評価される。
残念なことに、それが他の音楽への一般化の仕方を理解するのを妨げている。
以前の研究は、これらのシステムにおける記憶と過剰適合のいくつかの側面を明らかにしている。
我々は、音楽と音の2つの主要な分布シフト源を同定する。
音の軸(音響,音色)に関する最近の結果を補足し,楽譜(音の組合せ,ダイナミクス,ジャンル)について検討する。
そこで我々は,異なるレベルの音楽分布シフトをエミュレートするために慎重に構成した2つの実験セットを用いて,複数のSotA AMTシステムの性能評価を行った。
以上の結果から,Corpus Bias問題にさらなる光が当たる性能ギャップが明らかとなり,これらのシステムに支障が生じ続けていることが示唆された。
Automatic Music Transcription (AMT) is the task of recognizing notes in audio recordings of music. The State-of-the-Art (SotA) benchmarks have been dominated by deep learning systems. Due to the scarcity of high quality data, they are usually trained and evaluated exclusively or predominantly on classical piano music. Unfortunately, that hinders our ability to understand how they generalize to other music. Previous works have revealed several aspects of memorization and overfitting in these systems. We identify two primary sources of distribution shift: the music, and the sound. Complementing recent results on the sound axis (i.e. acoustics, timbre), we investigate the musical one (i.e. note combinations, dynamics, genre). We evaluate the performance of several SotA AMT systems on two new experimental test sets which we carefully construct to emulate different levels of musical distribution shift. Our results reveal a stark performance gap, shedding further light on the Corpus Bias problem, and the extent to which it continues to trouble these systems. | 翻訳日:2024-08-12 17:18:49 公開日:2024-08-08 |
# カオス力学のための深層学習に基づく逐次データ同化は単一状態予測から局所的不安定性を同定する
Deep learning-based sequential data assimilation for chaotic dynamics identifies local instabilities from single state forecasts ( http://arxiv.org/abs/2408.04739v1 ) ライセンス: Link先を確認 | Marc Bocquet, Alban Farchi, Tobias S. Finn, Charlotte Durand, Sibo Cheng, Yumeng Chen, Ivo Pasmans, Alberto Carrassi, | (参考訳) 本研究では,ディープラーニング(DL)を用いたカオス力学のためのデータ同化(DA)スキームの発見能力について検討する。
その焦点は、状態軌跡とそれらの観測から、単純な残差畳み込みニューラルネットワークを用いてシーケンシャルDAの分析ステップを学習することであり、ダイナミクスが知られていると仮定している。
Lorenz 96 は時空間カオスを呈し,DA 性能のソリッドベンチマークが存在する。
学習した解析結果から得られた状態の精度は、最もよく調整可能なアンサンブルカルマンフィルタ(EnKF)に近づき、変分DAの代替よりもはるかに優れている。
重要なことは、これは予測ステップにおいて単一の状態であっても伝播しながら達成できる。
アンサンブルを使わずにアンサンブルフィルタリング精度を実現する理由を考察する。
解析スキームは, アンサンブルに基づく共分散表現を伴わずに, 予測状態のみから不安定な部分空間に軽度に対応して, 重要な動的摂動を実際に同定する。
このことは、解析スキームが非自律ランダム力学系と見なされるDA過程に関連する乗法的エルゴード定理を学習したことを示している。
We investigate the ability to discover data assimilation (DA) schemes meant for chaotic dynamics with deep learning (DL). The focus is on learning the analysis step of sequential DA, from state trajectories and their observations, using a simple residual convolutional neural network, while assuming the dynamics to be known. Experiments are performed with the Lorenz 96 dynamics, which display spatiotemporal chaos and for which solid benchmarks for DA performance exist. The accuracy of the states obtained from the learned analysis approaches that of the best possibly tuned ensemble Kalman filter (EnKF), and is far better than that of variational DA alternatives. Critically, this can be achieved while propagating even just a single state in the forecast step. We investigate the reason for achieving ensemble filtering accuracy without an ensemble. We diagnose that the analysis scheme actually identifies key dynamical perturbations, mildly aligned with the unstable subspace, from the forecast state alone, without any ensemble-based covariances representation. This reveals that the analysis scheme has learned some multiplicative ergodic theorem associated to the DA process seen as a non-autonomous random dynamical system. | 翻訳日:2024-08-12 17:18:49 公開日:2024-08-08 |
# 条件付き準備状態の潜在光学的非古典性
Latent optical nonclassicality of conditionally-prepared states ( http://arxiv.org/abs/2408.04740v1 ) ライセンス: Link先を確認 | V. S. Kovtoniuk, A. B. Klimov, A. A. Semenov, | (参考訳) 情報的に不完全な量子測定から得られる情報の欠如は、光学的非古典性のような量子資源の検出を防ぐことができる。
2モード状態の他のモードの測定によって条件付きで準備された単一モード量子状態のこの制限を克服する技術を開発した。
このタスクは、量子エンタングルメントと量子不協和を超えた量子相関のクラスである非古典的ステアリングをテストすることで実行され、厳密な記述を導入する。
The lack of information obtained from informationally-incomplete quantum measurements can prevent the detection of quantum resources, such as optical nonclassicality. We develop a technique that overcomes this limitation for single-mode quantum states conditionally prepared through measurements on another mode of a two-mode state. This task is performed by testing nonclassical steering -- a class of quantum correlations beyond quantum entanglement and quantum discord, for which we introduce a rigorous description. | 翻訳日:2024-08-12 17:18:49 公開日:2024-08-08 |
# ホログラフィックエンタングルメントエントロピーのトーリック不等式を一般化する枠組み
A framework for generalizing toric inequalities for holographic entanglement entropy ( http://arxiv.org/abs/2408.04741v1 ) ライセンス: Link先を確認 | Ning Bao, Keiichiro Furuya, Joydeep Naskar, | (参考訳) 我々は、ある種のパラメータに対して \cite{Czech:2023xed} のトーリック不等式の多重パラメータ一般化を予想し、証明する。
さらに、一般化トーリック不等式に対する証明法を2つの方法で拡張する。
最初の拡張はユークリッド空間をタイリングすることによってトーリック不等式と一般化トーリック予想に対応するグラフを構成する。
絡み合ったくさびのネスト関係は、タイルの幾何学的構造を決定する。
2つ目の拡張では、不等式と予想の巡回性質を利用してサイクルグラフを構成する。
すると、このグラフはサイクルグラフのグラフカルテアン積を用いて得られる。
さらに、グラフ上の結び目の集合をcite{Czech:2023xed} で定義する。
結び目を持つこれらのグラフは、それらの関連する不等式の有効性を暗示する。
グラフを鳥居の不連結結合に分解できる場合について検討する。
% 予想に対するトーリック不等式の縮約写像により証明を拡張して普及させる。
また、対応する測度が$d$-次元トーラス$(d>2)$である予想不等式を探索する方法についても論じる。
We conjecture and prove a multi-parameter generalization of the toric inequalities of \cite{Czech:2023xed} for some range of parameters. In addition, we extend their proof methods for the generalized toric inequalities in two ways. The first extension constructs the graph corresponding to the toric inequalities and the generalized toric conjectures by tiling the Euclidean space. An entanglement wedge nesting relation then determines the geometric structure of the tiles. In the second extension, we exploit the cyclic nature of the inequalities and conjectures to construct cycle graphs. Then, the graph can be obtained using graph Cartesian products of cycle graphs. In addition, we define a set of knots on the graph by following \cite{Czech:2023xed}. These graphs with knots then imply the validity of their associated inequality. We study the particular case where the graph can be decomposed into disjoint unions of torii. %We extend and propopse the proof by a contraction map of toric inequalities to the conjectures. We also discuss ways to explore the conjectured inequalities whose corresponding geometries are $d$-dimensional torus $(d>2)$. | 翻訳日:2024-08-12 17:18:49 公開日:2024-08-08 |
# 宇宙からのメタンエミッタモニタリングのためのAI
AI for operational methane emitter monitoring from space ( http://arxiv.org/abs/2408.04745v1 ) ライセンス: Link先を確認 | Anna Vaughan, Gonzalo Mateo-Garcia, Itziar Irakulis-Loitxate, Marc Watine, Pablo Fernandez-Poblaciones, Richard E. Turner, James Requeima, Javier Gorroño, Cynthia Randles, Manfredi Caltagirone, Claudio Cifarelli, | (参考訳) メタン排出量を減らすことは、短期的に地球温暖化を抑え、脱炭する人類の時間を買うための最速の方法だ。
リモートセンシング装置がメタンプラムを検知する能力が実証されているにもかかわらず、これらの事象を定期的に監視し、行動するシステムはない。
我々は,国連環境プログラムの国際メタン排出観測所で運用されているSentinel-2およびLandsat衛星画像のためのAI駆動型自動メタン放出装置であるMARS-S2Lを提案する。
我々は、トレーニングと評価のために、何千ものスーパーエミッションイベントのグローバルデータセットをコンパイルし、MARS-S2Lが世界中の様々な領域の排出を巧みに監視できることを示し、現在の最先端検出方法よりも216%の精度で平均精度を向上できることを実証した。
このシステムの運用は6ヶ月にわたって行われ、22カ国で457件の準リアルタイム検出が実施され、62件が政府や利害関係者への正式な通知に使用されている。
Mitigating methane emissions is the fastest way to stop global warming in the short-term and buy humanity time to decarbonise. Despite the demonstrated ability of remote sensing instruments to detect methane plumes, no system has been available to routinely monitor and act on these events. We present MARS-S2L, an automated AI-driven methane emitter monitoring system for Sentinel-2 and Landsat satellite imagery deployed operationally at the United Nations Environment Programme's International Methane Emissions Observatory. We compile a global dataset of thousands of super-emission events for training and evaluation, demonstrating that MARS-S2L can skillfully monitor emissions in a diverse range of regions globally, providing a 216% improvement in mean average precision over a current state-of-the-art detection method. Running this system operationally for six months has yielded 457 near-real-time detections in 22 different countries of which 62 have already been used to provide formal notifications to governments and stakeholders. | 翻訳日:2024-08-12 17:08:34 公開日:2024-08-08 |
# 回答以上の質問? 説明可能なAIをサイバーAIツールに統合することから学んだこと
More Questions than Answers? Lessons from Integrating Explainable AI into a Cyber-AI Tool ( http://arxiv.org/abs/2408.04746v1 ) ライセンス: Link先を確認 | Ashley Suh, Harry Li, Caitlin Kenney, Kenneth Alperin, Steven R. Gomez, | (参考訳) 我々は、サイバーセキュリティアナリストのためのドメイン固有のワークフローで、説明可能なAI(XAI)を実装するための進行中の取り組みから、観察と課題を共有します。
具体的には、ソースコード分類におけるXAIの使用に関する予備的ケーススタディを簡潔に述べる。
非技術ユーザ向けに販売されているにもかかわらず、AIの専門知識がほとんどない人々によって解釈された場合、最先端の正当性説明手法(例えばSHAPやLIME)の出力は翻訳で失われることがわかった。
さらに、一般的なXAI技術は、ポストホックでローカライズされすぎると、リアルタイムの人間-AIワークフローに対する洞察が少なくなることがわかりました。
その代わり、サイバーアナリストはより高レベルで分かりやすい説明を必要としており、彼らのワークフローに可能な限り混乱をもたらすことができる。
実用的で効果的なXAIにおける非適応的なギャップを概説し、次に、LLM(Large Language Models)のような新興技術が、これらの既存の障害を緩和する方法について触れます。
We share observations and challenges from an ongoing effort to implement Explainable AI (XAI) in a domain-specific workflow for cybersecurity analysts. Specifically, we briefly describe a preliminary case study on the use of XAI for source code classification, where accurate assessment and timeliness are paramount. We find that the outputs of state-of-the-art saliency explanation techniques (e.g., SHAP or LIME) are lost in translation when interpreted by people with little AI expertise, despite these techniques being marketed for non-technical users. Moreover, we find that popular XAI techniques offer fewer insights for real-time human-AI workflows when they are post hoc and too localized in their explanations. Instead, we observe that cyber analysts need higher-level, easy-to-digest explanations that can offer as little disruption as possible to their workflows. We outline unaddressed gaps in practical and effective XAI, then touch on how emerging technologies like Large Language Models (LLMs) could mitigate these existing obstacles. | 翻訳日:2024-08-12 17:08:34 公開日:2024-08-08 |
# 連続ハミルトンアセンブリ:量子コンピュータにおける組合せ最適化問題のトレーニングの強化
Sequential Hamiltonian Assembly: Enhancing the training of combinatorial optimization problems on quantum computers ( http://arxiv.org/abs/2408.04751v1 ) ライセンス: Link先を確認 | Navid Roshani, Jonas Stein, Maximilian Zorn, Michael Kölle, Philipp Altmann, Claudia Linnhoff-Popien, | (参考訳) 量子機械学習における中心的な課題は、パラメータ化量子回路(PQC)の設計と訓練である。
深層学習と同様に、勾配の消失は様々な情報源から生じるPQCの訓練性に大きな障害をもたらす。
そのような情報源の1つは非局所損失関数の存在であり、これは関係する量子ビットの大規模な部分集合の測定を必要とする。
この問題に対処し,大域的損失関数を用いた量子アプリケーションに対するパラメータトレーニングを容易にするために,逐次ハミルトンアセンブリ(SHA)を提案する。
SHAは、ローカルコンポーネントからそれを組み立てることで損失を反復的に近似する。
提案手法の有効性をさらに実証するため,新たな分割戦略,QAOAとSHAの合併,および最大カッツ最適化問題に対するSHAの評価を導入することで,これまでの事例研究を拡張した。
シミュレーションの結果、SHAは従来のパラメータトレーニングを43.89%、実証的なLayer-VQEを29.08%上回った。
これにより、局所性に配慮した学習手法の道が開かれ、実用的な問題の大きなクラスに対する消滅勾配が緩和される。
A central challenge in quantum machine learning is the design and training of parameterized quantum circuits (PQCs). Much like in deep learning, vanishing gradients pose significant obstacles to the trainability of PQCs, arising from various sources. One such source is the presence of non-local loss functions, which require the measurement of a large subset of qubits involved. To address this issue and facilitate parameter training for quantum applications using global loss functions, we propose Sequential Hamiltonian Assembly (SHA). SHA iteratively approximates the loss by assembling it from local components. To further demonstrate the feasibility of our approach, we extend our previous case study by introducing a new partitioning strategy, a new merger between QAOA and SHA, and an evaluation of SHA onto the Max-Cut optimization problem. Simulation results show that SHA outperforms conventional parameter training by 43.89% and the empirical state-of-the-art, Layer-VQE by 29.08% in the mean accuracy for Max-Cut. This paves the way for locality-aware learning techniques, mitigating vanishing gradients for a large class of practically relevant problems. | 翻訳日:2024-08-12 17:08:34 公開日:2024-08-08 |
# スマートホームシステムにおける自動化構成 : 課題と機会
Automation Configuration in Smart Home Systems: Challenges and Opportunities ( http://arxiv.org/abs/2408.04755v1 ) ライセンス: Link先を確認 | Sheik Murad Hassan Anik, Xinghua Gao, Hao Zhong, Xiaoyin Wang, Na Meng, | (参考訳) スマートデバイスとIoT(Internet-of-Things)のイノベーションとして、スマートホームが普及している。
人々は、IoTシステムをゼロから作るのではなく、既製のスマートホームプラットフォームをカスタマイズすることで、住居をスマートホームに変える傾向があります。
代替として、Home Assistant(HA)は最も人気のあるプラットフォームのひとつだ。
これは、(S1)選択したデバイスをシステムに統合し、(S2)それらのデバイスを制御するYAMLファイルを作成することによって、エンドユーザー(つまり住宅居住者)が家庭をスマート化することを可能にする。
残念なことに、デバイスの多様性と自動構成の複雑さのため、多くのユーザはYAMLファイルを正しく作成することが難しい。
その結果、スマートホームは期待通りに機能せず、ユーザーのフラストレーションと懸念を引き起こします。
本稿では,スマートホームにおけるYAMLによる自動化設定の課題(S2)について述べる。
自動化設定に関する議論スレッドのために、オンラインフォーラムHome Assistant Communityをマイニングしました。
190スレッドを手動で検査することで、実装、最適化、デバッグの3つのカテゴリが明らかになった。
各カテゴリにおいて、関連する課題の場所と技術的な概念に基づいて、議論を分類した。
デバッグの議論の中では,ユーザの解決戦略に基づいた議論をさらに分類し,既存の解析ツールをバグのあるYAMLファイルに適用し,ツールの有効性を評価する。
本研究は,ユーザの直面する共通課題と頻繁な解決戦略を明らかにする。
デバッグに関する129件(68%)が調査されているが、既存のツールは最大14件の問題を検知し、修正することができない。
これは、既存のツールが自動化設定の限られた補助を提供することを意味する。
我々の研究はスマートホーム開発における今後の方向性に光を当てている。
As the innovation of smart devices and internet-of-things (IoT), smart homes have become prevalent. People tend to transform residences into smart homes by customizing off-the-shelf smart home platforms, instead of creating IoT systems from scratch. Among the alternatives, Home Assistant (HA) is one of the most popular platforms. It allows end-users (i.e., home residents) to smartify homes by (S1) integrating selected devices into the system, and (S2) creating YAML files to control those devices. Unfortunately, due to the diversity of devices and complexity of automatic configurations, many users have difficulty correctly creating YAML files. Consequently, their smart homes may not work as expected, causing frustration and concern in users. This paper presents a novel study on issues of YAML-based automation configuration in smart homes (issues related to S2). We mined the online forum Home Assistant Community for discussion threads related to automation configuration. By manually inspecting 190 threads, we revealed 3 categories of concerns: implementation, optimization, and debugging. Under each category, we classified discussions based on the issue locations and technical concepts involved. Among debugging discussions, we further classified discussions based on users' resolution strategies; we also applied existing analysis tools to buggy YAML files, to assess the tool effectiveness. Our study reveals the common challenges faced by users and frequently applied resolution strategies. There are 129 (68%) examined issues concerning debugging, but existing tools can detect at most 14 issues and fix none. It implies that existing tools provide limited assistance in automation configuration. Our research sheds light on future directions in smart home development. | 翻訳日:2024-08-12 17:08:34 公開日:2024-08-08 |
# 信頼度に基づくニューラルネットワークプルーニング
Confident magnitude-based neural network pruning ( http://arxiv.org/abs/2408.04759v1 ) ライセンス: Link先を確認 | Joaquin Alvarez, | (参考訳) ニューラルネットワークのプルーニングは、性能を損なうことなく、効率の向上とディープラーニングモデルのメモリストレージ削減に成功している。
従来の文献では、深層ニューラルネットワークのパラメータ数が1ショットのプルーニングレジームにおいて予測能力を低下させることなく、大幅に削減できることが示されている。
我々の研究は、ニューラルネットワークを確実に刈り取るための厳密な不確実性定量化を提供するために、この背景を超えて構築されている。
我々は、分布のない不確実性定量化に関する最近の技術を活用し、高い性能を維持しながら、ディープニューラルネットワークを圧縮するための有限サンプル統計保証を提供する。
さらに、この研究は、不確実性を認識したプルーニングが、スパースニューラルネットワークを安全にデプロイするための有用なアプローチであることを示すために、コンピュータビジョンタスクの実験を行う。
Pruning neural networks has proven to be a successful approach to increase the efficiency and reduce the memory storage of deep learning models without compromising performance. Previous literature has shown that it is possible to achieve a sizable reduction in the number of parameters of a deep neural network without deteriorating its predictive capacity in one-shot pruning regimes. Our work builds beyond this background in order to provide rigorous uncertainty quantification for pruning neural networks reliably, which has not been addressed to a great extent in previous literature focusing on pruning methods in computer vision settings. We leverage recent techniques on distribution-free uncertainty quantification to provide finite-sample statistical guarantees to compress deep neural networks, while maintaining high performance. Moreover, this work presents experiments in computer vision tasks to illustrate how uncertainty-aware pruning is a useful approach to deploy sparse neural networks safely. | 翻訳日:2024-08-12 17:08:34 公開日:2024-08-08 |
# 身体的不確かさを意識したオブジェクトセグメンテーション
Embodied Uncertainty-Aware Object Segmentation ( http://arxiv.org/abs/2408.04760v1 ) ライセンス: Link先を確認 | Xiaolin Fang, Leslie Pack Kaelbling, Tomás Lozano-Pérez, | (参考訳) 本研究では,不確実性を考慮したオブジェクトインスタンスセグメンテーション(UncOS)を導入し,対話型セグメンテーションの有用性を示す。
ロボット認識の不確実性に対処するため,物体分割の仮説分布を生成する手法を提案する。
本研究では,大容量事前学習モデルの複数問合せを行うことにより,信頼度推定とともに,領域分割仮説の集合を得る。
このプロセスは、未確認のオブジェクトセグメンテーション問題に対して最先端のパフォーマンスを実現するセグメンテーション結果を生成することができる。
アウトプットは、ロボットアクションを選択し、シーンを混乱させ、あいまいさを減らす、信念駆動のプロセスへの入力としても機能する。
本手法の有効性を実ロボット実験で実証する。
Webサイト: https://sites.google.com/view/embodied-uncertain-seg
We introduce uncertainty-aware object instance segmentation (UncOS) and demonstrate its usefulness for embodied interactive segmentation. To deal with uncertainty in robot perception, we propose a method for generating a hypothesis distribution of object segmentation. We obtain a set of region-factored segmentation hypotheses together with confidence estimates by making multiple queries of large pre-trained models. This process can produce segmentation results that achieve state-of-the-art performance on unseen object segmentation problems. The output can also serve as input to a belief-driven process for selecting robot actions to perturb the scene to reduce ambiguity. We demonstrate the effectiveness of this method in real-robot experiments. Website: https://sites.google.com/view/embodied-uncertain-seg | 翻訳日:2024-08-12 17:08:34 公開日:2024-08-08 |
# 3次元MRIへのビデオセグメンテーションの新しい適応:SAM2を用いた効率的なゼロショット膝セグメンテーション
Novel adaptation of video segmentation to 3D MRI: efficient zero-shot knee segmentation with SAM2 ( http://arxiv.org/abs/2408.04762v1 ) ライセンス: Link先を確認 | Andrew Seohwan Yu, Mohsen Hariri, Xuecen Zhang, Mingrui Yang, Vipin Chaudhary, Xiaojuan Li, | (参考訳) インテリジェントな医用画像セグメンテーション手法は急速に進化し、ますます適用されつつあるが、ソースとターゲットのドメイン間でのデータ分散が異なるため、アルゴリズムのパフォーマンスが低下するドメイン転送の課題に直面している。
そこで本研究では,ビデオのフレーム間におけるプロンプトの受け入れとメモリ保持を目的とした汎用セグメンテーションモデルであるSegment Anything Model 2 (SAM2)を適用して,ゼロショットで単発の3次元膝関節MRIのセグメンテーションを実現する手法を提案する。
3次元医用ボリュームのスライスを個々のビデオフレームとして扱うことで、SAM2の高度な能力を利用して、モーションおよび空間認識の予測を生成する。
SAM2は, 1回のプロンプトのみを用いて, 膝関節MRIスキャンにおける構造を正確に記述し, トレーニングや微調整を伴わずに, ゼロショットでセグメント化タスクを効率的に実行できることを実証した。
OAI-ZIB (OAI-ZIB) を用いた変形性膝関節症の診断実験により, SAM2 は3次元膝関節骨切開において高い精度を達成し, Dice の類似度係数は0.9643であることがわかった。
また、異なるSAM2モデルサイズ、異なるプロンプトスキーム、同じデータセットにデプロイされたSAM1モデルの比較結果を用いて生成された結果も提示する。
このブレークスルーは、自動化セグメンテーションのためのスケーラブルで費用効率のよいソリューションを提供し、より広範な臨床応用とワークフローの合理化によって、医療画像分析に革命をもたらす可能性がある。
Intelligent medical image segmentation methods are rapidly evolving and being increasingly applied, yet they face the challenge of domain transfer, where algorithm performance degrades due to different data distributions between source and target domains. To address this, we introduce a method for zero-shot, single-prompt segmentation of 3D knee MRI by adapting Segment Anything Model 2 (SAM2), a general-purpose segmentation model designed to accept prompts and retain memory across frames of a video. By treating slices from 3D medical volumes as individual video frames, we leverage SAM2's advanced capabilities to generate motion- and spatially-aware predictions. We demonstrate that SAM2 can efficiently perform segmentation tasks in a zero-shot manner with no additional training or fine-tuning, accurately delineating structures in knee MRI scans using only a single prompt. Our experiments on the Osteoarthritis Initiative Zuse Institute Berlin (OAI-ZIB) dataset reveal that SAM2 achieves high accuracy on 3D knee bone segmentation, with a testing Dice similarity coefficient of 0.9643 on tibia. We also present results generated using different SAM2 model sizes, different prompt schemes, as well as comparative results from the SAM1 model deployed on the same dataset. This breakthrough has the potential to revolutionize medical image analysis by providing a scalable, cost-effective solution for automated segmentation, paving the way for broader clinical applications and streamlined workflows. | 翻訳日:2024-08-12 17:08:34 公開日:2024-08-08 |
# 整形外科領域におけるメンタルフォアメンのセグメンテーション : 深層学習アプローチ
Segmentation of Mental Foramen in Orthopantomographs: A Deep Learning Approach ( http://arxiv.org/abs/2408.04763v1 ) ライセンス: Link先を確認 | Haider Raza, Mohsin Ali, Vishal Krishna Singh, Agustin Wahjuningrum, Rachel Sarig, Akhilanand Chaurasia, | (参考訳) メンタルフォアメンの正確な識別と検出は歯科医療において重要であり、歯の除去、嚢胞手術、インプラントなどの処置に影響を及ぼす。
この解剖学的特徴を正確に同定することは、術後の問題を促進し、患者の結果を改善する。
さらに, 本研究の目的は, 歯科医療における歯科処置の促進, 患者ケアの増大, 医療効率の向上である。
本研究では、深層学習法を用いて、パノラマ画像からメンタルフォアメンを正確に検出し、分類した。
2種類のマスク(円形と正方形)が模型訓練で使用された。
複数のセグメンテーションモデルを用いて、メンタルフォアメンを識別・分節し、その効果を様々な指標を用いて評価した。
本研究のために,1000個のパノラマX線写真からなる社内データセットを作成した。
実験の結果,古典的UNetモデルはテストデータに対して極めて良好に動作し,Dice係数0.79,Intersection over Union(IoU)0.67を達成できた。
さらに、ResUNet++とUNet Attentionモデルは競合性能を示し、Diceスコアは0.675、0.676、IoU値は0.683、0.671だった。
また、バックボーンアーキテクチャの異なる転送学習モデルについても検討し、最良の結果を得るためのLinkNetを探索した。
本研究は,パノラマX線写真におけるメンタルフォアメンの正確な識別とアウトライン化における古典的Unetモデルの有効性を明らかにするものである。
このタスクは、脳腫瘍や皮膚がんなどの複雑な医療データセットを分割するよりも比較的単純で、サイズや形状が多様である。
この研究は歯科医療の最適化にも価値があり、実践者や患者に利益をもたらす。
Precise identification and detection of the Mental Foramen are crucial in dentistry, impacting procedures such as impacted tooth removal, cyst surgeries, and implants. Accurately identifying this anatomical feature facilitates post-surgery issues and improves patient outcomes. Moreover, this study aims to accelerate dental procedures, elevating patient care and healthcare efficiency in dentistry. This research used Deep Learning methods to accurately detect and segment the Mental Foramen from panoramic radiograph images. Two mask types, circular and square, were used during model training. Multiple segmentation models were employed to identify and segment the Mental Foramen, and their effectiveness was evaluated using diverse metrics. An in-house dataset comprising 1000 panoramic radiographs was created for this study. Our experiments demonstrated that the Classical UNet model performed exceptionally well on the test data, achieving a Dice Coefficient of 0.79 and an Intersection over Union (IoU) of 0.67. Moreover, ResUNet++ and UNet Attention models showed competitive performance, with Dice scores of 0.675 and 0.676, and IoU values of 0.683 and 0.671, respectively. We also investigated transfer learning models with varied backbone architectures, finding LinkNet to produce the best outcomes. In conclusion, our research highlights the efficacy of the classical Unet model in accurately identifying and outlining the Mental Foramen in panoramic radiographs. While vital, this task is comparatively simpler than segmenting complex medical datasets such as brain tumours or skin cancer, given their diverse sizes and shapes. This research also holds value in optimizing dental practice, benefiting practitioners and patients. | 翻訳日:2024-08-12 17:08:34 公開日:2024-08-08 |
# AddressWatcher: メモリリークフィックスのサニタイザに基づくローカライズ
AddressWatcher: Sanitizer-Based Localization of Memory Leak Fixes ( http://arxiv.org/abs/2408.04764v1 ) ライセンス: Link先を確認 | Aniruddhan Murali, Mahmoud Alfadel, Meiyappan Nagappan, Meng Xu, Chengnian Sun, | (参考訳) メモリリークバグはC/C++プログラムで大きな問題である。
メモリリークを防ぐために、開発者はこれらのオブジェクトを手動で再配置する必要がある。
そのため,メモリリークを自動的に修正する手法がいくつか提案されている。
提案手法はメモリリークを自動的に修正する上でメリットがあるが、制限がある。
静的ベースのアプローチは、すべてのパスにわたるメモリオブジェクトの完全なセマンティクスをトレースしようとする。
しかし、ターゲットプログラムに大量のリークパスがある場合、スケーラビリティに関する課題がある。
一方、動的アプローチは、単一の実行パスのみにメモリオブジェクトの正確なセマンティクスをスペルする(複数の実行パスを考慮しない)。
本稿では,AddressWatcherという新しいフレームワークを設計,実装することで,従来のアプローチを補完する。
AddressWatcherは動的アプローチとして、メモリオブジェクトのセマンティクスを複数の実行パスで追跡することを可能にする。
Addresswatcherは、複数のテストケースに対してリークの異なる実行パスを保存および比較できるように設計されたリークデータベースを使用することで、これを実現する。
我々は、binutils、openssh、tmux、openssl、gitという5つのオープンソースパッケージのベンチマークでAddressWatcherの評価を行う。
メモリリークのバグを調べた50件中23件で、AddressWatcherは、メモリリークを修正するための無料の場所を正しく指している。
さらに、12の人気のあるオープンソースプロジェクトリポジトリに25の新しいプルリクエスト(PR)を提出しました。
これらのPRは、リポジトリ内のメモリリークの解決をターゲットにしている。
このうち、21のPRがマージされ、5つのオープンなGitHub問題に対処した。
実際、重大な修正が、大きな素数を見つけるために使われたプログラムであるcalcリポジトリの新しいバージョンリリースを引き起こした。
さらに,これらのPRを通じて,コターン,h2o,レーダ2などのレポジトリで激しい議論と評価を巻き起こした。
Memory leak bugs are a major problem in C/C++ programs. They occur when memory objects are not deallocated.Developers need to manually deallocate these objects to prevent memory leaks. As such, several techniques have been proposed to automatically fix memory leaks. Although proposed approaches have merit in automatically fixing memory leaks, they present limitations. Static-based approaches attempt to trace the complete semantics of memory object across all paths. However, they have scalability-related challenges when the target program has a large number of leaked paths. On the other hand, dynamic approaches can spell out precise semantics of memory object only on a single execution path (not considering multiple execution paths). In this paper, we complement prior approaches by designing and implementing a novel framework named AddressWatcher. AddressWatcher allows the semantics of a memory object to be tracked on multiple execution paths as a dynamic approach. Addresswatcher accomplishes this by using a leak database that is designed to allow storing and comparing different execution paths of a leak over several test cases. We conduct an evaluation of AddressWatcher on a benchmark of five open-source packages, namely binutils, openssh, tmux, openssl and git. In 23 out of the 50 examined memory leak bugs, AddressWatcher correctly points to a free location to fix memory leaks. Moreover, we submitted 25 new pull requests (PRs) to 12 popular open-source project repositories. These PRs targeted the resolution of memory leaks within these repositories. Among these, 21 PRs were merged, addressing 5 open GitHub issues. In fact, a critical fix prompted a new version release for the calc repository, a program used to find large primes. Furthermore, our contributions through these PRs sparked intense discussions and appreciation in various repositories such as coturn, h2o, and radare2. | 翻訳日:2024-08-12 17:08:34 公開日:2024-08-08 |
# 時間依存型Hartree-Fockダイナミクス予測のためのポテンシャルのスケーラブル学習
Scalable learning of potentials to predict time-dependent Hartree-Fock dynamics ( http://arxiv.org/abs/2408.04765v1 ) ライセンス: Link先を確認 | Harish S. Bhat, Prachi Gupta, Christine M. Isborn, | (参考訳) 分子の電子密度ダイナミクスから時間依存型ハートリーフォック(TDHF)の電子間ポテンシャルを学習するための枠組みを提案する。
電子間ポテンシャルを含むTDHFハミルトニアンは、第一原理から計算できるが、時間依存密度汎関数理論の交換相関ポテンシャルの学習のような新しい問題など、量子力学の他の手法や応用法で生じる未知の項を学習するために応用できる戦略を開発するために、この問題をテストベッドとして利用する。
我々は、TDHF間ポテンシャルの3つのモデルを開発し、訓練し、それぞれが最大60ドル/60ドル/60ドル/60ドル/60ドル/の4次元テンソルでパラメータ化する。
2つのモデルはエルミート対称性を保ち、1つのモデルはエルミート対称性を暗示する8倍の置換対称性を保っている。
7つの異なる分子系にまたがって、より深い8倍対称性を考慮すれば、トレーニング効率、テストセット予測力、真と学習された電子間ポテンシャルの直接比較という3つの指標で最高の性能モデルが得られる。
3つのモデルは、フィールドフリー軌道のアンサンブルで訓練されると、トレーニングセットの外にあるフィールドオン状態であっても正確な電子動力学予測を生成する。
モデルが大規模分子系にスケールできるようにするために, 反復的, 行列なし学習を可能にするヤコビアンベクトル積の式を導出する。
We propose a framework to learn the time-dependent Hartree-Fock (TDHF) inter-electronic potential of a molecule from its electron density dynamics. Though the entire TDHF Hamiltonian, including the inter-electronic potential, can be computed from first principles, we use this problem as a testbed to develop strategies that can be applied to learn \emph{a priori} unknown terms that arise in other methods/approaches to quantum dynamics, e.g., emerging problems such as learning exchange-correlation potentials for time-dependent density functional theory. We develop, train, and test three models of the TDHF inter-electronic potential, each parameterized by a four-index tensor of size up to $60 \times 60 \times 60 \times 60$. Two of the models preserve Hermitian symmetry, while one model preserves an eight-fold permutation symmetry that implies Hermitian symmetry. Across seven different molecular systems, we find that accounting for the deeper eight-fold symmetry leads to the best-performing model across three metrics: training efficiency, test set predictive power, and direct comparison of true and learned inter-electronic potentials. All three models, when trained on ensembles of field-free trajectories, generate accurate electron dynamics predictions even in a field-on regime that lies outside the training set. To enable our models to scale to large molecular systems, we derive expressions for Jacobian-vector products that enable iterative, matrix-free training. | 翻訳日:2024-08-12 17:08:34 公開日:2024-08-08 |
# データ駆動型Pixelコントロール - 課題と展望
Data-Driven Pixel Control: Challenges and Prospects ( http://arxiv.org/abs/2408.04767v1 ) ライセンス: Link先を確認 | Saurabh Farkya, Zachary Alan Daniels, Aswin Raghavan, Gooitzen van der Wal, Michael Isnardi, Michael Piacentino, David Zhang, | (参考訳) センサの最近の進歩は、ピクセルレベルでの高解像度と高データのスループットをもたらしている。
同時に、大規模(ディープ)ニューラルネットワーク(NN)の採用がコンピュータビジョンの大幅な進歩につながっている。
現在、ビジュアルインテリジェンスには、計算複雑性、エネルギ、レイテンシが増加しています。
本研究では,画素レベルでのダイナミックセンシングと映像レベルでのコンピュータビジョン分析を組み合わせたデータ駆動システムについて検討し,センサフロントエンドと計算バックエンド間のデータ移動を最小限に抑えるフィードバック制御ループを提案する。
提案手法は,(1)画素のスパースアクティベーションによる高精度な予測,(2)フィードバック制御の活用,(3)学習特徴ベクトルの次元性は空間性の増加とともに著しく低下しうること,(3)アナログ設計の選択肢(RGBやバイエルピクセルの形式やアナログノイズなど)をエミュレートし,データ駆動システムの重要な指標に与える影響について検討する。
従来のピクセルモデルとディープラーニングモデルとの比較分析は、大幅な性能向上を示している。
本システムでは,約30%の画素を動作させると,帯域幅が10倍に減少し,エネルギー遅延生成(EDP)が15~30倍に向上し,オブジェクト検出と追跡精度がわずかに低下する。
アナログエミュレーションに基づき,205メガピクセル/秒(MP/s)のスループットを実現し,電力消費量は110mW/MPである。
Recent advancements in sensors have led to high resolution and high data throughput at the pixel level. Simultaneously, the adoption of increasingly large (deep) neural networks (NNs) has lead to significant progress in computer vision. Currently, visual intelligence comes at increasingly high computational complexity, energy, and latency. We study a data-driven system that combines dynamic sensing at the pixel level with computer vision analytics at the video level and propose a feedback control loop to minimize data movement between the sensor front-end and computational back-end without compromising detection and tracking precision. Our contributions are threefold: (1) We introduce anticipatory attention and show that it leads to high precision prediction with sparse activation of pixels; (2) Leveraging the feedback control, we show that the dimensionality of learned feature vectors can be significantly reduced with increased sparsity; and (3) We emulate analog design choices (such as varying RGB or Bayer pixel format and analog noise) and study their impact on the key metrics of the data-driven system. Comparative analysis with traditional pixel and deep learning models shows significant performance enhancements. Our system achieves a 10X reduction in bandwidth and a 15-30X improvement in Energy-Delay Product (EDP) when activating only 30% of pixels, with a minor reduction in object detection and tracking precision. Based on analog emulation, our system can achieve a throughput of 205 megapixels/sec (MP/s) with a power consumption of only 110 mW per MP, i.e., a theoretical improvement of ~30X in EDP. | 翻訳日:2024-08-12 17:08:34 公開日:2024-08-08 |
# AIの意識と公衆の認識:4つの未来
AI Consciousness and Public Perceptions: Four Futures ( http://arxiv.org/abs/2408.04771v1 ) ライセンス: Link先を確認 | Ines Fernandez, Nicoleta Kyosovska, Jay Luong, Gabriel Mukobi, | (参考訳) 先進的なAIシステム(AI)からのリスクに関する談話は、典型的には誤用、事故、制御の喪失に焦点を当てるが、AIの道徳的地位に関する問題は、同等の価値があり、同様の時間枠内で実現可能な否定的な影響を持つ可能性がある。
本稿は,(1)先進的なAIシステムが意識するかどうかの事実的問題,(2)先進的なAIシステムが意識を広く信じるかどうかの認識的疑問を考察することによって,これらの影響を評価する。
真正のシナリオでは、社会はAIが意識的であると強く信じ、偽正のシナリオでは、その信念は間違っており、真負のシナリオでは、社会はAIが意識を持っていないと正しく信じている。
この論文は,2次元の枠組みを基盤として,様々な未来を鮮明に表現したヴィグネットを提供する。
批判的に、AIの苦悩、人間の非力化、地政学的な不安定性、そして人間の絶望の4つの主要なリスクを特定します。
各シナリオのリスクを評価し,各シナリオの総合的質的リスク評価を行う。
私たちの分析では、AIが無意識であるという誤った信念と、AIが無意識であるという誤った信念が、最悪の可能性を示している。
この論文は、意識的AIを意図的に創出することを目的とした研究を回避し、代わりに、AI意識に関する事実的および認識的疑問の両面での現在の不確実性を減らすことに注力する主な推奨事項で締めくくっている。
The discourse on risks from advanced AI systems ("AIs") typically focuses on misuse, accidents and loss of control, but the question of AIs' moral status could have negative impacts which are of comparable significance and could be realised within similar timeframes. Our paper evaluates these impacts by investigating (1) the factual question of whether future advanced AI systems will be conscious, together with (2) the epistemic question of whether future human society will broadly believe advanced AI systems to be conscious. Assuming binary responses to (1) and (2) gives rise to four possibilities: in the true positive scenario, society predominantly correctly believes that AIs are conscious; in the false positive scenario, that belief is incorrect; in the true negative scenario, society correctly believes that AIs are not conscious; and lastly, in the false negative scenario, society incorrectly believes that AIs are not conscious. The paper offers vivid vignettes of the different futures to ground the two-dimensional framework. Critically, we identify four major risks: AI suffering, human disempowerment, geopolitical instability, and human depravity. We evaluate each risk across the different scenarios and provide an overall qualitative risk assessment for each scenario. Our analysis suggests that the worst possibility is the wrong belief that AI is non-conscious, followed by the wrong belief that AI is conscious. The paper concludes with the main recommendations to avoid research aimed at intentionally creating conscious AI and instead focus efforts on reducing our current uncertainties on both the factual and epistemic questions on AI consciousness. | 翻訳日:2024-08-12 17:08:34 公開日:2024-08-08 |
# 癌毒性症状抽出のためのハイブリッド学生・教師大言語モデル再構成
Hybrid Student-Teacher Large Language Model Refinement for Cancer Toxicity Symptom Extraction ( http://arxiv.org/abs/2408.04775v1 ) ライセンス: Link先を確認 | Reza Khanmohammadi, Ahmed I. Ghanem, Kyle Verdecchia, Ryan Hall, Mohamed Elshaikh, Benjamin Movsas, Hassan Bagher-Ebadian, Bing Luo, Indrin J. Chetty, Tuka Alhanai, Kundan Thind, Mohammad M. Ghassemi, | (参考訳) 大きな言語モデル(LLM)は臨床症状の抽出に有意な可能性を秘めているが、医療分野への展開はプライバシの懸念、計算上の制限、運用コストに制約されている。
本研究は, 癌毒性症状抽出のためのコンパクトLLMの最適化について, 新規反復精製法を用いて検討した。
我々は,Zephyr-7b-beta と Phi3-mini-128 を学生モデルとして,GPT-4o を教師として利用し,迅速な改良,検索型拡張生成(RAG)、微調整戦略を動的に選択する。
放射線治療後有毒性症状12例を対象とした294例の臨床的検討により, 本手法の有効性が示された。
RAG法が最も効率的であることが示され、ゼフィア7b-βの平均精度スコアは0.32から0.73に改善され、Phi3-mini-128では0.40から0.87に改善された。
テストセットでは、両モデルとも症状間でほぼ0.20の精度が向上した。
この改良はゼファーのGPT-4oの45倍、Phi-3の79倍のコストで達成された。
これらの結果から, 医療現場における医療現場におけるコンパクトLSMの能力向上, パフォーマンス, 費用対効果, プライバシ保全のバランスの両立を図る上で, 反復的改善技術の可能性が浮かび上がっている。
Large Language Models (LLMs) offer significant potential for clinical symptom extraction, but their deployment in healthcare settings is constrained by privacy concerns, computational limitations, and operational costs. This study investigates the optimization of compact LLMs for cancer toxicity symptom extraction using a novel iterative refinement approach. We employ a student-teacher architecture, utilizing Zephyr-7b-beta and Phi3-mini-128 as student models and GPT-4o as the teacher, to dynamically select between prompt refinement, Retrieval-Augmented Generation (RAG), and fine-tuning strategies. Our experiments on 294 clinical notes covering 12 post-radiotherapy toxicity symptoms demonstrate the effectiveness of this approach. The RAG method proved most efficient, improving average accuracy scores from 0.32 to 0.73 for Zephyr-7b-beta and from 0.40 to 0.87 for Phi3-mini-128 during refinement. In the test set, both models showed an approximate 0.20 increase in accuracy across symptoms. Notably, this improvement was achieved at a cost 45 times lower than GPT-4o for Zephyr and 79 times lower for Phi-3. These results highlight the potential of iterative refinement techniques in enhancing the capabilities of compact LLMs for clinical applications, offering a balance between performance, cost-effectiveness, and privacy preservation in healthcare settings. | 翻訳日:2024-08-12 17:08:34 公開日:2024-08-08 |
# マルチサイトバイパラメトリックMRIデータセットを用いた前立腺病変検出のための統一モデルによる深層学習に基づく教師なしドメイン適応
Deep Learning-based Unsupervised Domain Adaptation via a Unified Model for Prostate Lesion Detection Using Multisite Bi-parametric MRI Datasets ( http://arxiv.org/abs/2408.04777v1 ) ライセンス: Link先を確認 | Hao Li, Han Liu, Heinrich von Busch, Robert Grimm, Henkjan Huisman, Angela Tong, David Winkel, Tobias Penzkofer, Ivan Shabunin, Moon Hyung Choi, Qingsong Yang, Dieter Szolar, Steven Shea, Fergus Coakley, Mukesh Harisinghani, Ipek Oguz, Dorin Comaniciu, Ali Kamen, Bin Lou, | (参考訳) 本仮説は,多地点前立腺病変検出における教師あり学習モデルの性能向上,特に様々なb値が存在する場合に,拡散強調画像を用いたUDAが有望かつ信頼性の高い手法である,というものである。
この振り返り調査では、9つの異なる画像センターで収集された5,150人の患者(14,191人のサンプル)のデータを調査した。
多地点PCa検出のための統一生成モデルを用いた新しいUDA法を開発した。
前立腺イメージングレポート・データシステム(PI-RADS)ガイドラインにより推奨されるb値を用いて取得した画像のスタイルに適合するように、ADCおよび様々なb値を用いて取得した個々のDW画像を含む拡散強調画像(DWI)取得を翻訳する。
生成されたADCおよびDW画像は、PCa検出のために元の画像を置き換える。
1,692検体(2,393検体)の独立したセットを用いて評価を行った。
受信機動作特性曲線 (AUC) の下の領域を主指標とし, ブートストラップによる統計的解析を行った。
全ての検査例において, ベースラインSL法とUDA法では0.73および0.79(p<.001), PI-RADS>=3では0.77および0.80(p<.001)であった。
最も好ましくない画像取得条件下の361例において, ベースラインSLおよびUDAのAUC値は, PI-RADS>=3の0.49および0.76(p<.001), PI-RADS>=4PCaの0.50および0.77(p<.001)であった。
その結果,生成した画像を用いたUDAにより,各種b値のデータセット間での多地点PCa病変検出におけるSL法の性能が向上し,特にPI-RADS推奨DWIプロトコル(例えば,非常に高いb値)から大きく逸脱した画像に対して有効であることが示唆された。
Our hypothesis is that UDA using diffusion-weighted images, generated with a unified model, offers a promising and reliable strategy for enhancing the performance of supervised learning models in multi-site prostate lesion detection, especially when various b-values are present. This retrospective study included data from 5,150 patients (14,191 samples) collected across nine different imaging centers. A novel UDA method using a unified generative model was developed for multi-site PCa detection. This method translates diffusion-weighted imaging (DWI) acquisitions, including apparent diffusion coefficient (ADC) and individual DW images acquired using various b-values, to align with the style of images acquired using b-values recommended by Prostate Imaging Reporting and Data System (PI-RADS) guidelines. The generated ADC and DW images replace the original images for PCa detection. An independent set of 1,692 test cases (2,393 samples) was used for evaluation. The area under the receiver operating characteristic curve (AUC) was used as the primary metric, and statistical analysis was performed via bootstrapping. For all test cases, the AUC values for baseline SL and UDA methods were 0.73 and 0.79 (p<.001), respectively, for PI-RADS>=3, and 0.77 and 0.80 (p<.001) for PI-RADS>=4 PCa lesions. In the 361 test cases under the most unfavorable image acquisition setting, the AUC values for baseline SL and UDA were 0.49 and 0.76 (p<.001) for PI-RADS>=3, and 0.50 and 0.77 (p<.001) for PI-RADS>=4 PCa lesions. The results indicate the proposed UDA with generated images improved the performance of SL methods in multi-site PCa lesion detection across datasets with various b values, especially for images acquired with significant deviations from the PI-RADS recommended DWI protocol (e.g. with an extremely high b-value). | 翻訳日:2024-08-12 17:08:34 公開日:2024-08-08 |
# Aristotle vs. Ringelmann: オープンソースのソフトウェア開発における生産性測定に対するバイアスの影響
Revisiting Aristotle vs. Ringelmann: The influence of biases on measuring productivity in Open Source software development ( http://arxiv.org/abs/2408.04782v1 ) ライセンス: Link先を確認 | Christian Gut, Alfredo Goldman, | (参考訳) Aristotle vs. Ringelmann は、ETH Z\"urich の2つの研究チームの間で議論され、オープンソースソフトウェアプロジェクトの生産性が、そのチームサイズに関してサブリニアかスーパーリニアかを議論した。
この議論は2つの出版物を中心に発展し、GitHub上のプロジェクトをサンプリングし、レグレッション分析を実行して、超線形性に関する質問に答えた。
研究手法の類似性にもかかわらず、Ingo Scholtes氏を中心としたあるチームは、プロジェクトがサブリニアにスケールしているという結論に達し、Didier Sornette氏率いる他のチームは、チームサイズと生産性の超リニアな関係を確認した。
その後の出版物では、ソーネットのプロジェクトの81.7%には50人未満のコントリビューターがいるため、反対の結論はプロジェクト人口の違いによるものかもしれないと主張している。
一方、Scholtes氏は50人以上のコントリビュータで特別にプロジェクトをサンプルした。
この出版物は、両方の著者による研究を、彼らの研究結果を複製することによって比較し、プロジェクトサンプリングが、スコルテスとソルネットの結果の違いを実際にどれほどの量で説明していたかの評価を可能にした。
これにより、サンプリングバイアスが2人の著者間の相違について部分的にしか説明できないことが判明した。
さらなる分析により、反対方向に回帰係数を駆動する計装バイアスが検出された。
これらの結果は定量分析に集約され、両著者が提案した選択バイアスよりも、計器的バイアスがシュートの業績とソルネットの業績の違いに寄与したことを示している。
Aristotle vs. Ringelmann was a discussion between two distinct research teams from the ETH Z\"urich who argued whether the productivity of Open Source software projects scales sublinear or superlinear with regard to its team size. This discussion evolved around two publications, which apparently used similar techniques by sampling projects on GitHub and running regression analyses to answer the question about superlinearity. Despite the similarity in their research methods, one team around Ingo Scholtes reached the conclusion that projects scale sublinear, while the other team around Didier Sornette ascertained a superlinear relationship between team size and productivity. In subsequent publications, the two authors argue that the opposite conclusions may be attributed to differences in project populations, since 81.7% of Sornette's projects have less than 50 contributors. Scholtes, on the other hand, sampled specifically projects with more than 50 contributors. This publication compares the research from both authors by replicating their findings, thus allowing for an evaluation of how much project sampling actually accounted for the differences between Scholtes' and Sornette's results. Thereby, the discovery was made that sampling bias only partially explains the discrepancies between the two authors. Further analysis led to the detection of instrumentation biases that drove the regression coefficients in opposite directions. These findings were then consolidated into a quantitative analysis, indicating that instrumentation biases contributed more to the differences between Scholtes' and Sornette's work than the selection bias suggested by both authors. | 翻訳日:2024-08-12 17:08:34 公開日:2024-08-08 |
# BRAT: Bonus oRthogonAl Token for Architecture Agnostic Textual Inversion
BRAT: Bonus oRthogonAl Token for Architecture Agnostic Textual Inversion ( http://arxiv.org/abs/2408.04785v1 ) ライセンス: Link先を確認 | James Baker, | (参考訳) テキスト・インバージョンは、新しい主題やスタイルをモデルに教えるために、拡散モデルをパーソナライズするための一般的な方法である。
テキスト・インバージョンは、UNetの代替手段を用いて過小評価され、また視覚変換器を用いたテキスト・インバージョンの実験も行われている。
また、UNetとその慣用的レイヤを明示的に使用する必要のない戦略を用いてテキストのインバージョンを最適化し、ボーナストークンを追加し、直交性を強制する。
ボーナストークンの使用により、ソース画像への付着性が向上し、視覚変換器の使用により、プロンプトへの付着性が向上することがわかった。
コードはhttps://github.com/jamesBaker361/tex_inv_plusで公開されている。
Textual Inversion remains a popular method for personalizing diffusion models, in order to teach models new subjects and styles. We note that textual inversion has been underexplored using alternatives to the UNet, and experiment with textual inversion with a vision transformer. We also seek to optimize textual inversion using a strategy that does not require explicit use of the UNet and its idiosyncratic layers, so we add bonus tokens and enforce orthogonality. We find the use of the bonus token improves adherence to the source images and the use of the vision transformer improves adherence to the prompt. Code is available at https://github.com/jamesBaker361/tex_inv_plus. | 翻訳日:2024-08-12 16:58:33 公開日:2024-08-08 |
# SOD-YOLOv8-交通現場での小型物体検出のためのYOLOv8の強化
SOD-YOLOv8 -- Enhancing YOLOv8 for Small Object Detection in Traffic Scenes ( http://arxiv.org/abs/2408.04786v1 ) ライセンス: Link先を確認 | Boshra Khalili, Andrew W. Smyth, | (参考訳) コンピュータビジョンの一部としての物体検出は、交通管理、緊急対応、自動運転車、スマートシティにとって不可欠である。
物体検出の大幅な進歩にもかかわらず、遠方のカメラが捉えた画像の小さな物体の検出は、サイズ、カメラからの距離、形状、背景が散らばっているため、依然として困難である。
これらの課題に対処するために,多数の小オブジェクトを含むシナリオを対象とした新しいモデルであるSmall Object Detection YOLOv8(SOD-YOLOv8)を提案する。
Efficient Generalized Feature Pyramid Networks (GFPN) に触発されて、YOLOv8内のマルチパス融合を強化し、さまざまなレベルの機能を統合し、浅い層からの詳細を保存し、小さなオブジェクト検出精度を向上させる。
また、高解像度空間情報を効果的に活用するために、第4検出層を付加する。
C2f-EMAモジュールの効率的なマルチスケールアテンションモジュール(EMA)は、重み付けを再配布し、関連する特徴を優先順位付けすることで特徴抽出を強化する。
我々はCIoUの代替としてPowerful-IoU(PIoU)を導入し、中質なアンカーボックスに焦点をあて、予測された真実と接地するボックス角の違いに基づいてペナルティを追加する。
このアプローチは計算を単純化し、収束を高速化し、検出精度を高める。
SOD-YOLOv8は、YOLOv8に比べて計算コストや遅延を大幅に増加させることなく、様々なメトリクスで広く使われているモデルを上回る、小さなオブジェクト検出を大幅に改善する。
具体的には、リコールを40.1\%から43.9\%に、精度を51.2\%から53.9\%に、$\text{mAP}_{0.5}$を40.6\%から45.1\%に、$\text{mAP}_{0.5:0.95}$を24\%から26.6\%に引き上げる。
ダイナミックな現実世界の交通シーンでは、SOD-YOLOv8は様々な状況において顕著な改善を示し、課題のある環境でも小さな物体を検出できる信頼性と有効性を示した。
Object detection as part of computer vision can be crucial for traffic management, emergency response, autonomous vehicles, and smart cities. Despite significant advances in object detection, detecting small objects in images captured by distant cameras remains challenging due to their size, distance from the camera, varied shapes, and cluttered backgrounds. To address these challenges, we propose Small Object Detection YOLOv8 (SOD-YOLOv8), a novel model specifically designed for scenarios involving numerous small objects. Inspired by Efficient Generalized Feature Pyramid Networks (GFPN), we enhance multi-path fusion within YOLOv8 to integrate features across different levels, preserving details from shallower layers and improving small object detection accuracy. Also, A fourth detection layer is added to leverage high-resolution spatial information effectively. The Efficient Multi-Scale Attention Module (EMA) in the C2f-EMA module enhances feature extraction by redistributing weights and prioritizing relevant features. We introduce Powerful-IoU (PIoU) as a replacement for CIoU, focusing on moderate-quality anchor boxes and adding a penalty based on differences between predicted and ground truth bounding box corners. This approach simplifies calculations, speeds up convergence, and enhances detection accuracy. SOD-YOLOv8 significantly improves small object detection, surpassing widely used models in various metrics, without substantially increasing computational cost or latency compared to YOLOv8s. Specifically, it increases recall from 40.1\% to 43.9\%, precision from 51.2\% to 53.9\%, $\text{mAP}_{0.5}$ from 40.6\% to 45.1\%, and $\text{mAP}_{0.5:0.95}$ from 24\% to 26.6\%. In dynamic real-world traffic scenes, SOD-YOLOv8 demonstrated notable improvements in diverse conditions, proving its reliability and effectiveness in detecting small objects even in challenging environments. | 翻訳日:2024-08-12 16:58:32 公開日:2024-08-08 |
# Albatross:楽観的なコンセンサスアルゴリズム
Albatross: An optimistic consensus algorithm ( http://arxiv.org/abs/1903.01589v5 ) ライセンス: Link先を確認 | Pascal Berrang, Inês Cruz, Bruno França, Philipp von Styp-Rekowsky, Marvin Wissfeld, | (参考訳) コンセンサスプロトコルは、分散台帳とブロックチェーンの重要なコンポーネントである。
分散ネットワークに対するコンセンサス獲得は、最終性とパフォーマンスのトランザクションに課題をもたらす。
現在、最高のパフォーマンスのコンセンサスアルゴリズムは投機的BFTアルゴリズムであり、これはしかしながら、非投機的アルゴリズムによって提供されるトランザクションの最終的な保証について妥協するものである。
本稿では,両世界の長所を組み合わせることを目的とした,PoS(Proof-of-Stake)ブロックチェーンコンセンサスアルゴリズムであるAlbatrossを紹介する。
Albatrossは高い確率的最終性を提供する高い性能の投機的BFTアルゴリズムである。
我々は、テンダーミントプロトコルを通じて定期的に最終性を保証することでこれを補完する。
我々のプロトコルは標準的なBFTの仮定で安全であることを証明し、理論的および実践的なレベルでその性能を解析する。
そのため、AlbatrossのRust実装をオープンソースで提供しています。
我々の実世界の計測は、我々のプロトコルが単一チェーンのProof-of-Stakeコンセンサスアルゴリズムの理論的最大値に近い性能を持っていることを裏付ける。
The consensus protocol is a critical component of distributed ledgers and blockchains. Achieving consensus over a decentralized network poses challenges to transaction finality and performance. Currently, the highest-performing consensus algorithms are speculative BFT algorithms, which, however, compromise on the transaction finality guarantees offered by their non-speculative counterparts. In this paper, we introduce Albatross, a Proof-of-Stake (PoS) blockchain consensus algorithm that aims to combine the best of both worlds. At its heart, Albatross is a high-performing, speculative BFT algorithm that offers strong probabilistic finality. We complement this by periodically guaranteeing finality through the Tendermint protocol. We prove our protocol to be secure under standard BFT assumptions and analyze its performance both on a theoretical and practical level. For that, we provide an open-source Rust implementation of Albatross. Our real-world measurements support that our protocol has a performance close to the theoretical maximum for single-chain Proof-of-Stake consensus algorithms. | 翻訳日:2024-08-09 21:34:30 公開日:2024-08-08 |
# 最近の深層半教師あり学習手法と関連研究
Recent Deep Semi-supervised Learning Approaches and Related Works ( http://arxiv.org/abs/2106.11528v3 ) ライセンス: Link先を確認 | Gyeongho Kim, | (参考訳) 本研究は,最近の半教師付き学習手法とその関連研究の概要を提案する。
さまざまなアプリケーションにおけるニューラルネットワークの顕著な成功にもかかわらず、大量のラベル付きデータの必要性を含む、いくつかの厳しい制約が存在する。
そのため、ラベルの不足やラベルなしデータの量の多いセミ教師あり学習が、モデル(ディープニューラルネットワークなど)のトレーニングに利用されるようになり、ますます重要になっている。
半教師付き学習の主な前提は、多様体の仮定、クラスタの仮定、連続性の仮定であり、最近の半教師付き学習アプローチをレビューする。
特に、半教師付き学習環境における深層ニューラルネットワークの利用について、主に論じる。
さらに、既存の著作は、まず基礎となる考えに基づいて分類され、説明され、上記の考えを統一する全体論的なアプローチが詳細である。
This work proposes an overview of the recent semi-supervised learning approaches and related works. Despite the remarkable success of neural networks in various applications, there exist a few formidable constraints, including the need for a large amount of labeled data. Therefore, semi-supervised learning, which is a learning scheme in which scarce labels and a larger amount of unlabeled data are utilized to train models (e.g., deep neural networks), is getting more important. Based on the key assumptions of semi-supervised learning, which are the manifold assumption, cluster assumption, and continuity assumption, the work reviews the recent semi-supervised learning approaches. In particular, the methods in regard to using deep neural networks in a semi-supervised learning setting are primarily discussed. In addition, the existing works are first classified based on the underlying idea and explained, then the holistic approaches that unify the aforementioned ideas are detailed. | 翻訳日:2024-08-09 21:34:30 公開日:2024-08-08 |
# U-Attention to Textures: Multi-Stage Hourglass Vision Transformer for Universal Texture Synthesis (特集:ユビキタス・テクスチャ)
Paying U-Attention to Textures: Multi-Stage Hourglass Vision Transformer for Universal Texture Synthesis ( http://arxiv.org/abs/2202.11703v3 ) ライセンス: Link先を確認 | Shouchang Guo, Valentin Deschaintre, Douglas Noll, Arthur Roullier, | (参考訳) 汎用テクスチャ合成のための新しいU-Attention Vision Transformerを提案する。
注意機構によって実現された自然の長距離依存性を利用して,その構造を単一の推論で保存しながら,多様なテクスチャを合成することができる。
本研究では,大域構造に対応する階層型の時計バックボーンを提案し,粗大から粗大への流れにおいて,様々なスケールでパッチマッピングを行う。
異なるスケールで情報を伝達・融合する接続・畳み込み設計をスキップすることで構築された階層的U-Attentionアーキテクチャは、マクロ構造からマイクロ詳細までの特徴に注意を集中させ、段階的に合成結果を段階的に洗練する。
本手法は, 従来の確率的および構造的テクスチャに関する研究よりも2$\times$の合成を実現し, 微調整をせずに未確認テクスチャに一般化する。
アブレーション研究は、アーキテクチャの各コンポーネントの有効性を示します。
We present a novel U-Attention vision Transformer for universal texture synthesis. We exploit the natural long-range dependencies enabled by the attention mechanism to allow our approach to synthesize diverse textures while preserving their structures in a single inference. We propose a hierarchical hourglass backbone that attends to the global structure and performs patch mapping at varying scales in a coarse-to-fine-to-coarse stream. Completed by skip connection and convolution designs that propagate and fuse information at different scales, our hierarchical U-Attention architecture unifies attention to features from macro structures to micro details, and progressively refines synthesis results at successive stages. Our method achieves stronger 2$\times$ synthesis than previous work on both stochastic and structured textures while generalizing to unseen textures without fine-tuning. Ablation studies demonstrate the effectiveness of each component of our architecture. | 翻訳日:2024-08-09 21:34:30 公開日:2024-08-08 |
# 因果制約と構造情報を用いた分布ロバストリスク評価
Distributionally robust risk evaluation with a causality constraint and structural information ( http://arxiv.org/abs/2203.10571v4 ) ライセンス: Link先を確認 | Bingyan Han, | (参考訳) 本研究では,時間的データに対する予測値の分布的ロバストな評価について検討する。
代替手段のセットは、因果的最適輸送によって特徴づけられる。
強い双対性を証明し、因果制約を無限次元のテスト函数空間上の最小化として再送する。
ニューラルネットワークによるテスト関数を近似し、Rademacherの複雑さによるサンプルの複雑さを証明する。
技術的前提の実現可能性を検証する例として挙げられる。
さらに、あいまいさを更に制限するために構造情報が利用できる場合、二重定式化を証明し、効率的な最適化方法を提供する。
我々のフレームワークは、分散的にロバストなポートフォリオ選択問題において、従来のものよりも優れています。
また,ナイーブ戦略との関係についても数値的に検討した。
This work studies the distributionally robust evaluation of expected values over temporal data. A set of alternative measures is characterized by the causal optimal transport. We prove the strong duality and recast the causality constraint as minimization over an infinite-dimensional test function space. We approximate test functions by neural networks and prove the sample complexity with Rademacher complexity. An example is given to validate the feasibility of technical assumptions. Moreover, when structural information is available to further restrict the ambiguity set, we prove the dual formulation and provide efficient optimization methods. Our framework outperforms the classic counterparts in the distributionally robust portfolio selection problem. The connection with the naive strategy is also investigated numerically. | 翻訳日:2024-08-09 21:29:15 公開日:2024-08-08 |
# ボルツマン平衡におけるボゾン量子場の有限位相コヒーレンス時間
Finite phase coherence time of a bosonic quantum field at the Boltzmann equilibrium ( http://arxiv.org/abs/2204.01730v6 ) ライセンス: Link先を確認 | Alexej Schelle, | (参考訳) 非局所的な順序パラメータを持つ量子場アプローチは、非常に弱い相互作用を持つ希薄ボース気体に対して提示される。
標準アンサンブルにおける定数平均エネルギーでの粒子数保存の制約を仮定する提示モデルにおいて、ボース=アインシュタイン凝縮体の原子雲によって生成される量子場の前方および後方伝播成分に対するコヒーレント振動と量子コヒーレンスの減衰時間の両方が、一意の時間変数によって定義されることを示す。
現在の数値理論では、非常に弱い相互作用を持つボース気体中の粒子の時間伝播の単位時間スケールの定量的推定は波動場のコヒーレンス時間から導かれ、この時間スケールは、化学ポテンシャルの消滅から最大エントロピーによって定義されるボルツマン平衡の異なる実現間の遷移の単位時間を定義する。
A quantitative quantum field approach with non-local order parameters is presented for a very weakly interacting, dilute Bose gas. Within the presented model, which assumes the constraint of particle number conservation at constant average energy in the canonical ensemble, it is shown that both coherent oscillations, as well as decay times of quantum coherence for the forward and backward propagating components of the quantum field created by the atomic cloud of a very weakly interacting Bose-Einstein condensate, are defined by a unique time variable. Within the present numerical theory, a quantitative estimate for the unit time scale for time propagation of a particle in a very weakly interacting Bose gas is derived from the coherence time of the wave field and it is illustrated that this time scale defines a unit time for transitions between different realizations of the Boltzmann equilibrium as defined by the maximum entropy from the vanishing of the chemical potential. | 翻訳日:2024-08-09 21:29:15 公開日:2024-08-08 |
# ジョブショップスケジューリングのための分解戦略とマルチショットASP解決
Decomposition Strategies and Multi-shot ASP Solving for Job-shop Scheduling ( http://arxiv.org/abs/2205.07537v3 ) ライセンス: Link先を確認 | Mohammed M. S. El-Kholany, Martin Gebser, Konstantin Schekotihin, | (参考訳) ジョブショップスケジューリング問題(JSP、Job-shop Scheduling Problem)は、ジョブを含むタスクをできるだけ早く完了するように、マシンを共有するタスクをシーケンスに配置する、よく知られた、難しい組合せ最適化問題である。
本稿では,ASP(Multi-shot Answer Set Programming)の解法を用いて,操作を逐次スケジュールし,最適化可能な時間窓への問題分解について検討する。
計算の観点からは、分解は高度に複雑なスケジューリングタスクをバランスの取れた操作数でより良い管理可能なサブプロブレムに分割することを目的としている。
時間ウィンドウの数とサイズ、およびそれらの操作を選択するためのヒューリスティックの観点から、様々な分解戦略を考案し、検討する。
さらに、時間ウィンドウ重畳と圧縮の手法を反復スケジューリングプロセスに組み込んで、ウィンドウワイド部分スケジュールの制限による最適化の制限に対処する。
異なるJSPベンチマークセットに対する実験により、マルチショットASP解決による逐次最適化は、完全な問題に対するシングルショット最適化よりも、厳密なランタイム制限内でのスケジュールを大幅に改善することが示された。
特に,経験豊富なヒューリスティック手法で得られた初期解を時間窓に分解すると,解の質が向上することがわかった。
The Job-shop Scheduling Problem (JSP) is a well-known and challenging combinatorial optimization problem in which tasks sharing a machine are to be arranged in a sequence such that encompassing jobs can be completed as early as possible. In this paper, we investigate problem decomposition into time windows whose operations can be successively scheduled and optimized by means of multi-shot Answer Set Programming (ASP) solving. From a computational perspective, decomposition aims to split highly complex scheduling tasks into better manageable subproblems with a balanced number of operations such that good-quality or even optimal partial solutions can be reliably found in a small fraction of runtime. We devise and investigate a variety of decomposition strategies in terms of the number and size of time windows as well as heuristics for choosing their operations. Moreover, we incorporate time window overlapping and compression techniques into the iterative scheduling process to counteract optimization limitations due to the restriction to window-wise partial schedules. Our experiments on different JSP benchmark sets show that successive optimization by multi-shot ASP solving leads to substantially better schedules within tight runtime limits than single-shot optimization on the full problem. In particular, we find that decomposing initial solutions obtained with proficient heuristic methods into time windows leads to improved solution quality. | 翻訳日:2024-08-09 21:29:15 公開日:2024-08-08 |
# 伝達学習の一般化について:情報理論解析
On the Generalization for Transfer Learning: An Information-Theoretic Analysis ( http://arxiv.org/abs/2207.05377v2 ) ライセンス: Link先を確認 | Xuetong Wu, Jonathan H. Manton, Uwe Aickelin, Jingge Zhu, | (参考訳) トランスファーラーニング(英: Transfer learning)またはドメイン適応(ドメイン適応)は、トレーニングとテストデータがおそらく異なる確率分布から来る機械学習の問題に関係している。
本研究では,一般化誤差と転帰学習アルゴリズムの過大なリスクに関する情報理論解析を行う。
我々の結果は、おそらく予想通り、Kulback-Leibler (KL) の発散$D(\mu\|\mu')$が、それぞれトレーニングデータとテストデータの分布を示す場合、キャラクタリゼーションにおいて重要な役割を果たすことを示唆している。
具体的には、両分布のデータがトレーニングフェーズで利用可能となる学習アルゴリズムに対して、一般化誤差と過剰リスク上限を提供する。
実験的リスク最小化(ERM)アルゴリズムを含むある種のアルゴリズムに対して,より強い仮定をtextit{central condition} を通じて行うことにより,限界が一般に準最適であることを示す。
境界値の有用性を示すために,さらにギブスアルゴリズムと雑音性確率勾配勾配法に解析を拡張した。
すると、$\phi$-divergence や Wasserstein 距離のような他の発散点と結びついた相互情報を一般化し、より厳密な境界を導き、$\mu$ が $\mu'$ に対して絶対連続でない場合を扱うことができる。
理論的な結果を示すために,いくつかの数値的な結果が得られた。
最後に,データの分布的知識が欠如しているため,実際に境界が適用されないという問題に対処するため,特定の情報量に基づいて,ソースデータとターゲットデータの重み付けを動的に調整するアルゴリズム(InfoBoost)を開発した。
実験の結果,提案アルゴリズムの有効性が示された。
Transfer learning, or domain adaptation, is concerned with machine learning problems in which training and testing data come from possibly different probability distributions. In this work, we give an information-theoretic analysis of the generalization error and excess risk of transfer learning algorithms. Our results suggest, perhaps as expected, that the Kullback-Leibler (KL) divergence $D(\mu\|\mu')$ plays an important role in the characterizations where $\mu$ and $\mu'$ denote the distribution of the training data and the testing data, respectively. Specifically, we provide generalization error and excess risk upper bounds for learning algorithms where data from both distributions are available in the training phase. Recognizing that the bounds could be sub-optimal in general, we provide improved excess risk upper bounds for a certain class of algorithms, including the empirical risk minimization (ERM) algorithm, by making stronger assumptions through the \textit{central condition}. To demonstrate the usefulness of the bounds, we further extend the analysis to the Gibbs algorithm and the noisy stochastic gradient descent method. We then generalize the mutual information bound with other divergences such as $\phi$-divergence and Wasserstein distance, which may lead to tighter bounds and can handle the case when $\mu$ is not absolutely continuous with respect to $\mu'$. Several numerical results are provided to demonstrate our theoretical findings. Lastly, to address the problem that the bounds are often not directly applicable in practice due to the absence of the distributional knowledge of the data, we develop an algorithm (called InfoBoost) that dynamically adjusts the importance weights for both source and target data based on certain information measures. The empirical results show the effectiveness of the proposed algorithm. | 翻訳日:2024-08-09 21:29:15 公開日:2024-08-08 |
# DeepFakeビデオにおける行動シグネチャの検出に関する研究
Study of detecting behavioral signatures within DeepFake videos ( http://arxiv.org/abs/2208.03561v2 ) ライセンス: Link先を確認 | Qiaomu Miao, Sinhwa Kang, Stacy Marsella, Steve DiPaola, Chao Wang, Ari Shapiro, | (参考訳) エンターテイメント、コミュニケーション、訓練、広告など、様々な目的で話す人々の合成ビデオ画像の生成には強い関心がある。
ディープフェイク生成モデルの開発により、合成ビデオ画像は、自然に捉えたビデオから肉眼で見分けがつかないようになる。
さらに、より慎重で法医学的な視覚分析を避けるために、多くの手法が改善され続けている。
いくつかのディープフェイクビデオは、顔のパペットを使って作られ、俳優の動きを通じて合成画像の頭部と顔を直接制御し、俳優が他の俳優のイメージを「パペット」することができる。
本稿では,話者の視覚的外観を制御しながら,他の音源からの行動信号を伝達することにより,ある人物の動きが元の話者と区別できるかどうかを問う。
我々は、合成画像を比較して研究を行う。
1)異なる発話をする別の人に由来する。
2 同一人物が異なる発話をすることから派生し、
3)同じ発話をする別の人に由来する。
本研究は,3症例すべてにおける合成ビデオは,元のソースビデオよりも現実的ではなく,エンゲージメントが低いことを示唆している。
以上の結果から,視覚的外見から分離した人物の動きから検出可能な行動シグネチャが存在する可能性が示唆され,この行動シグネチャは,撮影された映像と深い偽物とを区別するためにも用いられることが示唆された。
There is strong interest in the generation of synthetic video imagery of people talking for various purposes, including entertainment, communication, training, and advertisement. With the development of deep fake generation models, synthetic video imagery will soon be visually indistinguishable to the naked eye from a naturally capture video. In addition, many methods are continuing to improve to avoid more careful, forensic visual analysis. Some deep fake videos are produced through the use of facial puppetry, which directly controls the head and face of the synthetic image through the movements of the actor, allow the actor to 'puppet' the image of another. In this paper, we address the question of whether one person's movements can be distinguished from the original speaker by controlling the visual appearance of the speaker but transferring the behavior signals from another source. We conduct a study by comparing synthetic imagery that: 1) originates from a different person speaking a different utterance, 2) originates from the same person speaking a different utterance, and 3) originates from a different person speaking the same utterance. Our study shows that synthetic videos in all three cases are seen as less real and less engaging than the original source video. Our results indicate that there could be a behavioral signature that is detectable from a person's movements that is separate from their visual appearance, and that this behavioral signature could be used to distinguish a deep fake from a properly captured video. | 翻訳日:2024-08-09 21:29:15 公開日:2024-08-08 |
# DeepVol: 拡張因数畳み込みによる高周波データからのボラティリティ予測
DeepVol: Volatility Forecasting from High-Frequency Data with Dilated Causal Convolutions ( http://arxiv.org/abs/2210.04797v3 ) ライセンス: Link先を確認 | Fernando Moreno-Pino, Stefan Zohren, | (参考訳) ボラティリティの予測は、株式リスク対策において中心的な役割を果たす。
従来の統計モデル以外にも、ボラティリティを単変量で日常的な時系列として扱う際に、機械学習に基づく現代的な予測技術を用いることができる。
さらに、高頻度の日内データによる日中観測の増加は、ボラティリティ予測の改善に役立つことがエコノメトリによる研究で示されている。
本研究では,Dilated Causal ConvolutionsをベースとしたDeepVolを提案する。
実験結果から,拡張畳み込みフィルタは日内金融時系列から関連情報を抽出する上で極めて有効であることが示され,このアーキテクチャは,事前計算を行うと失われる高周波データに存在する予測情報を効果的に活用できることが証明された。
同時に、日内高周波データで訓練された拡張畳み込みフィルタは、モデル不特定性や手作業による手作業による特徴など、日々のデータを使用するモデルの制限を回避するのに役立つ。
分析では,NASDAQ-100から2年間の日内データを用いてDeepVolの性能評価を行った。
実験結果から,提案手法は高頻度データからグローバルな特徴を効果的に学習し,従来の手法と比較して精度の高い予測を行い,より正確なリスク対策がもたらされることが示唆された。
Volatility forecasts play a central role among equity risk measures. Besides traditional statistical models, modern forecasting techniques based on machine learning can be employed when treating volatility as a univariate, daily time-series. Moreover, econometric studies have shown that increasing the number of daily observations with high-frequency intraday data helps to improve volatility predictions. In this work, we propose DeepVol, a model based on Dilated Causal Convolutions that uses high-frequency data to forecast day-ahead volatility. Our empirical findings demonstrate that dilated convolutional filters are highly effective at extracting relevant information from intraday financial time-series, proving that this architecture can effectively leverage predictive information present in high-frequency data that would otherwise be lost if realised measures were precomputed. Simultaneously, dilated convolutional filters trained with intraday high-frequency data help us avoid the limitations of models that use daily data, such as model misspecification or manually designed handcrafted features, whose devise involves optimising the trade-off between accuracy and computational efficiency and makes models prone to lack of adaptation into changing circumstances. In our analysis, we use two years of intraday data from NASDAQ-100 to evaluate the performance of DeepVol. Our empirical results suggest that the proposed deep learning-based approach effectively learns global features from high-frequency data, resulting in more accurate predictions compared to traditional methodologies and producing more accurate risk measures. | 翻訳日:2024-08-09 21:29:15 公開日:2024-08-08 |
# 置換同変ニューラルネットワークと分割ダイアグラムの接続
Connecting Permutation Equivariant Neural Networks and Partition Diagrams ( http://arxiv.org/abs/2212.08648v3 ) ライセンス: Link先を確認 | Edward Pearce-Crump, | (参考訳) 置換同変ニューラルネットワークはしばしば、その層空間として$\mathbb{R}^{n}$のテンソルパワーを用いて構築される。
これらのニューラルネットワークに現れる重み行列は、対称群と分割代数の間のシュル=ワイル双対性から得られることを示す。
特に、シュル=ワイル双対性を適用して、ウェイト行列自身を計算するための単純で図式的な手法を導出する。
Permutation equivariant neural networks are often constructed using tensor powers of $\mathbb{R}^{n}$ as their layer spaces. We show that all of the weight matrices that appear in these neural networks can be obtained from Schur-Weyl duality between the symmetric group and the partition algebra. In particular, we adapt Schur-Weyl duality to derive a simple, diagrammatic method for calculating the weight matrices themselves. | 翻訳日:2024-08-09 21:29:15 公開日:2024-08-08 |
# Reference Twice: Few-Shotインスタンスセグメンテーションのためのシンプルで統一されたベースライン
Reference Twice: A Simple and Unified Baseline for Few-Shot Instance Segmentation ( http://arxiv.org/abs/2301.01156v3 ) ライセンス: Link先を確認 | Yue Han, Jiangning Zhang, Yabiao Wang, Chengjie Wang, Yong Liu, Lu Qi, Xiangtai Li, Ming-Hsuan Yang, | (参考訳) FSIS(Few-Shot Instance Segmentation)は、サポート例が限定された新しいクラスの検出とセグメンテーションを必要とする。
地域提案ネットワーク(RPN)に基づく既存の手法は、以下の2つの課題に直面している。
1)オーバーフィッティングは、新しいクラスオブジェクトを抑圧します。
2) デュアルブランチモデルでは, クラスプロトタイプ生成時の空間情報損失を防止するため, 複雑な空間相関戦略が必要となる。
我々は、FSISのサポートとクエリ機能と関連するタスクの関係を利用するための統合フレームワーク、Reference Twice(RefT)を導入する。
私たちの主な貢献は次の3つです。
1)FSISの新しい方向性を提供するオーバーフィッティングを回避するトランスフォーマーベースの新しいベースライン
2) 基本訓練後のキーファクタを符号化するオブジェクトクエリをサポートするデモでは,単純なクロスアテンションを用いて,機能レベルとクエリレベルの両方でクエリ機能を2倍に拡張することで,複雑な空間相関の相互作用を回避することができる。
3) 入力射影層によるインクリメンタル設定に苦しむDETR様モデルの問題に対処するため, クラス強化ベース知識蒸留損失の導入により, インクリメンタルFSISへの拡張が容易となった。
3つのFSIS設定下でのCOCOデータセットの大規模な実験的評価は、我々の手法が10/30ショットの最先端手法よりも、様々なショットにわたる既存のアプローチに対して好適に動作することを示した。
ソースコードとモデルはhttps://github.com/hanyue1648/RefT.comで入手できる。
Few-Shot Instance Segmentation (FSIS) requires detecting and segmenting novel classes with limited support examples. Existing methods based on Region Proposal Networks (RPNs) face two issues: 1) Overfitting suppresses novel class objects; 2) Dual-branch models require complex spatial correlation strategies to prevent spatial information loss when generating class prototypes. We introduce a unified framework, Reference Twice (RefT), to exploit the relationship between support and query features for FSIS and related tasks. Our three main contributions are: 1) A novel transformer-based baseline that avoids overfitting, offering a new direction for FSIS; 2) Demonstrating that support object queries encode key factors after base training, allowing query features to be enhanced twice at both feature and query levels using simple cross-attention, thus avoiding complex spatial correlation interaction; 3) Introducing a class-enhanced base knowledge distillation loss to address the issue of DETR-like models struggling with incremental settings due to the input projection layer, enabling easy extension to incremental FSIS. Extensive experimental evaluations on the COCO dataset under three FSIS settings demonstrate that our method performs favorably against existing approaches across different shots, \eg, $+8.2/+9.4$ performance gain over state-of-the-art methods with 10/30-shots. Source code and models will be available at https://github.com/hanyue1648/RefT. | 翻訳日:2024-08-09 21:29:15 公開日:2024-08-08 |
# 測定効率のよい量子クリロフ部分空間対角化
Measurement-efficient quantum Krylov subspace diagonalisation ( http://arxiv.org/abs/2301.13353v3 ) ライセンス: Link先を確認 | Zongkang Zhang, Anbang Wang, Xiaosi Xu, Ying Li, | (参考訳) 線型代数問題において最も重要な古典的数値手法のカテゴリであるクリロフ部分空間法は、量子コンピューティングに一般化した場合、はるかに強力である。
しかし、量子クリャロフ部分空間のアルゴリズムは、量子測定において必然的な統計的変動のためにエラーを起こしやすい。
この問題に対処するために、統計的誤差と測定コストを分析するための一般的な理論的枠組みを開発する。
この枠組みに基づいて、測定コストを最小化できるハミルトンパワーのクリロフ部分空間を構築するための量子アルゴリズムを提案する。
本アルゴリズムでは,ハミルトニアン関数とガウス関数の積を実時間進化の積分として表現し,量子コンピュータ上で評価する。
2つの顕著な例を解く際に、我々のアルゴリズムを他の確立された量子クリロフ部分空間アルゴリズムと比較する。
同じ部分空間次元の古典的ランツォスアルゴリズムに匹敵する誤差を達成するために、我々のアルゴリズムは典型的には他のものよりも桁違いに少ない測定値を必要とする。
このような改善は、プロジェクターを地上に設置するコストの削減に起因する可能性がある。
これらの結果から,本アルゴリズムは統計的変動に対して極めて頑健であり,実用的な応用に期待できることが示唆された。
The Krylov subspace methods, being one category of the most important classical numerical methods for linear algebra problems, can be much more powerful when generalised to quantum computing. However, quantum Krylov subspace algorithms are prone to errors due to inevitable statistical fluctuations in quantum measurements. To address this problem, we develop a general theoretical framework to analyse the statistical error and measurement cost. Based on the framework, we propose a quantum algorithm to construct the Hamiltonian-power Krylov subspace that can minimise the measurement cost. In our algorithm, the product of power and Gaussian functions of the Hamiltonian is expressed as an integral of the real-time evolution, such that it can be evaluated on a quantum computer. We compare our algorithm with other established quantum Krylov subspace algorithms in solving two prominent examples. To achieve an error comparable to that of the classical Lanczos algorithm at the same subspace dimension, our algorithm typically requires orders of magnitude fewer measurements than others. Such an improvement can be attributed to the reduced cost of composing projectors onto the ground state. These results show that our algorithm is exceptionally robust to statistical fluctuations and promising for practical applications. | 翻訳日:2024-08-09 21:29:15 公開日:2024-08-08 |
# NISQフレンドリーな測定に基づく量子クラスタリングアルゴリズム
NISQ-friendly measurement-based quantum clustering algorithms ( http://arxiv.org/abs/2302.00566v3 ) ライセンス: Link先を確認 | Srushti Patil, Shreya Banerjee, Prasanta K. Panigrahi, | (参考訳) 量子並列性と絡み合いに基づく2つの新しい量子クラスタリングアルゴリズムが提案されている。
最初のアルゴリズムはディバイシブなアプローチに従う。
第2のアルゴリズムはアンシャープ測定に基づいており、ガウス確率分布を持つエフェクト演算子を構築し、類似したデータポイントをクラスタ化する。
両方のアルゴリズムの大きな利点は、それらは本質的に単純であり、実装が容易であり、ノイズの多い中間スケールの量子コンピュータに適していることである。
我々は、古典的なクラスタリングアプローチが失敗する同心円集合と、130ドルの都市からなるChurrtizデータセットに、最初のアルゴリズムを適用し、非常に低い量子資源でアルゴリズムが成功することを示す。
2番目のアルゴリズムをウィスコンシン州乳がんデータセットに適用し,O(log(D))$ qubitsと多項式測定のみでデータセットを高精度に分類できることを発見した。
また、このアルゴリズムは、量子システムにおける推定測定誤差によく対応し、NISQデバイスに非常に適していることを示す。
Two novel measurement-based, quantum clustering algorithms are proposed based on quantum parallelism and entanglement. The first algorithm follows a divisive approach. The second algorithm is based on unsharp measurements, where we construct an effect operator with a Gaussian probability distribution to cluster similar data points. A major advantage of both algorithms is that they are simplistic in nature, easy to implement, and well suited for noisy intermediate scale quantum computers. We have successfully applied the first algorithm on a concentric circle data set, where the classical clustering approach fails, as well as on the Churrtiz data set of $130$ cities, where we show that the algorithm succeeds with very low quantum resources. We applied the second algorithm on the labeled Wisconsin breast cancer dataset, and found that it is able to classify the dataset with high accuracy using only $O(log(D))$ qubits and polynomial measurements, where $D$ is the maximal distance within any two points in the dataset. We also show that this algorithm works better with an assumed measurement error in the quantum system, making it extremely well-suited for NISQ devices. | 翻訳日:2024-08-09 21:29:15 公開日:2024-08-08 |
# Floquet Condition for Quantum Adiabaticity
Floquet Condition for Quantum Adiabaticity ( http://arxiv.org/abs/2302.03918v2 ) ライセンス: Link先を確認 | Jie Gu, X. -G. Zhang, | (参考訳) 量子断熱性は、時間変化のハミルトン状態の瞬時固有状態に近づき、固有状態間の遷移を先行する量子系の進化によって特徴づけられる。
フロケ形式を用いることで、周期的に駆動されるシステムにおける量子的断熱性を保証する2つの条件を厳格に確立し、任意の長さの時間発展に適用する。
従来の条件とは違って、フロケに基づく条件は特定のパラメータ体系に対して厳密であり、補足的制約を伴わず、高い周波数での断熱の可能性を示している。
Floquetの条件と従来の条件を比較・対比する図式例を3つ提示する。
Quantum adiabaticity is characterized by the evolution of a quantum system that remains close to an instantaneous eigenstate of a time-varying Hamiltonian, precluding transitions between eigenstates. Employing Floquet formalism, we rigorously establish two sufficient conditions that ensure quantum adiabaticity in periodically driven systems, applicable for time evolution of arbitrary length. Distinct from traditional conditions, the Floquet-based conditions are tight for certain specific parameter regimes, dispense with supplementary constraints, and suggest the possibility of adiabaticity at high frequencies. We provide three illustrative examples that compare and contrast the Floquet conditions with traditional ones. | 翻訳日:2024-08-09 21:29:15 公開日:2024-08-08 |
# 立体映像における色ミスマッチ:実世界のデータセットと深部補正法
Color Mismatches in Stereoscopic Video: Real-World Dataset and Deep Correction Method ( http://arxiv.org/abs/2303.06657v3 ) ライセンス: Link先を確認 | Egor Chistov, Nikita Alutis, Dmitriy Vatolin, | (参考訳) 立体視ビデオは、カメラの設定やレンズ、さらには異なる位置から捉えた物体の反射の微妙な変化のために、左右の視界の色のミスマッチを含むことができる。
色のミスマッチの存在は、視聴者の不快感や頭痛につながる可能性がある。
この問題は立体ビュー間で色を転送することで解決できるが、従来の手法では品質が欠けることが多い。
実世界の色ミスマッチによる立体映像の不足は、異なる手法の性能評価を妨げている。
そこで我々は,ビームスプリッターを用いて,色ミスマッチ付き歪んだフレームと接地構造データの両方を含むビデオデータセットを作成した。
第2のコントリビューションは、ステレオ対応を活用することで、カラーミスマッチ補正タスクを解決する、ディープマルチスケールニューラルネットワークである。
実験により,提案手法が従来のデータセットに対して有効であることを示すが,実世界のデータに挑戦するための改善の余地は残されている。
Stereoscopic videos can contain color mismatches between the left and right views due to minor variations in camera settings, lenses, and even object reflections captured from different positions. The presence of color mismatches can lead to viewer discomfort and headaches. This problem can be solved by transferring color between stereoscopic views, but traditional methods often lack quality, while neural-network-based methods can easily overfit on artificial data. The scarcity of stereoscopic videos with real-world color mismatches hinders the evaluation of different methods' performance. Therefore, we filmed a video dataset, which includes both distorted frames with color mismatches and ground-truth data, using a beam-splitter. Our second contribution is a deep multiscale neural network that solves the color-mismatch-correction task by leveraging stereo correspondences. The experimental results demonstrate the effectiveness of the proposed method on a conventional dataset, but there remains room for improvement on challenging real-world data. | 翻訳日:2024-08-09 21:29:15 公開日:2024-08-08 |
# 非対称受容場における高速かつ高精度物体検出
Fast and Accurate Object Detection on Asymmetrical Receptive Field ( http://arxiv.org/abs/2303.08995v2 ) ライセンス: Link先を確認 | Tianhao Lin, | (参考訳) 物体検出は幅広い産業で使われている。
例えば、自律運転において、物体検出のタスクは、道路のビデオから多数の事前定義されたオブジェクトインスタンス(車両、歩行者、交通標識など)のクラスを正確かつ効率的に識別し、発見することである。
ロボット工学では、産業用ロボットは特定の機械要素を認識する必要がある。
セキュリティ分野では、カメラは人の顔を正確に認識する必要がある。
ディープラーニングの幅広い応用により、オブジェクト検出の精度と効率は大幅に改善されたが、ディープラーニングに基づくオブジェクト検出は依然として課題に直面している。
オブジェクト検出の異なるアプリケーションには、高精度な検出、複数カテゴリのオブジェクト検出、リアルタイム検出、閉塞に対する堅牢性など、さまざまな要件がある。
以上の課題に対処するため,本研究では,一段階および二段階のオブジェクト検出アルゴリズムの進化の観点から,主流オブジェクト検出アルゴリズムの改良と最適化を行う手法について分析する。
さらに,物体検出の精度を受容場の変化の観点から向上させる手法を提案する。
新モデルはオリジナルのYOLOv5(You Look Only Once)をベースとしている。
YOLOv5の頭部の構造は、非対称なプール層を付加することによって改変される。
その結果、アルゴリズムの精度が向上し、速度が保証される。
本稿では, 従来の YOLOv5 モデルと比較し, いくつかのパラメータから解析する。
そして,新しいモデルの評価を4つの状況で示す。
さらに、解決すべき課題と今後の研究方向性について、概要と展望を述べる。
Object detection has been used in a wide range of industries. For example, in autonomous driving, the task of object detection is to accurately and efficiently identify and locate a large number of predefined classes of object instances (vehicles, pedestrians, traffic signs, etc.) from videos of roads. In robotics, the industry robot needs to recognize specific machine elements. In the security field, the camera should accurately recognize each face of people. With the wide application of deep learning, the accuracy and efficiency of object detection have been greatly improved, but object detection based on deep learning still faces challenges. Different applications of object detection have different requirements, including highly accurate detection, multi-category object detection, real-time detection, robustness to occlusions, etc. To address the above challenges, based on extensive literature research, this paper analyzes methods for improving and optimizing mainstream object detection algorithms from the perspective of evolution of one-stage and two-stage object detection algorithms. Furthermore, this article proposes methods for improving object detection accuracy from the perspective of changing receptive fields. The new model is based on the original YOLOv5 (You Look Only Once) with some modifications. The structure of the head part of YOLOv5 is modified by adding asymmetrical pooling layers. As a result, the accuracy of the algorithm is improved while ensuring the speed. The performances of the new model in this article are compared with original YOLOv5 model and analyzed from several parameters. And the evaluation of the new model is presented in four situations. Moreover, the summary and outlooks are made on the problems to be solved and the research directions in the future. | 翻訳日:2024-08-09 21:29:15 公開日:2024-08-08 |
# 深部畳み込みニューラルネットワークを用いたアーティファクト低減によるスパースビューCTにおける出血自動検出の改善
Improving Automated Hemorrhage Detection in Sparse-view Computed Tomography via Deep Convolutional Neural Network based Artifact Reduction ( http://arxiv.org/abs/2303.09340v4 ) ライセンス: Link先を確認 | Johannes Thalhammer, Manuel Schultheiss, Tina Dorosti, Tobias Lasser, Franz Pfeiffer, Daniela Pfeiffer, Florian Schaff, | (参考訳) これはプレプリントです。
https://pubs.rsna.org/doi/10.1148/ryai.230275 目的:スパースビュー・コンピュート・トモグラフィ(CT)は、画像品質を犠牲にして取得したビューの総数を減らし、病気を検出する能力に影響を与える効果的な方法である。
スパース・ビュー脳CTにおける深層学習に基づくアーティファクトの低減とその自動出血検出への影響について検討する。
方法: パブリックデータセットから得られた3000例のスパース・ビュー頭蓋骨CTによるアーティファクト・リダクションの訓練を行い, 各種サブサンプリングで再建した。
さらに, 自動出血検出のために17,545例のCTデータを完全サンプリングし, 畳み込みニューラルネットワークを訓練した。
受信者特性曲線 (AUC-ROCs) の領域を95%信頼区間 (CIs) とデロン試験 (DeLong test) で評価した。
U-Netの性能を総変動(TV)に基づく分析手法と比較した。
結果:U-Netは,画像品質や出血自動診断に関して,未処理画像やテレビ処理画像に比べて優れていた。
U-Net後処理では、ビューの数は4096ビュー(AUC-ROC: 0.974; 95% CI: 0.972-0.976)から512ビュー(0.973; 0.971-0.975)に減らされ、出血検出(P<.001)と256ビュー(0.967; 0.964-0.969)に減らされ、性能はわずかに低下する(P<.001)。
結語:U-Netによるアーティファクトリダクションは,スパース・ビュー頭蓋骨CTにおける自動出血検出を著しく向上させると考えられた。
本研究は,放射線線量を最小限に抑えつつ,最適な画像品質と診断精度を実現するために,適切な後処理が重要であることを明らかにする。
This is a preprint. The latest version has been published here: https://pubs.rsna.org/doi/10.1148/ryai.230275 Purpose: Sparse-view computed tomography (CT) is an effective way to reduce dose by lowering the total number of views acquired, albeit at the expense of image quality, which, in turn, can impact the ability to detect diseases. We explore deep learning-based artifact reduction in sparse-view cranial CT scans and its impact on automated hemorrhage detection. Methods: We trained a U-Net for artefact reduction on simulated sparse-view cranial CT scans from 3000 patients obtained from a public dataset and reconstructed with varying levels of sub-sampling. Additionally, we trained a convolutional neural network on fully sampled CT data from 17,545 patients for automated hemorrhage detection. We evaluated the classification performance using the area under the receiver operator characteristic curves (AUC-ROCs) with corresponding 95% confidence intervals (CIs) and the DeLong test, along with confusion matrices. The performance of the U-Net was compared to an analytical approach based on total variation (TV). Results: The U-Net performed superior compared to unprocessed and TV-processed images with respect to image quality and automated hemorrhage diagnosis. With U-Net post-processing, the number of views can be reduced from 4096 (AUC-ROC: 0.974; 95% CI: 0.972-0.976) views to 512 views (0.973; 0.971-0.975) with minimal decrease in hemorrhage detection (P<.001) and to 256 views (0.967; 0.964-0.969) with a slight performance decrease (P<.001). Conclusion: The results suggest that U-Net based artifact reduction substantially enhances automated hemorrhage detection in sparse-view cranial CTs. Our findings highlight that appropriate post-processing is crucial for optimal image quality and diagnostic accuracy while minimizing radiation dose. | 翻訳日:2024-08-09 21:19:14 公開日:2024-08-08 |
# 等価・拡張型ニューラルネットワークの最適化ダイナミクス
Optimization Dynamics of Equivariant and Augmented Neural Networks ( http://arxiv.org/abs/2303.13458v3 ) ライセンス: Link先を確認 | Oskar Nordenfors, Fredrik Ohlsson Axel Flinth, | (参考訳) 本稿では、対称データに対するニューラルネットワークの最適化について検討し、データ拡張を用いたアーキテクチャの制約戦略について比較する。
解析の結果,許容層と同変層の相対幾何学が重要な役割を担っていることが明らかとなった。
データ、ネットワーク、損失、対称性の群に関する自然な仮定の下で、対応する直交射影が可換であるという意味で、許容層と同変層の空間の整合性は、2つの戦略に対して同変定常点の集合が同一であることを示す。
ネットワークの線形層にもユニタリパラメトリゼーションが与えられる場合、同変層の集合は拡張モデルの勾配流の下でも不変である。
しかし, 後者の状況においても, 定常点は, 明らかな同変モデルに対して安定であるにもかかわらず, 強化訓練において不安定である可能性が示唆された。
We investigate the optimization of neural networks on symmetric data, and compare the strategy of constraining the architecture to be equivariant to that of using data augmentation. Our analysis reveals that that the relative geometry of the admissible and the equivariant layers, respectively, plays a key role. Under natural assumptions on the data, network, loss, and group of symmetries, we show that compatibility of the spaces of admissible layers and equivariant layers, in the sense that the corresponding orthogonal projections commute, implies that the sets of equivariant stationary points are identical for the two strategies. If the linear layers of the network also are given a unitary parametrization, the set of equivariant layers is even invariant under the gradient flow for augmented models. Our analysis however also reveals that even in the latter situation, stationary points may be unstable for augmented training although they are stable for the manifestly equivariant models. | 翻訳日:2024-08-09 21:19:14 公開日:2024-08-08 |
# Si/SiGe構造における量子ドットに影響を及ぼす1/f電荷雑音のシミュレーション
Simulation of 1/f charge noise affecting a quantum dot in a Si/SiGe structure ( http://arxiv.org/abs/2303.13968v2 ) ライセンス: Link先を確認 | Marcin Kępa, Niels Focke, Łukasz Cywiński, Jan. A. Krzywda, | (参考訳) コヒーレントスピン制御に必要な磁場勾配が存在するため、シリコン量子ドットにおける単一電子スピン量子ビットの劣化は、しばしば1/f$の電荷ノイズによって支配される。
現実的なSi/SiGe構造におけるゲート量子ドット中の電子の基底状態エネルギーの理論的変動について検討する。
電荷ノイズは、半導体-酸化物界面に閉じ込められた電荷の運動によって生じると仮定する。
我々は、リアルに閉じ込められた電荷密度、$\rho \!
てめえ!
10^{10}$ cm$^{-2}$, and typical lenghtscales of isotropically distributedlocations of these charge, $\delta r \!
\leq \!
1$ nm で対 $(\rho,\delta r)$ を識別すると、ノイズスペクトルの振幅と形状は、同様の構造に関する最近の実験で再構成されたスペクトルとよく一致する。
Due to presence of magnetic field gradient needed for coherent spin control, dephasing of single-electron spin qubits in silicon quantum dots is often dominated by $1/f$ charge noise. We investigate theoretically fluctuations of ground state energy of an electron in gated quantum dot in realistic Si/SiGe structure. We assume that the charge noise is caused by motion of charges trapped at the semiconductor-oxide interface. We consider a realistic range of trapped charge densities, $\rho \! \sim \! 10^{10}$ cm$^{-2}$, and typical lenghtscales of isotropically distributed displacements of these charges, $\delta r \! \leq \! 1$ nm, and identify pairs $(\rho,\delta r)$ for which the amplitude and shape of the noise spectrum is in good agreement with spectra reconstructed in recent experiments on similar structures. | 翻訳日:2024-08-09 21:19:14 公開日:2024-08-08 |
# 機械心理学
Machine Psychology ( http://arxiv.org/abs/2303.13988v6 ) ライセンス: Link先を確認 | Thilo Hagendorff, Ishita Dasgupta, Marcel Binz, Stephanie C. Y. Chan, Andrew Lampinen, Jane X. Wang, Zeynep Akata, Eric Schulz, | (参考訳) 大規模言語モデル(LLM)は、ますます進歩し、様々な社会的領域に組み込まれている。
そのため、彼らの行動や推論能力を理解することは重要な意味を持つ。
我々は、伝統的に人間の認知と行動を理解することを目的としていた心理学に触発された行動実験において、研究の成果ある方向がLLMを関与させることを論じる。
本稿では,本手法が表にもたらす理論的視点,実験パラダイム,計算解析技術について概説し,要約する。
パフォーマンスベンチマークを超えて、LLMの創発的能力と行動パターンをよりよく理解し発見するための計算的洞察に焦点を当てた、生成的人工知能(AI)のための「機械心理学」の道を開く。
このアプローチを取り入れた既存の作業をレビューし、ベストプラクティスを合成し、将来有望な方向性を強調します。
また、人間を理解するための手法を機械に適用する際の重要な注意点も強調する。
実験心理学からAI研究へのツールの活用は、モデルがより強力で不透明でマルチモーダルになり、複雑な現実世界の設定に統合されるにつれて、ますます価値が増すと仮定する。
Large language models (LLMs) show increasingly advanced emergent capabilities and are being incorporated across various societal domains. Understanding their behavior and reasoning abilities therefore holds significant importance. We argue that a fruitful direction for research is engaging LLMs in behavioral experiments inspired by psychology that have traditionally been aimed at understanding human cognition and behavior. In this article, we highlight and summarize theoretical perspectives, experimental paradigms, and computational analysis techniques that this approach brings to the table. It paves the way for a "machine psychology" for generative artificial intelligence (AI) that goes beyond performance benchmarks and focuses instead on computational insights that move us toward a better understanding and discovery of emergent abilities and behavioral patterns in LLMs. We review existing work taking this approach, synthesize best practices, and highlight promising future directions. We also highlight the important caveats of applying methodologies designed for understanding humans to machines. We posit that leveraging tools from experimental psychology to study AI will become increasingly valuable as models evolve to be more powerful, opaque, multi-modal, and integrated into complex real-world settings. | 翻訳日:2024-08-09 21:19:14 公開日:2024-08-08 |
# 量子ネットワークにおけるマルチパートエンタングルメントのスケーラブル決定
Scalable Determination of Multipartite Entanglement in Quantum Networks ( http://arxiv.org/abs/2303.17771v5 ) ライセンス: Link先を確認 | Wei-Ting Kao, Chien-Ying Huang, Tung-Ju Tsai, Shih-Hsuan Chen, Sheng-Yan Sun, Yu-Cheng Li, Teh-Lu Liao, Chih-Sung Chuu, He Lu, Che-Ming Li, | (参考訳) 絡み合った終端ノードからなる量子ネットワークは、非並列な量子インターネットアプリケーションに対する古典的相関よりも強く機能する。
しかし、現実的な量子ネットワークはノイズの影響を受けており、最悪の場合、終端ノードは既存の古典的なデータによって記述される。
このような信頼できないネットワークでは、量子ネットワークの忠実度と真のマルチノードの絡み合いを決定することが重要である。
ここでは、信頼できない恒星ネットワークにおける量子ネットワークの忠実度と真の$N$ノードの絡み合いを決定するには、たったの$N+1$の設定が必要であることを示す。
この手法は半信頼の枠組みを確立し、いくつかのノードが仮定を緩和することを可能にする。
本手法は,真に$N$のEinstein-Podolsky-Rosenステアビリティを検出することで実現されている。
実験では、自発的なパラメトリックダウンコンバージョンエンタングルメント源を用いて、真の3光子および4光子量子ネットワークの決定と、広く使われているエンタングルメント証人の偽陽性、すなわち1/2$のフィデリティ基準を実証した。
本研究は,現実的な量子ネットワークにおけるマルチパーティ・エンタングルメントを決定するためのスケーラブルな手法を提案する。
Quantum networks comprised of entangled end nodes serve stronger than the classical correlation for unparalleled quantum internet applications. However, practical quantum networking is affected by noise, which at its worst, causes end nodes to be described by pre-existing classical data. In such untrusted networks, determining quantum network fidelity and genuine multi-node entanglement becomes crucial. Here, we show that determining quantum network fidelity and genuine $N$-node entanglement in an untrusted star network requires only $N+1$ measurement settings. This method establishes a semi-trusted framework, allowing some nodes to relax their assumptions. Our network determination method is enabled by detecting genuine $N$-node Einstein-Podolsky-Rosen steerability. Experimentally, using spontaneous parametric down-conversion entanglement sources, we demonstrate the determinations of genuine 3-photon and 4-photon quantum networks and the false positives of the widely used entanglement witness, the fidelity criterion of $1/2$. Our results provide a scalable method for the determination of multipartite entanglement in realistic quantum networks. | 翻訳日:2024-08-09 21:19:13 公開日:2024-08-08 |
# R^2$-重力の宇宙論:高次微分スカラー凝縮背景の影響
Cosmology in $R^2$-gravity: Effects of a Higher Derivative Scalar Condensate Background ( http://arxiv.org/abs/2304.03803v2 ) ライセンス: Link先を確認 | Raj Kumar Das, Aurindam Mondal, Subir Ghosh, Supriya Pan, | (参考訳) アインシュタイン一般相対性理論のよく知られた拡張は、ゴースト励起のない$R^2$-termの追加であり、線形化フレームワークではアインシュタイン一般相対性理論と高次微分スカラーが減少する。
\cite{Chakraborty:2020ktp} によれば、上記のスカラーセクターは時間結晶のような最小エネルギー状態を維持することができ、非自明な時間依存性を持つ。
このスカラーが周期的時間依存のモードを最低エネルギーで維持できるという以前の結果が発覚し、この縮合体を源とみなし、この背景にあるフリードマン・リーマ・テア・ロバートソン・ウォーカー宇宙論(FLRW)を研究する。
R^2$-termの効果はバック反応として解釈される。
凝縮の顕著な結果は、宇宙の開あるいは閉幾何によらず、パラメータウィンドウの適切な選択のために、凝縮体は加速された膨張が始まる前に減速相を誘導し、またある場合には減速パラメータの特異性(従来のFLRW宇宙論に存在している)を避けるのに役立つことである。
A well known extension of Einstein General Relativity is the addition of an $R^2$-term, which is free of ghost excitations and in the linearized framework, reduces Einstein General Relativity and an additional higher derivative scalar. According to \cite{Chakraborty:2020ktp}, the above scalar sector can sustain a Time Crystal-like minimum energy state, with non-trivial time dependence. Exploiting previous result that the scalar can sustain modes with periodic time dependence in its lowest energy, we consider this condensate as a source and study the Friedmann-Lema\^{i}tre-Robertson-Walker (FLRW) cosmology in this background. The effect of the $R^2$-term is interpreted as a back reaction. A remarkable consequence of the condensate is that, irrespective of open or close geometry of the Universe, for an appropriate choice of parameter window, the condensate can induce a decelerating phase before the accelerated expansion starts and again, in some cases, it can help to avoid the singularity in the deceleration parameter (that is present in conventional FLRW Cosmology). | 翻訳日:2024-08-09 21:19:13 公開日:2024-08-08 |
# 編集:マルチグラデーション・ユーザー・コントロールによるビデオ・キャプション編集
Edit As You Wish: Video Caption Editing with Multi-grained User Control ( http://arxiv.org/abs/2305.08389v3 ) ライセンス: Link先を確認 | Linli Yao, Yuanmeng Zhang, Ziheng Wang, Xinglin Hou, Tiezheng Ge, Yuning Jiang, Xu Sun, Qin Jin, | (参考訳) ユーザ要求に応じた自然言語による動画の自動ナレーション、すなわち制御可能なビデオキャプションタスクは、人々が望んだ意図で巨大なビデオを管理するのに役立つ。
しかし、現存する作品は2つの欠点に悩まされている。
1) 制御信号は単一粒状であり, 多様なユーザ意図を満足できない。
2)ビデオ記述は1ラウンドで生成され,動的なニーズを満たすためにさらに編集することはできない。
本稿では,多粒度ユーザ要求によってガイドされた既存のビデオ記述を自動的に修正する,新しい \textbf{V}ideo \textbf{C}aption \textbf{E}diting \textbf{(VCE)} タスクを提案する。
人間の書き直し習慣にインスパイアされたユーザコマンドは、粗粒度から細粒度まで多様なユーザニーズをカバーするために、ピボット三重項 \{\textit{operation, position, attribute}\} として設計する。
VCEタスクを容易にするために、VATEX-EDITというオープンドメインベンチマークデータセットを構築し、EMMAD-EDITと呼ばれるEコマースデータセットを収集します。
さらに,2つの一般化した大規模マルチモーダルモデルと比較して,新しいタスクを網羅的に分析するために,特殊小スケールモデル(OPA)を提案する。
評価には、キャプション流速、コマンド・キャプションの整合性、ビデオ・キャプションの整合性を考慮した総合的なメトリクスを採用する。
実験は、微細なマルチモーダル意味論の理解と処理の課題を明らかにする。
データセット、コード、評価ツールはhttps://github.com/yaolinli/VCE.comで公開されています。
Automatically narrating videos in natural language complying with user requests, i.e. Controllable Video Captioning task, can help people manage massive videos with desired intentions. However, existing works suffer from two shortcomings: 1) the control signal is single-grained which can not satisfy diverse user intentions; 2) the video description is generated in a single round which can not be further edited to meet dynamic needs. In this paper, we propose a novel \textbf{V}ideo \textbf{C}aption \textbf{E}diting \textbf{(VCE)} task to automatically revise an existing video description guided by multi-grained user requests. Inspired by human writing-revision habits, we design the user command as a pivotal triplet \{\textit{operation, position, attribute}\} to cover diverse user needs from coarse-grained to fine-grained. To facilitate the VCE task, we \textit{automatically} construct an open-domain benchmark dataset named VATEX-EDIT and \textit{manually} collect an e-commerce dataset called EMMAD-EDIT. We further propose a specialized small-scale model (i.e., OPA) compared with two generalist Large Multi-modal Models to perform an exhaustive analysis of the novel task. For evaluation, we adopt comprehensive metrics considering caption fluency, command-caption consistency, and video-caption alignment. Experiments reveal the task challenges of fine-grained multi-modal semantics understanding and processing. Our datasets, codes, and evaluation tools are available at https://github.com/yaolinli/VCE. | 翻訳日:2024-08-09 21:19:13 公開日:2024-08-08 |
# ログ解析がログベース異常検出に及ぼす影響
Impact of Log Parsing on Log-based Anomaly Detection ( http://arxiv.org/abs/2305.15897v2 ) ライセンス: Link先を確認 | Zanis Ali Khan, Donghwan Shin, Domenico Bianculli, Lionel Briand, | (参考訳) ソフトウェアシステムは大量のデータをログし、重要な実行時情報を記録します。
このようなログは、例えばログに記録された情報を処理することで、分析中のシステムの異常な振る舞いを自動的に検出することを目的として、ログベースの異常検出に使用される。
ディープラーニングモデルに基づくログベースの異常検出技術には、ログ解析と呼ばれる前処理ステップがある。
しかし, ログ解析が異常検出手法の精度に与える影響を理解することは, これまでにほとんど注目されていない。
したがって、ログ解析のキーとなるプロパティが何であるかを調べるには、理想的には異常検出を支援する必要がある。
本稿では, ログ解析が異常検出精度に与える影響について, 13のログ解析技術, 7の異常検出技術(ディープラーニングに基づく5つ, 従来の機械学習に基づく2つ)を用いて, 3つの公開ログデータセット上での総合的研究を行った。
実験結果から,ログ解析の精度と異常検出の精度との間には,ログ解析の精度を測る基準によらず,強い相関関係は認められなかった。
さらに, 従来の理論結果から, 正確な異常検出を行う上で重要な役割を担う精度に対して, ログ解析結果の識別可能性を示す性質を実験的に検証した。
Software systems log massive amounts of data, recording important runtime information. Such logs are used, for example, for log-based anomaly detection, which aims to automatically detect abnormal behaviors of the system under analysis by processing the information recorded in its logs. Many log-based anomaly detection techniques based on deep learning models include a pre-processing step called log parsing. However, understanding the impact of log parsing on the accuracy of anomaly detection techniques has received surprisingly little attention so far. Investigating what are the key properties log parsing techniques should ideally have to help anomaly detection is therefore warranted. In this paper, we report on a comprehensive empirical study on the impact of log parsing on anomaly detection accuracy, using 13 log parsing techniques, seven anomaly detection techniques (five based on deep learning and two based on traditional machine learning) on three publicly available log datasets. Our empirical results show that, despite what is widely assumed, there is no strong correlation between log parsing accuracy and anomaly detection accuracy, regardless of the metric used for measuring log parsing accuracy. Moreover, we experimentally confirm existing theoretical results showing that it is a property that we refer to as distinguishability in log parsing results as opposed to their accuracy that plays an essential role in achieving accurate anomaly detection. | 翻訳日:2024-08-09 21:19:13 公開日:2024-08-08 |
# 構造的調音対話による弁証的調合
Dialectical Reconciliation via Structured Argumentative Dialogues ( http://arxiv.org/abs/2306.14694v3 ) ライセンス: Link先を確認 | Stylianos Loukas Vasileiou, Ashwin Kumar, William Yeoh, Tran Cao Son, Francesca Toni, | (参考訳) 本稿では,人間とAIの相互作用を高めるために,人間と認識する計画において一般的に使用されるモデル和解アプローチの拡張を目的とした新しいフレームワークを提案する。
構造化された議論に基づく対話パラダイムを採用することにより,説明者(AIエージェント)と説明者(ヒューマンユーザ)の知識の相違に対処する弁証的調和を可能にする。
提案するフレームワークの動作意味を正式に記述し,理論的保証を提供する。
次に,そのフレームワークの有効性を,計算実験と人体実験により評価する。
我々のフレームワークは、説明可能性の重要性が重要である領域において、効果的な人間とAIの相互作用を促進するための有望な方向を提供することを示唆している。
We present a novel framework designed to extend model reconciliation approaches, commonly used in human-aware planning, for enhanced human-AI interaction. By adopting a structured argumentation-based dialogue paradigm, our framework enables dialectical reconciliation to address knowledge discrepancies between an explainer (AI agent) and an explainee (human user), where the goal is for the explainee to understand the explainer's decision. We formally describe the operational semantics of our proposed framework, providing theoretical guarantees. We then evaluate the framework's efficacy ``in the wild'' via computational and human-subject experiments. Our findings suggest that our framework offers a promising direction for fostering effective human-AI interactions in domains where explainability is important. | 翻訳日:2024-08-09 21:19:13 公開日:2024-08-08 |
# 量子センサネットワークにおける検出器センサの初期状態の最適化
Optimizing Initial State of Detector Sensors in Quantum Sensor Networks ( http://arxiv.org/abs/2306.17401v6 ) ライセンス: Link先を確認 | Caitao Zhan, Himanshu Gupta, Mark Hillery, | (参考訳) 本稿では、各センサが「発火」する量子ビット検出器である量子センサのネットワークを考える。
検出器の点火による状態の変化は、ネットワーク内のすべてのセンサーで同じユニタリ演算子によって与えられる。
このような検出器のネットワークは、イベントをローカライズするために使用することができ、プロトコルを使用して、おそらくイベントに最も近いものと思われる発射センサーを決定する。
点火センサの判定は、初期状態と使用した測定演算子に応じて誤差の確率を発生させる量子状態判別問題として設定することができる。
本稿では, 火災センサの判定において, 誤差の最小化につながる検出器のネットワークの最適初期大域状態を決定する問題に対処する。
この問題に対して、完全判別が可能な初期状態の存在、すなわちエラーの確率をゼロにするための必要かつ十分な条件を導出する。
この結果から得られた知見を用いて、推定された初期状態に対する最適解を導出し、予想を証明する経路を提供し、ほぼ最適に実行されるように見える複数の探索ヒューリスティックを用いて、予想を実証的に検証する。
In this paper, we consider a network of quantum sensors, where each sensor is a qubit detector that "fires," i.e., its state changes when an event occurs close by. The change in state due to the firing of a detector is given by a unitary operator which is the same for all sensors in the network. Such a network of detectors can be used to localize an event, using a protocol to determine the firing sensor which is presumably the one closest to the event. The determination of the firing sensor can be posed as a Quantum State Discrimination problem which incurs a probability of error depending on the initial state and the measurement operator used. In this paper, we address the problem of determining the optimal initial global state of a network of detectors that incur a minimum probability of error in determining the firing sensor. For this problem, we derive necessary and sufficient conditions for the existence of an initial state that allows for perfect discrimination, i.e., zero probability of error. Using insights from this result, we derive a conjectured optimal solution for the initial state, provide a pathway to prove the conjecture, and validate the conjecture empirically using multiple search heuristics that seem to perform near-optimally. | 翻訳日:2024-08-09 21:19:12 公開日:2024-08-08 |
# ディープラーニングにおける損失関数とメトリクス
Loss Functions and Metrics in Deep Learning ( http://arxiv.org/abs/2307.02694v3 ) ライセンス: Link先を確認 | Juan Terven, Diana M. Cordova-Esparza, Alfonso Ramirez-Pedraza, Edgar A. Chavez-Urbiola, Julio A. Romero-Gonzalez, | (参考訳) ディープラーニングモデルのトレーニングや評価では、適切な損失関数を選択し、パフォーマンスメトリクスを決定することが2つの重要な部分です。
本稿では、回帰や分類といった一般的なタスクから、コンピュータビジョンや自然言語処理におけるより具体的なタスクまで、様々な種類のディープラーニングタスクにまたがる最も一般的な損失関数とメトリクスについて概観する。
本稿では,各損失とメトリクスの式を導入し,その強度と限界について考察し,これらの手法がディープラーニングの様々な問題に適用できる方法について述べる。
この研究が、この分野の研究者や実践者への参考として役立ち、彼らのディープラーニングプロジェクトで最も適切な損失関数とパフォーマンスメトリクスを選択する際に、情報的な意思決定を支援することを願っています。
When training or evaluating deep learning models, two essential parts are picking the proper loss function and deciding on performance metrics. In this paper, we provide a comprehensive overview of the most common loss functions and metrics used across many different types of deep learning tasks, from general tasks such as regression and classification to more specific tasks in Computer Vision and Natural Language Processing. We introduce the formula for each loss and metric, discuss their strengths and limitations, and describe how these methods can be applied to various problems within deep learning. We hope this work serves as a reference for researchers and practitioners in the field, helping them make informed decisions when selecting the most appropriate loss function and performance metrics for their deep learning projects. | 翻訳日:2024-08-09 21:19:12 公開日:2024-08-08 |
# 意見の相違 - モデルの過度さを軽減するための相違の活用
Dissenting Explanations: Leveraging Disagreement to Reduce Model Overreliance ( http://arxiv.org/abs/2307.07636v3 ) ライセンス: Link先を確認 | Omer Reingold, Judy Hanwen Shen, Aditi Talati, | (参考訳) 説明可能性(英語版)はますます複雑なブラックボックスモデルの望ましい特徴であるが、現代の説明法は矛盾し、矛盾があることが示されている。
説明の意味論は必ずしも完全には理解されていない - どの程度まで、説明は決定を「説明」し、どの程度は単に決定を主張するだけなのか?
人間は正しい予測を伴う説明から洞察を得るのに役立ち、説明によって提唱される誤った予測を過度に反映しないだろうか?
この観点を念頭に置いて, 矛盾する説明, 付随する説明と矛盾する予測という, 矛盾する説明の概念を導入する。
まず、類似した性能を持つ複数のモデルが異なる予測を行うモデル乗法の設定において、不一致な説明の利点を考察する。
そのような場合、不一致なモデルの説明を呼び起こすことで、不一致な説明を提供することが可能である。
実験により,不一致説明は全体の精度を低下させることなく,モデル予測に対する過度な信頼を低下させることを示した。
本研究は,グローバルな手法とローカルな手法の両方を世代に提示する,不一致説明の実用性に動機づけられた。
While explainability is a desirable characteristic of increasingly complex black-box models, modern explanation methods have been shown to be inconsistent and contradictory. The semantics of explanations is not always fully understood - to what extent do explanations "explain" a decision and to what extent do they merely advocate for a decision? Can we help humans gain insights from explanations accompanying correct predictions and not over-rely on incorrect predictions advocated for by explanations? With this perspective in mind, we introduce the notion of dissenting explanations: conflicting predictions with accompanying explanations. We first explore the advantage of dissenting explanations in the setting of model multiplicity, where multiple models with similar performance may have different predictions. In such cases, providing dissenting explanations could be done by invoking the explanations of disagreeing models. Through a pilot study, we demonstrate that dissenting explanations reduce overreliance on model predictions, without reducing overall accuracy. Motivated by the utility of dissenting explanations we present both global and local methods for their generation. | 翻訳日:2024-08-09 21:19:12 公開日:2024-08-08 |
# CARLA:時系列異常検出のための自己教師付きコントラスト表現学習
CARLA: Self-supervised Contrastive Representation Learning for Time Series Anomaly Detection ( http://arxiv.org/abs/2308.09296v4 ) ライセンス: Link先を確認 | Zahra Zamanzadeh Darban, Geoffrey I. Webb, Shirui Pan, Charu C. Aggarwal, Mahsa Salehi, | (参考訳) 時系列異常検出(TSAD)の主な課題は、多くの実生活シナリオにおいてラベル付きデータの欠如である。
既存の異常検出手法の多くは、教師なしの方法で非ラベル時系列の正常な振る舞いを学習することに焦点を当てている。
通常の境界はしばしば厳密に定義され、わずかな偏差は異常に分類され、結果として偽陽性率が高く、通常のパターンを一般化する能力が制限される。
そこで本研究では,時系列異常検出(CARLA)のための,エンドツーエンドの自己教師型コントラアスティブ表現学習手法を提案する。
既存のコントラスト学習手法では、拡張時系列ウィンドウは正のサンプルであり、時間的に離れたウィンドウは負のサンプルであると仮定しているが、これらの仮定は、時系列の増大がそれらを負のサンプルに変換し、時間的に離れたウィンドウは正のサンプルを表すことができるため、制限されている。
我々の対照的なアプローチは、時系列異常に関する既存の一般的な知識を活用し、様々な種類の異常を負のサンプルとして注入する。
したがって、CARLAは正常な振る舞いを学ぶだけでなく、異常を示す偏差も学ぶ。
時間的に閉じたウィンドウと、異常の異なるウィンドウに類似した表現を生成する。
さらに、最寄り/最寄りの隣人に基づいてウィンドウを分類する自己教師型アプローチにより、表現の隣人に関する情報を活用し、異常検出の性能をさらに向上させる。
CARLAは、7つの主要な実世界の時系列異常検出データセットの広範なテストにおいて、最先端の自己監督的かつ教師なしのTSAD法よりも優れた性能を示す。
本研究は,時系列異常検出におけるコントラスト表現学習の可能性を示す。
One main challenge in time series anomaly detection (TSAD) is the lack of labelled data in many real-life scenarios. Most of the existing anomaly detection methods focus on learning the normal behaviour of unlabelled time series in an unsupervised manner. The normal boundary is often defined tightly, resulting in slight deviations being classified as anomalies, consequently leading to a high false positive rate and a limited ability to generalise normal patterns. To address this, we introduce a novel end-to-end self-supervised ContrAstive Representation Learning approach for time series Anomaly detection (CARLA). While existing contrastive learning methods assume that augmented time series windows are positive samples and temporally distant windows are negative samples, we argue that these assumptions are limited as augmentation of time series can transform them to negative samples, and a temporally distant window can represent a positive sample. Our contrastive approach leverages existing generic knowledge about time series anomalies and injects various types of anomalies as negative samples. Therefore, CARLA not only learns normal behaviour but also learns deviations indicating anomalies. It creates similar representations for temporally closed windows and distinct ones for anomalies. Additionally, it leverages the information about representations' neighbours through a self-supervised approach to classify windows based on their nearest/furthest neighbours to further enhance the performance of anomaly detection. In extensive tests on seven major real-world time series anomaly detection datasets, CARLA shows superior performance over state-of-the-art self-supervised and unsupervised TSAD methods. Our research shows the potential of contrastive representation learning to advance time series anomaly detection. | 翻訳日:2024-08-09 21:09:27 公開日:2024-08-08 |
# CALM : 言語モデルバイアスの総合評価のためのマルチタスクベンチマーク
CALM : A Multi-task Benchmark for Comprehensive Assessment of Language Model Bias ( http://arxiv.org/abs/2308.12539v3 ) ライセンス: Link先を確認 | Vipul Gupta, Pranav Narayanan Venkit, Hugo Laurençon, Shomir Wilson, Rebecca J. Passonneau, | (参考訳) 言語モデル(LM)はますます強力で広く使われるようになったため、社会的な偏見を害の可能性があるとして定量化することが重要である。
偏見の以前の尺度は、低い多様性や限られたテンプレート数などの要因により、社会的グループ間でのパフォーマンスを比較するために設計されたテンプレートの摂動に敏感である。
また、これまでの作業では1つのNLPタスクしか考慮していなかった。
本稿では,言語モデルの包括的評価(CALM)を導入し,普遍的に関連する2種類の社会デマログラフバイアス,性別,人種のロバストな測定を行う。
CALMは質問回答、感情分析、自然言語推論のための16のデータセットを統合している。
各データセットの例をフィルタリングして、高い多様性(例えば、長さ、語彙)を持つ224のテンプレートを生成する。
3つのNLPタスクをカバーする78,400のプロンプトを生成するため、7つの異なる人口集団それぞれに50の非常に頻繁な人物名を組み立てた。
実験により,CALMのバイアススコアは,テンプレート内の摂動やテンプレートのランダムなサブセット選択に対して,従来のバイアス測定よりも頑健で,はるかに感度が低いことが示された。
大規模言語モデル20に対してCALMを適用すると、2つの言語モデル系列に対して、より大きなパラメータモデルはより小さなモデルよりも偏りが強いことが分かる。
T0シリーズは、ここで研究された20のLLMのうち、最もバイアスの少ないモデルファミリーである。
コードはhttps://github.com/vipulgupta1011/CALMで公開されている。
As language models (LMs) become increasingly powerful and widely used, it is important to quantify them for sociodemographic bias with potential for harm. Prior measures of bias are sensitive to perturbations in the templates designed to compare performance across social groups, due to factors such as low diversity or limited number of templates. Also, most previous work considers only one NLP task. We introduce Comprehensive Assessment of Language Models (CALM) for robust measurement of two types of universally relevant sociodemographic bias, gender and race. CALM integrates sixteen datasets for question-answering, sentiment analysis and natural language inference. Examples from each dataset are filtered to produce 224 templates with high diversity (e.g., length, vocabulary). We assemble 50 highly frequent person names for each of seven distinct demographic groups to generate 78,400 prompts covering the three NLP tasks. Our empirical evaluation shows that CALM bias scores are more robust and far less sensitive than previous bias measurements to perturbations in the templates, such as synonym substitution, or to random subset selection of templates. We apply CALM to 20 large language models, and find that for 2 language model series, larger parameter models tend to be more biased than smaller ones. The T0 series is the least biased model families, of the 20 LLMs investigated here. The code is available at https://github.com/vipulgupta1011/CALM. | 翻訳日:2024-08-09 21:09:27 公開日:2024-08-08 |
# 一般量子チャネルにおける正準典型性
Canonical typicality under general quantum channels ( http://arxiv.org/abs/2308.16330v2 ) ライセンス: Link先を確認 | Pedro S. Correia, Gabriel Dias Carvalho, Thiago R. de Oliveira, Raúl O. Vallejos, Fernando de Melo, | (参考訳) より複雑な量子システムの制御が現実になるにつれ、統計量子力学の最も基礎的な側面の一般化が必須となる新たなシナリオが生まれつつある。
このような実験シナリオでは、システムを構成する粒子と関連する自由度の間の自然な対応は観測されない。
本研究では、量子チャネルを用いて一般化されたサブシステムを定義し、関連する自由度を捕捉し、関連する正準状態を得る。
さらに、一般化されたサブシステムは、正準典型性の現象も示し、すなわち、システム全体のほぼすべての微視的純状態から生成される一般化されたサブシステム記述は、対応する正準状態と同様に振舞うことを示す。
特に、正準典型的挙動の出現を規定する性質は、一般化されたサブシステムを定義するために用いられるチャネルのエントロピーであることを示す。
With the control of ever more complex quantum systems becoming a reality, new scenarios are emerging where generalizations of the most foundational aspects of statistical quantum mechanics are imperative. In such experimental scenarios the often natural correspondence between the particles that compose the system and the relevant degrees-of-freedom might not be observed. In the present work we employ quantum channels to define generalized subsystems, which should capture the pertinent degrees-of-freedom, and obtain their associated canonical state. Moreover, we show that generalized subsystems also display the phenomena of canonical typicality, i.e., the generalized subsystem description generated from almost any microscopic pure state of the whole system will behave similarly as the corresponding canonical state. In particular we demonstrate that the property regulating the emergence of the canonical typicality behavior is the entropy of the channel used to define the generalized subsystem. | 翻訳日:2024-08-09 21:09:27 公開日:2024-08-08 |
# ランダム森林における予測誤差の推定
Prediction Error Estimation in Random Forests ( http://arxiv.org/abs/2309.00736v4 ) ライセンス: Link先を確認 | Ian Krupkin, Johanna Hardin, | (参考訳) 本稿では,ランダムフォレスト分類の誤差推定を定量的に評価する。
Bates et al (2023) によって構築された最初の理論的枠組みに基づき、ランダムフォレストに共通する様々な誤差推定手法の文脈において、真の誤り率と予測誤差率を理論的および実証的に研究する。
分類の場合、予測誤差のランダムフォレストの推定値は、平均誤差ではなく真の誤差率に近いことが示される。
これは、ロジスティック回帰のために与えられる Bates et al (2023) の発見とは逆である。
さらに、我々の結果は、クロスバリデーション、バッグング、データ分割など、さまざまなエラー推定戦略にまたがっていることを示す。
In this paper, error estimates of classification Random Forests are quantitatively assessed. Based on the initial theoretical framework built by Bates et al. (2023), the true error rate and expected error rate are theoretically and empirically investigated in the context of a variety of error estimation methods common to Random Forests. We show that in the classification case, Random Forests' estimates of prediction error is closer on average to the true error rate instead of the average prediction error. This is opposite the findings of Bates et al. (2023) which are given for logistic regression. We further show that our result holds across different error estimation strategies such as cross-validation, bagging, and data splitting. | 翻訳日:2024-08-09 21:09:27 公開日:2024-08-08 |
# 量子と古典的断熱進化の違い
Differences between quantum and classical adiabatic evolution ( http://arxiv.org/abs/2309.08510v2 ) ライセンス: Link先を確認 | Cyrill Bösch, Andreas Fichtner, Marc Serra Garcia, | (参考訳) 断熱的進化は時間変調メタマテリアルの創発的な設計原理であり、しばしばブレイディング操作のようなトポロジカル量子コンピューティングからの洞察にインスパイアされる。
しかし、古典的断熱的メタマテリアルの追求は、古典的および量子的断熱的進化が等価であるという仮定に根ざしている。
これは、すべてのバンドの周波数が0$から無限の距離にある極限においてのみ真であることが示され、量子断熱進化のいくつかの例(例えばゼロモードを含むもの)は古典的なシステムでは再現できない。
これは、古典力学においてモードカップリングが根本的に異なるためである。
古典的条件を導出し、量子的断熱的条件とは異なるこれらの条件の下では、どこでも退化する帯に対して単バンドベリー位相とウィルツェクゼー行列が古典的断熱的進化の幾何学を符号化する意味のある量として現れることを示す。
最後に、一般的なマルチバンド系に対して、古典系に対する非アベリアゲージポテンシャルの補正項を明らかにする。
Adiabatic evolution is an emergent design principle for time modulated metamaterials, often inspired by insights from topological quantum computing such as braiding operations. However, the pursuit of classical adiabatic metamaterials is rooted in the assumption that classical and quantum adiabatic evolution are equivalent. We show that this is only true in the limit where the frequencies of all the bands are at infinite distance from $0$; and some instances of quantum adiabatic evolution, such as those containing zero modes, cannot be reproduced in classical systems. This is because mode coupling is fundamentally different in classical mechanics. We derive classical conditions to ensure adiabaticity and demonstrate that only under these conditions - which are different from quantum adiabatic conditions -, the single band Berry phase and Wilczek-Zee matrix for everywhere degenerate bands emerge as meaningful quantities encoding the geometry of classical adiabatic evolution. Finally, for general multiband systems we uncover a correction term in the non-Abelian gauge potential for classical systems. | 翻訳日:2024-08-09 21:09:27 公開日:2024-08-08 |
# 大規模言語モデルを用いたコンフォーマル時間論理計画
Conformal Temporal Logic Planning using Large Language Models ( http://arxiv.org/abs/2309.10092v4 ) ライセンス: Link先を確認 | Jun Wang, Jiaming Tong, Kaiyuan Tan, Yevgeniy Vorobeychik, Yiannis Kantaros, | (参考訳) 本稿では,移動ロボットの計画問題に対処する。
我々は、自然言語(NL)で表される複数のハイレベルなサブタスクを、時間的・論理的な順序で達成する必要があるとみなす。
ミッションを正式に定義するために,これらのサブタスクを線形時間論理(LTL)式における原子述語として扱う。
このタスク仕様フレームワークをLTL-NLと呼ぶ。
我々の目標は、LTL-NLタスクを遂行するロボットアクションのシーケンスとして定義されたプランを設計することである。
この行動計画問題は、原子述語の性質から、既存のLTLプランナーでは直接解決できない。
そこで我々は,新しい統合に依存した階層型ニューロシンボリックプランナーHERACLEsを提案する。
(i)NLサブタスクを達成すべき順序を決定する高レベルのタスクプランを生成する既存の象徴的プランナー
(二)これらの課題計画に基づいてロボット行動のシーケンスを設計するための事前訓練された大規模言語モデル(LLM)
三 形式的インターフェースとして機能する共形予測
(i)および
(二)LLM不完全性による不確実性の管理。
理論的にも実証的にも,HERACLEはユーザ定義のミッション成功率を達成可能であることを示す。
最後に, HERACLEs が NL のみを用いてミッションを定義することを要求する LLM ベースのプランナーより優れていることを示す比較実験を行った。
さらに,本手法が従来の記号的アプローチと比較してユーザフレンドリ性を高めることを示す例を示す。
This paper addresses planning problems for mobile robots. We consider missions that require accomplishing multiple high-level sub-tasks, expressed in natural language (NL), in a temporal and logical order. To formally define the mission, we treat these sub-tasks as atomic predicates in a Linear Temporal Logic (LTL) formula. We refer to this task specification framework as LTL-NL. Our goal is to design plans, defined as sequences of robot actions, accomplishing LTL-NL tasks. This action planning problem cannot be solved directly by existing LTL planners because of the NL nature of atomic predicates. To address it, we propose HERACLEs, a hierarchical neuro-symbolic planner that relies on a novel integration of (i) existing symbolic planners generating high-level task plans determining the order at which the NL sub-tasks should be accomplished; (ii) pre-trained Large Language Models (LLMs) to design sequences of robot actions based on these task plans; and (iii) conformal prediction acting as a formal interface between (i) and (ii) and managing uncertainties due to LLM imperfections. We show, both theoretically and empirically, that HERACLEs can achieve user-defined mission success rates. Finally, we provide comparative experiments demonstrating that HERACLEs outperforms LLM-based planners that require the mission to be defined solely using NL. Additionally, we present examples demonstrating that our approach enhances user-friendliness compared to conventional symbolic approaches. | 翻訳日:2024-08-09 21:09:27 公開日:2024-08-08 |
# 強化学習エージェントのためのインセンティブとしての状態表現:ロボットグラスピングのシム2リアル解析
State Representations as Incentives for Reinforcement Learning Agents: A Sim2Real Analysis on Robotic Grasping ( http://arxiv.org/abs/2309.11984v3 ) ライセンス: Link先を確認 | Panagiotis Petropoulakis, Ludwig Gräf, Mohammadhossein Malmir, Josip Josifovski, Alois Knoll, | (参考訳) 強化学習エージェントの意思決定プロセスにおいて,環境の適切な表現を選択することは必ずしも容易ではない。
状態表現は、エージェントがその行為を情報的に決定し、ポリシートレーニングと対応するsim2real転送をシンプルにするのに十分な拘束力を持たせるのに十分な包括的であるべきである。
この観点から、本研究は、特定のロボットタスク(反足動物と平面物体の把握)を解くために、エージェントにインセンティブを与える様々な表現の効果について検討する。
状態表現の連続体は、手作りの数値状態から符号化された画像ベース表現に始まり、誘導されたタスク固有の知識のレベルが減少する。
シミュレーションにおけるエージェントの課題解決能力と実際のロボットへの学習方針の伝達性に対する各表現の影響を,システム知識の完全なモデルベースアプローチと比較し,比較した。
その結果, 数値状態を用いた強化学習エージェントは, 非学習ベースラインと同等に動作できることが示唆された。
さらに、事前学習した環境埋め込みベクトルの画像ベース表現を用いたエージェントは、エンドツーエンドの訓練エージェントよりも優れており、強化学習からの表現学習の分離は、sim2real転送の恩恵をもたらすと仮定する。
最後に,タスク固有知識による状態表現のインセンティブはエージェント訓練の高速化とシム2リアルロボット制御の成功率の向上を促進させる。
Choosing an appropriate representation of the environment for the underlying decision-making process of the reinforcement learning agent is not always straightforward. The state representation should be inclusive enough to allow the agent to informatively decide on its actions and disentangled enough to simplify policy training and the corresponding sim2real transfer. Given this outlook, this work examines the effect of various representations in incentivizing the agent to solve a specific robotic task: antipodal and planar object grasping. A continuum of state representations is defined, starting from hand-crafted numerical states to encoded image-based representations, with decreasing levels of induced task-specific knowledge. The effects of each representation on the ability of the agent to solve the task in simulation and the transferability of the learned policy to the real robot are examined and compared against a model-based approach with complete system knowledge. The results show that reinforcement learning agents using numerical states can perform on par with non-learning baselines. Furthermore, we find that agents using image-based representations from pre-trained environment embedding vectors perform better than end-to-end trained agents, and hypothesize that separation of representation learning from reinforcement learning can benefit sim2real transfer. Finally, we conclude that incentivizing the state representation with task-specific knowledge facilitates faster convergence for agent training and increases success rates in sim2real robot control. | 翻訳日:2024-08-09 21:09:27 公開日:2024-08-08 |
# 形式的定理作成のための文脈内学習エージェント
An In-Context Learning Agent for Formal Theorem-Proving ( http://arxiv.org/abs/2310.04353v5 ) ライセンス: Link先を確認 | Amitayush Thakur, George Tsoukalas, Yeming Wen, Jimmy Xin, Swarat Chaudhuri, | (参考訳) リーンやCoqのような環境での形式的定理証明のためのコンテキスト内学習エージェントを提案する。
この問題の現在の最先端モデルは、環境特異的な証明データに基づいて微調整されている。
対照的に,本手法はCOPRAと呼ばれ,高容量汎用大言語モデル (GPT-4) に対して,ステートフルなバックトラック探索から戦術的応用を提案することを何度も求めている。
提案された戦術は、基礎となる証明環境で実行される。
実行からのフィードバックは、検索履歴と外部データベースから取得したレムマから選択された情報とともに、次のモデルクエリのプロンプトを構築するために使用される。
我々はCompCertプロジェクトのMiniF2FベンチマークとCoqタスクセットに対するCOPRAの実装を評価した。
これらのベンチマークでは、COPRAはGPT-4の数発の呼び出しを著しく上回っている。
また、Pas@1メトリックの観点から、リーンの最先端の微調整アプローチであるReProverよりも優れた微調整ベースのアプローチも好適に比較しています。
私たちのコードとデータはhttps://github.com/trishullab/copra.comで公開されています。
We present an in-context learning agent for formal theorem-proving in environments like Lean and Coq. Current state-of-the-art models for the problem are finetuned on environment-specific proof data. By contrast, our approach, called COPRA, repeatedly asks a high-capacity, general-purpose large language model (GPT-4) to propose tactic applications from within a stateful backtracking search. Proposed tactics are executed in the underlying proof environment. Feedback from the execution is used to build the prompt for the next model query, along with selected information from the search history and lemmas retrieved from an external database. We evaluate our implementation of COPRA on the miniF2F benchmark for Lean and a set of Coq tasks from the CompCert project. On these benchmarks, COPRA significantly outperforms few-shot invocations of GPT-4. It also compares favorably against finetuning-based approaches, outperforming ReProver, a state-of-the-art finetuned approach for Lean, in terms of the pass@1 metric. Our code and data are available at https://github.com/trishullab/copra. | 翻訳日:2024-08-09 21:09:27 公開日:2024-08-08 |
# 2次元写真における歯のアライメントのための3次元構造誘導ネットワーク
3D Structure-guided Network for Tooth Alignment in 2D Photograph ( http://arxiv.org/abs/2310.11106v2 ) ライセンス: Link先を確認 | Yulong Dou, Lanzhuju Mei, Dinggang Shen, Zhiming Cui, | (参考訳) 矯正学は、不整合歯(例えば、不正咬合)の矯正に焦点を合わせ、坐骨機能と審美の両方に影響を及ぼす。
しかし、矯正治療には複雑で長い処置が伴うことが多い。
そのため, 矯正治療に先立って歯列が整列した2次元写真を作成することは, 効果的な歯科医療コミュニケーション, より重要なのは, 患者に矯正治療を受けるように促すために重要である。
本稿では,2次元写真を入力として(例えばスマートフォンで撮影した写真)、歯を2次元画像空間内に配置し,審美的に快く整列した歯を特徴とする矯正用比較写真を生成する3次元構造誘導歯列ネットワークを提案する。
このプロセスは2次元画像空間内で動作するが,本手法では歯科矯正治療について学ぶために,クリニックで収集した3次元口腔内スキャンモデルを用いて,歯科補綴前および歯列後3次元構造を2次元歯列に投影し,その後に拡散モデルを用いてマッピング関係を学習する。
最終的に、アライメントされた歯の輪郭を利用して、審美的でアライメントのある歯と現実的なテクスチャを持つ2D写真の生成を誘導する。
本研究は, 各種顔写真におけるネットワークの評価を行い, 歯科矯正産業における特筆すべき性能と高い適用性を示した。
Orthodontics focuses on rectifying misaligned teeth (i.e., malocclusions), affecting both masticatory function and aesthetics. However, orthodontic treatment often involves complex, lengthy procedures. As such, generating a 2D photograph depicting aligned teeth prior to orthodontic treatment is crucial for effective dentist-patient communication and, more importantly, for encouraging patients to accept orthodontic intervention. In this paper, we propose a 3D structure-guided tooth alignment network that takes 2D photographs as input (e.g., photos captured by smartphones) and aligns the teeth within the 2D image space to generate an orthodontic comparison photograph featuring aesthetically pleasing, aligned teeth. Notably, while the process operates within a 2D image space, our method employs 3D intra-oral scanning models collected in clinics to learn about orthodontic treatment, i.e., projecting the pre- and post-orthodontic 3D tooth structures onto 2D tooth contours, followed by a diffusion model to learn the mapping relationship. Ultimately, the aligned tooth contours are leveraged to guide the generation of a 2D photograph with aesthetically pleasing, aligned teeth and realistic textures. We evaluate our network on various facial photographs, demonstrating its exceptional performance and strong applicability within the orthodontic industry. | 翻訳日:2024-08-09 21:09:27 公開日:2024-08-08 |
# 自己監督型 ViT 時代における教師なし物体の局在:サーベイ
Unsupervised Object Localization in the Era of Self-Supervised ViTs: A Survey ( http://arxiv.org/abs/2310.12904v3 ) ライセンス: Link先を確認 | Oriane Siméoni, Éloi Zablocki, Spyros Gidaris, Gilles Puy, Patrick Pérez, | (参考訳) オープンワールドビジョンシステムに対する最近の熱意は、これまで非常に人気があったクローズドボキャブラリベンチマークのセットアップ以外の知覚タスクを実行することに対するコミュニティの関心の高さを示している。
データセットにどのオブジェクトが浮かぶのかを事前に知ることなく、画像やビデオでオブジェクトを発見できることは、エキサイティングな期待だ。
しかし、それらについて何も知らないまま、オブジェクトを見つけるにはどうすればよいのか?
近年の研究では、自己教師付き事前訓練機能を利用することで、クラスに依存しない非教師付きオブジェクトローカライゼーションが可能であることが示されている。
本稿では,自己教師型 ViT の時代において手動のアノテーションを必要とせず,画像中のオブジェクトを検出する非教師付きオブジェクトローカライズ手法を提案する。
議論されたメソッドのリンクをリポジトリ https://github.com/valeoai/Awesome-Unsupervised-Object-Localization に集めます。
The recent enthusiasm for open-world vision systems show the high interest of the community to perform perception tasks outside of the closed-vocabulary benchmark setups which have been so popular until now. Being able to discover objects in images/videos without knowing in advance what objects populate the dataset is an exciting prospect. But how to find objects without knowing anything about them? Recent works show that it is possible to perform class-agnostic unsupervised object localization by exploiting self-supervised pre-trained features. We propose here a survey of unsupervised object localization methods that discover objects in images without requiring any manual annotation in the era of self-supervised ViTs. We gather links of discussed methods in the repository https://github.com/valeoai/Awesome-Unsupervised-Object-Localization. | 翻訳日:2024-08-09 21:09:27 公開日:2024-08-08 |
# TarGEN: 大規模言語モデルによるターゲットデータ生成
TarGEN: Targeted Data Generation with Large Language Models ( http://arxiv.org/abs/2310.17876v3 ) ライセンス: Link先を確認 | Himanshu Gupta, Kevin Scaria, Ujjwala Anantheswaran, Shreyas Verma, Mihir Parmar, Saurabh Arjun Sawant, Chitta Baral, Swaroop Mishra, | (参考訳) 大規模言語モデル(LLM)の急速な進歩は、多種多様な高品質な合成データセットを生成することを目的として、データ合成技術への関心を喚起している。
しかし、これらの合成データセットは、しばしば多様性の欠如とノイズの追加に悩まされる。
本稿では,LLMを用いた高品質な合成データセットを生成するためのマルチステッププロンプト戦略であるTarGENを提案する。
TarGENの利点は、その種なしの性質であり、特定のタスクインスタンスを必要としない。
我々は、データセット作成中に不正確なラベル付きインスタンスを修正し、信頼性のあるラベルを確実にする自己補正と呼ばれる手法で、TarGENを拡張した。
提案手法の有効性を評価するため,SuperGLUEベンチマークから8つのタスクをエミュレートし,エンコーダのみ,エンコーダのみ,エンコーダのみ,デコーダのみのモデルを含む各種言語モデルを合成およびオリジナル両方のトレーニングセットで微調整する。
オリジナルのテストセットの評価によると、TarGENが生成したデータセットでトレーニングしたモデルは、オリジナルのデータセットでトレーニングしたモデルよりも約1-2%パフォーマンスが良い(Syn.による82.84%、Flan-T5を使用したog.では81.12%)。
命令チューニングを導入すると、Flan-T5による合成データでは84.54%、元のデータでは81.49%のパフォーマンスが向上する。
合成データセットを元のデータセットと比較した包括的な分析により、合成データセットはデータセットの複雑さと多様性の類似または高いレベルを示すことが明らかになった。
さらに、合成データセットは、元のデータセットと密接に一致したバイアスレベルを表示する。
最後に、我々の合成SuperGLUEデータセットで事前調整された場合、T5-3BはOpenLLMのリーダーボード上で印象的な結果をもたらし、Self-Instructデータセットでトレーニングされたモデルを4.14%上回った。
私たちは、TarGENが品質データ生成に役立ち、複雑なベンチマークを作成するための人間の努力を減らすことができることを期待しています。
The rapid advancement of large language models (LLMs) has sparked interest in data synthesis techniques, aiming to generate diverse and high-quality synthetic datasets. However, these synthetic datasets often suffer from a lack of diversity and added noise. In this paper, we present TarGEN, a multi-step prompting strategy for generating high-quality synthetic datasets utilizing a LLM. An advantage of TarGEN is its seedless nature; it does not require specific task instances, broadening its applicability beyond task replication. We augment TarGEN with a method known as self-correction empowering LLMs to rectify inaccurately labeled instances during dataset creation, ensuring reliable labels. To assess our technique's effectiveness, we emulate 8 tasks from the SuperGLUE benchmark and finetune various language models, including encoder-only, encoder-decoder, and decoder-only models on both synthetic and original training sets. Evaluation on the original test set reveals that models trained on datasets generated by TarGEN perform approximately 1-2% points better than those trained on original datasets (82.84% via syn. vs. 81.12% on og. using Flan-T5). When incorporating instruction tuning, the performance increases to 84.54% on synthetic data vs. 81.49% on original data by Flan-T5. A comprehensive analysis of the synthetic dataset compared to the original dataset reveals that the synthetic dataset demonstrates similar or higher levels of dataset complexity and diversity. Furthermore, the synthetic dataset displays a bias level that aligns closely with the original dataset. Finally, when pre-finetuned on our synthetic SuperGLUE dataset, T5-3B yields impressive results on the OpenLLM leaderboard, surpassing the model trained on the Self-Instruct dataset by 4.14% points. We hope that TarGEN can be helpful for quality data generation and reducing the human efforts to create complex benchmarks. | 翻訳日:2024-08-09 20:59:13 公開日:2024-08-08 |
# オフライン強化学習と模倣学習のためのガイド付きデータ強化
Guided Data Augmentation for Offline Reinforcement Learning and Imitation Learning ( http://arxiv.org/abs/2310.18247v3 ) ライセンス: Link先を確認 | Nicholas E. Corrado, Yuxiao Qu, John U. Balis, Adam Labiosa, Josiah P. Hanna, | (参考訳) オフライン強化学習(RL)では、RLエージェントは、以前に収集したデータの固定データセットのみを使用してタスクを解決することを学習する。
オフラインのRLは、現実世界のロボット制御ポリシーを学ぶのに成功しているが、通常は、アウト・オブ・ディストリビューション状態に一般化する効果的なポリシーを学ぶために、大量の専門家品質のデータを必要とする。
残念ながら、そのようなデータは多くの場合、現実世界のタスクで取得するのが困難で費用がかかる。
近年のいくつかの研究は、データ拡張(DA)を利用して、データの追加を安価に生成しているが、ほとんどのDA研究はランダムな方法で拡張を適用し、最終的に非常に最適な拡張体験を生み出している。
本研究では,有能な拡張データを生成する人間誘導型DAフレームワークであるGuDA(Guid Data Augmentation)を提案する。
GuDAの背後にある重要な洞察は、専門家データを生成するのに必要なアクションのシーケンスを示すのは難しいかもしれないが、拡張軌跡セグメントがタスク完了に向けた進捗を表す場合、ユーザーは容易に特徴付けることができるということである。
これにより、ユーザは、拡張可能な空間を制限して、最適でない拡張データを自動的に拒否することができる。
GuDAからポリシーを抽出するために、オフザシェルフのオフライン強化学習と行動クローニングアルゴリズムを用いる。
我々は,物理ロボットサッカーの課題とシミュレーションD4RLナビゲーションタスク,シミュレーション自律運転タスク,シミュレーションサッカータスクについてGuDAを評価する。
経験的に、GuDAは、潜在的に最適でない経験の小さな初期データセットを与えられた場合の学習を可能にし、ランダムなDA戦略とモデルベースのDA戦略を上回ります。
In offline reinforcement learning (RL), an RL agent learns to solve a task using only a fixed dataset of previously collected data. While offline RL has been successful in learning real-world robot control policies, it typically requires large amounts of expert-quality data to learn effective policies that generalize to out-of-distribution states. Unfortunately, such data is often difficult and expensive to acquire in real-world tasks. Several recent works have leveraged data augmentation (DA) to inexpensively generate additional data, but most DA works apply augmentations in a random fashion and ultimately produce highly suboptimal augmented experience. In this work, we propose Guided Data Augmentation (GuDA), a human-guided DA framework that generates expert-quality augmented data. The key insight behind GuDA is that while it may be difficult to demonstrate the sequence of actions required to produce expert data, a user can often easily characterize when an augmented trajectory segment represents progress toward task completion. Thus, a user can restrict the space of possible augmentations to automatically reject suboptimal augmented data. To extract a policy from GuDA, we use off-the-shelf offline reinforcement learning and behavior cloning algorithms. We evaluate GuDA on a physical robot soccer task as well as simulated D4RL navigation tasks, a simulated autonomous driving task, and a simulated soccer task. Empirically, GuDA enables learning given a small initial dataset of potentially suboptimal experience and outperforms a random DA strategy as well as a model-based DA strategy. | 翻訳日:2024-08-09 20:59:13 公開日:2024-08-08 |
# バック・トゥ・ザ・フューチャー! 欠陥4Jにおけるデータの清浄性の研究と異常局在への影響
Back to the Future! Studying Data Cleanness in Defects4J and its Impact on Fault Localization ( http://arxiv.org/abs/2310.19139v3 ) ライセンス: Link先を確認 | Md Nakhla Rafi, An Ran Chen, Tse-Hsun Chen, Shaohua Wang, | (参考訳) ソフトウェアテストの研究において、Defects4Jは主要なベンチマークデータセットとして際立っている。
しかし、以前の調査では、Defects4Jには、バグ後のレポートを追加したテスト、開発者の知識を埋め込んだり、障害のローカライゼーションの有効性に影響する可能性がある。
本稿では,Defects4Jの欠陥追跡テストについて検討し,SBFL技術に関する開発者の知識がもたらす意味を強調した。
バグレポート作成に関するこれらのテストに対する変更のタイムラインについて検討する。
そこで本研究では,SBFL技術の有効性について検討した。
私たちはそれを発見しました
1) 障害追跡テストの55%は、バグの再現や回帰テストのために新たに追加されました。
2) 障害トリガテストの22%は,バグレポート作成後に修正され,バグに関する開発者の知識が含まれている。
3) 開発者はしばしば、新しいアサーションを含むようにテストを変更したり、ソースコードの変更を反映するようにテストコードを変更したりする。
4)SBFL技術のパフォーマンスは、開発者知識のないバグを評価すると、著しく低下する(平均一等級は-415%まで)。
開発者の洞察なしにバグのデータセットを提供し、Defects4Jにおける将来のSBFL評価を支援し、将来のバグベンチマークについて検討する。
For software testing research, Defects4J stands out as the primary benchmark dataset, offering a controlled environment to study real bugs from prominent open-source systems. However, prior research indicates that Defects4J might include tests added post-bug report, embedding developer knowledge and affecting fault localization efficacy. In this paper, we examine Defects4J's fault-triggering tests, emphasizing the implications of developer knowledge of SBFL techniques. We study the timelines of changes made to these tests concerning bug report creation. Then, we study the effectiveness of SBFL techniques without developer knowledge in the tests. We found that 1) 55% of the fault-triggering tests were newly added to replicate the bug or to test for regression; 2) 22% of the fault-triggering tests were modified after the bug reports were created, containing developer knowledge of the bug; 3) developers often modify the tests to include new assertions or change the test code to reflect the changes in the source code; and 4) the performance of SBFL techniques degrades significantly (up to --415% for Mean First Rank) when evaluated on the bugs without developer knowledge. We provide a dataset of bugs without developer insights, aiding future SBFL evaluations in Defects4J and informing considerations for future bug benchmarks. | 翻訳日:2024-08-09 20:59:13 公開日:2024-08-08 |
# 絡み合い支援型古典的コミュニケーションのためのコード
Codes for entanglement-assisted classical communication ( http://arxiv.org/abs/2310.19774v2 ) ライセンス: Link先を確認 | Tushita Prasad, Markus Grassl, | (参考訳) 絡み合い支援型古典通信(EACC)は、絡み合いを付加資源とする通信システムを強化することを目的としている。
しかし、有限送信シナリオ用に設計された明示的なプロトコルが不足しているため、現実的な実装の課題が浮かび上がっている。
これに対し,固定数の消去・エラーを補正できる新しいEACC方式を提案する。
利用可能な絡み合い量に調整でき、量子チャネル上で古典的な情報を送信する。
このような課題を古典的な問題に還元して達成するための一般的な枠組みを確立する。
特定の境界と比較すると、最適なパラメータ範囲が特定できる。
このスキームは実験で成功した超高密度符号化の実装のみを必要とする。
さらに,本研究の結果から,適応性のある絡み合いの使用が通信の優位性をもたらすことが示された。
全体として、我々の研究は、エンタングルメントが様々な有限長通信プロトコルをいかに高めるかに光を当て、フィールドでの探索のための新たな道を開く。
Entanglement-assisted classical communication (EACC) aims to enhance communication systems using entanglement as an additional resource. However, there is a scarcity of explicit protocols designed for finite transmission scenarios, which presents a challenge for real-world implementation. In response we introduce a new EACC scheme capable of correcting a fixed number of erasures/errors. It can be adjusted to the available amount of entanglement and sends classical information over a quantum channel. We establish a general framework to accomplish such a task by reducing it to a classical problem. Comparing with specific bounds we identify optimal parameter ranges. The scheme requires only the implementation of super-dense coding which has been demonstrated successfully in experiments. Furthermore, our results shows that an adaptable entanglement use confers a communication advantage. Overall, our work sheds light on how entanglement can elevate various finite-length communication protocols, opening new avenues for exploration in the field. | 翻訳日:2024-08-09 20:59:13 公開日:2024-08-08 |
# 凸緩和によるグラフマッチング
Graph Matching via convex relaxation to the simplex ( http://arxiv.org/abs/2310.20609v2 ) ライセンス: Link先を確認 | Ernesto Araya Valdivia, Hemant Tyagi, | (参考訳) 本稿では、2つの入力グラフ間の最適なアライメントを見つけることによるグラフマッチング問題に対処し、コンピュータビジョン、ネットワークのデ匿名化、タンパク質アライメントに多くの応用がある。
この問題に対処するための一般的なアプローチは、NP-hard \emph{Quadratic Assignment Problem} (QAP) の凸緩和である。
本稿では,単位単純度に新しい凸緩和を導入し,この問題を解決するために閉形式反復を用いた効率的なミラー降下法を開発した。
相関したガウス・ウィグナーモデルの下では、単純緩和は高い確率で一意的な解を持つことを示す。
ノイズレスの場合、これは基底真理置換の正確な回復を示す。
さらに, 標準グリーディラウンドリング法では, 入力行列に対して, 通常の「対角線支配」条件よりも制約が小さい, 新たな充足条件を確立する。
我々は、この条件を用いて、ノイズのない環境で、ミラー降下スキームを介して、(ほぼ確実に保持する)基底真実の正確な1段階の回復を示す。
また, この条件を用いて, GRAMPA アルゴリズム [Fan et al 2019] のノイズレス環境での条件を大幅に改善した。
This paper addresses the Graph Matching problem, which consists of finding the best possible alignment between two input graphs, and has many applications in computer vision, network deanonymization and protein alignment. A common approach to tackle this problem is through convex relaxations of the NP-hard \emph{Quadratic Assignment Problem} (QAP). Here, we introduce a new convex relaxation onto the unit simplex and develop an efficient mirror descent scheme with closed-form iterations for solving this problem. Under the correlated Gaussian Wigner model, we show that the simplex relaxation admits a unique solution with high probability. In the noiseless case, this is shown to imply exact recovery of the ground truth permutation. Additionally, we establish a novel sufficiency condition for the input matrix in standard greedy rounding methods, which is less restrictive than the commonly used `diagonal dominance' condition. We use this condition to show exact one-step recovery of the ground truth (holding almost surely) via the mirror descent scheme, in the noiseless setting. We also use this condition to obtain significantly improved conditions for the GRAMPA algorithm [Fan et al. 2019] in the noiseless setting. | 翻訳日:2024-08-09 20:59:13 公開日:2024-08-08 |
# Tesla(テスラ)の安全レポートのクラッシュ率についての一考察
A Note on Tesla's Revised Safety Report Crash Rates ( http://arxiv.org/abs/2311.06187v2 ) ライセンス: Link先を確認 | Noah Goodall, | (参考訳) 2018年6月から2022年12月までの間に、TeslaはTesla車両の衝突事故の平均マイルを引用して四半期の安全レポートを発表した。
2021年3月までに、事故率を分類した。
1SAEレベル2自動運転システム搭載。
2)オートパイロットがないが、自動緊急ブレーキ等のアクティブな安全機能を有する。
3)オートパイロットやアクティブな安全機能がない。
2022年1月、Teslaは過去のレポートを改訂し、Autopilotの関与の有無を反映し、最近発見されたレポートの2倍のカウントと、エアバッグやアクティブ・セーフティ・コントラストのアクティベーションのしきい値に届かなかった事故を除外した小さな調整を行った。
このリビジョンは、ドライバーがほとんどのアクティブな安全機能を有効に保っていることを示す以前の研究から見ても、意外な結果だ。
Teslaの安全レポートは、レベル2先進運転支援システムのクラッシュ率の唯一の国家的情報源であり、その方法の明確化は研究者や規制当局にとって不可欠である。
本項では、変更について記述し、相違点について解説する。
Between June 2018 and December 2022, Tesla released quarterly safety reports citing average miles between crashes for Tesla vehicles. Prior to March 2021, crash rates were categorized as 1) with their SAE Level 2 automated driving system Autopilot engaged, 2) without Autopilot but with active safety features such as automatic emergency braking, and 3) without Autopilot and without active safety features. In January 2022, Tesla revised past reports to reflect their new categories of with and without Autopilot engaged, in addition to making small adjustments based on recently discovered double counting of reports and excluding previously recorded crashes that did not meet their thresholds of airbag or active safety restraint activation. The revisions are heavily biased towards no-active-safety-features$\unicode{x2014}$a surprising result given prior research showing that drivers predominantly keep most active safety features enabled. As Tesla's safety reports represent the only national source of Level 2 advanced driver assistance system crash rates, clarification of their methods is essential for researchers and regulators. This note describes the changes and considers possible explanations for the discrepancies. | 翻訳日:2024-08-09 20:59:13 公開日:2024-08-08 |
# LLMはデモからタスクヒューリスティックスを学ぶ:ドキュメントレベルイベント引数抽出のためのヒューリスティックなプロンプト戦略
LLMs Learn Task Heuristics from Demonstrations: A Heuristic-Driven Prompting Strategy for Document-Level Event Argument Extraction ( http://arxiv.org/abs/2311.06555v3 ) ライセンス: Link先を確認 | Hanzhang Zhou, Junlang Qian, Zijian Feng, Hui Lu, Zixiao Zhu, Kezhi Mao, | (参考訳) 本研究では,文書レベルのイベント引数抽出(EAE)における文脈内学習(ICL)を調査し,大規模ラベル付きデータへの依存を軽減する。
我々は、サンプル選択の課題に対処し、EAEに適したプロンプト戦略を開発するために、Huristic-Driven Link-of-Analogy(HD-LoA)を導入する。
具体的には、LCM が ICL による実演からタスク固有のヒューリスティックを学ぶことを仮定し、検証する。
この仮説に基づいて,ハファザードのサンプル選択過程を,タスクヒューリスティックスを重視した方法論に変換する,明示的ヒューリスティック駆動型実証構築手法を導入する。
また,人間の類推的推論に触発されて,LLMが既知の状況に類似性を引き出すことによって新たな状況を処理し,ICLの限られた例を超越した未確認クラスにおける性能を向上させることを可能とする,解析のリンク・オブ・アナロジー・プロンプトを提案する。
実験の結果,本手法は文書レベルのAEデータセット上で,既存のプロンプト手法や数発の教師付き学習手法よりも優れていた。
さらに、HD-LoAプロンプトは感情分析や自然言語推論といった様々なタスクにおいて効果を示し、その広範な適応性を示している。
In this study, we investigate in-context learning (ICL) in document-level event argument extraction (EAE) to alleviate the dependency on large-scale labeled data for this task. We introduce the Heuristic-Driven Link-of-Analogy (HD-LoA) prompting to address the challenge of example selection and to develop a prompting strategy tailored for EAE. Specifically, we hypothesize and validate that LLMs learn task-specific heuristics from demonstrations via ICL. Building upon this hypothesis, we introduce an explicit heuristic-driven demonstration construction approach, which transforms the haphazard example selection process into a methodical method that emphasizes task heuristics. Additionally, inspired by the analogical reasoning of human, we propose the link-of-analogy prompting, which enables LLMs to process new situations by drawing analogies to known situations, enhancing their performance on unseen classes beyond limited ICL examples. Experiments show that our method outperforms existing prompting methods and few-shot supervised learning methods on document-level EAE datasets. Additionally, the HD-LoA prompting shows effectiveness in diverse tasks like sentiment analysis and natural language inference, demonstrating its broad adaptability. | 翻訳日:2024-08-09 20:59:13 公開日:2024-08-08 |
# MAPはまだ死んでいない:縮退を条件づけて真の言語モデルモードを発見する
MAP's not dead yet: Uncovering true language model modes by conditioning away degeneracy ( http://arxiv.org/abs/2311.08817v2 ) ライセンス: Link先を確認 | Davis Yoshida, Kartik Goyal, Kevin Gimpel, | (参考訳) 自然言語生成(NLG)モデルからの正確なMAPデコード(モード探索)が一貫して退化出力をもたらすことが広く知られている(Holtzman et al , 2019; Stahlberg and Byrne, 2019)。
以前の研究は、この振る舞いを確率モデルにおけるモードの基本的で避けられない不適切さ、あるいは言語モデリングにおける弱点によるものとみなしていた。
対照的に、トレーニングデータの汚染により、デジェネレーションモードはモデリングエラーのない場合にも起こりうると論じる。
具体的には、少数の低エントロピーノイズと集団テキスト分布を混合しても、データ分布のモードが縮退する可能性があると論じる。
そこで本研究では,条件変数が特定の退化挙動を明示的に回避するモデルの実条件分布にMAPデコーディングを適用することを提案する。
正確な探索を用いて、機械翻訳モデルと言語モデルの長条件モードが、非条件モードよりも真に流動的かつトピック的であることを実証的に検証する。
はじめて、これらのモデルとLLaMA-7Bモデルのいくつかの変種から、正確なモーダル列の多くの例を共有した。
特に,LLaMA-7Bのスケールにおいても,様々な退化モードが持続することが観察された。
厳密な探索でこれらの退化を正確に解くことはできないが、LLaMA-7Bの分類器に基づく近似探索を行う。
It has been widely observed that exact or approximate MAP (mode-seeking) decoding from natural language generation (NLG) models consistently leads to degenerate outputs (Holtzman et al., 2019; Stahlberg and Byrne, 2019). Prior work has attributed this behavior to either a fundamental and unavoidable inadequacy of modes in probabilistic models or weaknesses in language modeling. Contrastingly, we argue that degenerate modes can even occur in the absence of any modeling error, due to contamination of the training data. Specifically, we argue that mixing even a tiny amount of low-entropy noise with a population text distribution can cause the data distribution's mode to become degenerate. We therefore propose to apply MAP decoding to the model's true conditional distribution where the conditioning variable explicitly avoids specific degenerate behavior. Using exact search, we empirically verify that the length-conditional modes of machine translation models and language models are indeed more fluent and topical than their unconditional modes. For the first time, we also share many examples of exact modal sequences from these models, and from several variants of the LLaMA-7B model. Notably, we observe that various kinds of degenerate modes persist, even at the scale of LLaMA-7B. Although we cannot tractably address these degeneracies with exact search, we perform a classifier-based approximate search on LLaMA-7B, a model which was not trained for instruction following, and find that we are able to elicit reasonable outputs without any finetuning. | 翻訳日:2024-08-09 20:59:13 公開日:2024-08-08 |
# ファイナンスマス:金融ドメインにおける知識集約型数学推論
FinanceMath: Knowledge-Intensive Math Reasoning in Finance Domains ( http://arxiv.org/abs/2311.09797v2 ) ライセンス: Link先を確認 | Yilun Zhao, Hongjun Liu, Yitao Long, Rui Zhang, Chen Zhao, Arman Cohan, | (参考訳) 我々は、知識集約型数学推論問題の解法におけるLLMの能力を評価するために設計された新しいベンチマークであるFundyMathを紹介する。
先行研究と比較して,本研究は3つの中核的な進歩を特徴としている。
まず、FinancialMathには1200の問題があり、テキストと表のコンテンツが混在している。
これらの問題は、効果的な解決のためにファイナンス領域におけるカレッジレベルの知識を必要とする。
第二に、Pythonプログラムフォーマットで専門家による詳細なソリューション参照を提供し、LLMアセスメントのための高品質なベンチマークを保証する。
また、金融分野の知識銀行を構築し、様々な知識統合戦略について検討する。
最後に,Chain-of-Thought法とProgram-of-Thought法による44 LLMの広いスペクトルの評価を行った。
実験結果から,現在のベストパフォーマンスシステム(GPT-4o)は,CoTプロンプトによる60.9%の精度しか達成できず,改善の余地が残っていることがわかった。
さらに、外部知識でLLMを増強することで、モデル性能(例えば、Gemini-1.5-Proの47.5%から54.5%)を向上させることができるが、その精度は、推定された人間の専門家の92%よりも大幅に低いままである。
ファイナンスマスはドメイン固有の知識検索と統合の分野、特に推論集約的なタスクの解決の文脈において、将来の研究を進めることができると我々は信じている。
We introduce FinanceMath, a novel benchmark designed to evaluate LLMs' capabilities in solving knowledge-intensive math reasoning problems. Compared to prior works, this study features three core advancements. First, FinanceMath includes 1,200 problems with a hybrid of textual and tabular content. These problems require college-level knowledge in the finance domain for effective resolution. Second, we provide expert-annotated, detailed solution references in Python program format, ensuring a high-quality benchmark for LLM assessment. We also construct a finance-domain knowledge bank and investigate various knowledge integration strategies. Finally, we evaluate a wide spectrum of 44 LLMs with both Chain-of-Thought and Program-of-Thought prompting methods. Our experimental results reveal that the current best-performing system (i.e., GPT-4o) achieves only 60.9% accuracy using CoT prompting, leaving substantial room for improvement. Moreover, while augmenting LLMs with external knowledge can improve model performance (e.g., from 47.5% to 54.5% for Gemini-1.5-Pro), their accuracy remains significantly lower than the estimated human expert performance of 92%. We believe that FinanceMath can advance future research in the area of domain-specific knowledge retrieval and integration, particularly within the context of solving reasoning-intensive tasks. | 翻訳日:2024-08-09 20:59:13 公開日:2024-08-08 |
# DocMath-Eval:長期・専門文書理解におけるLLMの数学的推論能力の評価
DocMath-Eval: Evaluating Math Reasoning Capabilities of LLMs in Understanding Long and Specialized Documents ( http://arxiv.org/abs/2311.09805v2 ) ライセンス: Link先を確認 | Yilun Zhao, Yitao Long, Hongjun Liu, Ryo Kamoi, Linyong Nan, Lyuhao Chen, Yixin Liu, Xiangru Tang, Rui Zhang, Arman Cohan, | (参考訳) 近年のLLMは、試験のような数学用語の問題を解く際、顕著な性能を示した。
しかし、これらの数値推論スキルが現実のシナリオ、特にエキスパートドメインで有効である程度はまだ明らかにされていない。
本稿では,テキストと表の両方を含む専門文書の理解と分析の文脈において,LLMの数値推論能力を評価するための総合的なベンチマークであるDocMath-Evalを紹介する。
DocMath-Eval における既存の LLM の機能と限界を包括的に評価することを目的として,Chain-of-Thought と Program-of-Thought を併用した48 LLM の幅広いスペクトルの評価を行った。
我々は、現在の最高の性能システム(GPT-4o)でさえ、長い文脈に根ざした複雑な数値推論問題の解法において、人間の専門家よりかなり遅れていることを発見した。
我々はDocMath-Evalが、専門家ドメイン内の数値推論問題の解決においてLLMの能力を評価する上で貴重なベンチマークとなると考えている。
Recent LLMs have demonstrated remarkable performance in solving exam-like math word problems. However, the degree to which these numerical reasoning skills are effective in real-world scenarios, particularly in expert domains, is still largely unexplored. This paper introduces DocMath-Eval, a comprehensive benchmark specifically designed to evaluate the numerical reasoning capabilities of LLMs in the context of understanding and analyzing specialized documents containing both text and tables. We evaluate a wide spectrum of 48 LLMs with Chain-of-Thought and Program-of-Thought prompting methods, aiming to comprehensively assess the capabilities and limitations of existing LLMs in DocMath-Eval. We found that even the current best-performing system (i.e., GPT-4o) still significantly lags behind human experts in solving complex numerical reasoning problems grounded in long contexts. We believe that DocMath-Eval can serve as a valuable benchmark for evaluating LLMs' capabilities in solving challenging numerical reasoning problems within expert domains. | 翻訳日:2024-08-09 20:59:13 公開日:2024-08-08 |
# 非エルミートイジング鎖における多体相転移
Many-body phase transitions in a non-Hermitian Ising chain ( http://arxiv.org/abs/2311.11251v2 ) ライセンス: Link先を確認 | Chao-Ze Lu, Xiaolong Deng, Su-Peng Kou, Gaoyong Sun, | (参考訳) 1次元強磁性トランスバースフィールドIsingモデルにおける多体相転移について検討し、2次相転移と2つの$\mathcal{PT}$相転移の3つの相転移を示すことを示す。
基底状態における2次相転移は, 生体直交および自己正規エンタングルメントエントロピーを用いて検討し, 有限スケールスケーリング理論を用いて小系の中心電荷を抽出する手法を開発した。
第2次相転移と比較して、第1の$\mathcal{PT}$遷移は全エネルギースペクトルにおける例外点の出現によって特徴づけられるが、第2の$\mathcal{PT}$遷移は特定の励起状態においてのみ発生する。
さらに、例外点のどちらも、エネルギーの想像上の部分のスケーリングの点で二階であることも興味深い。
この研究は、非エルミート系における多体相転移の正確な解を提供する。
We study many-body phase transitions in a one-dimensional ferromagnetic transversed field Ising model with an imaginary field and show that the system exhibits three phase transitions: one second-order phase transition and two $\mathcal{PT}$ phase transitions. The second-order phase transition occurring in the ground state is investigated via biorthogonal and self-normal entanglement entropy, for which we develop an approach to perform finite-size scaling theory to extract the central charge for small systems. Compared with the second-order phase transition, the first $\mathcal{PT}$ transition is characterized by the appearance of an exceptional point in the full energy spectrum, while the second $\mathcal{PT}$ transition only occurs in specific excited states. Furthermore, we interestingly show that both of exceptional points are second-order in terms of scalings of imaginary parts of the energy. This work provides an exact solution for many-body phase transitions in non-Hermitian systems. | 翻訳日:2024-08-09 20:59:13 公開日:2024-08-08 |
# GMISeg:再検査なしの一般医用画像分割
GMISeg: General Medical Image Segmentation without Re-Training ( http://arxiv.org/abs/2311.12539v3 ) ライセンス: Link先を確認 | Jing Xu, | (参考訳) オンラインショッピング行動は, 豊富な粒度次元とデータ空間の特徴を持ち, ユーザ行動予測に関するこれまでの研究は, 特徴選択やアンサンブルデザインを真剣に議論しなかった。
本稿では,ユーザ購入行動予測のための情報融合とアンサンブル学習に基づくSE-Stackingモデルを提案する。
購入関連要因のスクリーニングにアンサンブル特徴選択法をうまく利用した後,ユーザ購入行動予測にスタックリングアルゴリズムを用いた。
予測結果の偏りを避けるため,ベースラーナーとして10種類のモデルを選択し,特定のパラメータを修正することによってモデルを最適化した。
公開データセットで実施された実験によると、SE-Stackingモデルは98.40%のF1スコアを達成でき、最適なベースモデルよりも約0.09%高い。
SE-Stacking モデルは,ユーザの購買行動を予測するだけでなく,実際のeコマースシーンと組み合わせた実用的価値も備えている。
同時に、学術研究とこの分野の発展に重要な意味を持つ。
The online shopping behavior has the characteristics of rich granularity dimension and data sparsity and previous researches on user behavior prediction did not seriously discuss feature selection and ensemble design. In this paper, we proposed a SE-Stacking model based on information fusion and ensemble learning for user purchase behavior prediction. After successfully utilizing the ensemble feature selection method to screen purchase-related factors, we used the Stacking algorithm for user purchase behavior prediction. In our efforts to avoid the deviation of prediction results, we optimized the model by selecting ten different kinds of models as base learners and modifying relevant parameters specifically for them. The experiments conducted on a publicly-available dataset shows that the SE-Stacking model can achieve a 98.40% F1-score, about 0.09% higher than the optimal base models. The SE-Stacking model not only has a good application in the prediction of user purchase behavior but also has practical value combining with the actual e-commerce scene. At the same time, it has important significance for academic research and the development of this field. | 翻訳日:2024-08-09 20:59:13 公開日:2024-08-08 |
# 概念から製造へ:工学設計のためのビジョンランゲージモデルの評価
From Concept to Manufacturing: Evaluating Vision-Language Models for Engineering Design ( http://arxiv.org/abs/2311.12668v2 ) ライセンス: Link先を確認 | Cyril Picard, Kristen M. Edwards, Anna C. Doris, Brandon Man, Giorgio Giannone, Md Ferdous Alam, Faez Ahmed, | (参考訳) エンジニアリング設計は、AIの出現とともに変革的な変化を経験しており、プロダクト、システム、サービス計画へのアプローチの新しい時代を象徴している。
大規模な言語モデルは、このシフトを可能にする素晴らしい能力を示している。
しかし、テキストを唯一の入力モダリティとすれば、何世紀にもわたってエンジニアが慣れ親しんだ視覚的なアーティファクトを活用できない。
このギャップは、GPT-4Vのようなマルチモーダル視覚言語モデル(VLM)のリリースによって解決される。
本研究は, 概念設計, システムレベル, 詳細設計, 製造・検査, 工学教育タスクの4つの分野に分類した, 工学設計タスクにおけるVLMの包括的評価を行う。
本稿では, スケッチ類似性解析, CAD生成, トポロジ最適化, 製造性評価, 工学教科書問題などの設計課題における2つのVLM, GPT-4V, LLaVA 1.6 34Bの性能評価を行う。
この構造的評価を通じて、複雑な設計課題に対処する上でのVLMの熟練度だけでなく、複雑なエンジニアリング設計アプリケーションにおけるそれらの限界についても検討する。
本研究は,視覚言語モデルの今後の評価のための基盤を確立する。
また、この分野で進行中の進歩とアプリケーションのために、1000以上のクエリを持つベンチマークテストデータセットのセットも提供しています。
Engineering design is undergoing a transformative shift with the advent of AI, marking a new era in how we approach product, system, and service planning. Large language models have demonstrated impressive capabilities in enabling this shift. Yet, with text as their only input modality, they cannot leverage the large body of visual artifacts that engineers have used for centuries and are accustomed to. This gap is addressed with the release of multimodal vision-language models (VLMs), such as GPT-4V, enabling AI to impact many more types of tasks. Our work presents a comprehensive evaluation of VLMs across a spectrum of engineering design tasks, categorized into four main areas: Conceptual Design, System-Level and Detailed Design, Manufacturing and Inspection, and Engineering Education Tasks. Specifically in this paper, we assess the capabilities of two VLMs, GPT-4V and LLaVA 1.6 34B, in design tasks such as sketch similarity analysis, CAD generation, topology optimization, manufacturability assessment, and engineering textbook problems. Through this structured evaluation, we not only explore VLMs' proficiency in handling complex design challenges but also identify their limitations in complex engineering design applications. Our research establishes a foundation for future assessments of vision language models. It also contributes a set of benchmark testing datasets, with more than 1000 queries, for ongoing advancements and applications in this field. | 翻訳日:2024-08-09 20:47:49 公開日:2024-08-08 |
# Relightable 3D Gaussian: BRDF分解とレイトレーシングによるリアル・ポイント・クラウド・リライト
Relightable 3D Gaussians: Realistic Point Cloud Relighting with BRDF Decomposition and Ray Tracing ( http://arxiv.org/abs/2311.16043v2 ) ライセンス: Link先を確認 | Jian Gao, Chun Gu, Youtian Lin, Zhihao Li, Hao Zhu, Xun Cao, Li Zhang, Yao Yao, | (参考訳) 本稿では,フォトリアリスティックなリライトを実現するために,新しい微分可能な点ベースレンダリングフレームワークを提案する。
再建されたシーンを照らしやすくするために,通常のベクトル,BRDFパラメータ,インシデントライティングといった余分な特性を様々な方向から関連付けることで,バニラ3Dガウスを改良する。
多視点画像の集合から、3Dシーンは3Dガウススティングにより最適化され、BRDFと照明は物理的に異なるレンダリングによって分解される。
フォトリアリスティックリライティングにおける可視影効果を実現するために,高効率な視界前計算のための境界体積階層を持つ点線トレーシングを導入した。
BRDF推定, 新規ビュー合成, ライティング結果の改善を, 最先端のアプローチと比較して, 大規模実験により実証した。
提案したフレームワークは、メッシュベースのグラフィクスパイプラインを、編集、トレース、リライトを可能にするポイントベースのパイプラインで革新する可能性を示している。
In this paper, we present a novel differentiable point-based rendering framework to achieve photo-realistic relighting. To make the reconstructed scene relightable, we enhance vanilla 3D Gaussians by associating extra properties, including normal vectors, BRDF parameters, and incident lighting from various directions. From a collection of multi-view images, the 3D scene is optimized through 3D Gaussian Splatting while BRDF and lighting are decomposed by physically based differentiable rendering. To produce plausible shadow effects in photo-realistic relighting, we introduce an innovative point-based ray tracing with the bounding volume hierarchies for efficient visibility pre-computation. Extensive experiments demonstrate our improved BRDF estimation, novel view synthesis and relighting results compared to state-of-the-art approaches. The proposed framework showcases the potential to revolutionize the mesh-based graphics pipeline with a point-based pipeline enabling editing, tracing, and relighting. | 翻訳日:2024-08-09 20:47:49 公開日:2024-08-08 |
# マルチモーダル大言語モデルにおける視覚認知
Visual cognition in multimodal large language models ( http://arxiv.org/abs/2311.16093v3 ) ライセンス: Link先を確認 | Luca M. Schulze Buschoff, Elif Akata, Matthias Bethge, Eric Schulz, | (参考訳) 人工知能の主な目標は、人間のように考える機械を作ることだ。
しかし、ディープニューラルネットワークアーキテクチャは、これを達成できない、と論じられている。
研究者は、因果推論、直観物理学、直観心理学の領域におけるこれらのモデルの限界を主張している。
しかし、近年の進歩、特に視覚処理用に設計された大規模言語モデルの台頭は、人間のような認知能力を模倣する可能性への関心を再燃させた。
本稿では、直観物理学、因果推論、直観心理学の分野における視覚に基づく大規模言語モデルの現状を評価する。
一連の制御された実験を通して、これらのモデルが複雑な物理的相互作用、因果関係、他者の好みの直感的な理解をどの程度理解しているかを調査する。
これらのモデルの中には、視覚データの処理と解釈に顕著な習熟度を示すものもあるが、これらの領域では人間の能力に欠けるものもある。
本研究は、因果関係、物理力学、社会的認知を理解するためのより堅牢なメカニズムを現代の視覚ベースの言語モデルに統合することの必要性を強調し、認知に着想を得たベンチマークの重要性を指摘する。
A chief goal of artificial intelligence is to build machines that think like people. Yet it has been argued that deep neural network architectures fail to accomplish this. Researchers have asserted these models' limitations in the domains of causal reasoning, intuitive physics, and intuitive psychology. Yet recent advancements, namely the rise of large language models, particularly those designed for visual processing, have rekindled interest in the potential to emulate human-like cognitive abilities. This paper evaluates the current state of vision-based large language models in the domains of intuitive physics, causal reasoning, and intuitive psychology. Through a series of controlled experiments, we investigate the extent to which these modern models grasp complex physical interactions, causal relationships, and intuitive understanding of others' preferences. Our findings reveal that, while some of these models demonstrate a notable proficiency in processing and interpreting visual data, they still fall short of human capabilities in these areas. Our results emphasize the need for integrating more robust mechanisms for understanding causality, physical dynamics, and social cognition into modern-day, vision-based language models, and point out the importance of cognitively-inspired benchmarks. | 翻訳日:2024-08-09 20:47:49 公開日:2024-08-08 |
# TPA3D:高速テキストから3D生成のためのトライプレーンアテンション
TPA3D: Triplane Attention for Fast Text-to-3D Generation ( http://arxiv.org/abs/2312.02647v2 ) ライセンス: Link先を確認 | Bin-Shih Wu, Hong-En Chen, Sheng-Yu Huang, Yu-Chiang Frank Wang, | (参考訳) 大規模なテキスト3D対応データがないため、最近のテキスト・ツー・3D生成は主に3Dデータの合成に2D拡散モデルを活用することに依存している。
拡散法は通常、トレーニングと推論の両方にかなりの最適化時間を必要とするため、高速な3D生成にはGANベースのモデルを使うことが望ましい。
本研究では,高速テキスト・ツー・3D生成のための学習モデルであるTPA3D(Triplane Attention for text-guided 3D Generation)を提案する。
トレーニング中の3D形状データとレンダリングされた2D画像のみを用いて,TPA3Dは,対応する3Dメッシュデータを合成するための詳細な視覚的記述を検索するように設計されている。
これは,抽出した文と単語レベルのテキストの特徴に対する注意機構によって達成される。
実験の結果,TPA3Dは微細な記述に整合した高品質な3次元テクスチャ形状を生成できるが,計算効率は目覚ましい。
Due to the lack of large-scale text-3D correspondence data, recent text-to-3D generation works mainly rely on utilizing 2D diffusion models for synthesizing 3D data. Since diffusion-based methods typically require significant optimization time for both training and inference, the use of GAN-based models would still be desirable for fast 3D generation. In this work, we propose Triplane Attention for text-guided 3D generation (TPA3D), an end-to-end trainable GAN-based deep learning model for fast text-to-3D generation. With only 3D shape data and their rendered 2D images observed during training, our TPA3D is designed to retrieve detailed visual descriptions for synthesizing the corresponding 3D mesh data. This is achieved by the proposed attention mechanisms on the extracted sentence and word-level text features. In our experiments, we show that TPA3D generates high-quality 3D textured shapes aligned with fine-grained descriptions, while impressive computation efficiency can be observed. | 翻訳日:2024-08-09 20:47:49 公開日:2024-08-08 |
# WoVoGen: 制御可能なマルチカメラ駆動シーン生成のための世界ボリューム対応拡散
WoVoGen: World Volume-aware Diffusion for Controllable Multi-camera Driving Scene Generation ( http://arxiv.org/abs/2312.02934v4 ) ライセンス: Link先を確認 | Jiachen Lu, Ze Huang, Zeyu Yang, Jiahui Zhang, Li Zhang, | (参考訳) マルチカメラストリートビュービデオの生成は、広範囲で多様なデータに対する緊急の要求に対処するため、自動運転データセットの増大に不可欠である。
照明条件を扱う際の多様性や課題の制限により、従来のレンダリングベースの手法は拡散ベースの手法に取って代わられつつある。
しかし、拡散法における重要な課題は、生成したセンサデータが世界内部の一貫性とセンサ間のコヒーレンスの両方を維持することを保証することである。
これらの課題に対処するため,新たな世界ボリュームを組み合わせ,WoVoGen(World Volume-aware Multi-camera Driving Scene Generator)を提案する。
このシステムは、4Dワールドボリュームをビデオ生成の基礎要素として活用するように設計されている。
私たちのモデルは2つの異なるフェーズで動作します。
一 車両制御順序に基づく将来の四次元時空間容積を想定すること。
(II) この4次元時間的世界容積とセンサの相互接続性から, マルチカメラ映像を生成する。
4Dワールドボリュームの導入により、WoVoGenは車載制御入力に応じて高品質なストリートビュービデオを生成するだけでなく、シーン編集作業を容易にすることができる。
Generating multi-camera street-view videos is critical for augmenting autonomous driving datasets, addressing the urgent demand for extensive and varied data. Due to the limitations in diversity and challenges in handling lighting conditions, traditional rendering-based methods are increasingly being supplanted by diffusion-based methods. However, a significant challenge in diffusion-based methods is ensuring that the generated sensor data preserve both intra-world consistency and inter-sensor coherence. To address these challenges, we combine an additional explicit world volume and propose the World Volume-aware Multi-camera Driving Scene Generator (WoVoGen). This system is specifically designed to leverage 4D world volume as a foundational element for video generation. Our model operates in two distinct phases: (i) envisioning the future 4D temporal world volume based on vehicle control sequences, and (ii) generating multi-camera videos, informed by this envisioned 4D temporal world volume and sensor interconnectivity. The incorporation of the 4D world volume empowers WoVoGen not only to generate high-quality street-view videos in response to vehicle control inputs but also to facilitate scene editing tasks. | 翻訳日:2024-08-09 20:47:49 公開日:2024-08-08 |
# Cascade-Zero123: 近景を自力で撮影する3D画像
Cascade-Zero123: One Image to Highly Consistent 3D with Self-Prompted Nearby Views ( http://arxiv.org/abs/2312.04424v2 ) ライセンス: Link先を確認 | Yabo Chen, Jiemin Fang, Yuyang Huang, Taoran Yi, Xiaopeng Zhang, Lingxi Xie, Xinggang Wang, Wenrui Dai, Hongkai Xiong, Qi Tian, | (参考訳) 一つの画像からマルチビュー3Dを合成することは、重要だが難しい課題だ。
Zero-1-to-3法は2次元潜在拡散モデルを3次元範囲に引き上げることで大きな成功を収めた。
ターゲットビュー画像は、単一のビューソース画像で生成され、カメラが条件情報としてポーズする。
しかし、単一の入力画像の空間密度が高いため、Zero-1-to-3はビュー全体、特に複雑なオブジェクトに対して幾何と外観の不整合を生み出す傾向にある。
この問題に対処するために、我々は生成モデルに対してより多くの条件情報を提供するが、自己宣伝的な方法で提供することを提案する。
カスケードフレームワークは2つのZero-1-to-3モデル、Cascade-Zero123で構築され、ソース画像から徐々に3D情報を抽出する。
具体的には、近くのいくつかのビューが最初に第1のモデルによって生成され、生成条件としてソース画像とともに第2のモデルに供給される。
我々のCascade-Zero123は、増幅された自己プロンプト条件画像により、Zero-1-to-3よりも一貫した新規ビュー画像を生成する。
実験の結果、特に昆虫、人間、透明な物体、積み重ねられた複数の物体など、複雑で困難な場面で顕著な促進が示された。
さらなるデモとコードはhttps://cascadezero123.github.ioで公開されている。
Synthesizing multi-view 3D from one single image is a significant but challenging task. Zero-1-to-3 methods have achieved great success by lifting a 2D latent diffusion model to the 3D scope. The target view image is generated with a single-view source image and the camera pose as condition information. However, due to the high sparsity of the single input image, Zero-1-to-3 tends to produce geometry and appearance inconsistency across views, especially for complex objects. To tackle this issue, we propose to supply more condition information for the generation model but in a self-prompt way. A cascade framework is constructed with two Zero-1-to-3 models, named Cascade-Zero123, which progressively extract 3D information from the source image. Specifically, several nearby views are first generated by the first model and then fed into the second-stage model along with the source image as generation conditions. With amplified self-prompted condition images, our Cascade-Zero123 generates more consistent novel-view images than Zero-1-to-3. Experiment results demonstrate remarkable promotion, especially for various complex and challenging scenes, involving insects, humans, transparent objects, and stacked multiple objects etc. More demos and code are available at https://cascadezero123.github.io. | 翻訳日:2024-08-09 20:47:48 公開日:2024-08-08 |
# 自然言語処理におけるハイブリッド・アンサンブルの検討
A Review of Hybrid and Ensemble in Deep Learning for Natural Language Processing ( http://arxiv.org/abs/2312.05589v2 ) ライセンス: Link先を確認 | Jianguo Jia, Wen Liang, Youzhi Liang, | (参考訳) 本稿では、自然言語処理(NLP)におけるハイブリッド・アンサンブル深層学習モデルの総合的な探索を行い、感性分析、名前付きエンティティ認識、機械翻訳、問合せ回答、テキスト分類、生成、音声認識、要約、言語モデリングなどの様々なタスクにおいて、それらの変換可能性に光を当てる。
本稿では,各タスクを体系的に導入し,主要なアーキテクチャをリカレントニューラルネットワーク(RNN)からBERTなどのトランスフォーマーベースモデルに記述し,その性能,課題,計算要求を評価する。
アンサンブル技術の適用性を強調し、様々なNLPアプリケーションを強化する能力を強調している。
計算オーバーヘッド、オーバーフィッティング、モデル解釈複雑性などの実装上の課題は、解釈可能性と性能のトレードオフと共に解決される。
簡潔で価値の低いガイドとして、このレビューは、タスク、アーキテクチャ、課題に関する洞察を合成し、NLPの深層学習をアンサンブルすることで、言語駆動アプリケーションを前進させようとする研究者や実践者に対して、総合的な視点を提供する。
This review presents a comprehensive exploration of hybrid and ensemble deep learning models within Natural Language Processing (NLP), shedding light on their transformative potential across diverse tasks such as Sentiment Analysis, Named Entity Recognition, Machine Translation, Question Answering, Text Classification, Generation, Speech Recognition, Summarization, and Language Modeling. The paper systematically introduces each task, delineates key architectures from Recurrent Neural Networks (RNNs) to Transformer-based models like BERT, and evaluates their performance, challenges, and computational demands. The adaptability of ensemble techniques is emphasized, highlighting their capacity to enhance various NLP applications. Challenges in implementation, including computational overhead, overfitting, and model interpretation complexities, are addressed alongside the trade-off between interpretability and performance. Serving as a concise yet invaluable guide, this review synthesizes insights into tasks, architectures, and challenges, offering a holistic perspective for researchers and practitioners aiming to advance language-driven applications through ensemble deep learning in NLP. | 翻訳日:2024-08-09 20:47:48 公開日:2024-08-08 |
# MS-Twins:医療画像セグメンテーションのためのマルチスケールディープセルフアテンションネットワーク
MS-Twins: Multi-Scale Deep Self-Attention Networks for Medical Image Segmentation ( http://arxiv.org/abs/2312.07128v2 ) ライセンス: Link先を確認 | Jing Xu, | (参考訳) 胸部X線は胸部疾患の診断において最も一般的な放射線検査の1つである。
近年,放射線画像の自動分類技術が臨床診断や治療計画に広く利用されている。
しかし,各疾患にはそれぞれ異なる応答性受容野があり,胸部疾患分類の課題となっている。
さらに、サンプルデータカテゴリの不均衡は、タスクの難易度をさらに高める。
これらの問題を解決するために,マルチスケールアテンションネットワークに基づく新しいマルチラベル胸部画像分類手法を提案する。
このスキームでは、マルチスケール情報を反復的に融合して、病気の確率の高い地域に集中し、データからより有意義な情報を効果的にマイニングし、分類性能を画像レベルのアノテーションによって改善することができる。
また、画像変換前後の注意領域の整合性を強制することで、視覚知覚の合理性と多ラベル画像分類の性能を向上させるために、新たな損失関数を設計した。
胸部X線画像分類におけるこの手法の有効性を検証するため,公共のChest X-Ray14およびCheXpertデータセットを用いて総合的な実験を行った。
Chest X-ray is one of the most common radiological examination types for the diagnosis of chest diseases. Nowadays, the automatic classification technology of radiological images has been widely used in clinical diagnosis and treatment plans. However, each disease has its own different response characteristic receptive field region, which is the main challenge for chest disease classification tasks. Besides, the imbalance of sample data categories further increases the difficulty of tasks. To solve these problems, we propose a new multi-label chest disease image classification scheme based on a multi-scale attention network. In this scheme, multi-scale information is iteratively fused to focus on regions with a high probability of disease, to effectively mine more meaningful information from data, and the classification performance can be improved only by image level annotation. We also designed a new loss function to improve the rationality of visual perception and the performance of multi-label image classification by forcing the consistency of attention regions before and after image transformation. A comprehensive experiment was carried out on the public Chest X-Ray14 and CheXpert datasets to achieve state of the art results, which verified the effectiveness of this method in chest X-ray image classification. | 翻訳日:2024-08-09 20:47:48 公開日:2024-08-08 |
# 学習とリコール : 事前学習型言語モデルによるインクリメンタルラーニングの再考
Learn or Recall? Revisiting Incremental Learning with Pre-trained Language Models ( http://arxiv.org/abs/2312.07887v5 ) ライセンス: Link先を確認 | Junhao Zheng, Shengjie Qiu, Qianli Ma, | (参考訳) インクリメンタルラーニング(IL)は、ビジョンと自然言語処理(NLP)コミュニティにおいて長年の課題であった。
近年、PLM(Pre-trained Language Models)は様々なNLP下流タスクにおいて顕著な進歩を遂げており、最近のNLPにおけるIL研究において、PLMをバックボーンとして活用することが一般的となっている。
殆どの人は、破滅的な忘れが優れたIL性能を達成するための最大の障害であると仮定し、この問題を克服するための様々な手法を提案する。
しかし、この仮定は問題となる。
具体的には,4つの分類タスク(テキスト分類,インテント分類,関係抽出,名前付きエンティティ認識)について,最も一般的な2つのIL設定(クラスインクリメンタルとタスクインクリメンタル)に基づいて20以上の手法を再検討し,PLMの固有のアンチフォジット能力を著しく過小評価していることを明らかにする。
そこで本研究では,PLMを用いたILのためのSEQ*というフラストレーションに富んだ手法を提案する。
その結果,SEQ* は最新式 (SOTA) の IL 法に比べて性能が優れており,トレーニング時間やトレーニング時間もかなり少ないことがわかった。
これらの知見は, ILをPLMで再考し, 今後の研究がPLMにおける破滅的な忘れを根本的に理解することを促すものである。
データ、コード、スクリプトはhttps://github.com/zzz47zzz/codebase-for-incremental-learning-with-llm.comで公開されている。
Incremental Learning (IL) has been a long-standing problem in both vision and Natural Language Processing (NLP) communities. In recent years, as Pre-trained Language Models (PLMs) have achieved remarkable progress in various NLP downstream tasks, utilizing PLMs as backbones has become a common practice in recent research of IL in NLP. Most assume that catastrophic forgetting is the biggest obstacle to achieving superior IL performance and propose various techniques to overcome this issue. However, we find that this assumption is problematic. Specifically, we revisit more than 20 methods on four classification tasks (Text Classification, Intent Classification, Relation Extraction, and Named Entity Recognition) under the two most popular IL settings (Class-Incremental and Task-Incremental) and reveal that most of them severely underestimate the inherent anti-forgetting ability of PLMs. Based on the observation, we propose a frustratingly easy method called SEQ* for IL with PLMs. The results show that SEQ* has competitive or superior performance compared to state-of-the-art (SOTA) IL methods and requires considerably less trainable parameters and training time. These findings urge us to revisit the IL with PLMs and encourage future studies to have a fundamental understanding of the catastrophic forgetting in PLMs. The data, code and scripts are publicly available at https://github.com/zzz47zzz/codebase-for-incremental-learning-with-llm. | 翻訳日:2024-08-09 20:47:48 公開日:2024-08-08 |
# DreamTalk: 感情的な会話のヘッドジェネレーションが拡散確率モデルに出会ったとき
DreamTalk: When Emotional Talking Head Generation Meets Diffusion Probabilistic Models ( http://arxiv.org/abs/2312.09767v2 ) ライセンス: Link先を確認 | Yifeng Ma, Shiwei Zhang, Jiayu Wang, Xiang Wang, Yingya Zhang, Zhidong Deng, | (参考訳) 感情的なトーキング・ヘッドジェネレーションは注目を集めている。
従来は、主にGANをベースとした手法では、多様な感情にまたがる満足な結果を一貫して生み出すのに苦慮しており、パーソナライズされた感情を便利に特定することはできない。
本研究では,この課題に対処するために,強力な拡散モデルを活用するとともに,感情的な話し声を発生させる際の拡散モデルの可能性を明らかにするために,巧妙な設計を採用するフレームワークであるDreamTalkを提案する。
具体的には、DreamTalkは3つの重要なコンポーネントで構成されている。
拡散に基づく認知ネットワークは、様々な感情にまたがる高品質な音声駆動の顔の動きを一貫して合成することができる。
唇運動の精度と感情のフルネスを高めるために,感情の強さを保ちながらリップシンクをガイドできるスタイルアウェアな唇専門家を紹介した。
パーソナライズされた感情をより便利に特定するために、拡散に基づくスタイル予測器を使用して、パーソナライズされた感情を直接オーディオから予測し、追加の感情参照の必要性をなくす。
つまりDreamTalkは、さまざまな感情にまたがる鮮やかな会話の表情を一貫して生成し、パーソナライズされた感情を便利に特定できる。
大規模な実験はDreamTalkの有効性と優位性を検証する。
コードはhttps://github.com/ali-vilab/dreamtalk.comで公開されている。
Emotional talking head generation has attracted growing attention. Previous methods, which are mainly GAN-based, still struggle to consistently produce satisfactory results across diverse emotions and cannot conveniently specify personalized emotions. In this work, we leverage powerful diffusion models to address the issue and propose DreamTalk, a framework that employs meticulous design to unlock the potential of diffusion models in generating emotional talking heads. Specifically, DreamTalk consists of three crucial components: a denoising network, a style-aware lip expert, and a style predictor. The diffusion-based denoising network can consistently synthesize high-quality audio-driven face motions across diverse emotions. To enhance lip-motion accuracy and emotional fullness, we introduce a style-aware lip expert that can guide lip-sync while preserving emotion intensity. To more conveniently specify personalized emotions, a diffusion-based style predictor is utilized to predict the personalized emotion directly from the audio, eliminating the need for extra emotion reference. By this means, DreamTalk can consistently generate vivid talking faces across diverse emotions and conveniently specify personalized emotions. Extensive experiments validate DreamTalk's effectiveness and superiority. The code is available at https://github.com/ali-vilab/dreamtalk. | 翻訳日:2024-08-09 20:47:48 公開日:2024-08-08 |
# 医用時系列におけるイベントベースコントラスト学習
Event-Based Contrastive Learning for Medical Time Series ( http://arxiv.org/abs/2312.10308v4 ) ライセンス: Link先を確認 | Hyewon Jeong, Nassim Oufattole, Matthew Mcdermott, Aparna Balagopalan, Bryan Jangeesingh, Marzyeh Ghassemi, Collin Stultz, | (参考訳) 臨床実践では、重要な医療イベントの後、患者が有害な結果のリスクが高いかどうかを判断する必要があることが多い。
例えば、急性心血管イベント後の副作用のリスクの定量化は、医療提供者がこれらの患者を最も悪い結果のリスクで識別するのに役立つ。
しかし、特に心不全などの慢性疾患に苦しむ患者にとって、慢性的な医療データの複雑さ、変動性、不均一性から、有害な結果のリスクを評価することは困難である。
本稿では,鍵指標イベント前後の時間情報を保存する異種患者データの埋め込みを学習するためのイベントベースコントラスト学習(EBCL)を紹介する。
EBCLは、他の事前学習手法と比較して、重要な下流タスクの性能向上をもたらすモデルを構築するのに利用できることを示す。
我々は,大病院ネットワークから得られた心不全患者のコホートと,大3次医療センターの集中治療室の患者からなるMIMIC-IVデータセットを用いて,その方法を開発した。
両方のコホートにおいて、EBCL事前訓練は、死亡率、病院の入院期間、滞在期間など、多くの下流業務に関して実行されたモデルを生成する。
さらに、教師なしEBCL埋め込みは、心不全患者を異なる結果のサブグループに効果的にクラスタリングすることで、新しい心不全表現型を特定するのに役立つ情報を提供する。
インデックスイベントに関する対照的なフレームワークは、幅広い時系列データセットに適応することができ、パーソナライズされたケアをガイドするために使用できる情報を提供する。
In clinical practice, one often needs to identify whether a patient is at high risk of adverse outcomes after some key medical event. For example, quantifying the risk of adverse outcomes after an acute cardiovascular event helps healthcare providers identify those patients at the highest risk of poor outcomes; i.e., patients who benefit from invasive therapies that can lower their risk. Assessing the risk of adverse outcomes, however, is challenging due to the complexity, variability, and heterogeneity of longitudinal medical data, especially for individuals suffering from chronic diseases like heart failure. In this paper, we introduce Event-Based Contrastive Learning (EBCL) - a method for learning embeddings of heterogeneous patient data that preserves temporal information before and after key index events. We demonstrate that EBCL can be used to construct models that yield improved performance on important downstream tasks relative to other pretraining methods. We develop and test the method using a cohort of heart failure patients obtained from a large hospital network and the publicly available MIMIC-IV dataset consisting of patients in an intensive care unit at a large tertiary care center. On both cohorts, EBCL pretraining yields models that are performant with respect to a number of downstream tasks, including mortality, hospital readmission, and length of stay. In addition, unsupervised EBCL embeddings effectively cluster heart failure patients into subgroups with distinct outcomes, thereby providing information that helps identify new heart failure phenotypes. The contrastive framework around the index event can be adapted to a wide array of time-series datasets and provides information that can be used to guide personalized care. | 翻訳日:2024-08-09 20:47:48 公開日:2024-08-08 |
# 善の排除と悪の回避--安全強化学習への漸進的アプローチ
Imitate the Good and Avoid the Bad: An Incremental Approach to Safe Reinforcement Learning ( http://arxiv.org/abs/2312.10385v4 ) ライセンス: Link先を確認 | Huy Hoang, Tien Mai, Pradeep Varakantham, | (参考訳) 強化学習(RL)における安全な行動を実施するための一般的な枠組みは制約付きRL(Constrained RL)である。
制約付きRLを解くための最近のアプローチでは、トラジェクトリに基づくコスト制約を代理問題に変換し、RL法に小さな修正を加えて解くことができる。
このようなアプローチの主な欠点は、各状態におけるコスト制約の過小評価または過小評価である。
そこで我々は, トラジェクトリに基づくコスト制約を変更しないアプローチを提案し, その代わりに「良い」トラジェクトリを模倣し, 「悪い」トラジェクトリを段階的に改善することで生じる「悪い」トラジェクトリを避ける。
我々は、報酬しきい値(学習によって変化する)と、トラジェクトリを ``good'' または ``bad'' とラベル付けするための全体的なコスト制約を利用するオラクルを採用している。
このアプローチの重要な利点は、開始ポリシーや一連のトラジェクトリから作業し、それを改善することができることです。
総括的な実験により,提案手法は予測コスト,CVaRコスト,さらには未知のコスト制約に対して,制約付きRL問題を解く上で,最上位のベンチマーク手法より優れていることを示した。
A popular framework for enforcing safe actions in Reinforcement Learning (RL) is Constrained RL, where trajectory based constraints on expected cost (or other cost measures) are employed to enforce safety and more importantly these constraints are enforced while maximizing expected reward. Most recent approaches for solving Constrained RL convert the trajectory based cost constraint into a surrogate problem that can be solved using minor modifications to RL methods. A key drawback with such approaches is an over or underestimation of the cost constraint at each state. Therefore, we provide an approach that does not modify the trajectory based cost constraint and instead imitates ``good'' trajectories and avoids ``bad'' trajectories generated from incrementally improving policies. We employ an oracle that utilizes a reward threshold (which is varied with learning) and the overall cost constraint to label trajectories as ``good'' or ``bad''. A key advantage of our approach is that we are able to work from any starting policy or set of trajectories and improve on it. In an exhaustive set of experiments, we demonstrate that our approach is able to outperform top benchmark approaches for solving Constrained RL problems, with respect to expected cost, CVaR cost, or even unknown cost constraints. | 翻訳日:2024-08-09 20:47:48 公開日:2024-08-08 |
# 量子回路設計における強化学習の課題
Challenges for Reinforcement Learning in Quantum Circuit Design ( http://arxiv.org/abs/2312.11337v3 ) ライセンス: Link先を確認 | Philipp Altmann, Jonas Stein, Michael Kölle, Adelina Bärligea, Thomas Gabor, Thomy Phan, Sebastian Feld, Claudia Linnhoff-Popien, | (参考訳) 現在のNISQ時代の量子コンピューティング(QC)は、サイズと精度がまだ限られている。
これらの欠点を緩和するハイブリッドアプリケーションは、早期の洞察とアドバンテージを得るために一般的である。
ハイブリッド量子機械学習(QML)は、機械学習(ML)を改善するためのQCの応用と、QCアーキテクチャを改善するためのMLの両方を含む。
本研究は、量子回路設計(QCD)を改善するために強化学習(RL)を活用し、汎用目的の集合を形式化する。
さらに、マルコフ決定過程として定式化された具体的なフレームワークであるqcd-gymを提案し、連続パラメータ化された量子ゲートの普遍的なセットを制御することができる学習ポリシーを実現する。
最後に、現在の最先端RLアルゴリズムの欠点と長所を評価するために、ベンチマーク比較を行う。
Quantum computing (QC) in the current NISQ era is still limited in size and precision. Hybrid applications mitigating those shortcomings are prevalent to gain early insight and advantages. Hybrid quantum machine learning (QML) comprises both the application of QC to improve machine learning (ML) and ML to improve QC architectures. This work considers the latter, leveraging reinforcement learning (RL) to improve quantum circuit design (QCD), which we formalize by a set of generic objectives. Furthermore, we propose qcd-gym, a concrete framework formalized as a Markov decision process, to enable learning policies capable of controlling a universal set of continuously parameterized quantum gates. Finally, we provide benchmark comparisons to assess the shortcomings and strengths of current state-of-the-art RL algorithms. | 翻訳日:2024-08-09 20:47:48 公開日:2024-08-08 |
# 高次セルオートマタによるトポロジカル位相の生成と多点ストレンジ相関器による検出
Higher-Order Cellular Automata Generated Symmetry-Protected Topological Phases and Detection Through Multi-Point Strange Correlators ( http://arxiv.org/abs/2401.00505v3 ) ライセンス: Link先を確認 | Jie-Yu Zhang, Meng-Yuan Li, Peng Ye, | (参考訳) コンピュータ科学やシステム科学において、高階セルオートマトン(英: High-order cellularautoa、HOCA)は、複数の時間ステップで進化し、複雑なパターンを生成するセルオートマトンの一種である。
本稿では、量子多体物理学にHOCAを導入し、SPTバルクに埋め込まれた多種多様なサブシステムで対称性が支持される一連の物質の対称性保護トポロジカル(SPT)相を構築する。
これらの相をHOCA生成SPT(HGSPT)相と呼ぶ。
具体的には、HOCAは、正規(例えば、2Dクラスタモデルのラインライクなサブシステム)またはフラクタルサブシステムでサポートされている対称性を持つよく理解されたSPTだけでなく、より多くのサブシステムでサポートされている対称性を持つ探索されていないSPTの大規模なクラスを生成することができることを示す。
1つの例は \textit{mixed-subsystem SPT} であり、これはフラクタルとラインライクなサブシステム対称性を同時に有するか、2つの異なるフラクタル対称性を同時に有する。
もう一つの例は \textit{chaotic-subsystem SPT} であり、カオス的な対称性は明らかに異なるため、フラクタルあるいは正規のサブシステム対称性に還元できない。
HGSPTを特徴付ける新しい表記法も導入する。
正方格子内のすべての亜系対称性がHOCA生成対称性によって局所的にシミュレート可能であることを証明した。
通常の2点奇相関器はほとんどの HGSPT において自明であるため、非自明な SPT 順序は \textit{multi-point strange correlator} と呼ばれるものによって検出できる。
与えられたHGSPT位相に対する多点奇妙な相関器の空間構成を設計するための普遍的な手順を提案する。
具体的には,多点奇妙な相関器と,SRE状態の長距離挙動を示すスプリアストポロジカルエントロピー(STEE)との深い関係を見出した。
In computer and system sciences, higher-order cellular automata (HOCA) are a type of cellular automata that evolve over multiple time steps and generate complex patterns, which have various applications such as secret sharing schemes, data compression, and image encryption. In this paper, we introduce HOCA to quantum many-body physics and construct a series of symmetry-protected topological (SPT) phases of matter, in which symmetries are supported on a great variety of subsystems embbeded in the SPT bulk. We call these phases HOCA-generated SPT (HGSPT) phases. Specifically, we show that HOCA can generate not only well-understood SPTs with symmetries supported on either regular (e.g., line-like subsystems in the 2D cluster model) or fractal subsystems, but also a large class of unexplored SPTs with symmetries supported on more choices of subsystems. One example is \textit{mixed-subsystem SPT} that has either fractal and line-like subsystem symmetries simultaneously or two distinct types of fractal symmetries simultaneously. Another example is \textit{chaotic-subsystem SPT} in which chaotic-looking symmetries are significantly different from and thus cannot reduce to fractal or regular subsystem symmetries. We also introduce a new notation system to characterize HGSPTs. We prove that all possible subsystem symmetries in square lattice can be locally simulated by an HOCA generated symmetry. As the usual two-point strange correlators are trivial in most HGSPTs, we find that the nontrivial SPT orders can be detected by what we call \textit{multi-point strange correlators}. We propose a universal procedure to design the spatial configuration of the multi-point strange correlators for a given HGSPT phase. Specifically, we find deep connections between multi-point strange correlators and the spurious topological entanglement entropy (STEE), both exhibiting long range behavior in SRE states. | 翻訳日:2024-08-09 20:38:04 公開日:2024-08-08 |
# 誤りを伴う量子クリロフアルゴリズムの解析
Analysis of quantum Krylov algorithms with errors ( http://arxiv.org/abs/2401.01246v4 ) ライセンス: Link先を確認 | William Kirby, | (参考訳) この研究は、量子回路の出力における一般的な誤差を考慮に入れた、リアルタイム進化に基づく量子クリロフアルゴリズムの漸近的誤り解析を提供する。
得られた基底状態エネルギー推定値の上限と下限を証明し、上限の誤差は入力誤差率で線形である。
これは、およそ線形な誤差のスケーリングを示す既知の数値と、証明可能な平方根のスケーリングしか得られない事前理論解析との相違を解消する。
我々の主な手法は、実効的クリロフ空間で研究された実効的対象ハミルトニアンの観点から、一般的な誤差を表現することである。
これらの結果は、量子クリロフ誤差の主な特徴を理解するための理論的枠組みを提供する。
This work provides a nonasymptotic error analysis of quantum Krylov algorithms based on real-time evolutions, subject to generic errors in the outputs of the quantum circuits. We prove upper and lower bounds on the resulting ground state energy estimates, and the error in the upper bound is linear in the input error rates. This resolves a misalignment between known numerics, which exhibit approximately linear error scaling, and prior theoretical analysis, which only provably obtained square-root scaling. Our main technique is to express generic errors in terms of an effective target Hamiltonian studied in an effective Krylov space. These results provide a theoretical framework for understanding the main features of quantum Krylov errors. | 翻訳日:2024-08-09 20:38:04 公開日:2024-08-08 |
# Few-Shot画像認識のための意味的関係ガイダンス付きデュアルビューデータ幻覚
Dual-View Data Hallucination with Semantic Relation Guidance for Few-Shot Image Recognition ( http://arxiv.org/abs/2401.07061v2 ) ライセンス: Link先を確認 | Hefeng Wu, Guangzhi Ye, Ziyang Zhou, Ling Tian, Qing Wang, Liang Lin, | (参考訳) 少数の画像サンプルから新しい概念を認識することは、学習されたモデルが少数のデータに簡単に過度に適合し、結果として一般化しにくいため、非常に難しい。
有望だが探索されていない解決策の1つは、可塑性サンプルを生成することによって、新しいクラスを補うことである。
しかし、このラインの既存の作業の多くは視覚情報のみを利用しており、生成したデータを数少ないサンプルに含まれるいくつかの困難な要因によって簡単に注意をそらすことができる。
人間の概念を反映したテキストモダリティのセマンティック情報を意識した本研究は、セマンティックな関係を利用して、画像認識のための双対ビューデータ幻覚を導出する新しいフレームワークを提案する。
提案フレームワークは,新しいクラスに対して,より多様で合理的なデータサンプルを,ベースクラスからの効果的な情報伝達によって生成することができる。
具体的には、インスタンスビューデータ幻覚モジュールは、新しいクラスの各サンプルを幻覚させ、局所的意味関連注意と、ベースクラスから派生したグローバルな意味的特徴融合を利用して、新しいデータを生成する。
一方、プロトタイプビューデータ幻覚モジュールは、セマンティック・アウェア・測度を利用して、新しいクラスのプロトタイプと関連する分布を少数のサンプルから推定し、より安定したサンプルとして抽出し、多数のサンプルを再サンプリングすることができる。
我々は,提案フレームワークの有効性を検証するために,いくつかの一般的な数ショットベンチマークにおいて,最先端の手法に対する広範な実験と比較を行った。
Learning to recognize novel concepts from just a few image samples is very challenging as the learned model is easily overfitted on the few data and results in poor generalizability. One promising but underexplored solution is to compensate the novel classes by generating plausible samples. However, most existing works of this line exploit visual information only, rendering the generated data easy to be distracted by some challenging factors contained in the few available samples. Being aware of the semantic information in the textual modality that reflects human concepts, this work proposes a novel framework that exploits semantic relations to guide dual-view data hallucination for few-shot image recognition. The proposed framework enables generating more diverse and reasonable data samples for novel classes through effective information transfer from base classes. Specifically, an instance-view data hallucination module hallucinates each sample of a novel class to generate new data by employing local semantic correlated attention and global semantic feature fusion derived from base classes. Meanwhile, a prototype-view data hallucination module exploits semantic-aware measure to estimate the prototype of a novel class and the associated distribution from the few samples, which thereby harvests the prototype as a more stable sample and enables resampling a large number of samples. We conduct extensive experiments and comparisons with state-of-the-art methods on several popular few-shot benchmarks to verify the effectiveness of the proposed framework. | 翻訳日:2024-08-09 20:38:04 公開日:2024-08-08 |
# SVIPTR:視覚可変エクストラクタを用いた高速かつ効率的なシーンテキスト認識
SVIPTR: Fast and Efficient Scene Text Recognition with Vision Permutable Extractor ( http://arxiv.org/abs/2401.10110v4 ) ライセンス: Link先を確認 | Xianfu Cheng, Weixiao Zhou, Xiang Li, Jian Yang, Hang Zhang, Tao Sun, Wei Zhang, Yuying Mai, Tongliang Li, Xiaoming Chen, Zhoujun Li, | (参考訳) Scene Text Recognition (STR) は構造化された情報データベースを構築する上で重要かつ困難なタスクであり、自然のシーンの画像内でテキストを認識する。
現在のSTRのSOTAモデルは高い性能を示すが、一般的にはビジュアルエンコーダとシーケンスデコーダで構成されるハイブリッドアーキテクチャに依存するため、推論効率が低い。
本研究では,高速かつ効率的なScene Text Recognition (SVIPTR) のための VIsion Permutable extractor を提案する。
具体的には、SVIPTRは、局所的およびグローバルな自己注意層の組み合わせと置換によって特徴づけられるピラミッド構造を持つ視覚的意味抽出器を利用する。
この設計は軽量で効率的なモデルとなり、その推論は入力長に敏感である。
中国語と英語の両方のシーンテキスト認識のための各種標準データセットに対する大規模な実験結果によりSVIPTRの優位性が検証された。
特にSVIPTR-T(Tiny)は、他の軽量モデルと同等に高い競争精度を提供し、SOTA推論速度を達成する。
一方、SVIPTR-L (Large) はシングルエンコーダ型モデルではSOTA精度が向上し、低パラメータ数と良好な推論速度を維持している。
提案手法はSTRチャレンジに対して,高速かつ効率的なSTRを必要とする実世界のアプリケーションに多大な利益をもたらす説得力のあるソリューションを提供する。
コードはhttps://github.com/cxfyxl/VIPTRで公開されている。
Scene Text Recognition (STR) is an important and challenging upstream task for building structured information databases, that involves recognizing text within images of natural scenes. Although current state-of-the-art (SOTA) models for STR exhibit high performance, they typically suffer from low inference efficiency due to their reliance on hybrid architectures comprised of visual encoders and sequence decoders. In this work, we propose a VIsion Permutable extractor for fast and efficient Scene Text Recognition (SVIPTR), which achieves an impressive balance between high performance and rapid inference speeds in the domain of STR. Specifically, SVIPTR leverages a visual-semantic extractor with a pyramid structure, characterized by the Permutation and combination of local and global self-attention layers. This design results in a lightweight and efficient model and its inference is insensitive to input length. Extensive experimental results on various standard datasets for both Chinese and English scene text recognition validate the superiority of SVIPTR. Notably, the SVIPTR-T (Tiny) variant delivers highly competitive accuracy on par with other lightweight models and achieves SOTA inference speeds. Meanwhile, the SVIPTR-L (Large) attains SOTA accuracy in single-encoder-type models, while maintaining a low parameter count and favorable inference speed. Our proposed method provides a compelling solution for the STR challenge, which greatly benefits real-world applications requiring fast and efficient STR. The code is publicly available at https://github.com/cxfyxl/VIPTR. | 翻訳日:2024-08-09 20:38:04 公開日:2024-08-08 |
# ロバスト・一般化医用画像セグメンテーションのための高調波空間とスペクトル学習
Harmonized Spatial and Spectral Learning for Robust and Generalized Medical Image Segmentation ( http://arxiv.org/abs/2401.10373v2 ) ライセンス: Link先を確認 | Vandan Gorade, Sparsh Mittal, Debesh Jha, Rekha Singhal, Ulas Bagci, | (参考訳) 深層学習は、医用画像のセグメンテーションにおいて顕著な成果を示した。
しかし、一般的なディープラーニングモデルは、一般化の貧弱さに苦慮している。
(i)同じクラスが異なるサンプルに異なる形で現れるクラス内変異、及び
(II) 階級間独立性は, 異なる対象間の複雑な関係を捉えるのに困難であり, 偽陰性症例は高い傾向を示した。
本稿では,領域一般化医療画像のセグメンテーションを強化するために,空間的およびスペクトル的表現を相乗的に行う新しいアプローチを提案する。
我々は、中級特徴と文脈的長距離依存を捉えるためのモデル能力を改善するために、革新的なスペクトル相関係数の目的を導入する。
この目的は、貴重なスペクトル情報を取り入れることで、伝統的な空間的目的を補完する。
大規模な実験により、UNetやTransUNetのような既存のアーキテクチャでこの目的を最適化することで、一般化、解釈可能性、ノイズの堅牢性が大幅に向上し、より確実な予測がもたらされることが明らかになった。
例えば、心セグメンテーションでは、UNet と TransUNet による DSC の改善は 0.81 pp と 1.63 pp (pp = パーセンテージ) である。
我々の解釈可能性調査は、ほとんどのタスクにおいて、UNetで最適化された目的が、局所的な詳細と共にグローバルな文脈情報を導入することで、TransUNetよりも優れていることを示した。
これらの知見は,様々な画像モダリティと医療領域にまたがる提案手法の有効性と有効性を明らかにするものである。
Deep learning has demonstrated remarkable achievements in medical image segmentation. However, prevailing deep learning models struggle with poor generalization due to (i) intra-class variations, where the same class appears differently in different samples, and (ii) inter-class independence, resulting in difficulties capturing intricate relationships between distinct objects, leading to higher false negative cases. This paper presents a novel approach that synergies spatial and spectral representations to enhance domain-generalized medical image segmentation. We introduce the innovative Spectral Correlation Coefficient objective to improve the model's capacity to capture middle-order features and contextual long-range dependencies. This objective complements traditional spatial objectives by incorporating valuable spectral information. Extensive experiments reveal that optimizing this objective with existing architectures like UNet and TransUNet significantly enhances generalization, interpretability, and noise robustness, producing more confident predictions. For instance, in cardiac segmentation, we observe a 0.81 pp and 1.63 pp (pp = percentage point) improvement in DSC over UNet and TransUNet, respectively. Our interpretability study demonstrates that, in most tasks, objectives optimized with UNet outperform even TransUNet by introducing global contextual information alongside local details. These findings underscore the versatility and effectiveness of our proposed method across diverse imaging modalities and medical domains. | 翻訳日:2024-08-09 20:38:04 公開日:2024-08-08 |
# 説明可能な機械学習におけるSHAPスコアの分布不確かさ
The Distributional Uncertainty of the SHAP score in Explainable Machine Learning ( http://arxiv.org/abs/2401.12731v2 ) ライセンス: Link先を確認 | Santiago Cifuentes, Leopoldo Bertossi, Nina Pardal, Sergio Abriola, Maria Vanina Martinez, Miguel Romero, | (参考訳) 属性スコアは、入力エンティティにおける特徴値が機械学習モデルの出力にどれほど重要であるかを反映する。
最も人気のある属性スコアの1つはSHAPスコアであり、これは連立ゲーム理論で使われる一般的なシェープリー値のインスタンス化である。
このスコアの定義は、実体人口の確率分布に依存する。
正確な分布は一般に不明であるため、主観的に割り振るか、データから推定する必要がある。
本稿では,未知の実体集団分布下でのSHAPスコアの推論の原理的枠組みを提案する。
本フレームワークでは,潜在的な分布を含む不確実性領域を考察し,特徴量のSHAPスコアをこの領域上で定義した関数とする。
我々は,この関数の最大値と最小値を求める基本的な問題について検討し,すべての特徴のSHAPスコアに対して厳密な範囲を決定できることを示した。
特に、これらの問題と他の関連する問題の複雑さを指摘し、NP完全であることを示す。
最後に、実世界のデータセットで実験を行い、我々のフレームワークがより堅牢な機能スコアリングに寄与することを示した。
Attribution scores reflect how important the feature values in an input entity are for the output of a machine learning model. One of the most popular attribution scores is the SHAP score, which is an instantiation of the general Shapley value used in coalition game theory. The definition of this score relies on a probability distribution on the entity population. Since the exact distribution is generally unknown, it needs to be assigned subjectively or be estimated from data, which may lead to misleading feature scores. In this paper, we propose a principled framework for reasoning on SHAP scores under unknown entity population distributions. In our framework, we consider an uncertainty region that contains the potential distributions, and the SHAP score of a feature becomes a function defined over this region. We study the basic problems of finding maxima and minima of this function, which allows us to determine tight ranges for the SHAP scores of all features. In particular, we pinpoint the complexity of these problems, and other related ones, showing them to be NP-complete. Finally, we present experiments on a real-world dataset, showing that our framework may contribute to a more robust feature scoring. | 翻訳日:2024-08-09 20:38:04 公開日:2024-08-08 |
# RRWNet: 効率的な網膜動脈/静脈の分別と分類のための再帰的リファインメントネットワーク
RRWNet: Recursive Refinement Network for Effective Retinal Artery/Vein Segmentation and Classification ( http://arxiv.org/abs/2402.03166v4 ) ライセンス: Link先を確認 | José Morano, Guilherme Aresta, Hrvoje Bogunović, | (参考訳) 網膜血管の校正と構成は、様々な疾患や医学的状態において重要なバイオマーカーとなる。
網膜血管の徹底的な解析では、血管の分画と血管と静脈に分類する必要がある。
しかしながら、これらのタスクを手動で実行することは労働集約的であり、ヒューマンエラーを起こしやすい。
この課題に対処するためにいくつかの自動化手法が提案されているが、現在の技術状況は、セグメンテーションマップのトポロジ的一貫性に影響を及ぼす分類誤差の顕在化による課題に直面している。
本稿では,この制限に対処する新しいエンドツーエンドディープラーニングフレームワークであるRRWNetを紹介する。
このフレームワークは、セマンティックセグメンテーションマップを再帰的に洗練し、明確な分類エラーを修正し、トポロジ的一貫性を向上させる完全な畳み込みニューラルネットワークで構成されている。
特にRRWNetは、入力画像からベースセグメンテーションマップを生成するBaseサブネットワークと、これらのマップを反復的に再帰的に改善するRecursive Refinementサブネットワークの2つの特別なサブネットワークで構成されている。
3つの異なる公開データセットの評価は,提案手法の最先端性能を実証し,既存の手法よりも顕著な分類誤差が少なく,より位相的に一貫したセグメンテーションマップが得られることを示した。
さらに、RRWNet内のRecursive Refinementモジュールは、他のメソッドからのセグメンテーションマップの処理後処理に有効であることを証明し、その可能性を示す。
モデルコード、重み、予測はhttps://github.com/j-morano/rrwnet.comで公開される。
The caliber and configuration of retinal blood vessels serve as important biomarkers for various diseases and medical conditions. A thorough analysis of the retinal vasculature requires the segmentation of the blood vessels and their classification into arteries and veins, typically performed on color fundus images obtained by retinography. However, manually performing these tasks is labor-intensive and prone to human error. While several automated methods have been proposed to address this task, the current state of art faces challenges due to manifest classification errors affecting the topological consistency of segmentation maps. In this work, we introduce RRWNet, a novel end-to-end deep learning framework that addresses this limitation. The framework consists of a fully convolutional neural network that recursively refines semantic segmentation maps, correcting manifest classification errors and thus improving topological consistency. In particular, RRWNet is composed of two specialized subnetworks: a Base subnetwork that generates base segmentation maps from the input images, and a Recursive Refinement subnetwork that iteratively and recursively improves these maps. Evaluation on three different public datasets demonstrates the state-of-the-art performance of the proposed method, yielding more topologically consistent segmentation maps with fewer manifest classification errors than existing approaches. In addition, the Recursive Refinement module within RRWNet proves effective in post-processing segmentation maps from other methods, further demonstrating its potential. The model code, weights, and predictions will be publicly available at https://github.com/j-morano/rrwnet. | 翻訳日:2024-08-09 20:38:04 公開日:2024-08-08 |
# トラクタブル確率回路の多項式意味論
Polynomial Semantics of Tractable Probabilistic Circuits ( http://arxiv.org/abs/2402.09085v3 ) ライセンス: Link先を確認 | Oliver Broadrick, Honghua Zhang, Guy Van den Broeck, | (参考訳) 確率回路は多変量確率分布を表す多線型多項式を計算する。
これらは効率的な限界推定をサポートする抽出可能なモデルである。
しかし、様々な多項式意味論が文献(例えば、ネットワーク多項式、確率多項式、生成関数、フーリエ変換)で検討されている。
分布のこれらの多項式符号化の回路表現の関係はほとんど不明である。
本稿では,各確率回路モデルが二乗変数上の分布に対して,各確率回路モデルと等価であることを示す。
したがって、それらは全て、同じ分布のクラスにおける限界推論のために引き出される。
最後に、確率的生成回路(probabilistic generating circuits)と呼ばれる1つの多項式意味論の自然な拡張をカテゴリー的確率変数に拡張し、推論が#P-hardになることを示す。
Probabilistic circuits compute multilinear polynomials that represent multivariate probability distributions. They are tractable models that support efficient marginal inference. However, various polynomial semantics have been considered in the literature (e.g., network polynomials, likelihood polynomials, generating functions, and Fourier transforms). The relationships between circuit representations of these polynomial encodings of distributions is largely unknown. In this paper, we prove that for distributions over binary variables, each of these probabilistic circuit models is equivalent in the sense that any circuit for one of them can be transformed into a circuit for any of the others with only a polynomial increase in size. They are therefore all tractable for marginal inference on the same class of distributions. Finally, we explore the natural extension of one such polynomial semantics, called probabilistic generating circuits, to categorical random variables, and establish that inference becomes #P-hard. | 翻訳日:2024-08-09 20:38:04 公開日:2024-08-08 |
# アルゴリズムフェアネスとしての因果等保護
Causal Equal Protection as Algorithmic Fairness ( http://arxiv.org/abs/2402.12062v3 ) ライセンス: Link先を確認 | Marcello Di Bello, Nicolò Cangiotti, Michele Loi, | (参考訳) 統計的証拠に関する哲学文献とアルゴリズムフェアネスに関する学際文献を組み合わせることで,アルゴリズムフェアネスの因果解析と予測的証拠と診断的証拠の区別の観点から,近年の分類パリティに対する反論を再考する。
我々は,被告を有罪又は無罪とすることで2つのグループに分類するブラックボックス分類アルゴリズムとして,裁判手続に焦点をあてる。
我々は、分類と因果的アプローチを組み合わせた、因果的平等保護という新しい原則を擁護する。
do-calculusでは、因果的平等保護は、個人が保護的または社会的に健全な特性のため、分類ミスの不均一なリスクを負わないよう要求する。
しかし、保護された特徴の明示的な使用は、これらのリスクが等しければ必要かもしれない。
By combining the philosophical literature on statistical evidence and the interdisciplinary literature on algorithmic fairness, we revisit recent objections against classification parity in light of causal analyses of algorithmic fairness and the distinction between predictive and diagnostic evidence. We focus on trial proceedings as a black-box classification algorithm in which defendants are sorted into two groups by convicting or acquitting them. We defend a novel principle, causal equal protection, that combines classification parity with the causal approach. In the do-calculus, causal equal protection requires that individuals should not be subject to uneven risks of classification error because of their protected or socially salient characteristics. The explicit use of protected characteristics, however, may be required if it equalizes these risks. | 翻訳日:2024-08-09 20:38:04 公開日:2024-08-08 |
# 非均一時間ポアソン過程の学習一般化と規則化
Learning Generalization and Regularization of Nonhomogeneous Temporal Poisson Processes ( http://arxiv.org/abs/2402.12808v2 ) ライセンス: Link先を確認 | Son Nguyen Van, Hoai Nguyen Xuan, | (参考訳) ポアソン過程、特に非同質ポアソン過程(NHPP)は、多くの実世界の応用を持つ本質的に重要な数え上げ過程である。
現在まで、文献におけるほぼ全ての研究は、非データ駆動のビンニング法を用いて無限のデータを持つNHPPの推定に費やされてきた。
本稿では,有限かつ限られたデータからNHPPを推定する問題を学習一般化問題として定式化する。
数学的には、結合法はNHPPの推定に不可欠であるが、データ量に制限がある場合、過度に適合する恐れがあることが示される。
本稿では,2つの新しい適応型およびデータ駆動型ビンニング手法によるNHPPの正規化学習フレームワークを提案する。
提案手法は, 合成および実世界のデータセットを用いて実験的に検証し, その有効性を示した。
The Poisson process, especially the nonhomogeneous Poisson process (NHPP), is an essentially important counting process with numerous real-world applications. Up to date, almost all works in the literature have been on the estimation of NHPPs with infinite data using non-data driven binning methods. In this paper, we formulate the problem of estimation of NHPPs from finite and limited data as a learning generalization problem. We mathematically show that while binning methods are essential for the estimation of NHPPs, they pose a threat of overfitting when the amount of data is limited. We propose a framework for regularized learning of NHPPs with two new adaptive and data-driven binning methods that help to remove the ad-hoc tuning of binning parameters. Our methods are experimentally tested on synthetic and real-world datasets and the results show their effectiveness. | 翻訳日:2024-08-09 20:38:04 公開日:2024-08-08 |
# アクション学習による大規模言語モデルエージェントの活用
Empowering Large Language Model Agents through Action Learning ( http://arxiv.org/abs/2402.15809v2 ) ライセンス: Link先を確認 | Haiteng Zhao, Chang Ma, Guoyin Wang, Jing Su, Lingpeng Kong, Jingjing Xu, Zhi-Hong Deng, Hongxia Yang, | (参考訳) 大規模言語モデル(LLM)エージェントは最近、関心が高まりつつあるが、知的行動の重要な要素である試行錯誤から学ぶ能力に制限がある。
本研究は, LLMエージェントにおける学習の進歩に, 経験から新たな行動を学ぶ能力が不可欠である,と論じる。
人間は自然に行動空間を拡張し、経験的学習を通じてスキルを発達させるが、LLMエージェントは通常、固定された行動空間内で活動し、成長の可能性を制限する。
これらの課題に対処するために,本稿では,言語エージェントのオープンアクション学習について検討する。
我々はPython関数の形式でアクションを作成し改善するための反復学習戦略を備えたフレームワークLearningActを紹介した。
各イテレーションでは、LLMはトレーニングタスクで特定されたエラーに基づいて、現在利用可能なアクションを修正および更新し、アクションの有効性を向上する。
ロボットプランニングとALFworld環境における実験的な評価から,オープンアクション学習のアプローチは,いくつかのトレーニングタスクインスタンスから学んだ後,よりインテリジェントなLCMエージェントの開発における経験的行動学習の重要性を強調した上で,タスクの種類に対するエージェントのパフォーマンスを著しく向上させる(例えば,ReAct+Reflexionの32%)。
Large Language Model (LLM) Agents have recently garnered increasing interest yet they are limited in their ability to learn from trial and error, a key element of intelligent behavior. In this work, we argue that the capacity to learn new actions from experience is fundamental to the advancement of learning in LLM agents. While humans naturally expand their action spaces and develop skills through experiential learning, LLM agents typically operate within fixed action spaces, limiting their potential for growth. To address these challenges, our study explores open-action learning for language agents. We introduce a framework LearnAct with an iterative learning strategy to create and improve actions in the form of Python functions. In each iteration, LLM revises and updates the currently available actions based on the errors identified in unsuccessful training tasks, thereby enhancing action effectiveness. Our experimental evaluations across Robotic Planning and Alfworld environments reveal that after learning on a few training task instances, our approach to open-action learning markedly improves agent performance for the type of task (by 32 percent in AlfWorld compared to ReAct+Reflexion, for instance) highlighting the importance of experiential action learning in the development of more intelligent LLM agents. | 翻訳日:2024-08-09 20:38:04 公開日:2024-08-08 |
# Gemini 1.5: 数百万のコンテキストトークンにわたるマルチモーダル理解のアンロック
Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context ( http://arxiv.org/abs/2403.05530v4 ) ライセンス: Link先を確認 | Gemini Team, Petko Georgiev, Ving Ian Lei, Ryan Burnell, Libin Bai, Anmol Gulati, Garrett Tanzer, Damien Vincent, Zhufeng Pan, Shibo Wang, Soroosh Mariooryad, Yifan Ding, Xinyang Geng, Fred Alcober, Roy Frostig, Mark Omernick, Lexi Walker, Cosmin Paduraru, Christina Sorokin, Andrea Tacchetti, Colin Gaffney, Samira Daruki, Olcan Sercinoglu, Zach Gleicher, Juliette Love, Paul Voigtlaender, Rohan Jain, Gabriela Surita, Kareem Mohamed, Rory Blevins, Junwhan Ahn, Tao Zhu, Kornraphop Kawintiranon, Orhan Firat, Yiming Gu, Yujing Zhang, Matthew Rahtz, Manaal Faruqui, Natalie Clay, Justin Gilmer, JD Co-Reyes, Ivo Penchev, Rui Zhu, Nobuyuki Morioka, Kevin Hui, Krishna Haridasan, Victor Campos, Mahdis Mahdieh, Mandy Guo, Samer Hassan, Kevin Kilgour, Arpi Vezer, Heng-Tze Cheng, Raoul de Liedekerke, Siddharth Goyal, Paul Barham, DJ Strouse, Seb Noury, Jonas Adler, Mukund Sundararajan, Sharad Vikram, Dmitry Lepikhin, Michela Paganini, Xavier Garcia, Fan Yang, Dasha Valter, Maja Trebacz, Kiran Vodrahalli, Chulayuth Asawaroengchai, Roman Ring, Norbert Kalb, Livio Baldini Soares, Siddhartha Brahma, David Steiner, Tianhe Yu, Fabian Mentzer, Antoine He, Lucas Gonzalez, Bibo Xu, Raphael Lopez Kaufman, Laurent El Shafey, Junhyuk Oh, Tom Hennigan, George van den Driessche, Seth Odoom, Mario Lucic, Becca Roelofs, Sid Lall, Amit Marathe, Betty Chan, Santiago Ontanon, Luheng He, Denis Teplyashin, Jonathan Lai, Phil Crone, Bogdan Damoc, Lewis Ho, Sebastian Riedel, Karel Lenc, Chih-Kuan Yeh, Aakanksha Chowdhery, Yang Xu, Mehran Kazemi, Ehsan Amid, Anastasia Petrushkina, Kevin Swersky, Ali Khodaei, Gowoon Chen, Chris Larkin, Mario Pinto, Geng Yan, Adria Puigdomenech Badia, Piyush Patil, Steven Hansen, Dave Orr, Sebastien M. R. Arnold, Jordan Grimstad, Andrew Dai, Sholto Douglas, Rishika Sinha, Vikas Yadav, Xi Chen, Elena Gribovskaya, Jacob Austin, Jeffrey Zhao, Kaushal Patel, Paul Komarek, Sophia Austin, Sebastian Borgeaud, Linda Friso, Abhimanyu Goyal, Ben Caine, Kris Cao, Da-Woon Chung, Matthew Lamm, Gabe Barth-Maron, Thais Kagohara, Kate Olszewska, Mia Chen, Kaushik Shivakumar, Rishabh Agarwal, Harshal Godhia, Ravi Rajwar, Javier Snaider, Xerxes Dotiwalla, Yuan Liu, Aditya Barua, Victor Ungureanu, Yuan Zhang, Bat-Orgil Batsaikhan, Mateo Wirth, James Qin, Ivo Danihelka, Tulsee Doshi, Martin Chadwick, Jilin Chen, Sanil Jain, Quoc Le, Arjun Kar, Madhu Gurumurthy, Cheng Li, Ruoxin Sang, Fangyu Liu, Lampros Lamprou, Rich Munoz, Nathan Lintz, Harsh Mehta, Heidi Howard, Malcolm Reynolds, Lora Aroyo, Quan Wang, Lorenzo Blanco, Albin Cassirer, Jordan Griffith, Dipanjan Das, Stephan Lee, Jakub Sygnowski, Zach Fisher, James Besley, Richard Powell, Zafarali Ahmed, Dominik Paulus, David Reitter, Zalan Borsos, Rishabh Joshi, Aedan Pope, Steven Hand, Vittorio Selo, Vihan Jain, Nikhil Sethi, Megha Goel, Takaki Makino, Rhys May, Zhen Yang, Johan Schalkwyk, Christina Butterfield, Anja Hauth, Alex Goldin, Will Hawkins, Evan Senter, Sergey Brin, Oliver Woodman, Marvin Ritter, Eric Noland, Minh Giang, Vijay Bolina, Lisa Lee, Tim Blyth, Ian Mackinnon, Machel Reid, Obaid Sarvana, David Silver, Alexander Chen, Lily Wang, Loren Maggiore, Oscar Chang, Nithya Attaluri, Gregory Thornton, Chung-Cheng Chiu, Oskar Bunyan, Nir Levine, Timothy Chung, Evgenii Eltyshev, Xiance Si, Timothy Lillicrap, Demetra Brady, Vaibhav Aggarwal, Boxi Wu, Yuanzhong Xu, Ross McIlroy, Kartikeya Badola, Paramjit Sandhu, Erica Moreira, Wojciech Stokowiec, Ross Hemsley, Dong Li, Alex Tudor, Pranav Shyam, Elahe Rahimtoroghi, Salem Haykal, Pablo Sprechmann, Xiang Zhou, Diana Mincu, Yujia Li, Ravi Addanki, Kalpesh Krishna, Xiao Wu, Alexandre Frechette, Matan Eyal, Allan Dafoe, Dave Lacey, Jay Whang, Thi Avrahami, Ye Zhang, Emanuel Taropa, Hanzhao Lin, Daniel Toyama, Eliza Rutherford, Motoki Sano, HyunJeong Choe, Alex Tomala, Chalence Safranek-Shrader, Nora Kassner, Mantas Pajarskas, Matt Harvey, Sean Sechrist, Meire Fortunato, Christina Lyu, Gamaleldin Elsayed, Chenkai Kuang, James Lottes, Eric Chu, Chao Jia, Chih-Wei Chen, Peter Humphreys, Kate Baumli, Connie Tao, Rajkumar Samuel, Cicero Nogueira dos Santos, Anders Andreassen, Nemanja Rakićević, Dominik Grewe, Aviral Kumar, Stephanie Winkler, Jonathan Caton, Andrew Brock, Sid Dalmia, Hannah Sheahan, Iain Barr, Yingjie Miao, Paul Natsev, Jacob Devlin, Feryal Behbahani, Flavien Prost, Yanhua Sun, Artiom Myaskovsky, Thanumalayan Sankaranarayana Pillai, Dan Hurt, Angeliki Lazaridou, Xi Xiong, Ce Zheng, Fabio Pardo, Xiaowei Li, Dan Horgan, Joe Stanton, Moran Ambar, Fei Xia, Alejandro Lince, Mingqiu Wang, Basil Mustafa, Albert Webson, Hyo Lee, Rohan Anil, Martin Wicke, Timothy Dozat, Abhishek Sinha, Enrique Piqueras, Elahe Dabir, Shyam Upadhyay, Anudhyan Boral, Lisa Anne Hendricks, Corey Fry, Josip Djolonga, Yi Su, Jake Walker, Jane Labanowski, Ronny Huang, Vedant Misra, Jeremy Chen, RJ Skerry-Ryan, Avi Singh, Shruti Rijhwani, Dian Yu, Alex Castro-Ros, Beer Changpinyo, Romina Datta, Sumit Bagri, Arnar Mar Hrafnkelsson, Marcello Maggioni, Daniel Zheng, Yury Sulsky, Shaobo Hou, Tom Le Paine, Antoine Yang, Jason Riesa, Dominika Rogozinska, Dror Marcus, Dalia El Badawy, Qiao Zhang, Luyu Wang, Helen Miller, Jeremy Greer, Lars Lowe Sjos, Azade Nova, Heiga Zen, Rahma Chaabouni, Mihaela Rosca, Jiepu Jiang, Charlie Chen, Ruibo Liu, Tara Sainath, Maxim Krikun, Alex Polozov, Jean-Baptiste Lespiau, Josh Newlan, Zeyncep Cankara, Soo Kwak, Yunhan Xu, Phil Chen, Andy Coenen, Clemens Meyer, Katerina Tsihlas, Ada Ma, Juraj Gottweis, Jinwei Xing, Chenjie Gu, Jin Miao, Christian Frank, Zeynep Cankara, Sanjay Ganapathy, Ishita Dasgupta, Steph Hughes-Fitt, Heng Chen, David Reid, Keran Rong, Hongmin Fan, Joost van Amersfoort, Vincent Zhuang, Aaron Cohen, Shixiang Shane Gu, Anhad Mohananey, Anastasija Ilic, Taylor Tobin, John Wieting, Anna Bortsova, Phoebe Thacker, Emma Wang, Emily Caveness, Justin Chiu, Eren Sezener, Alex Kaskasoli, Steven Baker, Katie Millican, Mohamed Elhawaty, Kostas Aisopos, Carl Lebsack, Nathan Byrd, Hanjun Dai, Wenhao Jia, Matthew Wiethoff, Elnaz Davoodi, Albert Weston, Lakshman Yagati, Arun Ahuja, Isabel Gao, Golan Pundak, Susan Zhang, Michael Azzam, Khe Chai Sim, Sergi Caelles, James Keeling, Abhanshu Sharma, Andy Swing, YaGuang Li, Chenxi Liu, Carrie Grimes Bostock, Yamini Bansal, Zachary Nado, Ankesh Anand, Josh Lipschultz, Abhijit Karmarkar, Lev Proleev, Abe Ittycheriah, Soheil Hassas Yeganeh, George Polovets, Aleksandra Faust, Jiao Sun, Alban Rrustemi, Pen Li, Rakesh Shivanna, Jeremiah Liu, Chris Welty, Federico Lebron, Anirudh Baddepudi, Sebastian Krause, Emilio Parisotto, Radu Soricut, Zheng Xu, Dawn Bloxwich, Melvin Johnson, Behnam Neyshabur, Justin Mao-Jones, Renshen Wang, Vinay Ramasesh, Zaheer Abbas, Arthur Guez, Constant Segal, Duc Dung Nguyen, James Svensson, Le Hou, Sarah York, Kieran Milan, Sophie Bridgers, Wiktor Gworek, Marco Tagliasacchi, James Lee-Thorp, Michael Chang, Alexey Guseynov, Ale Jakse Hartman, Michael Kwong, Ruizhe Zhao, Sheleem Kashem, Elizabeth Cole, Antoine Miech, Richard Tanburn, Mary Phuong, Filip Pavetic, Sebastien Cevey, Ramona Comanescu, Richard Ives, Sherry Yang, Cosmo Du, Bo Li, Zizhao Zhang, Mariko Iinuma, Clara Huiyi Hu, Aurko Roy, Shaan Bijwadia, Zhenkai Zhu, Danilo Martins, Rachel Saputro, Anita Gergely, Steven Zheng, Dawei Jia, Ioannis Antonoglou, Adam Sadovsky, Shane Gu, Yingying Bi, Alek Andreev, Sina Samangooei, Mina Khan, Tomas Kocisky, Angelos Filos, Chintu Kumar, Colton Bishop, Adams Yu, Sarah Hodkinson, Sid Mittal, Premal Shah, Alexandre Moufarek, Yong Cheng, Adam Bloniarz, Jaehoon Lee, Pedram Pejman, Paul Michel, Stephen Spencer, Vladimir Feinberg, Xuehan Xiong, Nikolay Savinov, Charlotte Smith, Siamak Shakeri, Dustin Tran, Mary Chesus, Bernd Bohnet, George Tucker, Tamara von Glehn, Carrie Muir, Yiran Mao, Hideto Kazawa, Ambrose Slone, Kedar Soparkar, Disha Shrivastava, James Cobon-Kerr, Michael Sharman, Jay Pavagadhi, Carlos Araya, Karolis Misiunas, Nimesh Ghelani, Michael Laskin, David Barker, Qiujia Li, Anton Briukhov, Neil Houlsby, Mia Glaese, Balaji Lakshminarayanan, Nathan Schucher, Yunhao Tang, Eli Collins, Hyeontaek Lim, Fangxiaoyu Feng, Adria Recasens, Guangda Lai, Alberto Magni, Nicola De Cao, Aditya Siddhant, Zoe Ashwood, Jordi Orbay, Mostafa Dehghani, Jenny Brennan, Yifan He, Kelvin Xu, Yang Gao, Carl Saroufim, James Molloy, Xinyi Wu, Seb Arnold, Solomon Chang, Julian Schrittwieser, Elena Buchatskaya, Soroush Radpour, Martin Polacek, Skye Giordano, Ankur Bapna, Simon Tokumine, Vincent Hellendoorn, Thibault Sottiaux, Sarah Cogan, Aliaksei Severyn, Mohammad Saleh, Shantanu Thakoor, Laurent Shefey, Siyuan Qiao, Meenu Gaba, Shuo-yiin Chang, Craig Swanson, Biao Zhang, Benjamin Lee, Paul Kishan Rubenstein, Gan Song, Tom Kwiatkowski, Anna Koop, Ajay Kannan, David Kao, Parker Schuh, Axel Stjerngren, Golnaz Ghiasi, Gena Gibson, Luke Vilnis, Ye Yuan, Felipe Tiengo Ferreira, Aishwarya Kamath, Ted Klimenko, Ken Franko, Kefan Xiao, Indro Bhattacharya, Miteyan Patel, Rui Wang, Alex Morris, Robin Strudel, Vivek Sharma, Peter Choy, Sayed Hadi Hashemi, Jessica Landon, Mara Finkelstein, Priya Jhakra, Justin Frye, Megan Barnes, Matthew Mauger, Dennis Daun, Khuslen Baatarsukh, Matthew Tung, Wael Farhan, Henryk Michalewski, Fabio Viola, Felix de Chaumont Quitry, Charline Le Lan, Tom Hudson, Qingze Wang, Felix Fischer, Ivy Zheng, Elspeth White, Anca Dragan, Jean-baptiste Alayrac, Eric Ni, Alexander Pritzel, Adam Iwanicki, Michael Isard, Anna Bulanova, Lukas Zilka, Ethan Dyer, Devendra Sachan, Srivatsan Srinivasan, Hannah Muckenhirn, Honglong Cai, Amol Mandhane, Mukarram Tariq, Jack W. Rae, Gary Wang, Kareem Ayoub, Nicholas FitzGerald, Yao Zhao, Woohyun Han, Chris Alberti, Dan Garrette, Kashyap Krishnakumar, Mai Gimenez, Anselm Levskaya, Daniel Sohn, Josip Matak, Inaki Iturrate, Michael B. Chang, Jackie Xiang, Yuan Cao, Nishant Ranka, Geoff Brown, Adrian Hutter, Vahab Mirrokni, Nanxin Chen, Kaisheng Yao, Zoltan Egyed, Francois Galilee, Tyler Liechty, Praveen Kallakuri, Evan Palmer, Sanjay Ghemawat, Jasmine Liu, David Tao, Chloe Thornton, Tim Green, Mimi Jasarevic, Sharon Lin, Victor Cotruta, Yi-Xuan Tan, Noah Fiedel, Hongkun Yu, Ed Chi, Alexander Neitz, Jens Heitkaemper, Anu Sinha, Denny Zhou, Yi Sun, Charbel Kaed, Brice Hulse, Swaroop Mishra, Maria Georgaki, Sneha Kudugunta, Clement Farabet, Izhak Shafran, Daniel Vlasic, Anton Tsitsulin, Rajagopal Ananthanarayanan, Alen Carin, Guolong Su, Pei Sun, Shashank V, Gabriel Carvajal, Josef Broder, Iulia Comsa, Alena Repina, William Wong, Warren Weilun Chen, Peter Hawkins, Egor Filonov, Lucia Loher, Christoph Hirnschall, Weiyi Wang, Jingchen Ye, Andrea Burns, Hardie Cate, Diana Gage Wright, Federico Piccinini, Lei Zhang, Chu-Cheng Lin, Ionel Gog, Yana Kulizhskaya, Ashwin Sreevatsa, Shuang Song, Luis C. Cobo, Anand Iyer, Chetan Tekur, Guillermo Garrido, Zhuyun Xiao, Rupert Kemp, Huaixiu Steven Zheng, Hui Li, Ananth Agarwal, Christel Ngani, Kati Goshvadi, Rebeca Santamaria-Fernandez, Wojciech Fica, Xinyun Chen, Chris Gorgolewski, Sean Sun, Roopal Garg, Xinyu Ye, S. M. Ali Eslami, Nan Hua, Jon Simon, Pratik Joshi, Yelin Kim, Ian Tenney, Sahitya Potluri, Lam Nguyen Thiet, Quan Yuan, Florian Luisier, Alexandra Chronopoulou, Salvatore Scellato, Praveen Srinivasan, Minmin Chen, Vinod Koverkathu, Valentin Dalibard, Yaming Xu, Brennan Saeta, Keith Anderson, Thibault Sellam, Nick Fernando, Fantine Huot, Junehyuk Jung, Mani Varadarajan, Michael Quinn, Amit Raul, Maigo Le, Ruslan Habalov, Jon Clark, Komal Jalan, Kalesha Bullard, Achintya Singhal, Thang Luong, Boyu Wang, Sujeevan Rajayogam, Julian Eisenschlos, Johnson Jia, Daniel Finchelstein, Alex Yakubovich, Daniel Balle, Michael Fink, Sameer Agarwal, Jing Li, Dj Dvijotham, Shalini Pal, Kai Kang, Jaclyn Konzelmann, Jennifer Beattie, Olivier Dousse, Diane Wu, Remi Crocker, Chen Elkind, Siddhartha Reddy Jonnalagadda, Jong Lee, Dan Holtmann-Rice, Krystal Kallarackal, Rosanne Liu, Denis Vnukov, Neera Vats, Luca Invernizzi, Mohsen Jafari, Huanjie Zhou, Lilly Taylor, Jennifer Prendki, Marcus Wu, Tom Eccles, Tianqi Liu, Kavya Kopparapu, Francoise Beaufays, Christof Angermueller, Andreea Marzoca, Shourya Sarcar, Hilal Dib, Jeff Stanway, Frank Perbet, Nejc Trdin, Rachel Sterneck, Andrey Khorlin, Dinghua Li, Xihui Wu, Sonam Goenka, David Madras, Sasha Goldshtein, Willi Gierke, Tong Zhou, Yaxin Liu, Yannie Liang, Anais White, Yunjie Li, Shreya Singh, Sanaz Bahargam, Mark Epstein, Sujoy Basu, Li Lao, Adnan Ozturel, Carl Crous, Alex Zhai, Han Lu, Zora Tung, Neeraj Gaur, Alanna Walton, Lucas Dixon, Ming Zhang, Amir Globerson, Grant Uy, Andrew Bolt, Olivia Wiles, Milad Nasr, Ilia Shumailov, Marco Selvi, Francesco Piccinno, Ricardo Aguilar, Sara McCarthy, Misha Khalman, Mrinal Shukla, Vlado Galic, John Carpenter, Kevin Villela, Haibin Zhang, Harry Richardson, James Martens, Matko Bosnjak, Shreyas Rammohan Belle, Jeff Seibert, Mahmoud Alnahlawi, Brian McWilliams, Sankalp Singh, Annie Louis, Wen Ding, Dan Popovici, Lenin Simicich, Laura Knight, Pulkit Mehta, Nishesh Gupta, Chongyang Shi, Saaber Fatehi, Jovana Mitrovic, Alex Grills, Joseph Pagadora, Dessie Petrova, Danielle Eisenbud, Zhishuai Zhang, Damion Yates, Bhavishya Mittal, Nilesh Tripuraneni, Yannis Assael, Thomas Brovelli, Prateek Jain, Mihajlo Velimirovic, Canfer Akbulut, Jiaqi Mu, Wolfgang Macherey, Ravin Kumar, Jun Xu, Haroon Qureshi, Gheorghe Comanici, Jeremy Wiesner, Zhitao Gong, Anton Ruddock, Matthias Bauer, Nick Felt, Anirudh GP, Anurag Arnab, Dustin Zelle, Jonas Rothfuss, Bill Rosgen, Ashish Shenoy, Bryan Seybold, Xinjian Li, Jayaram Mudigonda, Goker Erdogan, Jiawei Xia, Jiri Simsa, Andrea Michi, Yi Yao, Christopher Yew, Steven Kan, Isaac Caswell, Carey Radebaugh, Andre Elisseeff, Pedro Valenzuela, Kay McKinney, Kim Paterson, Albert Cui, Eri Latorre-Chimoto, Solomon Kim, William Zeng, Ken Durden, Priya Ponnapalli, Tiberiu Sosea, Christopher A. Choquette-Choo, James Manyika, Brona Robenek, Harsha Vashisht, Sebastien Pereira, Hoi Lam, Marko Velic, Denese Owusu-Afriyie, Katherine Lee, Tolga Bolukbasi, Alicia Parrish, Shawn Lu, Jane Park, Balaji Venkatraman, Alice Talbert, Lambert Rosique, Yuchung Cheng, Andrei Sozanschi, Adam Paszke, Praveen Kumar, Jessica Austin, Lu Li, Khalid Salama, Wooyeol Kim, Nandita Dukkipati, Anthony Baryshnikov, Christos Kaplanis, XiangHai Sheng, Yuri Chervonyi, Caglar Unlu, Diego de Las Casas, Harry Askham, Kathryn Tunyasuvunakool, Felix Gimeno, Siim Poder, Chester Kwak, Matt Miecnikowski, Vahab Mirrokni, Alek Dimitriev, Aaron Parisi, Dangyi Liu, Tomy Tsai, Toby Shevlane, Christina Kouridi, Drew Garmon, Adrian Goedeckemeyer, Adam R. Brown, Anitha Vijayakumar, Ali Elqursh, Sadegh Jazayeri, Jin Huang, Sara Mc Carthy, Jay Hoover, Lucy Kim, Sandeep Kumar, Wei Chen, Courtney Biles, Garrett Bingham, Evan Rosen, Lisa Wang, Qijun Tan, David Engel, Francesco Pongetti, Dario de Cesare, Dongseong Hwang, Lily Yu, Jennifer Pullman, Srini Narayanan, Kyle Levin, Siddharth Gopal, Megan Li, Asaf Aharoni, Trieu Trinh, Jessica Lo, Norman Casagrande, Roopali Vij, Loic Matthey, Bramandia Ramadhana, Austin Matthews, CJ Carey, Matthew Johnson, Kremena Goranova, Rohin Shah, Shereen Ashraf, Kingshuk Dasgupta, Rasmus Larsen, Yicheng Wang, Manish Reddy Vuyyuru, Chong Jiang, Joana Ijazi, Kazuki Osawa, Celine Smith, Ramya Sree Boppana, Taylan Bilal, Yuma Koizumi, Ying Xu, Yasemin Altun, Nir Shabat, Ben Bariach, Alex Korchemniy, Kiam Choo, Olaf Ronneberger, Chimezie Iwuanyanwu, Shubin Zhao, David Soergel, Cho-Jui Hsieh, Irene Cai, Shariq Iqbal, Martin Sundermeyer, Zhe Chen, Elie Bursztein, Chaitanya Malaviya, Fadi Biadsy, Prakash Shroff, Inderjit Dhillon, Tejasi Latkar, Chris Dyer, Hannah Forbes, Massimo Nicosia, Vitaly Nikolaev, Somer Greene, Marin Georgiev, Pidong Wang, Nina Martin, Hanie Sedghi, John Zhang, Praseem Banzal, Doug Fritz, Vikram Rao, Xuezhi Wang, Jiageng Zhang, Viorica Patraucean, Dayou Du, Igor Mordatch, Ivan Jurin, Lewis Liu, Ayush Dubey, Abhi Mohan, Janek Nowakowski, Vlad-Doru Ion, Nan Wei, Reiko Tojo, Maria Abi Raad, Drew A. Hudson, Vaishakh Keshava, Shubham Agrawal, Kevin Ramirez, Zhichun Wu, Hoang Nguyen, Ji Liu, Madhavi Sewak, Bryce Petrini, DongHyun Choi, Ivan Philips, Ziyue Wang, Ioana Bica, Ankush Garg, Jarek Wilkiewicz, Priyanka Agrawal, Xiaowei Li, Danhao Guo, Emily Xue, Naseer Shaik, Andrew Leach, Sadh MNM Khan, Julia Wiesinger, Sammy Jerome, Abhishek Chakladar, Alek Wenjiao Wang, Tina Ornduff, Folake Abu, Alireza Ghaffarkhah, Marcus Wainwright, Mario Cortes, Frederick Liu, Joshua Maynez, Andreas Terzis, Pouya Samangouei, Riham Mansour, Tomasz Kępa, François-Xavier Aubet, Anton Algymr, Dan Banica, Agoston Weisz, Andras Orban, Alexandre Senges, Ewa Andrejczuk, Mark Geller, Niccolo Dal Santo, Valentin Anklin, Majd Al Merey, Martin Baeuml, Trevor Strohman, Junwen Bai, Slav Petrov, Yonghui Wu, Demis Hassabis, Koray Kavukcuoglu, Jeffrey Dean, Oriol Vinyals, | (参考訳) 本稿では,次世代の計算効率の高いマルチモーダルモデルであるGemini 1.5モデルについて紹介する。
ファミリーには2つの新しいモデルが含まれている: (1) アップデートされたGemini 1.5 Proは、機能とベンチマークの大部分で2月バージョンを超え、(2) Gemini 1.5 Flashは、品質の最小限の回帰で効率よく設計された、より軽量な派生型である。
Gemini 1.5モデルは、モダリティの長いコンテキスト検索タスクのほぼ完全なリコールを実現し、長いドキュメントQA、長いビデオQA、長いコンテキストASRの最先端を改善し、幅広いベンチマークでGemini 1.0 Ultraの最先端のパフォーマンスにマッチするか、上回っている。
Gemini 1.5の長期コンテキスト能力の限界を調べたところ、次の予測とほぼ完璧な検索(>99%)は少なくとも10万トークンまで改善され、Claude 3.0 (200k) や GPT-4 Turbo (128k) といった既存のモデルよりも世代的に飛躍した。
最後に,10の異なる職種にまたがって26~75%のタイムセーブを達成し,さらにフロンティアにおける大規模言語モデルの驚くべき新機能として,専門職とコラボレーションしたGemini 1.5や,世界200人未満の話者を持つ言語であるKalamangの文法マニュアルを与えられた場合には,同じ内容から学んだ人と同じレベルで,Kalamangに英語を翻訳することが学習される,といった実世界のユースケースを強調します。
In this report, we introduce the Gemini 1.5 family of models, representing the next generation of highly compute-efficient multimodal models capable of recalling and reasoning over fine-grained information from millions of tokens of context, including multiple long documents and hours of video and audio. The family includes two new models: (1) an updated Gemini 1.5 Pro, which exceeds the February version on the great majority of capabilities and benchmarks; (2) Gemini 1.5 Flash, a more lightweight variant designed for efficiency with minimal regression in quality. Gemini 1.5 models achieve near-perfect recall on long-context retrieval tasks across modalities, improve the state-of-the-art in long-document QA, long-video QA and long-context ASR, and match or surpass Gemini 1.0 Ultra's state-of-the-art performance across a broad set of benchmarks. Studying the limits of Gemini 1.5's long-context ability, we find continued improvement in next-token prediction and near-perfect retrieval (>99%) up to at least 10M tokens, a generational leap over existing models such as Claude 3.0 (200k) and GPT-4 Turbo (128k). Finally, we highlight real-world use cases, such as Gemini 1.5 collaborating with professionals on completing their tasks achieving 26 to 75% time savings across 10 different job categories, as well as surprising new capabilities of large language models at the frontier; when given a grammar manual for Kalamang, a language with fewer than 200 speakers worldwide, the model learns to translate English to Kalamang at a similar level to a person who learned from the same content. | 翻訳日:2024-08-09 20:26:31 公開日:2024-08-08 |
# 観測された進化下におけるボソニック系の絡み合い
Entanglement of bosonic systems under monitored evolution ( http://arxiv.org/abs/2403.06297v2 ) ライセンス: Link先を確認 | Quancheng Liu, Klaus Ziegler, | (参考訳) 連続射影測定における非相互作用ボソンの進化について検討した。
確立されたアプローチに従って、この監視された進化は、最初に検出されたリターンと最初に検出された遷移確率によって特徴づけられる。
これらの量は, エンタングルメントエントロピーとバイパルタイト系のエンタングルメントスペクトルと直接関係していることを示す。
ボソン数、測定数、測定間の時間ステップに関する特定の値の計算は、感度が高く、しばしば強く変動する絡み合いのエントロピーを示す。
特に、時間ステップの特別な値の近傍では、絡み合いエントロピーの進化は定常的であるか、あるいは2つ以上の定常値間の動的切替を行うかを示す。
一方、絡み合いスペクトルでは、この複雑な振る舞いはレベル交差と関連付けられ、支配的な量子状態とその絡み合いが系のパラメータの変化に強く反応することを示す。
エンタングルメントエントロピーのゆらぎを取り除くために,時間平均化の役割を簡潔に議論する。
The evolution of non-interacting bosons in the presence of repeated projective measurements is studied. Following the established approach, this monitored evolution is characterized by the first detected return and the first detected transition probabilities. We show that these quantities are directly related to the entanglement entropy and to the entanglement spectrum of a bipartite system. Calculations with specific values for the number of bosons, the number of measurements and the time step between measurements reveal a sensitive and often strongly fluctuating entanglement entropy. In particular, we demonstrate that in the vicinity of special values for the time steps the evolution of the entanglement entropy is either stationary or performs dynamical switching between two or more stationary values. In the entanglement spectrum, on the other hand, this complex behavior can be associated with level crossings, indicating that the dominant quantum states and their entanglement respond strongly to a change of the system parameters. We discuss briefly the role of time averaging to remove the fluctuations of the entanglement entropy. | 翻訳日:2024-08-09 20:26:30 公開日:2024-08-08 |
# P2LHAP:Patch-to-Label Seq2Seq Transformerによるセンサによる人間の活動認識・セグメンテーション・予測
P2LHAP:Wearable sensor-based human activity recognition, segmentation and forecast through Patch-to-Label Seq2Seq Transformer ( http://arxiv.org/abs/2403.08214v2 ) ライセンス: Link先を確認 | Shuangjian Li, Tao Zhu, Mingxing Nie, Huansheng Ning, Zhenyu Liu, Liming Chen, | (参考訳) 従来のディープラーニング手法は、センサーデータから人間の活動のセグメンテーション、認識、予測を同時に行うのに苦労する。
これにより、医療や生活支援など多くの分野において、継続的な活動や今後の活動のリアルタイム理解が不可欠である。
本稿ではP2LHAPについて紹介する。これはPatch-to-Label Seq2Seqフレームワークで、効率的な単一タスクモデルで3つのタスクすべてに取り組む。
P2LHAPはセンサデータストリームを"パッチ"のシーケンスに分割し、入力トークンとして機能し、予測される将来のアクティビティを含むパッチレベルのアクティビティラベルのシーケンスを出力する。
周囲のパッチラベルに基づく一意な平滑化手法を提案し, 活動境界を正確に同定する。
さらに、P2LHAPは、センサ信号に依存しないトランスフォーマーエンコーダとデコーダによるパッチレベルの表現を学習する。
すべてのチャンネルは、すべてのシーケンスで埋め込みとトランスフォーマーの重みを共有する。
3つの公開データセットに基づいて評価され、P2LHAPは3つのタスクすべてにおいて最先端を著しく上回り、実世界のアプリケーションの有効性と可能性を示している。
Traditional deep learning methods struggle to simultaneously segment, recognize, and forecast human activities from sensor data. This limits their usefulness in many fields such as healthcare and assisted living, where real-time understanding of ongoing and upcoming activities is crucial. This paper introduces P2LHAP, a novel Patch-to-Label Seq2Seq framework that tackles all three tasks in a efficient single-task model. P2LHAP divides sensor data streams into a sequence of "patches", served as input tokens, and outputs a sequence of patch-level activity labels including the predicted future activities. A unique smoothing technique based on surrounding patch labels, is proposed to identify activity boundaries accurately. Additionally, P2LHAP learns patch-level representation by sensor signal channel-independent Transformer encoders and decoders. All channels share embedding and Transformer weights across all sequences. Evaluated on three public datasets, P2LHAP significantly outperforms the state-of-the-art in all three tasks, demonstrating its effectiveness and potential for real-world applications. | 翻訳日:2024-08-09 20:26:30 公開日:2024-08-08 |
# GenAD: 自律運転のための一般化予測モデル
GenAD: Generalized Predictive Model for Autonomous Driving ( http://arxiv.org/abs/2403.09630v2 ) ライセンス: Link先を確認 | Jiazhi Yang, Shenyuan Gao, Yihang Qiu, Li Chen, Tianyu Li, Bo Dai, Kashyap Chitta, Penghao Wu, Jia Zeng, Ping Luo, Jun Zhang, Andreas Geiger, Yu Qiao, Hongyang Li, | (参考訳) 本稿では,自動運転分野における最初の大規模ビデオ予測モデルを紹介する。
高速データ収集の制限をなくし,モデルの一般化能力を高めるため,Webから大量のデータを取得し,多種多様な高品質なテキスト記述と組み合わせる。
その結果得られたデータセットは2000時間以上の運転ビデオを蓄積し、さまざまな気象条件と交通シナリオで世界中に分散している。
近年の潜伏拡散モデルの利点を継承して、我々のモデルはGenADと呼ばれ、新しい時間的推論ブロックでシーンを駆動する際の挑戦的なダイナミクスを扱う。
ゼロショット方式で様々な未確認運転データセットに一般化でき、一般または運転特化映像予測データセットを超越することを示す。
さらに、GenADはアクション条件付き予測モデルやモーションプランナーに適応することができ、現実世界の運転アプリケーションに大きな可能性を秘めている。
In this paper, we introduce the first large-scale video prediction model in the autonomous driving discipline. To eliminate the restriction of high-cost data collection and empower the generalization ability of our model, we acquire massive data from the web and pair it with diverse and high-quality text descriptions. The resultant dataset accumulates over 2000 hours of driving videos, spanning areas all over the world with diverse weather conditions and traffic scenarios. Inheriting the merits from recent latent diffusion models, our model, dubbed GenAD, handles the challenging dynamics in driving scenes with novel temporal reasoning blocks. We showcase that it can generalize to various unseen driving datasets in a zero-shot manner, surpassing general or driving-specific video prediction counterparts. Furthermore, GenAD can be adapted into an action-conditioned prediction model or a motion planner, holding great potential for real-world driving applications. | 翻訳日:2024-08-09 20:26:30 公開日:2024-08-08 |
# ガウススプラッティングによるビュー一貫性3次元編集
View-Consistent 3D Editing with Gaussian Splatting ( http://arxiv.org/abs/2403.11868v7 ) ライセンス: Link先を確認 | Yuxuan Wang, Xuanyu Yi, Zike Wu, Na Zhao, Long Chen, Hanwang Zhang, | (参考訳) 3D Gaussian Splatting (3DGS)の出現は、3D編集に革命をもたらし、効率よく高忠実なレンダリングを提供し、正確な局所的な操作を可能にした。
現在、拡散ベースの2D編集モデルを用いて、マルチビューレンダリング画像を修正し、3DGSモデルの編集をガイドしている。
しかし、このアプローチは多視点不整合の重要な問題に直面しており、誘導画像はビュー間で大きな相違を示し、モード崩壊と3DGSの視覚的アーティファクトをもたらす。
この目的のために、3DGSをシームレスに画像編集プロセスに組み込む新しいフレームワークであるView-Consistent Editing (VcEdit)を導入する。
VcEditには、Cross-attention Consistency ModuleとEditing Consistency Moduleという2つの革新的な一貫性モジュールがある。
これらの一貫性モジュールを反復的なパターンに組み込むことで、VcEditは多視点不整合の問題を解決し、様々な場面で高品質な3DGS編集を容易にする。
さらなるビデオ結果は http://vcedit.github.io に示されている。
The advent of 3D Gaussian Splatting (3DGS) has revolutionized 3D editing, offering efficient, high-fidelity rendering and enabling precise local manipulations. Currently, diffusion-based 2D editing models are harnessed to modify multi-view rendered images, which then guide the editing of 3DGS models. However, this approach faces a critical issue of multi-view inconsistency, where the guidance images exhibit significant discrepancies across views, leading to mode collapse and visual artifacts of 3DGS. To this end, we introduce View-consistent Editing (VcEdit), a novel framework that seamlessly incorporates 3DGS into image editing processes, ensuring multi-view consistency in edited guidance images and effectively mitigating mode collapse issues. VcEdit employs two innovative consistency modules: the Cross-attention Consistency Module and the Editing Consistency Module, both designed to reduce inconsistencies in edited images. By incorporating these consistency modules into an iterative pattern, VcEdit proficiently resolves the issue of multi-view inconsistency, facilitating high-quality 3DGS editing across a diverse range of scenes. Further video results are shown in http://vcedit.github.io. | 翻訳日:2024-08-09 20:26:30 公開日:2024-08-08 |
# Duwak: 大きな言語モデルにおけるデュアル・ウォーターマーク
Duwak: Dual Watermarks in Large Language Models ( http://arxiv.org/abs/2403.13000v2 ) ライセンス: Link先を確認 | Chaoyi Zhu, Jeroen Galjaard, Pin-Yu Chen, Lydia Y. Chen, | (参考訳) 大規模言語モデル(LLM)はテキスト生成タスクにますます使われるようになっているため、それらの使用状況を監査し、アプリケーションを管理し、潜在的な害を軽減することが重要である。
既存の透かし技術は、生成したテキストの品質や意味論に大きな影響を及ぼすことなく、人間の知覚できない単一パターンと機械検出可能なパターンを埋め込むのに効果的である。
しかし、透かしの検出の効率、すなわち、後編集に対する重要性と堅牢性によって検出を主張するために必要なトークンの最小数については、依然として議論の余地がある。
本稿では,トークン確率分布とサンプリング方式の両方に二重秘密パターンを埋め込むことにより,透かしの効率と品質を根本的に向上するDuwakを提案する。
本研究では,特定のトークンに対するバイアスによる表現劣化を軽減するために,トークンの繰り返しを最小限に抑え,多様性を高めるために,サンプリング方式をウォーターマークするコントラスト検索を設計する。
理論的にはデュワクの2つの透かしの相互依存性を説明する。
我々は,Llama2の各種編集後攻撃において,Duwakを4つの最先端透かし技術とそれらの組み合わせに対して広範囲に評価した。
以上の結果から,Duwakマークテキストは,検出に必要な最低トークン数において,特にパラフレーズ化後において,既存の手法よりも70%少ないトークン数で,最も透かしの高いテキスト品質を実現することがわかった。
As large language models (LLM) are increasingly used for text generation tasks, it is critical to audit their usages, govern their applications, and mitigate their potential harms. Existing watermark techniques are shown effective in embedding single human-imperceptible and machine-detectable patterns without significantly affecting generated text quality and semantics. However, the efficiency in detecting watermarks, i.e., the minimum number of tokens required to assert detection with significance and robustness against post-editing, is still debatable. In this paper, we propose, Duwak, to fundamentally enhance the efficiency and quality of watermarking by embedding dual secret patterns in both token probability distribution and sampling schemes. To mitigate expression degradation caused by biasing toward certain tokens, we design a contrastive search to watermark the sampling scheme, which minimizes the token repetition and enhances the diversity. We theoretically explain the interdependency of the two watermarks within Duwak. We evaluate Duwak extensively on Llama2 under various post-editing attacks, against four state-of-the-art watermarking techniques and combinations of them. Our results show that Duwak marked text achieves the highest watermarked text quality at the lowest required token count for detection, up to 70% tokens less than existing approaches, especially under post paraphrasing. | 翻訳日:2024-08-09 20:26:30 公開日:2024-08-08 |
# 量子コンピュータを用いた絡み合い力学による素数同定
Using quantum computers to identify prime numbers via entanglement dynamics ( http://arxiv.org/abs/2403.14703v3 ) ライセンス: Link先を確認 | Victor F. dos Santos, Jonas Maziero, | (参考訳) 近年,分離型コヒーレント状態に初期準備された2つの高調波発振器の絡み合いダイナミクスが,素数同定のための経路として実証された。
本稿では、一般化されたアプローチを示し、スケーラブルなフォールトトレラント量子ビットベースの量子コンピュータにおけるこの理論概念の実装を可能にする決定論的アルゴリズムの概要を示す。
本アルゴリズムで用いられる対角ユニタリ演算は,従来報告されていた一般対角ユニタリの指数的複雑性とは対照的に,次数2の多項式時間複雑性を示す。
Recently, the entanglement dynamics of two harmonic oscillators initially prepared in a separable-coherent state was demonstrated to offer a pathway for prime number identification. This article presents a generalized approach and outlines a deterministic algorithm making possible the implementation of this theoretical concept on scalable fault-tolerant qubit-based quantum computers. We prove that the diagonal unitary operations employed in our algorithm exhibit a polynomial-time complexity of degree two, contrasting with the previously reported exponential complexity of general diagonal unitaries. | 翻訳日:2024-08-09 20:26:30 公開日:2024-08-08 |
# FOOL:ニューラル特徴圧縮による衛星コンピューティングにおけるダウンリンク・ボツネックの対応
FOOL: Addressing the Downlink Bottleneck in Satellite Computing with Neural Feature Compression ( http://arxiv.org/abs/2403.16677v2 ) ライセンス: Link先を確認 | Alireza Furutanpey, Qiyang Zhang, Philipp Raith, Tobias Pfandzelter, Shangguang Wang, Schahram Dustdar, | (参考訳) 大規模な地理的領域を観測するセンサーを備えたナノサテライト星座は、地球観測に前例のない機会を与える。
星座のサイズが大きくなると、ネットワーク競合はダウンリンクボトルネックを引き起こす。
Orbital Edge Computing (OEC)は、限られた計算資源を活用し、ソースで生のキャプチャを処理することで転送コストを削減する。
しかし、現在のソリューションは、粗いフィルタリング手法に依存したり、特定の下流タスクを過度に優先順位付けしたりするため、実行可能性に制限がある。
本研究は,OECネイティブでタスクに依存しない特徴圧縮手法であるFOOLについて述べる。
FOOLはスループットを最大化するために高解像度の衛星画像を分割する。
さらに、コンテキストを埋め込んで、タイル間の依存関係を活用して、無視できるオーバーヘッドで転送コストを下げる。
FOOLは特徴圧縮機であるが、低ビットレートでの画質測定の競合スコアで画像を復元することができる。
低地球軌道における断続的に利用可能なネットワーク接続の特異性を含むことによって、転送コストの削減を広範囲に評価する。
最後に, ナノサテライト形状因子の標準化に向けたシステムの実現可能性について検討した。
FOOLは、ダウンストリームタスクの事前情報に頼ることなく、100倍以上のデータボリュームをダウンリンクできることを示す。
Nanosatellite constellations equipped with sensors capturing large geographic regions provide unprecedented opportunities for Earth observation. As constellation sizes increase, network contention poses a downlink bottleneck. Orbital Edge Computing (OEC) leverages limited onboard compute resources to reduce transfer costs by processing the raw captures at the source. However, current solutions have limited practicability due to reliance on crude filtering methods or over-prioritizing particular downstream tasks. This work presents FOOL, an OEC-native and task-agnostic feature compression method that preserves prediction performance. FOOL partitions high-resolution satellite imagery to maximize throughput. Further, it embeds context and leverages inter-tile dependencies to lower transfer costs with negligible overhead. While FOOL is a feature compressor, it can recover images with competitive scores on quality measures at lower bitrates. We extensively evaluate transfer cost reduction by including the peculiarity of intermittently available network connections in low earth orbit. Lastly, we test the feasibility of our system for standardized nanosatellite form factors. We demonstrate that FOOL permits downlinking over 100x the data volume without relying on prior information on the downstream tasks. | 翻訳日:2024-08-09 20:26:30 公開日:2024-08-08 |
# 定常状態における無限グラスマン時間進化行列積演算子法
Infinite Grassmann Time-Evolving Matrix Product Operator Method in the Steady State ( http://arxiv.org/abs/2403.16700v3 ) ライセンス: Link先を確認 | Chu Guo, Ruofan Chen, | (参考訳) 量子不純物問題に対する無限のグラスマン時間進化行列積演算子法を提案する。
この手法は,最近開発されたGTEMPO法により確立された無限行列積状態アルゴリズムを採用し,ノイズや浴槽の離散化誤差をサンプリングせずに実時間グリーン関数を得るとともに,符号問題なく任意の温度に適用可能であり,計算コストは過渡的ダイナミクスとは無関係であり,浴数に応じてスケールしない。
本稿では, 有限温度平衡グリーン関数を, 厳密解に対する非干渉極限とGTEMPO計算に対する単軌道アンダーソン不純物モデルでベンチマークする。
また、電圧バイアスを持つ2つの浴槽に結合した不純物の零温度非平衡定常状態について検討し、既存の計算と一貫した粒子電流を得る。
この方法は定常量子輸送の研究に最適であり、動的平均場理論とその非平衡拡張における効率的なリアルタイム不純物解法として容易に利用することができる。
We present an infinite Grassmann time-evolving matrix product operator method for quantum impurity problems, which directly works in the steady state. The method embraces the well-established infinite matrix product state algorithms with the recently developed GTEMPO method, and benefits from both sides: it obtains real-time Green's functions without sampling noises and bath discretization error, it is applicable for any temperature without the sign problem, its computational cost is independent of the transient dynamics and does not scale with the number of baths. We benchmark the method on the finite-temperature equilibrium Green's function in the noninteracting limit against exact solutions and in the single-orbital Anderson impurity model against GTEMPO calculations. We also study the zero-temperature non-equilibrium steady state of an impurity coupled to two baths with a voltage bias, obtaining consistent particle currents with existing calculations. The method is ideal for studying steady-state quantum transport, and can be readily used as an efficient real-time impurity solver in the dynamical mean field theory and its non-equilibrium extension. | 翻訳日:2024-08-09 20:26:30 公開日:2024-08-08 |
# リジェクションは信頼性を向上する:知識フィードバックから未知の質問をRLで除去するLLMの訓練
Rejection Improves Reliability: Training LLMs to Refuse Unknown Questions Using RL from Knowledge Feedback ( http://arxiv.org/abs/2403.18349v3 ) ライセンス: Link先を確認 | Hongshen Xu, Zichen Zhu, Situo Zhang, Da Ma, Shuai Fan, Lu Chen, Kai Yu, | (参考訳) 大きな言語モデル(LLM)は、知識の範囲を超えて質問を識別する制限のため、幻覚として知られる誤った出力を生成することが多い。
幻覚への対処は研究の焦点となっているが、従来の取り組みは主に拒絶機構の重要性を考慮せずに正しさを高めることに集中していた。
本稿では,モデル信頼性の概念を,対応する指標とともに導入し,拒絶の役割を包括的に検討する。
これらの指標は、モデルが正確な応答を提供する能力を測定し、知識境界を超える質問を十分に拒否し、幻覚を最小化する。
本稿では,LLMの信頼性を向上させるために,知識フィードバックからの強化学習(Reinforcement Learning from Knowledge Feedback, RLKF)と呼ばれる新しいアライメントフレームワークを提案する。
RLKFは知識フィードバックを活用してモデルの知識境界を動的に決定し、信頼性の高い報酬モデルを訓練し、知識外質問の拒否を促す。
数学的な質問に対する実験結果から、LLM信頼性を著しく向上させるRLKFの有効性が確認された。
Large Language Models (LLMs) often generate erroneous outputs, known as hallucinations, due to their limitations in discerning questions beyond their knowledge scope. While addressing hallucination has been a focal point in research, previous efforts primarily concentrate on enhancing correctness without giving due consideration to the significance of rejection mechanisms. In this paper, we conduct a comprehensive examination of the role of rejection, introducing the notion of model reliability along with corresponding metrics. These metrics measure the model's ability to provide accurate responses while adeptly rejecting questions exceeding its knowledge boundaries, thereby minimizing hallucinations. To improve the inherent reliability of LLMs, we present a novel alignment framework called Reinforcement Learning from Knowledge Feedback (RLKF). RLKF leverages knowledge feedback to dynamically determine the model's knowledge boundary and trains a reliable reward model to encourage the refusal of out-of-knowledge questions. Experimental results on mathematical questions affirm the substantial efficacy of RLKF in significantly enhancing LLM reliability. | 翻訳日:2024-08-09 20:26:30 公開日:2024-08-08 |
# MANGO:大規模言語モデルのマッピングとナビゲーション能力の評価ベンチマーク
MANGO: A Benchmark for Evaluating Mapping and Navigation Abilities of Large Language Models ( http://arxiv.org/abs/2403.19913v2 ) ライセンス: Link先を確認 | Peng Ding, Jiading Fang, Peng Li, Kangrui Wang, Xiaochen Zhou, Mo Yu, Jing Li, Matthew R. Walter, Hongyuan Mei, | (参考訳) ChatGPTやGPT-4のような大規模言語モデルは、最近、様々な自然言語処理タスクにおける驚くべきパフォーマンスを達成した。
本稿では,テキストマッピングとナビゲーションの能力を評価するベンチマークであるMANGOを提案する。
ベンチマークには、一連のテキストゲームから採取した53個の迷路が含まれている。各迷路は、すべての場所を訪れながら、可能なすべての経路をカバーしていないウォークスルーとペアリングされる。
それぞれの迷路について、大きな言語モデルがウォークスルーを読み、数百の地図やナビゲーションの質問に答えている。
これらの質問は人間にとって容易であるが、最も最新の言語モデルであるGPT-4でさえ、答えが不十分であることが判明した。
さらに,本実験は,テキストゲームなどの下流タスクの実行において,強力なマッピングとナビゲーション能力が大きな言語モデルに有効であることが示唆された。
我々のMANGOベンチマークは,言語モデルのマッピングとナビゲーション機能を改善する手法の今後の研究を促進する。
私たちはリーダーボード、データ、コード、評価プログラムをhttps://mango.ttic.eduとhttps://github.com/oaklight/mango/でホストしています。
Large language models such as ChatGPT and GPT-4 have recently achieved astonishing performance on a variety of natural language processing tasks. In this paper, we propose MANGO, a benchmark to evaluate their capabilities to perform text-based mapping and navigation. Our benchmark includes 53 mazes taken from a suite of textgames: each maze is paired with a walkthrough that visits every location but does not cover all possible paths. The task is question-answering: for each maze, a large language model reads the walkthrough and answers hundreds of mapping and navigation questions such as "How should you go to Attic from West of House?" and "Where are we if we go north and east from Cellar?". Although these questions are easy to humans, it turns out that even GPT-4, the best-to-date language model, performs poorly at answering them. Further, our experiments suggest that a strong mapping and navigation ability would benefit large language models in performing relevant downstream tasks, such as playing textgames. Our MANGO benchmark will facilitate future research on methods that improve the mapping and navigation capabilities of language models. We host our leaderboard, data, code, and evaluation program at https://mango.ttic.edu and https://github.com/oaklight/mango/. | 翻訳日:2024-08-09 20:26:30 公開日:2024-08-08 |
# HARMamba:双方向マンバに基づく効率的かつ軽量なウェアラブルセンサヒューマンアクティビティ認識
HARMamba: Efficient and Lightweight Wearable Sensor Human Activity Recognition Based on Bidirectional Mamba ( http://arxiv.org/abs/2403.20183v3 ) ライセンス: Link先を確認 | Shuangjian Li, Tao Zhu, Furong Duan, Liming Chen, Huansheng Ning, Christopher Nugent, Yaping Wan, | (参考訳) ウェアラブルセンサーによる人間の活動認識(HAR)は、活動知覚において重要な研究領域である。
しかし、高い効率と長いシーケンス認識を実現することは依然として課題である。
CNN、RNN、トランスフォーマーといった時間的深層学習モデルの広範な研究にもかかわらず、その広範なパラメータは、しばしば計算とメモリの制約を生じさせ、リソースに制約のあるモバイルヘルスアプリケーションには適さない。
HARMambaは、選択的な双方向状態空間モデルとハードウェア対応設計を組み合わせた、革新的な軽量で多用途なHARアーキテクチャである。
HARMambaは、現実的なシナリオにおけるリアルタイムリソース消費を最適化するために、線形再帰機構とパラメータの離散化を採用し、スキャンと再計算を効率的に融合させながら、関連する入力シーケンスに選択的にフォーカスすることができる。
このモデルは、センサデータストリームを処理するために独立したチャネルを使用し、各チャネルをパッチに分割し、シーケンスの最後に分類トークンを付加する。
位置埋め込みを利用してシーケンス順序を表現する。
パッチシーケンスはHARMamba Blockによって処理され、分類ヘッドは最終的にアクティビティカテゴリを出力する。
HARMamba BlockはHARMambaアーキテクチャの基本コンポーネントとして機能し、より差別的なアクティビティシークエンスの特徴を効果的に捉えることができる。
HARMambaは現代の最先端フレームワークより優れており、計算とメモリの要求を大幅に削減し、同等またはより良い精度を提供する。
この効果は、PAMAP2、WISDM、UNIMIB SHAR、UCIの4つのパブリックデータセットで広く検証されている。
4つのデータセットのHARMambaのスコアは99.74%、99.20%、88.23%、97.01%である。
Wearable sensor-based human activity recognition (HAR) is a critical research domain in activity perception. However, achieving high efficiency and long sequence recognition remains a challenge. Despite the extensive investigation of temporal deep learning models, such as CNNs, RNNs, and transformers, their extensive parameters often pose significant computational and memory constraints, rendering them less suitable for resource-constrained mobile health applications. This study introduces HARMamba, an innovative light-weight and versatile HAR architecture that combines selective bidirectional State Spaces Model and hardware-aware design. To optimize real-time resource consumption in practical scenarios, HARMamba employs linear recursive mechanisms and parameter discretization, allowing it to selectively focus on relevant input sequences while efficiently fusing scan and recompute operations. The model employs independent channels to process sensor data streams, dividing each channel into patches and appending classification tokens to the end of the sequence. It utilizes position embedding to represent the sequence order. The patch sequence is subsequently processed by HARMamba Block, and the classification head finally outputs the activity category. The HARMamba Block serves as the fundamental component of the HARMamba architecture, enabling the effective capture of more discriminative activity sequence features. HARMamba outperforms contemporary state-of-the-art frameworks, delivering comparable or better accuracy with significantly reducing computational and memory demands. It's effectiveness has been extensively validated on 4 publically available datasets namely PAMAP2, WISDM, UNIMIB SHAR and UCI. The F1 scores of HARMamba on the four datasets are 99.74%, 99.20%, 88.23% and 97.01%, respectively. | 翻訳日:2024-08-09 20:26:30 公開日:2024-08-08 |
# 大規模言語モデルは、ガイドされた場合、認知的再評価を提供することができる
Large Language Models are Capable of Offering Cognitive Reappraisal, if Guided ( http://arxiv.org/abs/2404.01288v2 ) ライセンス: Link先を確認 | Hongli Zhan, Allen Zheng, Yoon Kyung Lee, Jina Suh, Junyi Jessy Li, Desmond C. Ong, | (参考訳) 大規模言語モデル(LLM)は、感情的支援のための新たな機会を提供しており、近年の研究により、苦痛を抱える人々に共感的な反応をもたらすことが示されている。
しかし、長期的な精神的健康には感情的な自己調節が必要であり、1回限りの共感的反応が不足する。
この研究は、認知的再評価(Cognitive Reappraisals)への関与によって第一歩を踏み出した。これは、言語を用いて個人が状況に対して負の評価を標的に変化させる心理学的実践者による戦略であり、そのような評価は人間の感情経験の根底に置かれることが知られている。
心理学的基礎を持つ原理は、LSMにおいてそのような高度な心理学的能力を実現できると仮定し、LSM命令として使用できる複数の次元にまたがる一連の再評価構成からなるRESORTを設計する。
我々は、中長のソーシャルメディアメッセージに対する認知的再評価反応を生成するLLMのゼロショット能力について、第一種専門家(M.S.またはPh.D.学位を持つ臨床心理学者)による評価を行う。
このきめ細かい評価は、RESORTが導いた7BスケールのLLMでさえ、ユーザーが自分の状況を再評価するのに役立つ共感的な反応を生成できることを示した。
Large language models (LLMs) have offered new opportunities for emotional support, and recent work has shown that they can produce empathic responses to people in distress. However, long-term mental well-being requires emotional self-regulation, where a one-time empathic response falls short. This work takes a first step by engaging with cognitive reappraisals, a strategy from psychology practitioners that uses language to targetedly change negative appraisals that an individual makes of the situation; such appraisals is known to sit at the root of human emotional experience. We hypothesize that psychologically grounded principles could enable such advanced psychology capabilities in LLMs, and design RESORT which consists of a series of reappraisal constitutions across multiple dimensions that can be used as LLM instructions. We conduct a first-of-its-kind expert evaluation (by clinical psychologists with M.S. or Ph.D. degrees) of an LLM's zero-shot ability to generate cognitive reappraisal responses to medium-length social media messages asking for support. This fine-grained evaluation showed that even LLMs at the 7B scale guided by RESORT are capable of generating empathic responses that can help users reappraise their situations. | 翻訳日:2024-08-09 20:26:30 公開日:2024-08-08 |
# Smooth Deep Saliency
Smooth Deep Saliency ( http://arxiv.org/abs/2404.02282v3 ) ライセンス: Link先を確認 | Rudolf Herdt, Maximilian Schmidt, Daniel Otero Baguer, Peter Maaß, | (参考訳) 本研究では,畳み込みダウンサンプリングによる深度分布マップのノイズ低減手法について検討する。
これらの手法により,隠れ層で計算した勾配に基づく塩分濃度マップをより解釈しやすくする。
挿入と削除の指標を用いて,これらの手法の忠実さを評価し,入力層とGradCAMの双方と比較して,隠れ層で計算されたサリエンシマップの精度が向上することを確認した。
我々は、ImageNet1Kで画像分類を訓練した異なるモデルと、Camelyon16で腫瘍検出を訓練したモデル、および染色組織サンプルの実世界でのデジタル病理検査について検討した。
以上の結果から,勾配のチェッカーボードノイズは減少し,スムーズになり,従ってサリエンシマップの解釈が容易になることがわかった。
In this work, we investigate methods to reduce the noise in deep saliency maps coming from convolutional downsampling. Those methods make the investigated models more interpretable for gradient-based saliency maps, computed in hidden layers. We evaluate the faithfulness of those methods using insertion and deletion metrics, finding that saliency maps computed in hidden layers perform better compared to both the input layer and GradCAM. We test our approach on different models trained for image classification on ImageNet1K, and models trained for tumor detection on Camelyon16 and in-house real-world digital pathology scans of stained tissue samples. Our results show that the checkerboard noise in the gradient gets reduced, resulting in smoother and therefore easier to interpret saliency maps. | 翻訳日:2024-08-09 20:16:46 公開日:2024-08-08 |
# カスタマイズされたエキスパートネットワークによるスケーラブルなモデル編集
Scalable Model Editing via Customized Expert Networks ( http://arxiv.org/abs/2404.02699v2 ) ライセンス: Link先を確認 | Zihan Yao, Yu He, Tianyu Qi, Ming Li, | (参考訳) 大規模な言語モデルにおける幻覚や時代遅れの知識の問題に対処することは、その信頼性の高い応用に不可欠である。
モデル編集は、これらの課題をコスト効率の良い方法で緩和するための有望な道を示す。
しかし、既存の手法は、しばしば不満足な一般化と非編集標本に対する意図しない影響に悩まされる。
このような制限を克服するために,2段階の継続的トレーニングパラダイムであるCustomized Expert Networks (SCEN)によるスケーラブルモデル編集という,新たなアプローチを導入する。
特に第1段階では、更新が必要な知識毎に、軽量な専門家ネットワークを個別にトレーニングします。
その後、各専門家に対して対応する指標ニューロンを訓練し、その専門家の活性化状態を制御する。
我々は、ZsREとHalucinationベンチマークの一連の実験を行い、先進的なオープンソースLLMであるLlama2をチューニングし、現在の主流手法と比較して最先端の結果を得た。
私たちのコードはhttps://github.com/TAL-auroraX/SCENで公開されています。
Addressing the issues of hallucinations and outdated knowledge in large language models is critical for their reliable application. Model Editing presents a promising avenue for mitigating these challenges in a cost-effective manner. However, existing methods often suffer from unsatisfactory generalization and unintended effects on non-edited samples. To overcome these limitations, we introduce a novel approach: Scalable Model Editing via Customized Expert Networks (SCEN), which is a two-stage continuous training paradigm. Specifically, in the first stage, we train lightweight expert networks individually for each piece of knowledge that needs to be updated. Subsequently, we train a corresponding indexing neuron for each expert to control the activation state of that expert. We conducted a series of experiments on the ZsRE and Hallucination benchmarks by tuning the advanced open-source LLM, Llama2, achieving state-of-the-art results compared to current mainstream methods. Our code is available at https://github.com/TAL-auroraX/SCEN. | 翻訳日:2024-08-09 20:16:46 公開日:2024-08-08 |
# 都市エアモビリティのための自己組織型フリーフライトの到着
Self-organized free-flight arrival for urban air mobility ( http://arxiv.org/abs/2404.03710v2 ) ライセンス: Link先を確認 | Martin Waltz, Ostap Okhrin, Michael Schultz, | (参考訳) 都市空気移動は、垂直離着陸(eVTOL)車両がバーティポートと呼ばれるノード間で運行される革新的な輸送手段である。
深層強化学習に基づく自己組織型頂点到着システムについて概説する。
バーティポート周辺の空域は円形であり、車両は内部で自由に操作できる。
それぞれの航空機は個別のエージェントと見なされ、共有されたポリシーに従っており、その結果、ローカル情報に基づく分散された行動をもたらす。
トレーニング中の強化学習政策の開発について検討し,アルゴリズムが最適な局所保持パターンから安全かつ効率的な最終方針へどのように移行するかを説明する。
後者は、センサノイズに対するロバストネス分析や、インバウンドトラフィックの変化など、シミュレーションベースのシナリオで検証されている。
最後に,小型無人航空機に最終方針を展開させ,現実のユーザビリティを実証する。
Urban air mobility is an innovative mode of transportation in which electric vertical takeoff and landing (eVTOL) vehicles operate between nodes called vertiports. We outline a self-organized vertiport arrival system based on deep reinforcement learning. The airspace around the vertiport is assumed to be circular, and the vehicles can freely operate inside. Each aircraft is considered an individual agent and follows a shared policy, resulting in decentralized actions that are based on local information. We investigate the development of the reinforcement learning policy during training and illustrate how the algorithm moves from suboptimal local holding patterns to a safe and efficient final policy. The latter is validated in simulation-based scenarios, including robustness analyses against sensor noise and a changing distribution of inbound traffic. Lastly, we deploy the final policy on small-scale unmanned aerial vehicles to showcase its real-world usability. | 翻訳日:2024-08-09 20:16:46 公開日:2024-08-08 |
# スマートコントラクト言語の比較分析
Smart Contract Languages: a comparative analysis ( http://arxiv.org/abs/2404.04129v2 ) ライセンス: Link先を確認 | Massimo Bartoletti, Lorenzo Benetollo, Michele Bugliesi, Silvia Crafa, Giacomo Dal Sasso, Roberto Pettinau, Andrea Pinna, Mattia Piras, Sabina Rossi, Stefano Salis, Alvise Spanò, Viacheslav Tkachenko, Roberto Tonelli, Roberto Zunino, | (参考訳) ブロックチェーンと分散アプリケーション(DApps)の進化において、スマートコントラクトは重要な役割を担っている。
DAppsが広く採用され続けている中、複数のスマートコントラクト言語が開発者に提供され、それぞれに特有の機能、長所、短所がある。
本稿では,主要なブロックチェーンプラットフォームで使用されるスマートコントラクト言語について検討する。
結果として、言語設計とブロックチェーンモデルとの相互作用を考慮する一方で、ユーザビリティ、プログラミングスタイル、安全性、セキュリティといった、言語固有の機能に重点を置いています。
評価を行うために,検討中のすべてのスマートコントラクト言語にまたがる,広範かつ管理可能な,主要なユースケースのスペクトルを含む,独自のベンチマークを提案する。
Smart contracts have played a pivotal role in the evolution of blockchains and Decentralized Applications (DApps). As DApps continue to gain widespread adoption, multiple smart contract languages have been and are being made available to developers, each with its distinctive features, strengths, and weaknesses. In this paper, we examine the smart contract languages used in major blockchain platforms, with the goal of providing a comprehensive assessment of their main properties. Our analysis targets the programming languages rather than the underlying architecture: as a result, while we do consider the interplay between language design and blockchain model, our main focus remains on language-specific features such as usability, programming style, safety and security. To conduct our assessment, we propose an original benchmark which encompasses a wide, yet manageable, spectrum of key use cases that cut across all the smart contract languages under examination. | 翻訳日:2024-08-09 20:16:46 公開日:2024-08-08 |
# 統合木ニューラルネットワークによる高速かつ高精度なトポロジ比較
Rapid and Precise Topological Comparison with Merge Tree Neural Networks ( http://arxiv.org/abs/2404.05879v2 ) ライセンス: Link先を確認 | Yu Qin, Brittany Terese Fasy, Carola Wenk, Brian Summa, | (参考訳) マージツリーはスカラーフィールドの科学的可視化に有用なツールであるが、現在のマージツリー比較法は、主にツリーノード間の徹底的なマッチングのため、計算コストが高い。
この課題に対処するために、マージツリー比較用に設計された学習ニューラルネットワークモデルであるマージツリーニューラルネットワーク(MTNN)を導入する。
MTNNは高速で高品質な類似性計算を可能にする。
まず,グラフの効率的なエンコーダとして出現したグラフニューラルネットワークを,ベクトル空間にマージ木を埋め込んで効率の良い類似性比較を行う方法を示す。
次に,木とノードの埋め込みを新しいトポロジカルアテンション機構に統合することにより,類似性の比較をさらに改善する新しいMTNNモデルを定式化する。
本研究では,異なる領域における実世界のデータに対するモデルの有効性を実証し,様々なデータセットにおけるモデルの一般化可能性について検討する。
我々の実験分析は, 精度と効率性におけるアプローチの優位性を示すものである。
特に、ベンチマークデータセットでは、以前の最先端を100\times$以上スピードアップしつつ、エラー率を0.1\%$以下に維持しています。
Merge trees are a valuable tool in the scientific visualization of scalar fields; however, current methods for merge tree comparisons are computationally expensive, primarily due to the exhaustive matching between tree nodes. To address this challenge, we introduce the Merge Tree Neural Network (MTNN), a learned neural network model designed for merge tree comparison. The MTNN enables rapid and high-quality similarity computation. We first demonstrate how to train graph neural networks, which emerged as effective encoders for graphs, in order to produce embeddings of merge trees in vector spaces for efficient similarity comparison. Next, we formulate the novel MTNN model that further improves the similarity comparisons by integrating the tree and node embeddings with a new topological attention mechanism. We demonstrate the effectiveness of our model on real-world data in different domains and examine our model's generalizability across various datasets. Our experimental analysis demonstrates our approach's superiority in accuracy and efficiency. In particular, we speed up the prior state-of-the-art by more than $100\times$ on the benchmark datasets while maintaining an error rate below $0.1\%$. | 翻訳日:2024-08-09 20:16:46 公開日:2024-08-08 |
# 任意の次元をもつイジングモデルの量子熱処理のためのスケーラブルな2局所アーキテクチャ
A scalable 2-local architecture for quantum annealing of Ising models with arbitrary dimensions ( http://arxiv.org/abs/2404.06861v3 ) ライセンス: Link先を確認 | Ana Palacios, Artur Garcia-Saez, Marta P. Estarellas, | (参考訳) 密度の高い接続性を実現することは、今日のほとんどの量子コンピューティングプラットフォームにとって課題であり、量子アニールアプリケーションにとって特に重要な課題である。
この文脈では、次数$d=3$のハードウェアグラフで記述され、任意の次元のイジングモデルを実現するための2局所相互作用のみを含む量子異方体のためのスケーラブルなアーキテクチャを提案する。
三角形の観点から問題グラフを記述することにより、この資源効率の高い構成を量子ビットの論理的連鎖に基づいて導出する。
我々はまた、このアーキテクチャをスケールする際の課題に対処する戦略を考案し、論理解空間の対称性にもっと適したドライバー・ハミルトンを同定する。
したがって、量子アニールパラダイム内の古典的最適化タスク専用のデバイスをスケールアップする、有望な新しい経路を示す。
Achieving dense connectivities is a challenge for most quantum computing platforms today, and a particularly crucial one for the case of quantum annealing applications. In this context, we present a scalable architecture for quantum annealers described by a hardware graph of degree $d=3$ and containing exclusively 2-local interactions to realize Ising models of arbitrary dimension. By describing the problem graph in terms of triangles, we derive this resource-efficient configuration based on logical chains of qubits. We also devise strategies to address the challenges of scaling this architecture, identifying driver Hamiltonians more suited to the symmetries of the logical solution space. We thus show a promising new route to scale up devices dedicated to classical optimization tasks within the quantum annealing paradigm. | 翻訳日:2024-08-09 20:16:46 公開日:2024-08-08 |
# 量子論における不確定性に基づくオントロジー
An Indeterminacy-based Ontology for Quantum Theory ( http://arxiv.org/abs/2404.07197v3 ) ライセンス: Link先を確認 | Francisco Pipa, | (参考訳) 私は、生成量子理論(GQT)と呼ばれる量子理論の新しいオントロジー(または「量子理論の解釈」)を提示し、擁護する。
GQTは異なる特徴セットを仮定し、これらの特徴の組み合わせは異なる量子理論を生成するのに役立つ。
さらに、このオントロジーは、量子的不確定性と決定性は、その性質の値が決定的でない量子系が決定的になる時期を考慮し、重要な説明的役割を果たす。
値が決定される過程は、異なる量子論の間で異なる。
さらに、量子状態は決定性をもたらす量子の性質と構造を表し、それぞれの量子理論は特定の特徴を持つ構造を規定する。
GRW、多世界解釈、リレーショナル量子力学、ボウミアン力学、ハイブリッド古典量子論、環境決定性に基づく量子論(EnD)といった単一世界のリレーショナル理論に焦点をあてる。
私は、GQTは、現在広く議論されているオントロジー、すなわち波動関数リアリズムとプリミティブオントロジーが、コストの一部を伴わずに欠落している一連の重要な利点を提供するので、真剣に取り組まなければならないと論じます。
例えば、エンD量子理論のような相対論的因果関係と互換性のある量子理論を生成するのに役立ちます。
また、GQTは、量子理論を比較して評価する新しい方法を提供することで、哲学や科学的進歩をもたらす可能性がある。
I present and defend a new ontology for quantum theories (or ``interpretations'' of quantum theory) called Generative Quantum Theory (GQT). GQT postulates different sets of features, and the combination of these different features can help generate different quantum theories. Furthermore, this ontology makes quantum indeterminacy and determinacy play an important explanatory role in accounting for when quantum systems whose values of their properties are indeterminate become determinate. The process via which determinate values arise varies between the different quantum theories. Moreover, quantum states represent quantum properties and structures that give rise to determinacy, and each quantum theory specifies a structure with certain features. I will focus on the following quantum theories: GRW, the Many-Worlds Interpretation, single-world relationalist theories such as Relational Quantum Mechanics, Bohmian Mechanics, hybrid classical-quantum theories, and Environmental Determinacy-based (EnD) Quantum Theory. I will argue that GQT should be taken seriously because it provides a series of important benefits that current widely discussed ontologies lack, namely, wave function realism and primitive ontology, without some of their costs. For instance, it helps generate quantum theories that are compatible with relativistic causality, such as EnD Quantum Theory. Also, GQT has the benefit of providing new ways to compare and evaluate quantum theories, which may lead to philosophical and scientific progress. | 翻訳日:2024-08-09 20:16:46 公開日:2024-08-08 |
# マルチユニットオークション設計のための人工知能
Artificial Intelligence for Multi-Unit Auction design ( http://arxiv.org/abs/2404.15633v3 ) ライセンス: Link先を確認 | Peyman Khezr, Kendall Taylor, | (参考訳) マルチユニットオークションにおける入札行動を理解することは、研究者にとって現在進行中の課題である。
広く使われているにもかかわらず、入札行動、収益ランキング、そして一般的な多ユニットオークションの効率に関する理論的洞察は限られている。
本稿では,人工知能,特に強化学習をモデル自由学習手法として活用し,実際に使用されている3つの著名なマルチユニットオークションにおける入札をシミュレートする。
マルチユニットオークションにおいて,学習と入札に適した6つのアルゴリズムを導入し,実例を用いて比較する。
本稿では,人工知能を用いたオークションデザインの重要性,特にマルチユニットオークションの設計の強化について述べる。
Understanding bidding behavior in multi-unit auctions remains an ongoing challenge for researchers. Despite their widespread use, theoretical insights into the bidding behavior, revenue ranking, and efficiency of commonly used multi-unit auctions are limited. This paper utilizes artificial intelligence, specifically reinforcement learning, as a model free learning approach to simulate bidding in three prominent multi-unit auctions employed in practice. We introduce six algorithms that are suitable for learning and bidding in multi-unit auctions and compare them using an illustrative example. This paper underscores the significance of using artificial intelligence in auction design, particularly in enhancing the design of multi-unit auctions. | 翻訳日:2024-08-09 20:16:46 公開日:2024-08-08 |
# U2++ MoE: RTFへの影響を最小限にした4.7xパラメータのスケーリング
U2++ MoE: Scaling 4.7x parameters with minimal impact on RTF ( http://arxiv.org/abs/2404.16407v2 ) ライセンス: Link先を確認 | Xingchen Song, Di Wu, Binbin Zhang, Dinghao Zhou, Zhendong Peng, Bo Dang, Fuping Pan, Chao Yang, | (参考訳) スケールは自然言語処理の新たなフロンティアを開放したが、コストは高い。
これに対し,Mixture-of-Experts (MoE) は,学習と推論においてパラメータのサブセットのみを活性化させることによって,より大きく,より能力の高い言語モデルへのエネルギー効率の高い経路として提案され,特に自動音声認識(ASR)分野において,新しい基礎モデルへの移行が勢いを増している。
ASRモデルにMoEを組み込んだ最近の研究は、補足的な埋め込みネットワークによるルーティングフレーム、専門家の多言語能力の向上、専門家の負荷分散や特定の言語処理のための専用の補助的損失の活用といった複雑な設計がなされている。
その結果,全てのフィードフォワードネットワーク(FFN)層に対して,非常に単純なMoE層置換がASRタスクに適していることがわかった。
さらに具体的には,提案したモデルを大規模インナーソースデータセット(160k時間)でベンチマークした結果,ベースラインコンバータ(Dense-225M)をMoE(MoE-1B)に拡張し,Dense-225Mレベルのリアルタイムファクタ(RTF)を維持しつつ,Dense-1Bレベルのワードエラー率(WER)を達成できることが判明した。
さらに、双方向アテンションデコーダ(U2++)を備えたUnified 2-passフレームワークの適用により、単一のMoEモデルでストリーミングおよび非ストリーミングデコードモードを実現し、U2++ MoEと呼ぶ。
本研究は, 展開効率を犠牲にすることなく, 音声基礎モデルのスケーリングを促進できることを願っている。
Scale has opened new frontiers in natural language processing, but at a high cost. In response, by learning to only activate a subset of parameters in training and inference, Mixture-of-Experts (MoE) have been proposed as an energy efficient path to even larger and more capable language models and this shift towards a new generation of foundation models is gaining momentum, particularly within the field of Automatic Speech Recognition (ASR). Recent works that incorporating MoE into ASR models have complex designs such as routing frames via supplementary embedding network, improving multilingual ability for the experts, and utilizing dedicated auxiliary losses for either expert load balancing or specific language handling. We found that delicate designs are not necessary, while an embarrassingly simple substitution of MoE layers for all Feed-Forward Network (FFN) layers is competent for the ASR task. To be more specific, we benchmark our proposed model on a large scale inner-source dataset (160k hours), the results show that we can scale our baseline Conformer (Dense-225M) to its MoE counterparts (MoE-1B) and achieve Dense-1B level Word Error Rate (WER) while maintaining a Dense-225M level Real Time Factor (RTF). Furthermore, by applying Unified 2-pass framework with bidirectional attention decoders (U2++), we achieve the streaming and non-streaming decoding modes in a single MoE based model, which we call U2++ MoE. We hope that our study can facilitate the research on scaling speech foundation models without sacrificing deployment efficiency. | 翻訳日:2024-08-09 20:16:46 公開日:2024-08-08 |
# メタコミュニケーショングラウンド法と教師付き学習の限界について
It Couldn't Help But Overhear: On the Limits of Modelling Meta-Communicative Grounding Acts with Supervised Learning ( http://arxiv.org/abs/2405.01139v3 ) ライセンス: Link先を確認 | Brielen Madureira, David Schlangen, | (参考訳) 理解はプロデューサーと受取人によって共同で調整されるので、会話の活発な参加は共通基盤の構築の鍵となる。
オーバーハーサルは、根拠となる行為を行う特権を剥奪され、意図した意味についてしか推測できない。
それでも、NLP対話モデルのデータ生成とアノテーション、モデリング、トレーニング、評価は、過度な聴覚パラダイムに依存している。
その結果、基盤となる接地プロセスのどれ程が禁止されるのか?
このように、人間のメタコミュニケーション行為をデータ駆動学習モデルで適切にモデル化することは不可能であることを示す証拠がある。
本稿では, この課題について考察し, 明確化を求める人的意思決定の多様性に関する予備的分析を行う。
最も重要なことは、このトピックをコミュニティのテーブルに持ち帰り、モデルが“参加”するようにデザインされた結果について、議論を奨励したいということです。
Active participation in a conversation is key to building common ground, since understanding is jointly tailored by producers and recipients. Overhearers are deprived of the privilege of performing grounding acts and can only conjecture about intended meanings. Still, data generation and annotation, modelling, training and evaluation of NLP dialogue models place reliance on the overhearing paradigm. How much of the underlying grounding processes are thereby forfeited? As we show, there is evidence pointing to the impossibility of properly modelling human meta-communicative acts with data-driven learning models. In this paper, we discuss this issue and provide a preliminary analysis on the variability of human decisions for requesting clarification. Most importantly, we wish to bring this topic back to the community's table, encouraging discussion on the consequences of having models designed to only "listen in". | 翻訳日:2024-08-09 20:07:02 公開日:2024-08-08 |
# グラフ上でのアクティブラーニングの不確実性
Uncertainty for Active Learning on Graphs ( http://arxiv.org/abs/2405.01462v2 ) ライセンス: Link先を確認 | Dominik Fuchsgruber, Tom Wollschläger, Bertrand Charpentier, Antonio Oroz, Stephan Günnemann, | (参考訳) 不確実性サンプリングは、最も不確実性の高いデータポイントのラベルを反復的に取得することで、機械学習モデルのデータ効率を改善することを目的とした、アクティブな学習戦略である。
独立したデータに対して有効であることが証明されているが、グラフへの適用性はまだ未調査である。
1)予測的不確実性を超えた不確実性サンプリングをベンチマークし、他のアクティブラーニング戦略に顕著なパフォーマンスギャップを浮き彫りにする。
2) 提案手法は,データ生成過程の観点からの地道的ベイズの不確実性推定を開発し,不確実性サンプリングを最適クエリへ導く上での有効性を実証する。
我々は、合成データに関する我々の結果を確認し、実際のデータセット上の他の不確実性推定器を一貫して上回る近似的なアプローチを設計する。
(3) この分析に基づいて, 不確実性モデリングにおける落とし穴と既存手法を関連づける。
我々の分析は、グラフ上での原理的不確実性推定の開発を可能にする。
Uncertainty Sampling is an Active Learning strategy that aims to improve the data efficiency of machine learning models by iteratively acquiring labels of data points with the highest uncertainty. While it has proven effective for independent data its applicability to graphs remains under-explored. We propose the first extensive study of Uncertainty Sampling for node classification: (1) We benchmark Uncertainty Sampling beyond predictive uncertainty and highlight a significant performance gap to other Active Learning strategies. (2) We develop ground-truth Bayesian uncertainty estimates in terms of the data generating process and prove their effectiveness in guiding Uncertainty Sampling toward optimal queries. We confirm our results on synthetic data and design an approximate approach that consistently outperforms other uncertainty estimators on real datasets. (3) Based on this analysis, we relate pitfalls in modeling uncertainty to existing methods. Our analysis enables and informs the development of principled uncertainty estimation on graphs. | 翻訳日:2024-08-09 20:07:02 公開日:2024-08-08 |
# ハーフウェイエスケープ最適化:複雑な最適化問題に対する量子インスパイアされた解法
Halfway Escape Optimization: A Quantum-Inspired Solution for Complex Optimization Problems ( http://arxiv.org/abs/2405.02850v3 ) ライセンス: Link先を確認 | Jiawen Li, Anwar PP Abdul Majeed, Pascal Lefevre, | (参考訳) 本稿ではまず,高次収束率で高次元の地形を特徴とする複雑な最適化問題に対処するために,量子に着想を得た新しいメタヒューリスティックであるHalfway Escape Optimization (HEO)アルゴリズムを提案する。
本研究では,粒子群最適化 (PSO), 遺伝的アルゴリズム (GA), 人工魚群アルゴリズム (AFSA), グレイウルフ最適化 (GWO), 量子行動群最適化 (QPSO) など,確立された最適化アルゴリズムに対するHEOの性能を総合的に比較した。
一次分析は、次元30の14のベンチマーク関数を含み、複雑な最適化ランドスケープをナビゲートし、そのパフォーマンスに関する貴重な洞察を提供するHEOの有効性と適応性を示す。
トラベルセールスマン問題 (TSP) におけるHEOの単純なテストでは、圧力容器設計とタブラルカラム設計は、リアルタイムアプリケーションにおけるその実現可能性と潜在的な弱点を推測する。
This paper first proposes the Halfway Escape Optimization (HEO) algorithm, a novel quantum-inspired metaheuristic designed to address complex optimization problems characterized by rugged landscapes and high-dimensionality with an efficient convergence rate. The study presents a comprehensive comparative evaluation of HEO's performance against established optimization algorithms, including Particle Swarm Optimization (PSO), Genetic Algorithm (GA), Artificial Fish Swarm Algorithm (AFSA), Grey Wolf Optimizer (GWO), and Quantum behaved Particle Swarm Optimization (QPSO). The primary analysis encompasses 14 benchmark functions with dimension 30, demonstrating HEO's effectiveness and adaptability in navigating complex optimization landscapes and providing valuable insights into its performance. The simple test of HEO in Traveling Salesman Problem (TSP), Pressure Vessel Design and Tubular Column Design infers its feasibility and potential weakness in real-time applications. | 翻訳日:2024-08-09 20:07:02 公開日:2024-08-08 |
# DREAM: マルウェア分類における説明的検出と適応によるコンセプトドリフトの圧縮
DREAM: Combating Concept Drift with Explanatory Detection and Adaptation in Malware Classification ( http://arxiv.org/abs/2405.04095v2 ) ライセンス: Link先を確認 | Yiling He, Junchi Lei, Zhan Qin, Kui Ren, | (参考訳) ディープラーニングベースのマルウェア分類器は、コンセプトドリフトのために重大な課題に直面している。
マルウェアの急速な進化、特に新しい家系では、分類精度をほぼランダムなレベルに低下させる可能性がある。
これまでの研究は主に漂流サンプルの検出に重点を置いており、専門家主導の分析とモデル再訓練のためのラベル付けに頼っていた。
しかし、これらの手法はマルウェアの概念を包括的に理解せず、効果的なドリフト適応のための限られたガイダンスを提供し、不安定な検出性能と高い人為的ラベリングコストをもたらす。
これらの制約に対処するため、既存のドリフト検出器の能力を超越し、説明ドリフト適応プロセスを確立するために設計された新しいシステムであるDREAMを導入する。
DREAMはモデル感度とデータ自律性によるドリフト検出を強化する。
半教師付きアプローチで訓練された検出器は、分類器のフィードバックを通じてマルウェアの行動概念を積極的にキャプチャする。
テスト中は、検出器自体が生成したサンプルを使用し、広範なトレーニングデータへの依存を排除している。
ドリフト適応のために、DREAMは人間の介入を拡大し、マルウェアラベルのリビジョンと検出器の潜伏空間に埋め込まれた概念説明を可能にする。
概念のドリフトに対する包括的な応答を保証するため、分類器と検出器の両方の調整された更新プロセスを容易にする。
評価の結果,DREAMはドリフト検出精度を効果的に向上し,各種のマルウェアデータセットや分類器に適応する専門家分析の労力を削減できることがわかった。
Deep learning-based malware classifiers face significant challenges due to concept drift. The rapid evolution of malware, especially with new families, can depress classification accuracy to near-random levels. Previous research has primarily focused on detecting drift samples, relying on expert-led analysis and labeling for model retraining. However, these methods often lack a comprehensive understanding of malware concepts and provide limited guidance for effective drift adaptation, leading to unstable detection performance and high human labeling costs. To address these limitations, we introduce DREAM, a novel system designed to surpass the capabilities of existing drift detectors and to establish an explanatory drift adaptation process. DREAM enhances drift detection through model sensitivity and data autonomy. The detector, trained in a semi-supervised approach, proactively captures malware behavior concepts through classifier feedback. During testing, it utilizes samples generated by the detector itself, eliminating reliance on extensive training data. For drift adaptation, DREAM enlarges human intervention, enabling revisions of malware labels and concept explanations embedded within the detector's latent space. To ensure a comprehensive response to concept drift, it facilitates a coordinated update process for both the classifier and the detector. Our evaluation shows that DREAM can effectively improve the drift detection accuracy and reduce the expert analysis effort in adaptation across different malware datasets and classifiers. | 翻訳日:2024-08-09 20:07:02 公開日:2024-08-08 |
# LLMディスカッション: 議論フレームワークとロールプレイによる大規模言語モデルの創造性向上
LLM Discussion: Enhancing the Creativity of Large Language Models via Discussion Framework and Role-Play ( http://arxiv.org/abs/2405.06373v4 ) ライセンス: Link先を確認 | Li-Chun Lu, Shou-Jen Chen, Tsung-Min Pai, Chan-Hung Yu, Hung-yi Lee, Shao-Hua Sun, | (参考訳) 大規模言語モデル(LLM)は自然言語処理において例外的な習熟度を示してきたが、しばしばオープンエンドの質問に対する創造的で独創的な応答を生成できない。
LLMクリエイティビティを高めるために、我々の重要な洞察は、多様な背景や視点から参加者と議論することで、集団クリエイティビティを誘発する人間のプロセスをエミュレートすることである。
そこで本研究では,アイデア交換の活発化と多様化を促進し,創造的回答への収束を保証する3段階の議論フレームワークであるLSM議論を提案する。
さらに,LLMの均一性と戦うために,異なる役割をLLMに割り当てることで,ロールプレイング手法を採用する。
提案手法の有効性を, LLM評価と人的学習の両面から評価し, 代替利用テスト, 類似性テスト, 事例試験, 科学的創造性テストを用いて評価した。
その結果,提案するフレームワークは,様々なクリエイティビティ指標において,シングルLLMアプローチや既存のマルチLLMフレームワークよりも優れていた。
コードはhttps://github.com/lawraa/LLM-Discussion.comで公開されている。
Large language models (LLMs) have shown exceptional proficiency in natural language processing but often fall short of generating creative and original responses to open-ended questions. To enhance LLM creativity, our key insight is to emulate the human process of inducing collective creativity through engaging discussions with participants from diverse backgrounds and perspectives. To this end, we propose LLM Discussion, a three-phase discussion framework that facilitates vigorous and diverging idea exchanges and ensures convergence to creative answers. Moreover, we adopt a role-playing technique by assigning distinct roles to LLMs to combat the homogeneity of LLMs. We evaluate the efficacy of the proposed framework with the Alternative Uses Test, Similarities Test, Instances Test, and Scientific Creativity Test through both LLM evaluation and human study. The results show that our proposed framework outperforms single-LLM approaches and existing multi-LLM frameworks across various creativity metrics. The code is available at https://github.com/lawraa/LLM-Discussion. | 翻訳日:2024-08-09 20:07:02 公開日:2024-08-08 |
# 3DSS-マンバ : ハイパースペクトル画像分類のための3次元スペクトル空間マンバ
3DSS-Mamba: 3D-Spectral-Spatial Mamba for Hyperspectral Image Classification ( http://arxiv.org/abs/2405.12487v2 ) ライセンス: Link先を確認 | Yan He, Bing Tu, Bo Liu, Jun Li, Antonio Plaza, | (参考訳) ハイパースペクトル画像(HSI)分類は、リモートセンシング分野における基礎研究を構成する。
畳み込みニューラルネットワーク(CNN)とトランスフォーマーは、スペクトル空間のコンテキスト依存をキャプチャする素晴らしい能力を実証している。
しかし、これらのアーキテクチャは、それぞれ限定的な受容場と二次的な計算複雑性に悩まされている。
幸いなことに、ステートスペースモデル上に構築された最近のMambaアーキテクチャは、長距離シーケンスモデリングと線形計算効率の利点を統合しており、低次元のシナリオにおいて大きな可能性を秘めている。
そこで本研究では,HSI分類のための3次元スペクトル空間マンバ(DSS-Mamba)フレームワークを提案する。
技術的には、スペクトル空間トークン生成(SSTG)モジュールは、HSIキューブを3次元スペクトル空間トークンの集合に変換するように設計されている。
因果関係のモデル化に限定し、高次元シナリオに適応できない伝統的なマンバの限界を克服するため、3次元スペクトル-空間選択走査(DSS)機構を導入し、スペクトルおよび空間次元に沿った3次元ハイパースペクトルトークンを画素単位で選択的に走査する。
次元優先順位付けの影響を調べるため, 5つの走査経路を構築した。
3DSSスキャン機構と従来のマッピング操作が組み合わさって、3D-スペクトル-空間的マンバブロック(3DMB)を形成し、グローバルなスペクトル-空間的意味表現の抽出を可能にする。
実験結果と解析結果から,提案手法はHSI分類ベンチマークの最先端手法よりも優れていることが示された。
Hyperspectral image (HSI) classification constitutes the fundamental research in remote sensing fields. Convolutional Neural Networks (CNNs) and Transformers have demonstrated impressive capability in capturing spectral-spatial contextual dependencies. However, these architectures suffer from limited receptive fields and quadratic computational complexity, respectively. Fortunately, recent Mamba architectures built upon the State Space Model integrate the advantages of long-range sequence modeling and linear computational efficiency, exhibiting substantial potential in low-dimensional scenarios. Motivated by this, we propose a novel 3D-Spectral-Spatial Mamba (3DSS-Mamba) framework for HSI classification, allowing for global spectral-spatial relationship modeling with greater computational efficiency. Technically, a spectral-spatial token generation (SSTG) module is designed to convert the HSI cube into a set of 3D spectral-spatial tokens. To overcome the limitations of traditional Mamba, which is confined to modeling causal sequences and inadaptable to high-dimensional scenarios, a 3D-Spectral-Spatial Selective Scanning (3DSS) mechanism is introduced, which performs pixel-wise selective scanning on 3D hyperspectral tokens along the spectral and spatial dimensions. Five scanning routes are constructed to investigate the impact of dimension prioritization. The 3DSS scanning mechanism combined with conventional mapping operations forms the 3D-spectral-spatial mamba block (3DMB), enabling the extraction of global spectral-spatial semantic representations. Experimental results and analysis demonstrate that the proposed method outperforms the state-of-the-art methods on HSI classification benchmarks. | 翻訳日:2024-08-09 20:07:02 公開日:2024-08-08 |
# 金融応用による跳躍拡散の強化学習
Reinforcement Learning for Jump-Diffusions, with Financial Applications ( http://arxiv.org/abs/2405.16449v2 ) ライセンス: Link先を確認 | Xuefeng Gao, Lingfei Li, Xun Yu Zhou, | (参考訳) 本研究では,システムダイナミクスがジャンプ拡散過程によって制御される確率制御のための連続時間強化学習(RL)について検討する。
エントロピー規則化探索制御問題を確率的ポリシで定式化し,RLに必要な探索-探索バランスを把握した。
Wang et al (2020) が最初に研究した純粋な拡散の場合とは異なり、ジャンプ拡散の下での探索力学の導出はジャンプ部分の慎重に定式化を要求する。
理論解析により、Jia と Zhou (2022a, 2023) で同じポリシー評価と$q$-learningアルゴリズムを、元々は制御拡散のために開発されたもので、基礎となるデータが純粋な拡散かジャンプ拡散かを事前に確認する必要がない。
しかし,ジャンプの存在は,一般の俳優や批評家のパラメータ化に影響を及ぼすと考えられる。
本稿では, 株価をジャンプ拡散としてモデル化した平均分散ポートフォリオ選択問題を応用として検討し, RLアルゴリズムとパラメータ化の両方がジャンプに関して不変であることを示す。
最後に、オプションヘッジに一般理論を適用するための詳細な研究について述べる。
We study continuous-time reinforcement learning (RL) for stochastic control in which system dynamics are governed by jump-diffusion processes. We formulate an entropy-regularized exploratory control problem with stochastic policies to capture the exploration--exploitation balance essential for RL. Unlike the pure diffusion case initially studied by Wang et al. (2020), the derivation of the exploratory dynamics under jump-diffusions calls for a careful formulation of the jump part. Through a theoretical analysis, we find that one can simply use the same policy evaluation and $q$-learning algorithms in Jia and Zhou (2022a, 2023), originally developed for controlled diffusions, without needing to check a priori whether the underlying data come from a pure diffusion or a jump-diffusion. However, we show that the presence of jumps ought to affect parameterizations of actors and critics in general. We investigate as an application the mean--variance portfolio selection problem with stock price modelled as a jump-diffusion, and show that both RL algorithms and parameterizations are invariant with respect to jumps. Finally, we present a detailed study on applying the general theory to option hedging. | 翻訳日:2024-08-09 20:07:02 公開日:2024-08-08 |
# ハーバード大学の大学院生による生成AIに関する調査
Harvard Undergraduate Survey on Generative AI ( http://arxiv.org/abs/2406.00833v2 ) ライセンス: Link先を確認 | Shikoh Hirabayashi, Rishab Jain, Nikola Jurković, Gabriel Wu, | (参考訳) 生成AIは大学生の体験にどのように影響したか?
ハーバード大学の大学院生 (n=326) の学習習慣, クラス選択, キャリアへのAIの影響を調べたところ, 学生の90%近くが生成型AIを使用していることがわかった。
これらの学生の約25%のために、AIはオフィスの時間と必要な読み上げを代用し始めている。
学生の半数はAIが仕事の見通しに悪影響を及ぼすのではないかと心配しており、半数以上がハーバード大学にAIの将来的な影響についてもっと多くのクラスがあることを望んでいる。
学生の半数は、AIが経済的不平等を高めることを心配しており、40%は、パンデミックや核戦争と同じ緊急度で、AIによる絶滅リスクを世界的優先事項として扱うべきだと信じている。
AIの授業を受けた学生の約半数は、AIが30年以内にほぼすべてのタスクにおいて人間の能力を上回ることを期待している。
これらの結果を踏まえて、ハーバードコミュニティにいくつか推奨します。
How has generative AI impacted the experiences of college students? We study the influence of AI on the study habits, class choices, and career prospects of Harvard undergraduates (n=326), finding that almost 90% of students use generative AI. For roughly 25% of these students, AI has begun to substitute for attending office hours and completing required readings. Half of students are concerned that AI will negatively impact their job prospects, and over half of students wish that Harvard had more classes on the future impacts of AI. We also investigate students' outlook on the broader social implications of AI, finding that half of students are worried that AI will increase economic inequality, and 40% believe that extinction risk from AI should be treated as a global priority with the same urgency as pandemics and nuclear war. Around half of students who have taken a class on AI expect AI to exceed human capabilities on almost all tasks within 30 years. We make some recommendations to the Harvard community in light of these results. | 翻訳日:2024-08-09 20:07:02 公開日:2024-08-08 |
# ワンステップテキスト・ツー・イメージ生成のためのスコアアイデンティティ蒸留における長短誘導
Long and Short Guidance in Score identity Distillation for One-Step Text-to-Image Generation ( http://arxiv.org/abs/2406.01561v3 ) ライセンス: Link先を確認 | Mingyuan Zhou, Zhendong Wang, Huangjie Zheng, Hai Huang, | (参考訳) 広範テキストイメージペアで訓練された拡散ベースのテキスト画像生成モデルは、テキスト記述と整合したフォトリアリスティック画像を生成する能力を示している。
しかし、これらのモデルの顕著な制限は、その遅いサンプル生成であり、同じネットワークを通して反復的な改善を必要とする。
本稿では,Score ID Distillation (SiD) を強化し,Long and Short Classifier-free Guide (LSG) を開発した。
SiD はモデルに基づく明示的なスコアマッチング損失を最適化することを目的としており、実際の計算のために提案したLSG と並行してスコア同一性に基づく近似を用いている。
一段生成器で合成された偽画像のみをトレーニングすることにより、LSGを備えたSiDは、FIDとCLIPのスコアを急速に改善し、競争力のあるCLIPスコアを維持しながら最先端のFIDのパフォーマンスを達成する。
具体的には、そのデータフリー蒸留法である安定拡散1.5は、COCO-2014検証セットで8.15の低いFID、LSGスケールで0.304のCLIPスコア、LSGスケールで0.313のCLIPスコアで9.56のFIDを達成している。
我々のコードと1段階のテキスト・ツー・イメージ・ジェネレータはhttps://github.com/mingyuanzhou/SiD-LSGで利用可能です。
Diffusion-based text-to-image generation models trained on extensive text-image pairs have shown the capacity to generate photorealistic images consistent with textual descriptions. However, a significant limitation of these models is their slow sample generation, which requires iterative refinement through the same network. In this paper, we enhance Score identity Distillation (SiD) by developing long and short classifier-free guidance (LSG) to efficiently distill pretrained Stable Diffusion models without using real training data. SiD aims to optimize a model-based explicit score matching loss, utilizing a score-identity-based approximation alongside the proposed LSG for practical computation. By training exclusively with fake images synthesized with its one-step generator, SiD equipped with LSG rapidly improves FID and CLIP scores, achieving state-of-the-art FID performance while maintaining a competitive CLIP score. Specifically, its data-free distillation of Stable Diffusion 1.5 achieves a record low FID of 8.15 on the COCO-2014 validation set, with a CLIP score of 0.304 at an LSG scale of 1.5, and an FID of 9.56 with a CLIP score of 0.313 at an LSG scale of 2. Our code and distilled one-step text-to-image generators are available at https://github.com/mingyuanzhou/SiD-LSG. | 翻訳日:2024-08-09 20:07:02 公開日:2024-08-08 |
# 教師なしニューラルネットワーク最適化のための拡散モデルフレームワーク
A Diffusion Model Framework for Unsupervised Neural Combinatorial Optimization ( http://arxiv.org/abs/2406.01661v2 ) ライセンス: Link先を確認 | Sebastian Sanokowski, Sepp Hochreiter, Sebastian Lehner, | (参考訳) 個別のデータセット上の難解な分布から、対応するトレーニングデータに頼ることなくサンプルを学習することは、 Combinatorial Optimizationを含む幅広い分野において中心的な問題である。
現在、人気のあるディープラーニングベースのアプローチは、主に正確なサンプル確率を生み出す生成モデルに依存している。
この研究は、この制限を解除する手法を導入し、拡散モデルのような高度に表現力のある潜在変数モデルを採用する可能性を開く。
提案手法は, 逆カルバック・リーブラー分岐を上界とする損失に基づいて, 正確なサンプル確率の要求を回避している。
我々は,データフリーなコンビネーション最適化におけるアプローチを実験的に検証し,幅広いベンチマーク問題に対して新しい最先端の手法を実現することを実証した。
Learning to sample from intractable distributions over discrete sets without relying on corresponding training data is a central problem in a wide range of fields, including Combinatorial Optimization. Currently, popular deep learning-based approaches rely primarily on generative models that yield exact sample likelihoods. This work introduces a method that lifts this restriction and opens the possibility to employ highly expressive latent variable models like diffusion models. Our approach is conceptually based on a loss that upper bounds the reverse Kullback-Leibler divergence and evades the requirement of exact sample likelihoods. We experimentally validate our approach in data-free Combinatorial Optimization and demonstrate that our method achieves a new state-of-the-art on a wide range of benchmark problems. | 翻訳日:2024-08-09 20:07:02 公開日:2024-08-08 |
# FastLGS: 機能グリッドマッピングによる言語組み込みガウスの高速化
FastLGS: Speeding up Language Embedded Gaussians with Feature Grid Mapping ( http://arxiv.org/abs/2406.01916v2 ) ライセンス: Link先を確認 | Yuzhou Ji, He Zhu, Junshu Tang, Wuyi Liu, Zhizhong Zhang, Yuan Xie, Xin Tan, | (参考訳) セマンティック・インタラクティブなラディアンス・フィールドは、ユーザフレンドリーで自動化された現実世界の3Dシーン理解アプリケーションを促進する可能性に対して、常に魅力的なタスクであった。
しかし,レージアンス分野のセマンティクスを用いて,高品質,効率,ゼロショット能力を同時に達成することは難しい課題である。
本研究では,3次元ガウススプラッティング(3DGS)におけるリアルタイムなオープン語彙クエリをサポートするアプローチであるFastLGSを提案する。
本稿では,Segment Anything Model (SAM) マスクから抽出したマルチビューCLIP機能を保存するためのセマンティック特徴グリッドを提案し,そのグリッドを3DGSによるセマンティックフィールドトレーニングのための低次元特徴にマッピングする。
一度トレーニングすれば、オープン語彙クエリのレンダリング機能からフィーチャーグリッドを通じて、ピクセル整列CLIP埋め込みを復元できます。
FastLGSはLERFより98倍、LangSplatより4倍高速である。
一方、実験により、FastLGSは他の3D操作システムに容易に適用可能な3Dセグメンテーションや3Dオブジェクトのインペインティングなど、多くの下流タスクに適応し互換性があることが示されている。
The semantically interactive radiance field has always been an appealing task for its potential to facilitate user-friendly and automated real-world 3D scene understanding applications. However, it is a challenging task to achieve high quality, efficiency and zero-shot ability at the same time with semantics in radiance fields. In this work, we present FastLGS, an approach that supports real-time open-vocabulary query within 3D Gaussian Splatting (3DGS) under high resolution. We propose the semantic feature grid to save multi-view CLIP features which are extracted based on Segment Anything Model (SAM) masks, and map the grids to low dimensional features for semantic field training through 3DGS. Once trained, we can restore pixel-aligned CLIP embeddings through feature grids from rendered features for open-vocabulary queries. Comparisons with other state-of-the-art methods prove that FastLGS can achieve the first place performance concerning both speed and accuracy, where FastLGS is 98x faster than LERF and 4x faster than LangSplat. Meanwhile, experiments show that FastLGS is adaptive and compatible with many downstream tasks, such as 3D segmentation and 3D object inpainting, which can be easily applied to other 3D manipulation systems. | 翻訳日:2024-08-09 20:07:02 公開日:2024-08-08 |
# 車両目標のスパースマルチベースラインSARクロスモーダル3次元再構成
Sparse Multi-baseline SAR Cross-modal 3D Reconstruction of Vehicle Targets ( http://arxiv.org/abs/2406.04158v2 ) ライセンス: Link先を確認 | Da Li, Guoqiang Zhao, Houjun Sun, Jiacheng Bao, | (参考訳) マルチベースラインのSAR 3Dイメージングは、データの分散によって大きな課題に直面している。
近年、深層学習技術はスパースSAR3D画像の品質向上に顕著な成功を収めている。
しかしながら、従来の研究は通常、ディープニューラルネットワーク(DNN)のトレーニングを監督するために、完全な高解像度レーダイメージに依存しており、レーダデータからの単一モーダル情報のみを利用している。
その結果、撮像性能は制限され、マルチベースラインSARのフルアパーチャデータを取得することは、現実のアプリケーションではコストがかかり、時には実用的ではない。
本稿では,多基線SAR 3D画像の視覚的構造と高解像度化を両立させるために,異なるレンダリングとクロスモーダルを光学画像と統合したクロスモーダル再構成ネットワーク(CMR-Net)を提案する。
我々は,ネットワークの一般化能力を高めるため,ネットワークアーキテクチャとトレーニング戦略を慎重に設計した。
注目すべきは、シミュレーションデータのみに基づいてトレーニングされたCMR-Netは、公開可能なシミュレーションデータセットと実測データセットの両方で高解像度の再構成機能を示し、圧縮センシングやその他の学習ベースの手法に基づく従来のスパース再構成アルゴリズムよりも優れていることだ。
さらに、光学イメージを監視として使用すると、トレーニングデータセットを構築するためのコスト効率が向上し、メソッドの普及の困難さが軽減される。
本研究は,マルチベースラインSAR 3Dイメージングにおける深層学習の可能性を示すとともに,クロスモーダル学習理論に基づくレーダイメージング研究の新たな道筋を提供する。
Multi-baseline SAR 3D imaging faces significant challenges due to data sparsity. In recent years, deep learning techniques have achieved notable success in enhancing the quality of sparse SAR 3D imaging. However, previous work typically rely on full-aperture high-resolution radar images to supervise the training of deep neural networks (DNNs), utilizing only single-modal information from radar data. Consequently, imaging performance is limited, and acquiring full-aperture data for multi-baseline SAR is costly and sometimes impractical in real-world applications. In this paper, we propose a Cross-Modal Reconstruction Network (CMR-Net), which integrates differentiable render and cross-modal supervision with optical images to reconstruct highly sparse multi-baseline SAR 3D images of vehicle targets into visually structured and high-resolution images. We meticulously designed the network architecture and training strategies to enhance network generalization capability. Remarkably, CMR-Net, trained solely on simulated data, demonstrates high-resolution reconstruction capabilities on both publicly available simulation datasets and real measured datasets, outperforming traditional sparse reconstruction algorithms based on compressed sensing and other learning-based methods. Additionally, using optical images as supervision provides a cost-effective way to build training datasets, reducing the difficulty of method dissemination. Our work showcases the broad prospects of deep learning in multi-baseline SAR 3D imaging and offers a novel path for researching radar imaging based on cross-modal learning theory. | 翻訳日:2024-08-09 19:57:18 公開日:2024-08-08 |
# NMRにおける長寿命単一状態の生成と検出のための量子交互演算子アンザッツ
Quantum Alternating Operator Ansatz for the Preparation and Detection of Long-Lived Singlet States in NMR ( http://arxiv.org/abs/2406.05015v2 ) ライセンス: Link先を確認 | Pratham Hullamballi, Vishal Varma, T. S. Mahesh, | (参考訳) 量子技術を開発するには、効率的で堅牢な量子制御戦略を設計することが不可欠である。
最近の戦略の1つは量子交互演算子アンザッツ (QAOA) シーケンスであり、これは代わりに2つの非可換ハミルトニアンの下で伝播し、制御パラメータはゲートの生成や状態の準備に最適化できる。
ここでは、NMRの熱状態から長寿命一重項状態(LLS)を作成するためにQAOA配列とその変異体の設計について述べる。
スピン格子緩和時間定数T_1$を超える超長寿命のLSSは、分光から医用画像まで様々な用途において大きな関心を集めてきた。
したがって、汎用スピンシステムにおいてLSSを効率的に作成するためのシーケンスを設計することが重要である。
数値解析を用いて,制御パラメータの幅広い誤差に対して,QAOA配列の効率性とロバスト性について検討した。
2量子NMRレジスタを用いて、他のLSS調製法と比較してQAOA配列をベンチマークし、QAOA配列の極めて優れた性能を観察する実験を行った。
Designing efficient and robust quantum control strategies is vital for developing quantum technologies. One recent strategy is the Quantum Alternating Operator Ansatz (QAOA) sequence that alternatively propagates under two noncommuting Hamiltonians, whose control parameters can be optimized to generate a gate or prepare a state. Here, we describe the design of the QAOA sequence and their variants to prepare long-lived singlet states (LLS) from the thermal state in NMR. With extraordinarily long lifetimes exceeding the spin-lattice relaxation time constant $T_1$, LLS have been of great interest for various applications, from spectroscopy to medical imaging. Accordingly, designing sequences for efficiently preparing LLS in a general spin system is crucial. Using numerical analysis, we study the efficiency and robustness of the QAOA sequences over a wide range of errors in the control parameters. Using a two-qubit NMR register, we conduct an experimental study to benchmark QAOA sequences against other prominent methods of LLS preparation and observe the significantly superior performance of the QAOA sequences. | 翻訳日:2024-08-09 19:57:18 公開日:2024-08-08 |
# LUNAR: 教師なしLLMベースのログパーシング
LUNAR: Unsupervised LLM-based Log Parsing ( http://arxiv.org/abs/2406.07174v2 ) ライセンス: Link先を確認 | Junjie Huang, Zhihan Jiang, Zhuangbin Chen, Michael R. Lyu, | (参考訳) ログ解析は、様々なログ解析タスクにとって必須の前提となる。
この分野での最近の進歩は、微調整された大言語モデル(LLM)を通してログのセマンティクスを利用するか、文脈内デモから学ぶことで解析精度を改善している。
しかし、これらの手法は最適な性能を達成するためにラベル付き例に大きく依存する。
実際には、ログの大規模かつ継続的な進化のため、十分なラベル付きデータ収集が難しいため、デプロイ後に既存のログパーサのパフォーマンスが低下する。
この問題に対処するため,LUNARを提案する。
我々の重要な洞察は、LSMは直接ログ解析に苦労するかもしれないが、パラメータ部分だけが異なる複数のログの比較分析により、その性能を著しく向上できるということです。
ログのこのようなグループをログコントラスト単位(Log Contrastive Units, LCU)と呼ぶ。
ログの膨大な量を考えると、LCUの取得は困難である。
そのため、LUNARでは、ログ間の共通性と変動性を共同で考慮し、LCUを効果的に検索するハイブリッドランキング方式を導入している。
加えて、LUNARはLLMがコントラストパターンを特定し、LCUから意味のあるログ構造を抽出するための新しい解析プロンプトを作成する。
大規模な公開データセットの実験では、LUNARは精度と効率の点で最先端のログパーサを大幅に上回っており、現実のデプロイメントに効果的でスケーラブルなソリューションを提供する。
コードとデータは \url{https://github.com/Jun-jie-Huang/LUNAR}} で公開されている。
Log parsing serves as an essential prerequisite for various log analysis tasks. Recent advancements in this field have improved parsing accuracy by leveraging the semantics in logs through fine-tuning large language models (LLMs) or learning from in-context demonstrations. However, these methods heavily depend on labeled examples to achieve optimal performance. In practice, collecting sufficient labeled data is challenging due to the large scale and continuous evolution of logs, leading to performance degradation of existing log parsers after deployment. To address this issue, we propose LUNAR, an unsupervised LLM-based method for efficient and off-the-shelf log parsing. Our key insight is that while LLMs may struggle with direct log parsing, their performance can be significantly enhanced through comparative analysis across multiple logs that differ only in their parameter parts. We refer to such groups of logs as Log Contrastive Units (LCUs). Given the vast volume of logs, obtaining LCUs is difficult. Therefore, LUNAR introduces a hybrid ranking scheme to effectively search for LCUs by jointly considering the commonality and variability among logs. Additionally, LUNAR crafts a novel parsing prompt for LLMs to identify contrastive patterns and extract meaningful log structures from LCUs. Experiments on large-scale public datasets demonstrate that LUNAR significantly outperforms state-of-the-art log parsers in terms of accuracy and efficiency, providing an effective and scalable solution for real-world deployment. \footnote{The code and data are available at \url{https://github.com/Jun-jie-Huang/LUNAR}}. | 翻訳日:2024-08-09 19:57:18 公開日:2024-08-08 |
# 文脈外ニュース検出のためのドメイン不変特徴の学習
Learning Domain-Invariant Features for Out-of-Context News Detection ( http://arxiv.org/abs/2406.07430v2 ) ライセンス: Link先を確認 | Yimeng Gu, Mengqi Zhang, Ignacio Castro, Shu Wu, Gareth Tyson, | (参考訳) アウト・オブ・コンテクストのニュースは、オンラインメディアプラットフォームでよく見られる誤報である。
これは、不一致のニュース画像とともにキャプションを投稿することを含む。
既存のアウト・オブ・コンテクストのニュース検出モデルは、事前にラベル付けされたデータが各ドメインで利用可能であり、未ラベルのドメイン(例えばニューストピックやエージェンシー)におけるアウト・オブ・コンテクストのニュース検出に対処できないシナリオのみを考慮している。
そこで本研究では,ドメイン適応型文脈外ニュース検出に焦点をあてる。
未ラベルのニューストピックやエージェンシーに検出モデルを効果的に適用するため,コンダTTA(Contrastive Domain Adaptation with Test-Time Adaptation)を提案する。
さらに、テスト時間対象ドメイン統計を利用して、さらなるドメイン適応を支援します。
実験の結果,F1では最大2.93%,精度では2.08%,2つのパブリックデータセットではドメイン適応設定のベースラインよりも優れていた。
Out-of-context news is a common type of misinformation on online media platforms. This involves posting a caption, alongside a mismatched news image. Existing out-of-context news detection models only consider the scenario where pre-labeled data is available for each domain, failing to address the out-of-context news detection on unlabeled domains (e.g. news topics or agencies). In this work, we therefore focus on domain adaptive out-of-context news detection. In order to effectively adapt the detection model to unlabeled news topics or agencies, we propose ConDA-TTA (Contrastive Domain Adaptation with Test-Time Adaptation) which applies contrastive learning and maximum mean discrepancy (MMD) to learn domain-invariant features. In addition, we leverage test-time target domain statistics to further assist domain adaptation. Experimental results show that our approach outperforms baselines in most domain adaptation settings on two public datasets, by as much as 2.93% in F1 and 2.08% in accuracy. | 翻訳日:2024-08-09 19:57:18 公開日:2024-08-08 |
# ジェネリックUI表現のためのテキストの展望
Tell Me What's Next: Textual Foresight for Generic UI Representations ( http://arxiv.org/abs/2406.07822v2 ) ライセンス: Link先を確認 | Andrea Burns, Kate Saenko, Bryan A. Plummer, | (参考訳) モバイルアプリのユーザインターフェース(UI)にはアクションやテキスト,構造,イメージの内容が豊富で,ユーザコマンドの自動化やコンテンツの要約,ユーザインターフェースのアクセシビリティ評価など,一般的なUI表現の学習に使用することができる。
以前の研究は、局所的またはグローバルなキャプション損失を伴う強力な視覚的表現を学習してきたが、粒度の保持には失敗した。
これに対抗するために,UI画面表現を学習するための新しい事前学習目標であるTextual Foresightを提案する。
Textual Foresightは、現在のUIとローカルアクションを考慮すれば、将来のUI状態のグローバルなテキスト記述を生成する。
生成タスクでは、Textual ForesightでトレーニングされたUIエージェントが、28倍のイメージで2%以上のパフォーマンスを実現しています。
新たに構築したモバイルアプリデータセットであるOpenAppでトレーニングを行い、アプリUI表現学習のための最初の公開データセットを作成しました。
OpenAppは新たなベースラインを可能にし、Textual Foresightは2倍少ないデータにアクセスしながら、平均タスクパフォーマンスを5.7%改善する。
Mobile app user interfaces (UIs) are rich with action, text, structure, and image content that can be utilized to learn generic UI representations for tasks like automating user commands, summarizing content, and evaluating the accessibility of user interfaces. Prior work has learned strong visual representations with local or global captioning losses, but fails to retain both granularities. To combat this, we propose Textual Foresight, a novel pretraining objective for learning UI screen representations. Textual Foresight generates global text descriptions of future UI states given a current UI and local action taken. Our approach requires joint reasoning over elements and entire screens, resulting in improved UI features: on generation tasks, UI agents trained with Textual Foresight outperform state-of-the-art by 2% with 28x fewer images. We train with our newly constructed mobile app dataset, OpenApp, which results in the first public dataset for app UI representation learning. OpenApp enables new baselines, and we find Textual Foresight improves average task performance over them by 5.7% while having access to 2x less data. | 翻訳日:2024-08-09 19:57:18 公開日:2024-08-08 |
# 大規模言語モデルと知識グラフの相互作用に関する研究動向
Research Trends for the Interplay between Large Language Models and Knowledge Graphs ( http://arxiv.org/abs/2406.08223v2 ) ライセンス: Link先を確認 | Hanieh Khorashadizadeh, Fatima Zahra Amara, Morteza Ezzabady, Frédéric Ieng, Sanju Tiwari, Nandana Mihindukulasooriya, Jinghua Groppe, Soror Sahri, Farah Benamara, Sven Groppe, | (参考訳) 本稿では,Large Language Models(LLMs)とKGs(KGs)の相乗的関係について検討する。
本研究の目的は、KG質問回答、オントロジー生成、KG検証、およびLCMによるKG精度と一貫性の向上など、現在の研究におけるギャップに対処することである。
本稿は,KGに対する記述文と自然言語クエリ生成におけるLLMの役割について検討する。
LLMとKGの相互作用の分類、方法論の検証、協調的な使用法と潜在的なバイアスの調査を含む構造化された分析を通じて、LLMとKGの複合可能性に関する新たな洞察を提供する。
AIアプリケーションを改善するための相互作用の重要性を強調し、今後の研究方向性を概説する。
This survey investigates the synergistic relationship between Large Language Models (LLMs) and Knowledge Graphs (KGs), which is crucial for advancing AI's capabilities in understanding, reasoning, and language processing. It aims to address gaps in current research by exploring areas such as KG Question Answering, ontology generation, KG validation, and the enhancement of KG accuracy and consistency through LLMs. The paper further examines the roles of LLMs in generating descriptive texts and natural language queries for KGs. Through a structured analysis that includes categorizing LLM-KG interactions, examining methodologies, and investigating collaborative uses and potential biases, this study seeks to provide new insights into the combined potential of LLMs and KGs. It highlights the importance of their interaction for improving AI applications and outlines future research directions. | 翻訳日:2024-08-09 19:57:18 公開日:2024-08-08 |
# GaussianForest:圧縮シーンモデリングのための階層型3次元ガウススプレイティング
GaussianForest: Hierarchical-Hybrid 3D Gaussian Splatting for Compressed Scene Modeling ( http://arxiv.org/abs/2406.08759v2 ) ライセンス: Link先を確認 | Fengyi Zhang, Yadan Luo, Tianjun Zhang, Lin Zhang, Zi Huang, | (参考訳) ノベル・ビュー・シンセサイザーの分野は、最近3Dガウス・スプレイティングの出現を目撃し、これはポイントベースでシーンを表現し、ラスタライズを通してレンダリングする。
レイトレーシングに依存するラジアンス・フィールドとは対照的に、この手法はより優れたレンダリング品質と速度を示す。
しかし、3Dガウスの明示的かつ非構造的な性質は、その広範な応用を妨げる重要なストレージ課題を招いている。
この課題に対処するために,ハイブリッド3Dガウスの森として階層的に表現されるガウス・フォレスト・モデリング・フレームワークを導入する。
それぞれのハイブリッドガウスは独自の明示的属性を保持し、暗黙的な属性を兄弟ガウスと共有し、パラメータ化を著しく少ない変数で最適化する。
さらに、適応的な成長と刈り取り戦略が設計され、複雑な領域の詳細な表現が保証され、必要なガウス数の顕著な削減が図られる。
広汎な実験により、ガウス・フォレストは同等の速度と品質を維持するだけでなく、圧縮速度も10倍を超え、効率的なシーンモデリングの大幅な進歩を示している。
コードはhttps://github.com/Xian-Bei/GaussianForest.comで入手できる。
The field of novel-view synthesis has recently witnessed the emergence of 3D Gaussian Splatting, which represents scenes in a point-based manner and renders through rasterization. This methodology, in contrast to Radiance Fields that rely on ray tracing, demonstrates superior rendering quality and speed. However, the explicit and unstructured nature of 3D Gaussians poses a significant storage challenge, impeding its broader application. To address this challenge, we introduce the Gaussian-Forest modeling framework, which hierarchically represents a scene as a forest of hybrid 3D Gaussians. Each hybrid Gaussian retains its unique explicit attributes while sharing implicit ones with its sibling Gaussians, thus optimizing parameterization with significantly fewer variables. Moreover, adaptive growth and pruning strategies are designed, ensuring detailed representation in complex regions and a notable reduction in the number of required Gaussians. Extensive experiments demonstrate that Gaussian-Forest not only maintains comparable speed and quality but also achieves a compression rate surpassing 10 times, marking a significant advancement in efficient scene modeling. Codes will be available at https://github.com/Xian-Bei/GaussianForest. | 翻訳日:2024-08-09 19:57:18 公開日:2024-08-08 |
# 推奨を超えて - パイロットの意思決定プロセスの後方から前方へのAIサポート
Beyond Recommendations: From Backward to Forward AI Support of Pilots' Decision-Making Process ( http://arxiv.org/abs/2406.08959v2 ) ライセンス: Link先を確認 | Zelun Tony Zhang, Sebastian S. Feger, Lucas Dullenkopf, Rulu Liao, Lukas Süsslin, Yuanting Liu, Andreas Butz, | (参考訳) AIは、航空のような高度な領域における人間の意思決定を強化することが期待されているが、不適切な依存やユーザの意思決定との整合性の低下といった課題によって、採用が妨げられることが多い。
最近の研究によると、根底にある問題は、多くのAIシステムのレコメンデーション中心の設計、すなわち、エンドツーエンドのレコメンデーションを与え、残りの意思決定プロセスを無視していることである。
代替的なサポートパラダイムはまれであり、レコメンデーション中心のサポートと比較して、存在するものはほとんどない。
本研究は,航空における転倒の文脈において,代替パラダイムである継続的支援とレコメンデーション中心のサポートを実証的に比較することを目的とした。
現実的な条件下で,32名のパイロットと混合メソドス実験を行った。
研究シナリオの品質を確保するため,研究に先立って4人のパイロットによるフォーカスグループを実施した。
継続的サポートは、パイロットの意思決定を前方に支援し、システムの限界を超えて、推奨と組み合わせることでより迅速な意思決定を可能にするが、前方サポートは破壊される可能性がある。
参加者の発言は、デザイン目標が推奨を提供することから、迅速な情報収集をサポートすることへのシフトをさらに示唆している。
私たちの結果は、エンドツーエンドのレコメンデーションを超えて、より便利で効果的なAI意思決定サポートを設計する方法を示しています。
AI is anticipated to enhance human decision-making in high-stakes domains like aviation, but adoption is often hindered by challenges such as inappropriate reliance and poor alignment with users' decision-making. Recent research suggests that a core underlying issue is the recommendation-centric design of many AI systems, i.e., they give end-to-end recommendations and ignore the rest of the decision-making process. Alternative support paradigms are rare, and it remains unclear how the few that do exist compare to recommendation-centric support. In this work, we aimed to empirically compare recommendation-centric support to an alternative paradigm, continuous support, in the context of diversions in aviation. We conducted a mixed-methods study with 32 professional pilots in a realistic setting. To ensure the quality of our study scenarios, we conducted a focus group with four additional pilots prior to the study. We found that continuous support can support pilots' decision-making in a forward direction, allowing them to think more beyond the limits of the system and make faster decisions when combined with recommendations, though the forward support can be disrupted. Participants' statements further suggest a shift in design goal away from providing recommendations, to supporting quick information gathering. Our results show ways to design more helpful and effective AI decision support that goes beyond end-to-end recommendations. | 翻訳日:2024-08-09 19:57:18 公開日:2024-08-08 |
# 大規模言語モデルを用いた脆弱性の検出と説明に向けて
Towards Effectively Detecting and Explaining Vulnerabilities Using Large Language Models ( http://arxiv.org/abs/2406.09701v2 ) ライセンス: Link先を確認 | Qiheng Mao, Zhenhao Li, Xing Hu, Kui Liu, Xin Xia, Jianling Sun, | (参考訳) ソフトウェア脆弱性は、ソフトウェアシステムのセキュリティと整合性に重大なリスクをもたらす。
従来の研究では、ディープラーニングや事前学習モデルを用いた脆弱性検出に様々なアプローチが提案されている。
しかし、脆弱性を単に検出するだけでなく、脆弱性を理解するための詳細な説明がまだ残っていないため、ソフトウェア開発者が問題を理解して修正するのに本当に役立ちません。
近年,大規模言語モデル (LLM) は複雑なコンテキストの理解とコンテンツ生成において顕著な能力を示し,ソフトウェア脆弱性の検出と説明に新たな機会を与えている。
本稿では,脆弱性の検出と説明の両面でのLLMの能力を総合的に検討し,これらのタスクにLLMを利用するフレームワークであるLLMVulExpを提案する。
脆弱性説明のための特別な微調整の下で、LLMVulExpはコードの脆弱性の種類を検出するだけでなく、コードコンテキストを分析して、これらの脆弱性の原因、位置、修正提案を生成する。
これらの詳細な説明は、開発者が脆弱性の問題を素早く分析し発見し、効果的な修正のための必須のガイダンスと参照を提供するのに役立つ。
LLMVulExp は LLM の脆弱性検出(例: SeVC データセットの 90 % F1 スコア以上を達成)を効果的に実現し,詳細な説明を提供する。
また、Chain-of-Thought(CoT)のような先進的な戦略を用いて、脆弱性を発生させるコードに集中させ、有望な結果を達成するためにLLMをガイドする可能性についても検討する。
Software vulnerabilities pose significant risks to the security and integrity of software systems. Prior studies have proposed various approaches to vulnerability detection using deep learning or pre-trained models. However, there is still a lack of detailed explanations for understanding vulnerabilities beyond merely detecting their occurrence, which fails to truly help software developers understand and remediate the issues. Recently, large language models (LLMs) have demonstrated remarkable capabilities in comprehending complex contexts and generating content, presenting new opportunities for both detecting and explaining software vulnerabilities. In this paper, we conduct a comprehensive study to investigate the capabilities of LLMs in both detecting and explaining vulnerabilities, and we propose LLMVulExp, a framework that utilizes LLMs for these tasks. Under specialized fine-tuning for vulnerability explanation, our LLMVulExp not only detects the types of vulnerabilities in the code but also analyzes the code context to generate the cause, location, and repair suggestions for these vulnerabilities. These detailed explanations are crucial for helping developers quickly analyze and locate vulnerability issues, providing essential guidance and reference for effective remediation. We find that LLMVulExp can effectively enable the LLMs to perform vulnerability detection (e.g., achieving over a 90\% F1 score on the SeVC dataset) and provide detailed explanations. We also explore the potential of using advanced strategies such as Chain-of-Thought (CoT) to guide the LLMs in concentrating on vulnerability-prone code, achieving promising results. | 翻訳日:2024-08-09 19:57:18 公開日:2024-08-08 |
# トロッター分解による量子位相推定に基づく全構成相互作用法は, サイズ整合条件を満たすか?
Does the full configuration interaction method based on quantum phase estimation with Trotter decomposition satisfy the size consistency condition? ( http://arxiv.org/abs/2406.09830v3 ) ライセンス: Link先を確認 | Kenji Sugisaki, | (参考訳) 原子と分子の電子構造計算は量子コンピュータにとって有望な応用であると考えられている。
量子位相推定(QPE)と変分量子固有解法(VQE)の2つの重要なアルゴリズムが広く研究されている。
大きな距離で分離された2つのモノマーからなる二量体のエネルギーが、大きさの整合性として知られるモノマーの2倍のエネルギーに等しいという条件は、量子化学計算において必須である。
近年,分子軌道を二量体(K)に非局在化した場合,一元結合クラスタシングルおよびダブル(UCCSD)アンザッツのトロタライズによりサイズ整合条件が破れることが報告された。
Sugisaki {\it et al }, {\it J. Comput.
Chem
オンライン公開: \href{https://doi.org/10.1002/jcc.27438}{DOI:10.1002/jcc.27438})。
完全な構成相互作用(フルCI)エネルギーが分子軌道の任意の回転に不変であることはよく知られているので、QPEベースのフルCIは理論上は大きさの整合性を満たすべきである。
しかし、時間発展作用素のトロッター化は、大きさの整合性条件を破ることができる。
そこで本研究では,QPEに基づく完全CI計算において,時間発展演算子のトロタライズでサイズ整合性を維持することができるかどうかを検討した。
数値シミュレーションにより, 分子軌道を二量体に非局在化することにより, QPE系フルCIにおけるサイズ整合性は自動的に侵害されないが, 適切なトロッター分解条件を用いることは, サイズ整合性を維持する上で重要であることがわかった。
また,QPEシミュレーションの逐次加算による高速化について報告する。
Electronic structure calculations of atoms and molecules are considered to be a promising application for quantum computers. Two key algorithms, the quantum phase estimation (QPE) and the variational quantum eigensolver (VQE), have been extensively studied. The condition that the energy of a dimer consisting of two monomers separated by a large distance should be equal to twice the energy of a monomer, known as size consistency, is essential in quantum chemical calculations. Recently, we reported that the size consistency condition can be violated by Trotterization in the unitary coupled cluster singles and doubles (UCCSD) ansatz in VQE when employing molecular orbitals delocalized to the dimer (K. Sugisaki {\it et al.}, {\it J. Comput. Chem.}, published online; \href{https://doi.org/10.1002/jcc.27438}{DOI:10.1002/jcc.27438}). It is well known that the full configuration interaction (full-CI) energy is invariant to arbitrary rotations of molecular orbitals, and therefore the QPE-based full-CI should theoretically satisfy the size consistency. However, Trotterization of the time evolution operator can break the size consistency conditions. In this work, we investigated whether the size consistency can be maintained with Trotterization of the time evolution operator in QPE-based full-CI calculations. Our numerical simulations revealed that size consistency in QPE-based full-CI is not automatically violated by using molecular orbitals delocalized to the dimer, but employing an appropriate Trotter decomposition condition is crucial to maintain size consistency. We also report on the acceleration of QPE simulations through the sequential addition of ancillary qubits. | 翻訳日:2024-08-09 19:57:18 公開日:2024-08-08 |
# EMO-KNOW:感情と感情に関する大規模データセット
EMO-KNOW: A Large Scale Dataset on Emotion and Emotion-cause ( http://arxiv.org/abs/2406.12389v2 ) ライセンス: Link先を確認 | Mia Huong Nguyen, Yasith Samaradivakara, Prasanth Sasikumar, Chitralekha Gupta, Suranga Nanayakkara, | (参考訳) 感情・因果分析は近年研究者の注目を集めている。
しかし、既存のデータセットのほとんどは、サイズと感情カテゴリーの数に制限されている。
彼らはしばしば、感情の原因を含む文書の一部を抽出することに集中し、より抽象的で一般化可能な根本原因を提供するのに失敗する。
このギャップを埋めるために、私たちは15年間に980万のクリーニングツイートから導かれた、感情の原因の大規模なデータセットを導入しました。
データ収集、クリーニング、ラベル付け、バリデーションのための包括的なパイプラインを含み、データセットの信頼性とリッチ性を保証する。
我々は感情ラベルを抽出し、感情を引き起こす事象を抽象的に要約する。
最終的なデータセットは70万以上のツイートからなり、48の感情クラスにまたがるペアが人間の評価によって検証される。
我々のデータセットの新規性は、その幅広い感情のクラスと、ニュアンスド推論のための感情起因の知識グラフの開発を促進する抽象的な感情原因に起因している。
私たちのデータセットは、同じイベントに対する異なる人々の多様な感情反応を考慮に入れた感情認識システムの設計を可能にします。
Emotion-Cause analysis has attracted the attention of researchers in recent years. However, most existing datasets are limited in size and number of emotion categories. They often focus on extracting parts of the document that contain the emotion cause and fail to provide more abstractive, generalizable root cause. To bridge this gap, we introduce a large-scale dataset of emotion causes, derived from 9.8 million cleaned tweets over 15 years. We describe our curation process, which includes a comprehensive pipeline for data gathering, cleaning, labeling, and validation, ensuring the dataset's reliability and richness. We extract emotion labels and provide abstractive summarization of the events causing emotions. The final dataset comprises over 700,000 tweets with corresponding emotion-cause pairs spanning 48 emotion classes, validated by human evaluators. The novelty of our dataset stems from its broad spectrum of emotion classes and the abstractive emotion cause that facilitates the development of an emotion-cause knowledge graph for nuanced reasoning. Our dataset will enable the design of emotion-aware systems that account for the diverse emotional responses of different people for the same event. | 翻訳日:2024-08-09 17:59:35 公開日:2024-08-08 |
# トランスフォーマーには何があるのか? すべての注意が必要なわけではない
What Matters in Transformers? Not All Attention is Needed ( http://arxiv.org/abs/2406.15786v4 ) ライセンス: Link先を確認 | Shwai He, Guoheng Sun, Zheyu Shen, Ang Li, | (参考訳) Transformerベースの大規模言語モデル(LLM)のスケーリングは、様々なタスクで有望なパフォーマンスを示している。
しかし、これはまた、現実のデプロイメントに挑戦する、冗長な構造も導入している。
LLMの冗長性はある程度認識されているが、MLPやアテンション層など、異なるモジュール間の冗長性の多様性は未調査である。
本研究では、類似度に基づくメトリクスを用いて、ブロック、MLP、アテンション層を含むトランスフォーマー内の異なるモジュール間の異なる冗長性について検討する。
この計量は、冗長構造が入力と非常によく似た出力を生成するという前提で機能する。
驚いたことに、アテンション層は他の主流アーキテクチャと区別するためにはアテンション層が不可欠であるが、多くのアテンション層が過剰に高い類似性を示し、性能を劣化させることなく安全に切断できることが判明し、メモリと計算コストの削減につながった。
さらに,アテンション層とMLP層を共同でドロップする手法を提案し,性能向上と低下率の向上を実現した。
Llama-3-70Bは注目層の半分を刈っても同等の性能を維持している。
我々の発見は将来のネットワークアーキテクチャ設計に貴重な洞察を与えてくれる。
コードは: \url{https://github.com/Shwai-He/LLM-Drop} でリリースされる。
Scaling Transformer-based large language models (LLMs) has demonstrated promising performance across various tasks. However, it also introduces redundant structures, posing challenges for real-world deployment. Despite some recognition of redundancy in LLMs, the variability of redundancy across different modules, such as MLP and Attention layers, is under-explored. In this work, we investigate the varying redundancy across different modules within Transformers, including Blocks, MLP, and Attention layers, using a similarity-based metric. This metric operates on the premise that redundant structures produce outputs highly similar to their inputs. Surprisingly, while attention layers are essential for transformers and distinguish them from other mainstream architectures, we found that a large proportion of attention layers exhibit excessively high similarity and can be safely pruned without degrading performance, leading to reduced memory and computation costs. Additionally, we further propose a method that jointly drops Attention and MLP layers, achieving improved performance and dropping ratios. Extensive experiments demonstrate the effectiveness of our methods, e.g., Llama-3-70B maintains comparable performance even after pruning half of the attention layers. Our findings provide valuable insights for future network architecture design. The code is released at: \url{https://github.com/Shwai-He/LLM-Drop}. | 翻訳日:2024-08-09 17:59:35 公開日:2024-08-08 |
# クロスサイト連続セグメンテーションのためのサイト変調拡散再生による同期記憶可能性と一般化可能性
Towards Synchronous Memorizability and Generalizability with Site-Modulated Diffusion Replay for Cross-Site Continual Segmentation ( http://arxiv.org/abs/2406.18037v2 ) ライセンス: Link先を確認 | Dunyuan Xu, Xi Wang, Jingyang Zhang, Pheng-Ann Heng, | (参考訳) プライバシの制限とストレージの制限により、実用的な画像診断問題を解決するためには、さまざまなデータサイトからシーケンシャルに学習する能力が、ディープネットワークにとって不可欠である。
しかし、到着地への適応は、過去の場所で破滅的な忘れ込みを招き、目に見えない場所での一般的な可視性を低下させる。
既存のCL(Continuous Learning)とDG(Domain Generalization)の2つの課題をそれぞれ解決する手法が提案されているが、どちらも同時に対処できない。
本稿では,この制限を認識し,SMG-Learning(Synchronous Memorizability and Generalizability)に向けた新しい学習パラダイムを提案する。
これを実現するために, 前回の地点での記憶可能性を確保するための方位勾配アライメントと, 未確認地点での一般化性を高めるための任意の勾配アライメントを作成する。
このアプローチはParallel Gradient Alignment (PGA)と名付けられた。
さらに、PGAを1次テイラー展開を用いた二重メタオブジェクトとして近似し、勾配の整列の計算コストを削減する。
そこで我々は, サイト固有の学習可能なプロンプトを持つ画像を生成するサイト変調拡散(SMD)モデルを設計し, 画像の再生は, 従来のサイトと類似したデータ分布を持つことを示した。
本手法は,2つの医療画像分割作業において,異なる場所からのデータが逐次到着する場面で評価する。
実験結果から,本手法は,他の最先端手法よりも記憶可能性,一般性の両方を効果的に向上させ,すべての部位で良好な性能を発揮できることが示唆された。
私たちのコードは、https://github.com/dyxu-cuhkcse/SMG-Learning.comで利用可能です。
The ability to learn sequentially from different data sites is crucial for a deep network in solving practical medical image diagnosis problems due to privacy restrictions and storage limitations. However, adapting on incoming site leads to catastrophic forgetting on past sites and decreases generalizablity on unseen sites. Existing Continual Learning (CL) and Domain Generalization (DG) methods have been proposed to solve these two challenges respectively, but none of them can address both simultaneously. Recognizing this limitation, this paper proposes a novel training paradigm, learning towards Synchronous Memorizability and Generalizability (SMG-Learning). To achieve this, we create the orientational gradient alignment to ensure memorizability on previous sites, and arbitrary gradient alignment to enhance generalizability on unseen sites. This approach is named as Parallel Gradient Alignment (PGA). Furthermore, we approximate the PGA as dual meta-objectives using the first-order Taylor expansion to reduce computational cost of aligning gradients. Considering that performing gradient alignments, especially for previous sites, is not feasible due to the privacy constraints, we design a Site-Modulated Diffusion (SMD) model to generate images with site-specific learnable prompts, replaying images have similar data distributions as previous sites. We evaluate our method on two medical image segmentation tasks, where data from different sites arrive sequentially. Experimental results show that our method efficiently enhances both memorizability and generalizablity better than other state-of-the-art methods, delivering satisfactory performance across all sites. Our code will be available at: https://github.com/dyxu-cuhkcse/SMG-Learning. | 翻訳日:2024-08-09 17:59:35 公開日:2024-08-08 |
# RealTalk: 3D Facial pre-guided Identity Alignment Networkによるリアルタイム・リアルオーディオ駆動顔生成
RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network ( http://arxiv.org/abs/2406.18284v2 ) ライセンス: Link先を確認 | Xiaozhong Ji, Chuming Lin, Zhonggan Ding, Ying Tai, Junwei Zhu, Xiaobin Hu, Donghao Luo, Yanhao Ge, Chengjie Wang, | (参考訳) 人物生成型音声駆動顔生成はコンピュータビジョンにおいて難しい課題である。
従来の手法は音声と視覚の同期において顕著な進歩を遂げてきたが、現在の結果と実用的な応用の間には依然として大きなギャップがある。
課題は2つあります。
1) 高精度な唇同期を実現するために, 個々の特徴を個別に保存する。
2) リアルタイムな顔の描画における高品質な顔画像の生成
本稿では,音声から表現への変換と高忠実度表現から顔へのレンダラーからなる,新しい一般化された音声駆動フレームワークであるRealTalkを提案する。
第1成分として, 口唇運動に関連する個人性および個人内変動の特徴について考察した。
顔の重み付けにモーダルな注意を組み込むことで, 唇の動きを音声に効果的に合わせることができ, 表情予測の精度が向上する。
第2のコンポーネントでは、リップ形状制御構造と顔テクスチャ参照構造を含む軽量な顔識別アライメント(FIA)モジュールを設計する。
この新しい設計により、高度で非効率な特徴アライメントモジュールに依存することなく、リアルタイムに細部を生成できる。
公開データセットにおける定量的および定性的な実験結果から,唇音声同期と生成品質の観点から,本手法の明確な利点が示された。
さらに,本手法は効率が高く,計算資源も少なく,実用アプリケーションのニーズを満たすのに適している。
Person-generic audio-driven face generation is a challenging task in computer vision. Previous methods have achieved remarkable progress in audio-visual synchronization, but there is still a significant gap between current results and practical applications. The challenges are two-fold: 1) Preserving unique individual traits for achieving high-precision lip synchronization. 2) Generating high-quality facial renderings in real-time performance. In this paper, we propose a novel generalized audio-driven framework RealTalk, which consists of an audio-to-expression transformer and a high-fidelity expression-to-face renderer. In the first component, we consider both identity and intra-personal variation features related to speaking lip movements. By incorporating cross-modal attention on the enriched facial priors, we can effectively align lip movements with audio, thus attaining greater precision in expression prediction. In the second component, we design a lightweight facial identity alignment (FIA) module which includes a lip-shape control structure and a face texture reference structure. This novel design allows us to generate fine details in real-time, without depending on sophisticated and inefficient feature alignment modules. Our experimental results, both quantitative and qualitative, on public datasets demonstrate the clear advantages of our method in terms of lip-speech synchronization and generation quality. Furthermore, our method is efficient and requires fewer computational resources, making it well-suited to meet the needs of practical applications. | 翻訳日:2024-08-09 17:59:35 公開日:2024-08-08 |
# DRAM読み取り障害に対する新興産業ソリューションのセキュリティ上のメリットとオーバヘッドの理解
Understanding the Security Benefits and Overheads of Emerging Industry Solutions to DRAM Read Disturbance ( http://arxiv.org/abs/2406.19094v3 ) ライセンス: Link先を確認 | Oğuzhan Canpolat, A. Giray Yağlıkçı, Geraldo F. Oliveira, Ataberk Olgun, Oğuz Ergin, Onur Mutlu, | (参考訳) JEDEC DDR5仕様の2024年4月のアップデートで記述された、最先端のDRAM-DRAMによる読み出し障害軽減手法であるPer Row Activation Counting (PRAC)の最初の厳密なセキュリティ、性能、エネルギー、コスト分析について述べる。
メモリコントローラに定期的にリフレッシュ管理(RFM)コマンドを発行するように助言する以前の最先端技術とは異なり、PRACは新しいバックオフ信号を導入した。
PRACのバックオフ信号はDRAMチップからメモリコントローラに伝播し、メモリコントローラを強制する。
1)申し込みを中止し、
2) RFM コマンドを発行する。
その結果、RAMコマンドは定期的にではなく必要に応じて発行され、RAMのオーバーヘッドが減少する。
PRACを4段階に分けて分析する。
まず、PRACのセキュリティの最悪のケースを表す逆アクセスパターンを定義する。
次に,PRACの構成とセキュリティへの影響について検討する。
解析の結果,メモリに10回アクセスする前にビットフリップが発生しない限り,PRACをセキュアな動作に設定できることがわかった。
第3に、PRACの性能への影響を評価し、Ramulator 2.0を用いた以前の作業と比較する。
我々の分析によると、PRACは現在のDRAMチップのパフォーマンスオーバーヘッドを13%以下に抑えるが、将来のDRAMチップではパフォーマンスオーバーヘッドが最大94%に達する。
第4に,PRACの性能オーバーヘッドを増大させ,メモリ性能攻撃を行うためのアベイラビリティ・アベイラビリティ・アベイラビリティ・アベイラビリティ・アベイラビリティー・アクセス・パターンを定義し,このようなアベイラビリティ・アベイラビリティー・アベイラビリティー・アベイラビリティー・アベイラビリティー・アベイラビリティー・アベイラビリティー・アベイラビリティー・アベイラビリティー・アベイラビリティー・アベイラビリティー・アベイラビリティー・アベイラビリティー・アベイラビリティー・アベイラビリティー・アベイラビリティー(Availabilityアベイラビリティ・アベイラビリティ・アベイラビリティー)を定義した。
PRACの今後のシステムへの影響と今後の研究方向性について論じる。
将来の研究を支援するため、私たちはhttps://github.com/CMU-SAFARI/ramulator2で実装とスクリプトをオープンソース化しました。
We present the first rigorous security, performance, energy, and cost analyses of the state-of-the-art on-DRAM-die read disturbance mitigation method, Per Row Activation Counting (PRAC), described in JEDEC DDR5 specification's April 2024 update. Unlike prior state-of-the-art that advises the memory controller to periodically issue refresh management (RFM) commands, which provides the DRAM chip with time to perform refreshes, PRAC introduces a new back-off signal. PRAC's back-off signal propagates from the DRAM chip to the memory controller and forces the memory controller to 1) stop serving requests and 2) issue RFM commands. As a result, RFM commands are issued when needed as opposed to periodically, reducing RFM's overheads. We analyze PRAC in four steps. First, we define an adversarial access pattern that represents the worst-case for PRAC's security. Second, we investigate PRAC's configurations and security implications. Our analyses show that PRAC can be configured for secure operation as long as no bitflip occurs before accessing a memory location 10 times. Third, we evaluate the performance impact of PRAC and compare it against prior works using Ramulator 2.0. Our analysis shows that while PRAC incurs less than 13% performance overhead for today's DRAM chips, its performance overheads can reach up to 94% for future DRAM chips that are more vulnerable to read disturbance bitflips. Fourth, we define an availability adversarial access pattern that exacerbates PRAC's performance overhead to perform a memory performance attack, demonstrating that such an adversarial pattern can hog up to 94% of DRAM throughput and degrade system throughput by up to 95%. We discuss PRAC's implications on future systems and foreshadow future research directions. To aid future research, we open-source our implementations and scripts at https://github.com/CMU-SAFARI/ramulator2. | 翻訳日:2024-08-09 17:59:35 公開日:2024-08-08 |
# 量子相対エントロピープログラムにおける爆発構造
Exploiting Structure in Quantum Relative Entropy Programs ( http://arxiv.org/abs/2407.00241v2 ) ライセンス: Link先を確認 | Kerry He, James Saunderson, Hamza Fawzi, | (参考訳) 量子相対エントロピープログラムは、量子相対エントロピー関数のエピグラフのアフィン部分上の線形汎関数を最小化する凸最適化問題である。
近年、この集合に対して自然障壁関数の自己一致が証明された。
これにより、非対称コーンプログラムにインテリアポイント法を用いてこれらの最適化問題を解く機会が開かれた。
本稿では、量子情報理論の応用から生じる共通構造を利用して、内部点法を用いて量子相対エントロピープログラムの解法効率を向上させる方法について述べる。
まず、正の線形作用素からなる量子相対エントロピーのエピグラフに対する自然障壁関数が、特異行列に写像しても最適に自己調和的であることを示す。
完全量子相対エントロピーコーンを用いたモデリング問題と比較して、バリア関数から冗長なログ決定式を取り除き、全体的なバリアパラメータを低減することができる。
第二に、量子相対エントロピー円錐の特定のスライスがどのように有用な性質を示すかを示し、それがより効率的に内点法の重要なステップを実行するために可能な限り活用されるべきであることを示す。
量子鍵レートの量子化、量子速度歪み関数、量子チャネル容量、ハミルトンの基底状態エネルギーなど、量子情報理論の応用にこれらの方法を適用する方法を示す。
数値計算の結果,これらの手法は計算時間を最大数桁改善し,それまでの難解な問題を解くことができることがわかった。
Quantum relative entropy programs are convex optimization problems which minimize a linear functional over an affine section of the epigraph of the quantum relative entropy function. Recently, the self-concordance of a natural barrier function was proved for this set. This has opened up the opportunity to use interior-point methods for nonsymmetric cone programs to solve these optimization problems. In this paper, we show how common structures arising from applications in quantum information theory can be exploited to improve the efficiency of solving quantum relative entropy programs using interior-point methods. First, we show that the natural barrier function for the epigraph of the quantum relative entropy composed with positive linear operators is optimally self-concordant, even when these linear operators map to singular matrices. Compared to modelling problems using the full quantum relative entropy cone, this allows us to remove redundant log determinant expressions from the barrier function and reduce the overall barrier parameter. Second, we show how certain slices of the quantum relative entropy cone exhibit useful properties which should be exploited whenever possible to perform certain key steps of interior-point methods more efficiently. We demonstrate how these methods can be applied to applications in quantum information theory, including quantifying quantum key rates, quantum rate-distortion functions, quantum channel capacities, and the ground state energy of Hamiltonians. Our numerical results show that these techniques improve computation times by up to several orders of magnitude, and allow previously intractable problems to be solved. | 翻訳日:2024-08-09 17:59:35 公開日:2024-08-08 |
# 法典幻覚
Code Hallucination ( http://arxiv.org/abs/2407.04831v2 ) ライセンス: Link先を確認 | Mirza Masfiqur Rahman, Ashish Kundu, | (参考訳) 大規模言語モデルのような生成モデルは、コードコパイロやプログラム全体の生成に広く利用されている。
しかしながら、それらが生成するプログラムは、ユーザ要求に従わなかったり、誤りや非感覚的なアウトプットを提供したり、あるいは意味的/症状的エラーを含むような、総合的にLLM幻覚(LLM Hallucination)として知られるような、疑わしい正当性、真正性、信頼性を持つことが多い。
本研究では,いくつかの種類のコード幻覚を提示する。
大規模な言語モデルを用いて手動でこのような幻覚コードを生成する。
任意のコード幻覚を生成する効率的な方法を示すために,HalTriggerというテクニックも提案する。
提案手法は3種類のLCMの動的特性を利用して,モデルアーキテクチャやパラメータにアクセスすることなく,モデルから幻覚を誘発するプロンプトを作成する。
一般的なブラックボックスモデルによる結果から、HalTriggerは確かに有効であり、広範にわたるLLM幻覚がソフトウェア開発に大きな影響を与えていることが示唆されている。
Generative models such as large language models are extensively used as code copilots and for whole program generation. However, the programs they generate often have questionable correctness, authenticity and reliability in terms of integration as they might not follow the user requirements, provide incorrect and/or nonsensical outputs, or even contain semantic/syntactic errors - overall known as LLM hallucination. In this work, we present several types of code hallucination. We have generated such hallucinated code manually using large language models. We also present a technique - HallTrigger, in order to demonstrate efficient ways of generating arbitrary code hallucination. Our method leverages 3 different dynamic attributes of LLMs to craft prompts that can successfully trigger hallucinations from models without the need to access model architecture or parameters. Results from popular blackbox models suggest that HallTrigger is indeed effective and the pervasive LLM hallucination have sheer impact on software development. | 翻訳日:2024-08-09 17:59:35 公開日:2024-08-08 |
# 専門家の混ざり合いに関する調査
A Survey on Mixture of Experts ( http://arxiv.org/abs/2407.06204v2 ) ライセンス: Link先を確認 | Weilin Cai, Juyong Jiang, Fan Wang, Jing Tang, Sunghun Kim, Jiayi Huang, | (参考訳) 大規模言語モデル(LLM)は、自然言語処理からコンピュータビジョンなど、様々な分野において前例のない進歩を遂げている。
LLMの進歩は、その相当なモデルサイズ、広範囲で多様なデータセット、および訓練中に活用される膨大な計算能力によって支えられ、これらすべてが、小さなモデルに存在しないLLM(例えば、文脈内学習)の創発的能力に寄与している。
この文脈の中で、専門家(MoE)の混在は、最小の計算オーバーヘッドでモデルキャパシティを実質的にスケールアップする有効な方法として現れ、アカデミックや業界から大きな注目を集めている。
普及しているにもかかわらず、MoEに関する文献の体系的かつ包括的なレビューは欠如している。
この調査は、このギャップを埋めることを目指しており、MoEの複雑さを探求する研究者にとって不可欠なリソースとなっている。
まずまず,MoE層の構造について概説し,その後にMoEの新しい分類法を提案する。
次に,アルゴリズム的側面とシステム的側面の両方を含む様々なMoEモデルのコア設計と,利用可能なオープンソース実装のコレクション,ハイパーパラメータ構成,経験的評価について概説する。
さらに,MoEの多面的応用について概説し,今後の研究の方向性について概説する。
MoE研究で進行中の更新と最先端の開発の共有を容易にするため、https://github.com/withinmiaov/A-Survey-on-Mixture-of-Expertsで利用可能なリソースリポジトリを構築した。
Large language models (LLMs) have garnered unprecedented advancements across diverse fields, ranging from natural language processing to computer vision and beyond. The prowess of LLMs is underpinned by their substantial model size, extensive and diverse datasets, and the vast computational power harnessed during training, all of which contribute to the emergent abilities of LLMs (e.g., in-context learning) that are not present in small models. Within this context, the mixture of experts (MoE) has emerged as an effective method for substantially scaling up model capacity with minimal computation overhead, gaining significant attention from academia and industry. Despite its growing prevalence, there lacks a systematic and comprehensive review of the literature on MoE. This survey seeks to bridge that gap, serving as an essential resource for researchers delving into the intricacies of MoE. We first briefly introduce the structure of the MoE layer, followed by proposing a new taxonomy of MoE. Next, we overview the core designs for various MoE models including both algorithmic and systemic aspects, alongside collections of available open-source implementations, hyperparameter configurations and empirical evaluations. Furthermore, we delineate the multifaceted applications of MoE in practice, and outline some potential directions for future research. To facilitate ongoing updates and the sharing of cutting-edge developments in MoE research, we have established a resource repository accessible at https://github.com/withinmiaov/A-Survey-on-Mixture-of-Experts. | 翻訳日:2024-08-09 17:59:35 公開日:2024-08-08 |
# 物体との相互作用による自己教師付き視覚学習
Self-supervised visual learning from interactions with objects ( http://arxiv.org/abs/2407.06704v2 ) ライセンス: Link先を確認 | Arthur Aubret, Céline Teulière, Jochen Triesch, | (参考訳) 自己教師付き学習(SSL)は視覚表現学習に革命をもたらしたが、人間の視覚の堅牢性は達成できていない。
その理由は、SSLが学習中に人間が利用できるすべてのデータを活用していないからかもしれない。
物体について学ぶとき、人間が故意に物体を回したり動き回ったりすることがよくある。
ここでは、このようなオブジェクト関連のアクションがSSLを促進するかどうかを考察する。
そこで本研究では,あるオブジェクトのエゴ中心のビューから,あるオブジェクトから他のオブジェクトへ変化するためのアクションを4つのビデオデータセットで抽出する。
次に、同じクリップから抽出した2つの画像の表現と、実行された動作を一致させることで、視覚的および行動的埋め込みを学習する新しい損失関数を導入する。
これにより、実行されたアクションが潜在視覚表現を構成することができる。
実験の結果,提案手法は下流のカテゴリー認識において従来手法よりも常に優れていたことがわかった。
分析の結果、観察された改善は、同じカテゴリの異なるオブジェクトのより優れた視点的アライメントと関連していることがわかった。
全体として、我々の研究はオブジェクトとの相互作用がオブジェクトカテゴリのSSLを改善することを実証している。
Self-supervised learning (SSL) has revolutionized visual representation learning, but has not achieved the robustness of human vision. A reason for this could be that SSL does not leverage all the data available to humans during learning. When learning about an object, humans often purposefully turn or move around objects and research suggests that these interactions can substantially enhance their learning. Here we explore whether such object-related actions can boost SSL. For this, we extract the actions performed to change from one ego-centric view of an object to another in four video datasets. We then introduce a new loss function to learn visual and action embeddings by aligning the performed action with the representations of two images extracted from the same clip. This permits the performed actions to structure the latent visual representation. Our experiments show that our method consistently outperforms previous methods on downstream category recognition. In our analysis, we find that the observed improvement is associated with a better viewpoint-wise alignment of different objects from the same category. Overall, our work demonstrates that embodied interactions with objects can improve SSL of object categories. | 翻訳日:2024-08-09 17:59:35 公開日:2024-08-08 |
# 大学生のソフトウェア工学教育への人間中心的アプローチの統合:オーストラリアにおけるスコープレビューとカリキュラム分析
Integrating Human-Centric Approaches into Undergraduate Software Engineering Education: A Scoping Review and Curriculum Analysis in the Australian Context ( http://arxiv.org/abs/2407.07322v2 ) ライセンス: Link先を確認 | Sophie McKenzie, Xiao Lui, | (参考訳) ヒューマン・センター・ソフトウェア・エンジニアリング(Human-Centric Software Engineering、HCSE)とは、ソフトウェア開発ライフサイクルを通じて、人のニーズと要求をコアプラクティスとして位置づけるソフトウェア工学(SE)プロセスのこと。
ソフトウェアプロジェクトの大部分が人的ニーズに対応できず、結果として予算やデリバリ、ユーザビリティの問題に陥ります。
人間中心のソフトウェアエンジニアリングプラクティスをサポートするためには、大学が学生に人間のニーズをどのように考えるかを教えることが重要である。
しかし、学部のカリキュラムでHCSEから得られるトピックは何か?
ソフトウェアエンジニアリングのカリキュラムガイドラインは利用可能だが、ヒューマンファクターに関する最新の考察を反映していない。
そこで本研究では,HCSEの授業に適したトピックとカリキュラムのアプローチを,大学院ソフトウェア工学の学生に提示する。
PRISMA-ScR (Preferred Reporting Items for Systematic Reviews and Meta-Analyses extension for Scoping Reviews) のプロトコルに従ってスコーピングレビューを行った。
PRISMA-ScRを通じて、36のカンファレンスまたはジャーナル論文が分析に有効であると認識され、ソフトウェア工学を教えるためのトピックやカリキュラムのアプローチを記述する5つの一般的なテーマが見つかった。
また,スコーピングレビューの結果を用いて,オーストラリア・ソフトウェア工学のカリキュラムを解析し,人間の中心となるソフトウェア工学のトピックがコース構造に足場を組む程度について考察する。
本稿では,ソフトウェア工学のプロセスに沿った学部課程のトピックスキャフォールディングを提案する。
全体として、HCSEのトピックとカリキュラムのアプローチに焦点をあてることで、HCSEの現在および将来のソフトウェアエンジニアへの教育が増加し、すべてのステークホルダーにとってのソフトウェアプロジェクトの成功に長期的な影響をもたらします。
Human-Centric Software Engineering (HCSE) refers to the software engineering (SE) processes that put human needs and requirements as core practice throughout the software development life cycle. A large majority of software projects fail to cater to human needs and consequently run into budget, delivery, and usability issues. To support human-centric software engineering practices, it is important for universities to train their students on how to consider human needs. But what topics from HCSE should be provided in the undergraduate curriculum? Curriculum guidelines for software engineering are available, however do not represent update to date considerations for human-factors. To address this issue, this paper presents a scoping review to identify the topics and curriculum approaches suitable for teaching HCSE to undergraduate software engineering students. The scoping review was conducted according to the protocol by PRISMA-ScR (Preferred Reporting Items for Systematic reviews and Meta-Analyses extension for Scoping Reviews). Through PRISMA-ScR, a total of 36 conference or journal papers were identified as viable for analysis,with 5 common themes found that describe topics and curriculum approaches relevant for teaching software engineering. Using the outcomes of the scoping review, this paper also analyses the Australian Software Engineering curriculum to understand the extent at which human centred software engineering topics are scaffolded into course structures. This paper concludes by suggesting topic scaffolding for the undergraduate curriculum that aligns with the software engineering process. Overall, by providing a focus on HCSE topics and curriculum approaches, the education of HCSE among current and future software engineers can increase, leading to long-term impact on the success of software projects for all stakeholders. | 翻訳日:2024-08-09 17:59:35 公開日:2024-08-08 |
# CM-DQN:確認バイアスをシミュレートする価値に基づく深層強化学習モデル
CM-DQN: A Value-Based Deep Reinforcement Learning Model to Simulate Confirmation Bias ( http://arxiv.org/abs/2407.07454v3 ) ライセンス: Link先を確認 | Jiacheng Shen, Lihan Feng, | (参考訳) 人間の意思決定タスクでは、個人は試行錯誤を通じて学習する。
個人がタスクを学ぶとき、良い結果の影響を受けやすいものもあれば、悪い結果の重み付けをするものもある。
このような確認バイアスは、異なる学習効果をもたらす可能性がある。
本研究では,タスクの状態が連続である場合,その動作が離散的である場合に,人間の意思決定過程をシミュレートするために,肯定的あるいは否定的な予測誤りに対する異なる更新戦略の考え方を適用した,Deep Reinforcement Learning(CM-DQN)の新たなアルゴリズムを提案する。
我々は,Lunar Lander環境において,確認的,不確認的バイアス,非バイアスを用いて学習効果を観察する。
さらに,提案アルゴリズムと同一の考え方を取り入れたマルチアームバンディット問題(離散状態と離散動作の環境)における検証モデルを,コントラスト実験として適用し,決定過程における異なる確認バイアスの影響をアルゴリズム的にシミュレートする。
どちらの実験でも、確認バイアスはより良い学習効果を示す。
In human decision-making tasks, individuals learn through trials and prediction errors. When individuals learn the task, some are more influenced by good outcomes, while others weigh bad outcomes more heavily. Such confirmation bias can lead to different learning effects. In this study, we propose a new algorithm in Deep Reinforcement Learning, CM-DQN, which applies the idea of different update strategies for positive or negative prediction errors, to simulate the human decision-making process when the task's states are continuous while the actions are discrete. We test in Lunar Lander environment with confirmatory, disconfirmatory bias and non-biased to observe the learning effects. Moreover, we apply the confirmation model in a multi-armed bandit problem (environment in discrete states and discrete actions), which utilizes the same idea as our proposed algorithm, as a contrast experiment to algorithmically simulate the impact of different confirmation bias in decision-making process. In both experiments, confirmatory bias indicates a better learning effect. | 翻訳日:2024-08-09 17:59:35 公開日:2024-08-08 |
# 3M-Health:メンタルヘルス検出のためのマルチモーダルマルチテラー知識蒸留
3M-Health: Multimodal Multi-Teacher Knowledge Distillation for Mental Health Detection ( http://arxiv.org/abs/2407.09020v3 ) ライセンス: Link先を確認 | Rina Carines Cabral, Siwen Luo, Josiah Poon, Soyeon Caren Han, | (参考訳) メンタルヘルスの分類の重要性は現代社会において最重要であり、デジタルプラットフォームは個人の健康をモニタリングするための重要な情報源となっている。
しかし、既存のソーシャルメディアのメンタルヘルスデータセットは、主にテキストのみのサンプルで構成されており、そのようなデータに基づいてトレーニングされたモデルの有効性を制限する可能性がある。
人間は複雑な状況や問題を理解するために横断的な情報を活用することを認識して、現在の方法論の限界に対処するための新しいアプローチを提案する。
本研究では, メンタルヘルス分類のためのマルチモーダル・マルチモーダル知識蒸留モデルを提案する。
多様な特徴を統合するための単純な結合にしばしば依存する従来のアプローチとは異なり、我々のモデルは様々な性質(例えばテキストや音)の入力を適切に表現するという課題に対処する。
すべての機能をひとつのモデルに統合する際の計算複雑性を軽減するために,マルチモーダル・マルチ教師アーキテクチャを採用する。
複数の教員にまたがって学習過程を分散し、それぞれが特定の特徴抽出の側面を特化することにより、メンタルヘルスの全体的分類性能を向上させる。
実験により,性能向上のためのモデルの有効性を実証した。
The significance of mental health classification is paramount in contemporary society, where digital platforms serve as crucial sources for monitoring individuals' well-being. However, existing social media mental health datasets primarily consist of text-only samples, potentially limiting the efficacy of models trained on such data. Recognising that humans utilise cross-modal information to comprehend complex situations or issues, we present a novel approach to address the limitations of current methodologies. In this work, we introduce a Multimodal and Multi-Teacher Knowledge Distillation model for Mental Health Classification, leveraging insights from cross-modal human understanding. Unlike conventional approaches that often rely on simple concatenation to integrate diverse features, our model addresses the challenge of appropriately representing inputs of varying natures (e.g., texts and sounds). To mitigate the computational complexity associated with integrating all features into a single model, we employ a multimodal and multi-teacher architecture. By distributing the learning process across multiple teachers, each specialising in a particular feature extraction aspect, we enhance the overall mental health classification performance. Through experimental validation, we demonstrate the efficacy of our model in achieving improved performance. | 翻訳日:2024-08-09 17:59:35 公開日:2024-08-08 |
# 半監督型疾患軌跡生成モデル : 全身性硬化症を事例として
Semi-Supervised Generative Models for Disease Trajectories: A Case Study on Systemic Sclerosis ( http://arxiv.org/abs/2407.11427v2 ) ライセンス: Link先を確認 | Cécile Trottet, Manuel Schürch, Ahmed Allam, Imon Barua, Liubov Petelytska, David Launay, Paolo Airò, Radim Bečvář, Christopher Denton, Mislav Radic, Oliver Distler, Anna-Maria Hoffmann-Vold, Michael Krauthammer, the EUSTAR collaborators, | (参考訳) 複雑な疾患の軌跡をモデル化・全体解析するために潜時過程を用いた深部生成法を提案し,特に全身性硬化症(SSc)に焦点を当てた。
本研究の目的は、患者疾患の軌跡を解釈可能かつ包括的に説明するための、根底にある生成過程の時間的潜在表現を学習することである。
そこで我々は,これらの潜伏時間過程の解釈可能性を高めるために,確立された医療知識を用いて潜伏空間を遠ざけるための半教師付きアプローチを開発した。
SScの異なる特徴の医学的定義と生成的アプローチを組み合わせることで,病の新たな側面の発見が容易になる。
本研究は, SSc患者軌跡を新たなサブタイプに分類するなど, さらにデータ分析や臨床仮説の検証に, 学習時潜伏過程を活用できることを示唆する。
さらに、不確実な定量化を伴う多変量時系列のパーソナライズされたオンラインモニタリングと予測を可能にする。
We propose a deep generative approach using latent temporal processes for modeling and holistically analyzing complex disease trajectories, with a particular focus on Systemic Sclerosis (SSc). We aim to learn temporal latent representations of the underlying generative process that explain the observed patient disease trajectories in an interpretable and comprehensive way. To enhance the interpretability of these latent temporal processes, we develop a semi-supervised approach for disentangling the latent space using established medical knowledge. By combining the generative approach with medical definitions of different characteristics of SSc, we facilitate the discovery of new aspects of the disease. We show that the learned temporal latent processes can be utilized for further data analysis and clinical hypothesis testing, including finding similar patients and clustering SSc patient trajectories into novel sub-types. Moreover, our method enables personalized online monitoring and prediction of multivariate time series with uncertainty quantification. | 翻訳日:2024-08-09 17:49:51 公開日:2024-08-08 |
# PersLLM: 大規模言語モデルの個人化トレーニングアプローチ
PersLLM: A Personified Training Approach for Large Language Models ( http://arxiv.org/abs/2407.12393v4 ) ライセンス: Link先を確認 | Zheni Zeng, Jiayi Chen, Huimin Chen, Yukun Yan, Yuxuan Chen, Zhenghao Liu, Zhiyuan Liu, Maosong Sun, | (参考訳) 大規模言語モデルは、社会シミュレーション、人間と機械の相互作用、協調的なマルチエージェントシステムといった分野において、人間のようなエージェントとしての応用を触媒する人間レベルの知能の側面を示す。
しかし,不整合性,不整合性,一様応答パターンなどの個性が欠如しているため,実用面でのLCMの有用性は低下する。
これに対応するために、LSMにおける性格特性の発達は、潜伏する潜在能力を解き放つための重要な研究領域として現れている。
LLMをパーソナライズする既存の手法は、典型化されたトレーニングデータを用いて指導訓練を行ったり、異なる個人性をシミュレートするためにプロンプトエンジニアリングを使用したりといった戦略が一般的である。
これらの手法は、人格のコアではなく、表面言語的なスタイルを捉えているだけであり、したがって安定していない。
本研究では,社会実践,一貫性,動的発達といった心理学的根拠に基づく個性原則を包括的学習方法論に統合するPersLLMを提案する。
モデルパラメータに直接パーソナリティ特性を組み込み、誘導に対するモデルの抵抗性を高め、一貫性を高め、パーソナリティの動的進化を支援する。
単一エージェント評価は,他の手法と比較して,基準的個性に適合した応答を生成できるので,本手法の優位性を評価する。
多エージェントコミュニケーションのケーススタディは、個々のエージェントにおける意見整合性を高め、対話コンテキストにおける複数のエージェント間の協調的創造性を促進することの利点を強調し、人間のシミュレーションやマルチエージェント協力の恩恵を受ける可能性がある。
さらに、人間とエージェントの相互作用評価は、我々の擬人化モデルが対話的体験を著しく向上させ、我々の研究の実践的意義を裏付けていることを示している。
Large language models exhibit aspects of human-level intelligence that catalyze their application as human-like agents in domains such as social simulations, human-machine interactions, and collaborative multi-agent systems. However, the absence of distinct personalities, such as displaying ingratiating behaviors, inconsistent opinions, and uniform response patterns, diminish LLMs utility in practical applications. Addressing this, the development of personality traits in LLMs emerges as a crucial area of research to unlock their latent potential. Existing methods to personify LLMs generally involve strategies like employing stylized training data for instruction tuning or using prompt engineering to simulate different personalities. These methods only capture superficial linguistic styles instead of the core of personalities and are therefore not stable. In this study, we propose PersLLM, integrating psychology-grounded principles of personality: social practice, consistency, and dynamic development, into a comprehensive training methodology. We incorporate personality traits directly into the model parameters, enhancing the model's resistance to induction, promoting consistency, and supporting the dynamic evolution of personality. Single-agent evaluation validates our method's superiority, as it produces responses more aligned with reference personalities compared to other approaches. Case studies for multi-agent communication highlight its benefits in enhancing opinion consistency within individual agents and fostering collaborative creativity among multiple agents in dialogue contexts, potentially benefiting human simulation and multi-agent cooperation. Additionally, human-agent interaction evaluations indicate that our personified models significantly enhance interactive experiences, underscoring the practical implications of our research. | 翻訳日:2024-08-09 17:49:51 公開日:2024-08-08 |
# チャネル閉鎖近傍における共鳴励起ヘリウムイオンの多光子イオン化における円二色性
Circular Dichroism in Multiphoton Ionization of Resonantly Excited Helium Ions near Channel Closing ( http://arxiv.org/abs/2407.14227v2 ) ライセンス: Link先を確認 | Rene Wagner, Markus Ilchen, Nicolas Douguet, Philipp Schmidt, Niclas Wieland, Carlo Callegari, Zachary Delk, Alexander Demidovich, Michele Di Fraia, Jiri Hofbrucker, Michele Manfredda, Valerija Music, Oksana Plekan, Kevin C. Prince, Daniel E. Rivas, Marco Zangrando, Alexei N. Grum-Grzhimailo, Klaus Bartschat, Michael Meyer, | (参考訳) 3p(m=+1)状態における励起He$^+$イオンの多光子イオン化を用いた近赤外(NIR)レーザーパルスによる光電子の円二色性(CD)。
イオンは、円偏極極極端紫外線(XUV)パルスによって合成された。
XUVパルスの偏光に対する円偏光NIRパルスの共回転と反回転については、高強度および偏光依存性フリーマン共鳴の結果としてCDの複雑な変化が観察され、さらに二色性AC-スタークシフトが生じる。
実験結果は、実験により観測されたCDの顕著な変動を識別・解釈するために、時間依存的なシュリンガー方程式の数値解と比較した。
The circular dichroism (CD) of photoelectrons generated by near-infrared (NIR) laser pulses using multiphoton ionization of excited He$^+$ ions in the 3p(m=+1) state. The ions were prepared by circularly polarized extreme ultraviolet (XUV) pulses. For circularly polarized NIR pulses co- and counter-rotating relative to the polarization of the XUV pulse, a complex variation of the CD is observed as a result of intensity- and polarization-dependent Freeman resonances, with and without additional dichroic AC-Stark shifts. The experimental results are compared with numerical solutions of the time-dependent Schr\"odinger equation to identify and interpret the pronounced variation of the experimentally observed CD. | 翻訳日:2024-08-09 17:49:51 公開日:2024-08-08 |
# リモートセンシングオブジェクト検出のための機能バックボーン微調整の再考
Rethinking Feature Backbone Fine-tuning for Remote Sensing Object Detection ( http://arxiv.org/abs/2407.15143v2 ) ライセンス: Link先を確認 | Yechan Kim, JongHyun Park, SooYeon Kim, Moongu Jeon, | (参考訳) 近年、多くの手法が、畳み込みやトランスフォーマーアーキテクチャに依存するリモートセンシングオブジェクト検出において、目覚ましい性能を達成している。
このような検出器は、通常、生の入力画像から有用な特徴を抽出する特徴バックボーンを持つ。
リモートセンシングドメインでは、現在の検出器間では、自然なシーンからなるImageNetで事前トレーニングを行い、バックボーンを初期化するのが一般的である。
バックボーンの微調整は通常、リモートセンシング画像に適した機能を生成するために必要となる。
しかし、これは長期訓練における基本的な視覚的特徴の抽出を妨げる可能性があり、それによって性能改善が制限される。
そこで本研究では,DBF(Dynamic Backbone Freezing)と呼ばれる新しい手法を提案する。
本手法は,トレーニング中のバックボーン機能更新を動的に管理するモジュール「フリーズ・スケジューラ」を導入することで,バックボーンが低レベルなジェネリックな特徴を抽出すべきか,あるいはリモートセンシング領域の特定の知識を持つべきか,というジレンマを処理することを目的とする。
DOTAとDIOR-Rの大規模な実験により,計算コストを大幅に削減しつつ,より正確なモデル学習が可能となった。
我々の手法は、その素直な設計のため、追加の労力なしでシームレスに採用することができる。
Recently, numerous methods have achieved impressive performance in remote sensing object detection, relying on convolution or transformer architectures. Such detectors typically have a feature backbone to extract useful features from raw input images. For the remote sensing domain, a common practice among current detectors is to initialize the backbone with pre-training on ImageNet consisting of natural scenes. Fine-tuning the backbone is then typically required to generate features suitable for remote-sensing images. However, this could hinder the extraction of basic visual features in long-term training, thus restricting performance improvement. To mitigate this issue, we propose a novel method named DBF (Dynamic Backbone Freezing) for feature backbone fine-tuning on remote sensing object detection. Our method aims to handle the dilemma of whether the backbone should extract low-level generic features or possess specific knowledge of the remote sensing domain, by introducing a module called 'Freezing Scheduler' to dynamically manage the update of backbone features during training. Extensive experiments on DOTA and DIOR-R show that our approach enables more accurate model learning while substantially reducing computational costs. Our method can be seamlessly adopted without additional effort due to its straightforward design. | 翻訳日:2024-08-09 17:49:51 公開日:2024-08-08 |
# 高ノイズデータを用いた人工膝関節置換術の非観血的マストイド切除術
Unsupervised Mastoidectomy for Cochlear CT Mesh Reconstruction Using Highly Noisy Data ( http://arxiv.org/abs/2407.15787v2 ) ライセンス: Link先を確認 | Yike Zhang, Dingjie Su, Eduardo Davalos, Jack H. Noble, | (参考訳) コクラーインプラント(CI)法では、内耳内にあるコクリーに電極の配列を挿入する。
マストイドミー (Mastoidectomy) は、高速ドリルを用いて側頭骨のマストイド領域の一部を除去し、中耳と内耳を通して内耳への安全なアクセスを可能にする外科手術である。
術前CT(Computerized Tomography)ボリュームを用いて作成した計画を2次元手術顕微鏡で記録する術中ナビゲーションシステムを開発することを目的としている。
そこで本研究では, 術前CTのみを用いて, マストイドの容積を合成する方法を提案する。
マストイドを合成するための教師なし学習フレームワークを提案する。
本手法は,マストイド切除時に摘出された領域が可視であるが,金属加工物,低信号-雑音比,電極配線の影響を受けても,手動によるデータのクリーニングやラベル付けを避けるために,術後CTスキャンを用いる。
術式別では, 口径70.0%, 口径70.0%の乳頭切除術を施行した。
本手法は,術中顕微鏡に術前計画の登録に使用可能な術前計画において,現実的なマストイド切除領域を予測し,術中ナビゲーションの進歩を示すものである。
Cochlear Implant (CI) procedures involve inserting an array of electrodes into the cochlea located inside the inner ear. Mastoidectomy is a surgical procedure that uses a high-speed drill to remove part of the mastoid region of the temporal bone, providing safe access to the cochlea through the middle and inner ear. We aim to develop an intraoperative navigation system that registers plans created using 3D preoperative Computerized Tomography (CT) volumes with the 2D surgical microscope view. Herein, we propose a method to synthesize the mastoidectomy volume using only the preoperative CT scan, where the mastoid is intact. We introduce an unsupervised learning framework designed to synthesize mastoidectomy. For model training purposes, this method uses postoperative CT scans to avoid manual data cleaning or labeling, even when the region removed during mastoidectomy is visible but affected by metal artifacts, low signal-to-noise ratio, or electrode wiring. Our approach estimates mastoidectomy regions with a mean dice score of 70.0%. This approach represents a major step forward for CI intraoperative navigation by predicting realistic mastoidectomy-removed regions in preoperative planning that can be used to register the pre-surgery plan to intraoperative microscopy. | 翻訳日:2024-08-09 17:49:51 公開日:2024-08-08 |
# AIDE: アンチテーゼ, インテントベース, 異種事例ベース説明
AIDE: Antithetical, Intent-based, and Diverse Example-Based Explanations ( http://arxiv.org/abs/2407.16010v2 ) ライセンス: Link先を確認 | Ikhtiyor Nematov, Dimitris Sacharidis, Tomer Sagi, Katja Hose, | (参考訳) 多くのユースケースにおいて、最も影響力のあるトレーニングデータサンプルを特定することにより、ブラックボックスモデルの予測を説明することが重要であることが多い。
既存のアプローチでは、ユーザ意図のカスタマイズが欠如しており、しばしば同質な説明サンプルを提供しており、異なる角度からモデルの推論を明らかにすることができなかった。
本稿では,不透明で複雑なモデルに対して,アンチテティカルな(対照的な)意図に基づく多種多様な説明を提供するアプローチであるAIDEを提案する。
AIDEは、正しい解釈、間違った調査、曖昧な予測の3つのタイプを区別する。
それぞれの意図に対して、AIDEは、直接または対照的に予測を支持したり、反対したりする、影響力のあるトレーニングサンプルの適切なセットを選択する。
AIDEは、多様性を意識したサンプリングを使用して、冗長性を避け、トレーニングデータのカバレッジを向上させる簡潔な要約を提供する。
画像とテキストの分類作業におけるAIDEの有効性を, 定量的に, 正確性と連続性を評価し, 定性的に, AIDEや他のサンプルベースアプローチからの逸話的証拠を比較し, ユーザスタディにより, AIDEの複数の側面を定量的に評価する。
その結果、AIDEは既存の手法の限界に対処し、説明可能性法に望ましい特性を示すことがわかった。
For many use-cases, it is often important to explain the prediction of a black-box model by identifying the most influential training data samples. Existing approaches lack customization for user intent and often provide a homogeneous set of explanation samples, failing to reveal the model's reasoning from different angles. In this paper, we propose AIDE, an approach for providing antithetical (i.e., contrastive), intent-based, diverse explanations for opaque and complex models. AIDE distinguishes three types of explainability intents: interpreting a correct, investigating a wrong, and clarifying an ambiguous prediction. For each intent, AIDE selects an appropriate set of influential training samples that support or oppose the prediction either directly or by contrast. To provide a succinct summary, AIDE uses diversity-aware sampling to avoid redundancy and increase coverage of the training data. We demonstrate the effectiveness of AIDE on image and text classification tasks, in three ways: quantitatively, assessing correctness and continuity; qualitatively, comparing anecdotal evidence from AIDE and other example-based approaches; and via a user study, evaluating multiple aspects of AIDE. The results show that AIDE addresses the limitations of existing methods and exhibits desirable traits for an explainability method. | 翻訳日:2024-08-09 17:49:51 公開日:2024-08-08 |
# 限界を知る: 大規模言語モデルにおける無視に関する調査
Know Your Limits: A Survey of Abstention in Large Language Models ( http://arxiv.org/abs/2407.18418v2 ) ライセンス: Link先を確認 | Bingbing Wen, Jihan Yao, Shangbin Feng, Chenjun Xu, Yulia Tsvetkov, Bill Howe, Lucy Lu Wang, | (参考訳) 大型言語モデル (LLM) の拒絶は, 幻覚を緩和し, LLMシステムの安全性を高める可能性から, ますます認識されている。
本調査では,質問文,モデル,人的価値の3つの観点から,禁忌を調査するための枠組みを提案する。
我々は,このフレームワークを用いて,禁忌手法,ベンチマーク,評価指標に関する文献を整理し,先行作業のメリットと限界について議論する。
我々は、特定のタスクやドメインを横断するメタ能力として、禁忌を達成できるかどうかを中心に、将来的な作業のための領域を特定し、動機づけすると同時に、文脈に基づいて禁忌能力を最適化する機会を提供する。
Abstention, the refusal of large language models (LLMs) to provide an answer, is increasingly recognized for its potential to mitigate hallucinations and enhance safety in LLM systems. In this survey, we introduce a framework to examine abstention from three perspectives: the query, the model, and human values. We organize the literature on abstention methods, benchmarks, and evaluation metrics using this framework, and discuss merits and limitations of prior work. We further identify and motivate areas for future work, centered around whether abstention can be achieved as a meta-capability that transcends specific tasks or domains, while still providing opportunities to optimize abstention abilities based on context. | 翻訳日:2024-08-09 17:49:51 公開日:2024-08-08 |
# 多体動的局在による量子情報保護
Protecting Quantum Information via Many-Body Dynamical Localization ( http://arxiv.org/abs/2407.19228v2 ) ライセンス: Link先を確認 | Ling-Zhi Tang, Dan-Wei Zhang, Hai-Feng Yu, Z. D. Wang, | (参考訳) 量子多体系の動的局在状態は、量子熱化を理解するのに基本的に重要であり、量子情報処理に応用できる。
ここでは、周期的および二次的キックの下で、非可積分量子XYスピンチェーンにおける障害のない多体動的局在(MBDL)について検討する。
MBDLと非局在化状態を持つ局所化位相図を取得し、動的観測値を示し、位相図を抽出する。
MBDL系における適切なキック強度を得るために、特定のスピンのラビ振動に対する局所的動的デカップリング効果を明らかにする。
さらに,MBDLで保護された量子情報を高温で解析し,量子記憶に必要なシステムパラメータを求める。
他の非熱化状態と比較して、無秩序なMBDL状態は繰り返しや資源をはるかに少なくし、熱雑音に対して堅牢な量子情報を保護し保存する有望な手段を提供する。
Dynamically localized states in quantum many-body systems are fundamentally important in understanding quantum thermalization and have applications in quantum information processing. Here we explore many-body dynamical localization (MBDL) without disorders in a non-integrable quantum XY spin chain under periodical and quadratic kicks. We obtain the localization phase diagram with the MBDL and delocalization states and show dynamical observables to extract the phase diagram. For proper kick strengths in the MBDL regime, we reveal a local dynamical decoupling effect for persistent Rabi oscillation of certain spins. Furthermore, we propose the MBDL-protected quantum information at high temperatures, and present an analysis of the dynamical decoupling to obtain the required system parameters for quantum storage. Compared to other non-thermalized states, the disorder-free MBDL states require much fewer repetitions and resources, providing a promising way to protect and store quantum information robust against thermal noises. | 翻訳日:2024-08-09 17:49:51 公開日:2024-08-08 |
# FTF-ER:連続グラフ学習のための特徴トポロジー融合に基づく体験再生法
FTF-ER: Feature-Topology Fusion-Based Experience Replay Method for Continual Graph Learning ( http://arxiv.org/abs/2407.19429v3 ) ライセンス: Link先を確認 | Jinhui Pang, Changqing Lin, Xiaoshuai Hao, Rong Yin, Zixuan Wang, Zhihui Zhang, Jinglin He, Huang Tai Sheng, | (参考訳) 連続グラフ学習(CGL)は,静的GNNを動的タスクフローシナリオに拡張することを目的とした,重要かつ困難なタスクである。
主要なCGL手法の1つとして、経験再生(ER)法が優れた性能のために広く注目を集めている。
しかし,既存のER法では特徴量やトポロジ的関連性によるサンプルの同定に重点を置いており,包括的なグラフデータの利用を制限している。
さらに、トポロジベースのER手法では、局所的なトポロジ情報のみを考慮し、バッファに隣接ノードを追加することで、グローバルなトポロジ情報を無視し、メモリオーバーヘッドを増大させる。
これらのギャップを埋めるため,我々はFTF-ER(Feature-Topology Fusion-based Experience Replay)と呼ばれる新しい手法を提案する。
具体的には,グラフデータ全体の利用を最大化するために,特徴情報と大域的トポロジ情報の両方を含む極めて相補的な手法を提案する。
さらに,グローバルなトポロジ情報を活用するために,ノードのトポロジ的重要性を計算する新しいモジュールとしてホッジポテンシャルスコア(HPS)を提案する。
HPSは、グラフ上のホッジ分解によるグローバルノードランキングを導出し、近隣のサンプリングと比較してより正確なグローバルトポロジ情報を提供する。
隣接するサンプリングを除外することで、HPSはトポロジカル情報を取得するためのバッファストレージコストを大幅に削減し、同時にトレーニング時間を短縮する。
最先端の手法と比較して、FTF-ERは、OGB-Arxivデータセット上でのAAが3.6%、AFが7.1%の大幅な改善を実現し、クラスインクリメンタルな学習環境での優れたパフォーマンスを示している。
Continual graph learning (CGL) is an important and challenging task that aims to extend static GNNs to dynamic task flow scenarios. As one of the mainstream CGL methods, the experience replay (ER) method receives widespread attention due to its superior performance. However, existing ER methods focus on identifying samples by feature significance or topological relevance, which limits their utilization of comprehensive graph data. In addition, the topology-based ER methods only consider local topological information and add neighboring nodes to the buffer, which ignores the global topological information and increases memory overhead. To bridge these gaps, we propose a novel method called Feature-Topology Fusion-based Experience Replay (FTF-ER) to effectively mitigate the catastrophic forgetting issue with enhanced efficiency. Specifically, from an overall perspective to maximize the utilization of the entire graph data, we propose a highly complementary approach including both feature and global topological information, which can significantly improve the effectiveness of the sampled nodes. Moreover, to further utilize global topological information, we propose Hodge Potential Score (HPS) as a novel module to calculate the topological importance of nodes. HPS derives a global node ranking via Hodge decomposition on graphs, providing more accurate global topological information compared to neighbor sampling. By excluding neighbor sampling, HPS significantly reduces buffer storage costs for acquiring topological information and simultaneously decreases training time. Compared with state-of-the-art methods, FTF-ER achieves a significant improvement of 3.6% in AA and 7.1% in AF on the OGB-Arxiv dataset, demonstrating its superior performance in the class-incremental learning setting. | 翻訳日:2024-08-09 17:49:51 公開日:2024-08-08 |
# Perm:マルチスタイル3次元ヘアモデリングのためのパラメトリック表現
Perm: A Parametric Representation for Multi-Style 3D Hair Modeling ( http://arxiv.org/abs/2407.19451v3 ) ライセンス: Link先を確認 | Chengan He, Xin Sun, Zhixin Shu, Fujun Luan, Sören Pirk, Jorge Alejandro Amador Herrera, Dominik L. Michels, Tuanfeng Y. Wang, Meng Zhang, Holly Rushmeier, Yi Zhou, | (参考訳) 本稿では,人間の3D髪のパラメトリックモデルであるPermについて紹介する。
グローバルヘア形状と局所ストランド詳細を共同でモデル化する以前の研究とは異なり、周波数領域におけるPCAベースのストランド表現を用いてそれらを分離し、より正確な編集と出力制御を可能にすることを提案する。
具体的には, ヘアテクスチャを低周波・高周波ヘア構造に適合・分解するために, ストランド表現を利用する。
これらの分解されたテクスチャは、後に異なる生成モデルでパラメータ化され、ヘアモデリングプロセスの一般的な段階をエミュレートする。
本研究は,3次元ヘアパラメータ化,ヘアスタイル補間,単一視野ヘア再構成,ヘアコンディショニングなどのタスクにおいて,その柔軟性と優位性を示す。
私たちのコード、データ、補足は、プロジェクトのページで確認できます。
We present Perm, a learned parametric model of human 3D hair designed to facilitate various hair-related applications. Unlike previous work that jointly models the global hair shape and local strand details, we propose to disentangle them using a PCA-based strand representation in the frequency domain, thereby allowing more precise editing and output control. Specifically, we leverage our strand representation to fit and decompose hair geometry textures into low- to high-frequency hair structures. These decomposed textures are later parameterized with different generative models, emulating common stages in the hair modeling process. We conduct extensive experiments to validate the architecture design of \textsc{Perm}, and finally deploy the trained model as a generic prior to solve task-agnostic problems, further showcasing its flexibility and superiority in tasks such as 3D hair parameterization, hairstyle interpolation, single-view hair reconstruction, and hair-conditioned image generation. Our code, data, and supplemental can be found at our project page: https://cs.yale.edu/homes/che/projects/perm/ | 翻訳日:2024-08-09 17:49:51 公開日:2024-08-08 |
# 地理空間データ検索のための自律GISエージェントフレームワーク
An Autonomous GIS Agent Framework for Geospatial Data Retrieval ( http://arxiv.org/abs/2407.21024v2 ) ライセンス: Link先を確認 | Huan Ning, Zhenlong Li, Temitope Akinboyewa, M. Naser Lessani, | (参考訳) 新興の大規模言語モデル (LLM) によって支えられ、自律地理情報システム (GIS) エージェントは空間解析や地図処理を行う能力を持つ。
しかし、完全に自律的なGISエージェントをサポートするための研究のギャップが存在し、エージェントが地理空間分析に必要なデータを発見し、ダウンロードする方法である。
本研究では,必要な地理空間データを生成,実行,デバッギングプログラムによって検索できる自律型GISエージェントフレームワークを提案する。
このフレームワークは、LCMを意思決定元として利用し、予め定義されたソースリストから適切なデータソース(s)を選択し、選択したソースからデータを取得する。
各データソースは、データ検索のメタデータと技術的な詳細を記録するハンドブックを持っている。
提案するフレームワークは,柔軟性と拡張性を確保するために,プラグアンドプレイ方式で設計されている。
人間のユーザーや自律的なデータスクローラーは、新しいハンドブックを追加することで、新しいデータソースを追加することができる。
我々はQGISプラグイン(GeoData Retrieve Agent)とPythonプログラムとしてリリースされたフレームワークに基づいたプロトタイプエージェントを開発した。
実験結果は、OpenStreetMap、米国国勢調査局の行政境界、人口統計データ、ESRI World Imageryの衛星ベースマップ、OpenTopography.orgのグローバルデジタル標高モデル(DEM)、商用プロバイダーの天気データ、NYTimes GitHubのCOVID-19ケースなど、さまざまなソースからデータを取得する能力を示している。
我々の研究は、自律的な地理空間データ検索エージェントを開発するための最初の試みの一つである。
Powered by the emerging large language models (LLMs), autonomous geographic information systems (GIS) agents have the potential to accomplish spatial analyses and cartographic tasks. However, a research gap exists to support fully autonomous GIS agents: how to enable agents to discover and download the necessary data for geospatial analyses. This study proposes an autonomous GIS agent framework capable of retrieving required geospatial data by generating, executing, and debugging programs. The framework utilizes the LLM as the decision-maker, selects the appropriate data source (s) from a pre-defined source list, and fetches the data from the chosen source. Each data source has a handbook that records the metadata and technical details for data retrieval. The proposed framework is designed in a plug-and-play style to ensure flexibility and extensibility. Human users or autonomous data scrawlers can add new data sources by adding new handbooks. We developed a prototype agent based on the framework, released as a QGIS plugin (GeoData Retrieve Agent) and a Python program. Experiment results demonstrate its capability of retrieving data from various sources including OpenStreetMap, administrative boundaries and demographic data from the US Census Bureau, satellite basemaps from ESRI World Imagery, global digital elevation model (DEM) from OpenTopography.org, weather data from a commercial provider, the COVID-19 cases from the NYTimes GitHub. Our study is among the first attempts to develop an autonomous geospatial data retrieval agent. | 翻訳日:2024-08-09 17:49:51 公開日:2024-08-08 |
# 普遍近似理論:ニューラルネットワークにおける並列性の基礎
Universal Approximation Theory: Foundations for Parallelism in Neural Networks ( http://arxiv.org/abs/2407.21670v2 ) ライセンス: Link先を確認 | Wei Wang, Qing Li, | (参考訳) ニューラルネットワークは、多くのタスクで優れたパフォーマンスを示す方法であるビッグデータによる大規模モデルのトレーニングに向けて、ますます進化している。
しかし、このアプローチには緊急の問題がある: 現在のディープラーニングモデルは、主にシリアルであり、ネットワーク層の数が増えるにつれて、トレーニングと推論時間も増加する。
ディープラーニングが今後も進むのであれば、これは受け入れがたいことだ。
そこで本研究では,UAT(Universal Approximation Theorem)に基づくディープラーニング並列化戦略を提案する。
そこで我々はPara-Formerという並列ネットワークを設計し,その理論を検証した。
従来のシリアルモデルとは異なり、Para-Formerの推論時間はレイヤ数で増加せず、多層ネットワークの推論速度が著しく向上する。
このネットワークの有効性を実験的に検証した。
Neural networks are increasingly evolving towards training large models with big data, a method that has demonstrated superior performance across many tasks. However, this approach introduces an urgent problem: current deep learning models are predominantly serial, meaning that as the number of network layers increases, so do the training and inference times. This is unacceptable if deep learning is to continue advancing. Therefore, this paper proposes a deep learning parallelization strategy based on the Universal Approximation Theorem (UAT). From this foundation, we designed a parallel network called Para-Former to test our theory. Unlike traditional serial models, the inference time of Para-Former does not increase with the number of layers, significantly accelerating the inference speed of multi-layer networks. Experimental results validate the effectiveness of this network. | 翻訳日:2024-08-09 17:39:48 公開日:2024-08-08 |
# クラスタリングとプロンプトを用いた自然言語処理のための行動テストケースの自動生成
Automatic Generation of Behavioral Test Cases For Natural Language Processing Using Clustering and Prompting ( http://arxiv.org/abs/2408.00161v2 ) ライセンス: Link先を確認 | Ying Li, Rahul Singh, Tarun Joshi, Agus Sudjianto, | (参考訳) Checklistのような自然言語処理(NLP)モデルの振る舞いテストにおける最近の研究は、ソフトウェアエンジニアリングテストにおける関連するパラダイムにインスパイアされている。
それらは一般的な言語能力とドメイン理解の評価を可能にするため、概念的健全性を評価し、モデルの弱点を特定するのに役立つ。
しかし、大きな課題は、テストケースの作成です。
現在のパッケージは、ドメインの専門知識を必要とし、時間を要する、手動開発を使った半自動化アプローチに依存しています。
本稿では,大規模言語モデルと統計的手法の力を活用したテストケースの自動開発手法を提案する。
テキスト表現をクラスタ化して、意味のあるグループを慎重に構築し、次にプロンプト技術を適用して、MFT(Minimmal Functionality Tests)を自動的に生成する。
有名なAmazon Reviewsコーパスは、私たちのアプローチを実証するために使われています。
4つの異なる分類アルゴリズムを用いて行動テストプロファイルを分析し、それらのモデルの限界と強みについて議論する。
Recent work in behavioral testing for natural language processing (NLP) models, such as Checklist, is inspired by related paradigms in software engineering testing. They allow evaluation of general linguistic capabilities and domain understanding, hence can help evaluate conceptual soundness and identify model weaknesses. However, a major challenge is the creation of test cases. The current packages rely on semi-automated approach using manual development which requires domain expertise and can be time consuming. This paper introduces an automated approach to develop test cases by exploiting the power of large language models and statistical techniques. It clusters the text representations to carefully construct meaningful groups and then apply prompting techniques to automatically generate Minimal Functionality Tests (MFT). The well-known Amazon Reviews corpus is used to demonstrate our approach. We analyze the behavioral test profiles across four different classification algorithms and discuss the limitations and strengths of those models. | 翻訳日:2024-08-09 17:39:48 公開日:2024-08-08 |
# 量子古典力学における確率論的断熱学習
Provably Efficient Adiabatic Learning for Quantum-Classical Dynamics ( http://arxiv.org/abs/2408.00276v2 ) ライセンス: Link先を確認 | Changnan Peng, Jin-Peng Liu, Gia-Wei Chern, Di Luo, | (参考訳) 量子古典ハイブリッド力学は、量子と古典の両方の振る舞いを考える必要がある複雑なシステムを正確にシミュレートするために重要である。
しかし、古典的自由度と量子的自由度の間の結合とヒルベルト空間の指数的成長は重要な課題である。
現在の機械学習アプローチでは、そのようなダイナミクスを予測することは期待できるが、エラー境界、サンプルの複雑さ、一般化可能性については未知のままである。
本研究では,学習アルゴリズムを用いて量子古典的断熱力学を解析するための一般的な理論的枠組みを確立する。
量子情報理論に基づいて、対数的システムサイズサンプリングの複雑さと好適な時間スケーリング特性を備えた、証明可能な効率のよいAdiabatic Learning (PEAL)アルゴリズムを開発した。
我々は,ホルシュタインモデル上でPEALをベンチマークし,シングルパスダイナミクスとアンサンブルダイナミクスの観測値の予測と,ハミルトンの家系での移動学習の精度を示す。
我々のフレームワークとアルゴリズムは、量子古典力学の信頼性と効率的な学習のための新しい道を開く。
Quantum-classical hybrid dynamics is crucial for accurately simulating complex systems where both quantum and classical behaviors need to be considered. However, coupling between classical and quantum degrees of freedom and the exponential growth of the Hilbert space present significant challenges. Current machine learning approaches for predicting such dynamics, while promising, remain unknown in their error bounds, sample complexity, and generalizability. In this work, we establish a generic theoretical framework for analyzing quantum-classical adiabatic dynamics with learning algorithms. Based on quantum information theory, we develop a provably efficient adiabatic learning (PEAL) algorithm with logarithmic system size sampling complexity and favorable time scaling properties. We benchmark PEAL on the Holstein model, and demonstrate its accuracy in predicting single-path dynamics and ensemble dynamics observables as well as transfer learning over a family of Hamiltonians. Our framework and algorithm open up new avenues for reliable and efficient learning of quantum-classical dynamics. | 翻訳日:2024-08-09 17:39:48 公開日:2024-08-08 |
# グラフマッチングによるドメイン間名前付きエンティティ認識
Cross-domain Named Entity Recognition via Graph Matching ( http://arxiv.org/abs/2408.00981v2 ) ライセンス: Link先を確認 | Junhao Zheng, Haibin Chen, Qianli Ma, | (参考訳) クロスドメインのNERは、現実のシナリオにおけるデータの不足から、実用的ながら難しい問題である。
一般的なプラクティスは、まず、リッチリソースの汎用ドメインでNERモデルを学習し、その後、モデルを特定のドメインに適応させることである。
ドメイン間のエンティティタイプ間のミスマッチの問題により、汎用ドメインにおける幅広い知識は、ターゲットドメイン NER モデルに効果的に転送できない。
この目的のために、ラベル関係を確率分布としてモデル化し、ソースとターゲットの両方のラベル空間にラベルグラフを構築する。
ラベル構造を用いた文脈表現を強化するため,BERTによる単語埋め込み出力にラベルグラフを融合する。
ラベル関係をグラフとして表現することにより、グラフマッチング問題としてクロスドメインNERを定式化する。
さらに,本提案手法は事前学習法に適用性が高く,他のドメイン間予測タスクも可能となる可能性が示唆された。
4つのデータセットに対する実験結果から,本手法は一連の移動学習,マルチタスク学習,少数ショット学習よりも優れていた。
Cross-domain NER is a practical yet challenging problem since the data scarcity in the real-world scenario. A common practice is first to learn a NER model in a rich-resource general domain and then adapt the model to specific domains. Due to the mismatch problem between entity types across domains, the wide knowledge in the general domain can not effectively transfer to the target domain NER model. To this end, we model the label relationship as a probability distribution and construct label graphs in both source and target label spaces. To enhance the contextual representation with label structures, we fuse the label graph into the word embedding output by BERT. By representing label relationships as graphs, we formulate cross-domain NER as a graph matching problem. Furthermore, the proposed method has good applicability with pre-training methods and is potentially capable of other cross-domain prediction tasks. Empirical results on four datasets show that our method outperforms a series of transfer learning, multi-task learning, and few-shot learning methods. | 翻訳日:2024-08-09 17:39:48 公開日:2024-08-08 |
# 大規模言語モデルによる医療の強化:医学的質問に対する回答について
Enhancing Healthcare through Large Language Models: A Study on Medical Question Answering ( http://arxiv.org/abs/2408.04138v1 ) ライセンス: Link先を確認 | Haoran Yu, Chang Yu, Zihan Wang, Dongxian Zou, Hao Qin, | (参考訳) 近年,医療におけるLarge Language Models (LLMs) の適用は,医療知識のアクセシビリティ向上と普及に大きく貢献している。
本稿では,MedQuAD 医療質問応答データセットを用いて訓練された様々な LLM について,正確な医療情報を提供するための最も効果的なモデルを特定することを目的とした,詳細な研究について述べる。
試験されたモデルの中で、Sentence-t5とMistral 7Bの組み合わせは優れた性能を示し、精度は0.762であった。
このモデルの強化された機能は、先進的な事前訓練技術、堅牢なアーキテクチャ、効果的な迅速な建設手法によるものである。
これらの強みを活用することで、Sentence-t5 + Mistral 7Bモデルは正確な医療回答の理解と生成に優れる。
本研究は, 医学的文脈に高度LLMを統合することにより, 医療知識の検索を効率化し, 患者教育と支援を著しく向上させる可能性を明らかにするものである。
In recent years, the application of Large Language Models (LLMs) in healthcare has shown significant promise in improving the accessibility and dissemination of medical knowledge. This paper presents a detailed study of various LLMs trained on the MedQuAD medical question-answering dataset, with a focus on identifying the most effective model for providing accurate medical information. Among the models tested, the Sentence-t5 combined with Mistral 7B demonstrated superior performance, achieving a precision score of 0.762. This model's enhanced capabilities are attributed to its advanced pretraining techniques, robust architecture, and effective prompt construction methodologies. By leveraging these strengths, the Sentence-t5 + Mistral 7B model excels in understanding and generating precise medical answers. Our findings highlight the potential of integrating sophisticated LLMs in medical contexts to facilitate efficient and accurate medical knowledge retrieval, thus significantly enhancing patient education and support. | 翻訳日:2024-08-09 17:00:24 公開日:2024-08-08 |
# 大規模言語モデルにおける知識の効率的な除去
UNLEARN Efficient Removal of Knowledge in Large Language Models ( http://arxiv.org/abs/2408.04140v1 ) ライセンス: Link先を確認 | Tyler Lizzo, Larry Heck, | (参考訳) 大規模言語モデル(LLM)の普及と、これらのモデルをスクラッチからトレーニングすることの禁止コストを考えると、モデルを再トレーニングすることなく、例えばプライベートやプロプライエタリといった特定の知識を動的に忘れてしまうことが重要な機能となっている。
本稿では,UNLEARNと呼ばれる新しい手法を提案する。
このアプローチは、LLMの他の知識に悪影響を及ぼすことなく、知識の除去を識別し、特にターゲットとするサブスペース法に基づいている。
その結果、対象とする知識の96%は、元のモデルの2.5%の範囲内で、他の知識の性能を維持しながら、忘れられ、以前の最先端の差別能力を大幅に上回っていることが示された。
LEARNと呼ばれる2つの手法も、目標とする知識追加のために提案されている。
その結果,LEARNはLow-Rank Adaptation (LoRA)の微調整精度と類似したタスクに悪影響を及ぼすことなく一致できることがわかった。
Given the prevalence of large language models (LLMs) and the prohibitive cost of training these models from scratch, dynamically forgetting specific knowledge e.g., private or proprietary, without retraining the model has become an important capability. This paper proposes a novel method to achieve this objective called UNLEARN. The approach builds upon subspace methods to identify and specifically target the removal of knowledge without adversely affecting other knowledge in the LLM. Results demonstrate 96% of targeted knowledge can be forgotten while maintaining performance on other knowledge within 2.5% of the original model, significantly outperforming the discriminatory abilities of the previous state-of-the-art. A dual method called LEARN is also proposed for targeted knowledge addition. Results show LEARN can match the fine-tuning accuracy of Low-Rank Adaptation (LoRA) without adversely affecting similar tasks. | 翻訳日:2024-08-09 17:00:24 公開日:2024-08-08 |
# リモートセンシング画像土地被覆変化検出のための統合的動的現象論的特徴
Integrated Dynamic Phenological Feature for Remote Sensing Image Land Cover Change Detection ( http://arxiv.org/abs/2408.04144v1 ) ライセンス: Link先を確認 | Yi Liu, Chenhao Sun, Hao Ye, Xiangying Liu, Weilong Ju, | (参考訳) リモートセンシング画像変化検出(CD)は地表面の変化を時間とともに解析するために不可欠であり、擬似変化をフィルタリングしながら複雑なシーンから実際の変化を区別することが大きな課題である。
この課題の主因は、自然界における現象学的特徴によるクラス内動的変化である。
これを解決するために,表現学的特徴をリモートセンシング画像CDフレームワークに統合するInPheaモデルを提案する。
このモデルは,高分解能な特徴抽出と空間ピラミッドブロックを併用して性能を向上させることで,変化情報の特徴表現を改善するディファレンシャルアテンションモジュールを備えた検出器を備える。
さらに、4つの制約モジュールと多段階のコントラスト学習アプローチを持つ制約器を用いて、モデルが表現学的特性を理解するのを助ける。
HRSCD、SECD、PSCD-Wuhanデータセットの実験では、InPheaは他のモデルよりも優れており、現象学的擬似変化に対処する効果と全体的なモデル優位性が確認されている。
Remote sensing image change detection (CD) is essential for analyzing land surface changes over time, with a significant challenge being the differentiation of actual changes from complex scenes while filtering out pseudo-changes. A primary contributor to this challenge is the intra-class dynamic changes due to phenological characteristics in natural areas. To overcome this, we introduce the InPhea model, which integrates phenological features into a remote sensing image CD framework. The model features a detector with a differential attention module for improved feature representation of change information, coupled with high-resolution feature extraction and spatial pyramid blocks to enhance performance. Additionally, a constrainer with four constraint modules and a multi-stage contrastive learning approach is employed to aid in the model's understanding of phenological characteristics. Experiments on the HRSCD, SECD, and PSCD-Wuhan datasets reveal that InPhea outperforms other models, confirming its effectiveness in addressing phenological pseudo-changes and its overall model superiority. | 翻訳日:2024-08-09 17:00:24 公開日:2024-08-08 |
# ComKD-CLIP:コントラスト言語画像前処理モデルのための包括的知識蒸留
ComKD-CLIP: Comprehensive Knowledge Distillation for Contrastive Language-Image Pre-traning Model ( http://arxiv.org/abs/2408.04145v1 ) ライセンス: Link先を確認 | Yifan Chen, Xiaozhen Qiao, Zhe Sun, Xuelong Li, | (参考訳) コントラスト言語-画像事前学習(CLIP)は、コントラスト学習技術を通じて、画像とテキスト間の意味情報の統合に優れる。
様々なマルチモーダルタスクにおいて顕著なパフォーマンスを達成した。
しかし、大規模なCLIPモデルの展開はリソース制限された環境では妨げられ、小さなモデルは実用アプリケーションに必要なパフォーマンスベンチマークを満たさないことが多い。
本稿では,ComKD-CLIP(ComKD-CLIP: Comprehensive Knowledge Distillation for Contrastive Language- Image Pre-traning Model)という新しい手法を提案する。
ComKD-CLIPは、画像特徴アライメント(IFAlign)と教育意識(EduAttention)の2つの主要なメカニズムで構成されている。
IFAlignは、教師モデルで抽出した画像特徴と教師モデルで抽出した画像特徴とを密に一致させ、教師のイメージ特徴抽出に関する知識を学習できるようにする。
EduAttentionは、教師モデルによって抽出されたテキスト特徴と学生モデルによって抽出された画像特徴との間の相互関係を探索し、生徒モデルが教師モデルがテキストイメージの特徴をどのように統合するかを学習できるようにする。
また、ComKD-CLIPは、教師モデルによるテキスト画像特徴融合の結果を利用したIFAlignとEduAttentionから抽出した知識を洗練し、生徒モデルが教師モデルの知識を正確に吸収することを保証する。
11個のデータセットに対して行われた大規模な実験は,提案手法の優位性を実証した。
Contrastive Language-Image Pre-training (CLIP) excels in integrating semantic information between images and text through contrastive learning techniques. It has achieved remarkable performance in various multimodal tasks. However, the deployment of large CLIP models is hindered in resource-limited environments, while smaller models frequently fall short of meeting performance benchmarks necessary for practical applications. In this paper, we propose a novel approach, coined as ComKD-CLIP: Comprehensive Knowledge Distillation for Contrastive Language-Image Pre-traning Model, which aims to comprehensively distill the knowledge from a large teacher CLIP model into a smaller student model, ensuring comparable performance with significantly reduced parameters. ComKD-CLIP is composed of two key mechanisms: Image Feature Alignment (IFAlign) and Educational Attention (EduAttention). IFAlign makes the image features extracted by the student model closely match those extracted by the teacher model, enabling the student to learn teacher's knowledge of extracting image features. EduAttention explores the cross-relationships between text features extracted by the teacher model and image features extracted by the student model, enabling the student model to learn how the teacher model integrates text-image features. In addition, ComKD-CLIP can refine the knowledge distilled from IFAlign and EduAttention leveraging the results of text-image feature fusion by the teacher model, ensuring student model accurately absorbs the knowledge of teacher model. Extensive experiments conducted on 11 datasets have demonstrated the superiority of the proposed method. | 翻訳日:2024-08-09 17:00:24 公開日:2024-08-08 |
# 動的ラプラシアンに関するチュートリアル
A tutorial on the dynamic Laplacian ( http://arxiv.org/abs/2408.04149v1 ) ライセンス: Link先を確認 | Gary Froyland, | (参考訳) スペクトル技術は、データ分析に人気があり、堅牢なアプローチである。
顕著な例は、データ親和性から構築されたラプラシアンの固有ベクトルを使用して、自然データ群やクラスタを識別したり、多様体上に横たわるデータの単純化された表現を生成することである。
このチュートリアルは、ラプラシアンの自然な一般化である動的ラプラシアンは、時間成分を持ち、時間発展多様体上のデータを扱う。
この動的な設定では、クラスタは長期間の ``コヒーレント'' コレクションに対応する。
動的一般化を記述する前に、スペクトル幾何学の緩やかな再帰から始める。
また、SEBAアルゴリズムを用いて、計算手法や多くの特徴の自動分離についても論じる。
このチュートリアルの目的は、動的ラプラシア文学の多くの結果を単一の短い文書にまとめ、アクセス可能なスタイルで書くことである。
Spectral techniques are popular and robust approaches to data analysis. A prominent example is the use of eigenvectors of a Laplacian, constructed from data affinities, to identify natural data groupings or clusters, or to produce a simplified representation of data lying on a manifold. This tutorial concerns the dynamic Laplacian, which is a natural generalisation of the Laplacian to handle data that has a time component and lies on a time-evolving manifold. In this dynamic setting, clusters correspond to long-lived ``coherent'' collections. We begin with a gentle recap of spectral geometry before describing the dynamic generalisations. We also discuss computational methods and the automatic separation of many distinct features through the SEBA algorithm. The purpose of this tutorial is to bring together many results from the dynamic Laplacian literature into a single short document, written in an accessible style. | 翻訳日:2024-08-09 17:00:24 公開日:2024-08-08 |
# 適応器による構造決定は、半教師あり学習のためのアンサンブル学習を実践する
Decorrelating Structure via Adapters Makes Ensemble Learning Practical for Semi-supervised Learning ( http://arxiv.org/abs/2408.04150v1 ) ライセンス: Link先を確認 | Jiaqi Wu, Junbiao Pang, Qingming Huang, | (参考訳) コンピュータビジョンでは、従来のアンサンブル学習手法は、深層ニューラルネットワークの信頼性を高めるために、訓練効率が低いか、限られた性能を示す。
本稿では,多種多様な視覚的タスクに対して,DSA(Decor related Structure via Adapters)による軽量で損失のない,アーキテクチャに依存しないアンサンブル学習を提案する。
具体的には、DSAは、構造多様性アダプタを活用して、複数の予測ヘッドを調整された正規化や損失を伴わずにデコレーションする。
これにより、DSAは様々なコンピュータビジョンタスクに対してアーキテクチャに依存しないネットワークに容易に拡張できる。
重要なことは、理論解析により、提案したDSAは、単一のヘッドベース法よりもバイアスとばらつきが低いことを示している(これは、ほとんどの最先端技術で採用されている)。
従って、DSAは、さまざまな現実世界の課題、 \textit{e g }、データ破損、ラベルノイズに対して、ディープネットワークを信頼性と堅牢にする。
提案手法とFreeMatchを組み合わせた大規模な実験により、CIFAR-10データセットでは5.35%、40ラベルのデータでは0.71%、400ラベルのデータでは0.71%の精度向上が達成された。
さらに、提案手法とDualPoseを組み合わせることで、100データ(ラベル付きデータ30)のスニッフィングデータセットでは2.08%、100データ(ラベル付きデータ50)のFLICデータセットでは5.2%、200データ(ラベル付きデータ100)のLSPデータセットでは2.35%の改善を実現した。
In computer vision, traditional ensemble learning methods exhibit either a low training efficiency or the limited performance to enhance the reliability of deep neural networks. In this paper, we propose a lightweight, loss-function-free, and architecture-agnostic ensemble learning by the Decorrelating Structure via Adapters (DSA) for various visual tasks. Concretely, the proposed DSA leverages the structure-diverse adapters to decorrelate multiple prediction heads without any tailed regularization or loss. This allows DSA to be easily extensible to architecture-agnostic networks for a range of computer vision tasks. Importantly, the theoretically analysis shows that the proposed DSA has a lower bias and variance than that of the single head based method (which is adopted by most of the state of art approaches). Consequently, the DSA makes deep networks reliable and robust for the various real-world challenges, \textit{e.g.}, data corruption, and label noises. Extensive experiments combining the proposed method with FreeMatch achieved the accuracy improvements of 5.35% on CIFAR-10 dataset with 40 labeled data and 0.71% on CIFAR-100 dataset with 400 labeled data. Besides, combining the proposed method with DualPose achieved the improvements in the Percentage of Correct Keypoints (PCK) by 2.08% on the Sniffing dataset with 100 data (30 labeled data), 5.2% on the FLIC dataset with 100 data (including 50 labeled data), and 2.35% on the LSP dataset with 200 data (100 labeled data). | 翻訳日:2024-08-09 17:00:24 公開日:2024-08-08 |
# データ付加ジレンマ
The Data Addition Dilemma ( http://arxiv.org/abs/2408.04154v1 ) ライセンス: Link先を確認 | Judy Hanwen Shen, Inioluwa Deborah Raji, Irene Y. Chen, | (参考訳) 医療タスクのための多くの機械学習では、標準データセットは、多くの、基本的に異なるソースにまたがるデータを集約することによって構築される。
しかし、いつより多くのデータを追加することが助けになるのか、いつ、実際の設定で望ましいモデル結果の進行を妨げるのか?
この状況をtextit{Data Addition Dilemma} と同定し、このマルチソーススケーリングコンテキストにトレーニングデータを追加すると、全体的な精度が低下し、不確実な公正性が低下し、最悪のサブグループのパフォーマンスが低下することを示した。
これは、データスケーリングによるモデル性能改善と、分散シフトによるモデル劣化とのトレードオフが実証的に観察されていることから生じる可能性がある。
そこで我々は,このジレンマをナビゲートするためのベースライン戦略を確立し,データスケーリングにどのデータソースを追加するかを決定するための分散シフトヒューリスティックスを導入し,期待されるモデル性能向上を実現する。
我々は,データ収集に必要な考慮事項と,より大規模なモデルの時代にデータ構成とスケールを研究するための提案について論じる。
In many machine learning for healthcare tasks, standard datasets are constructed by amassing data across many, often fundamentally dissimilar, sources. But when does adding more data help, and when does it hinder progress on desired model outcomes in real-world settings? We identify this situation as the \textit{Data Addition Dilemma}, demonstrating that adding training data in this multi-source scaling context can at times result in reduced overall accuracy, uncertain fairness outcomes, and reduced worst-subgroup performance. We find that this possibly arises from an empirically observed trade-off between model performance improvements due to data scaling and model deterioration from distribution shift. We thus establish baseline strategies for navigating this dilemma, introducing distribution shift heuristics to guide decision-making on which data sources to add in data scaling, in order to yield the expected model performance improvements. We conclude with a discussion of the required considerations for data collection and suggestions for studying data composition and scale in the age of increasingly larger models. | 翻訳日:2024-08-09 17:00:24 公開日:2024-08-08 |
# エントロピー注意と受容野増強を併用した高能率単一画像超解像
Efficient Single Image Super-Resolution with Entropy Attention and Receptive Field Augmentation ( http://arxiv.org/abs/2408.04158v1 ) ライセンス: Link先を確認 | Xiaole Zhao, Linze Li, Chengxing Xie, Xiaoming Zhang, Ting Jiang, Wenjie Lin, Shuaicheng Liu, Tianrui Li, | (参考訳) 近年,シングルイメージ・スーパーレゾリューション(SISR)のためのトランスフォーマーベースのディープモデルにより,軽量なSISRタスクの性能が大幅に向上している。
しかし、多頭部自己注意(MSA)の複雑な計算により計算負荷が重く、推論が遅いことがしばしばあり、実用的応用や展開を著しく妨げている。
本研究では、モデル効率とSR性能のジレンマを軽減するための効率的なSRモデルを提案する。このモデルでは、エントロピー注意と受容場拡張ネットワーク(EARFA)と呼ばれ、新しいエントロピー注意(EA)とシフトする大きなカーネル注意(SLKA)で構成されている。
情報理論の観点からは、EAはガウス分布に条件付けられた中間特徴のエントロピーを高め、その後の推論に対してより情報的な入力を提供する。
一方、SLKAはチャネルシフトの助けを借りてSRモデルの受容領域を拡張し、階層的特徴の多様性を高めることを好む。
EAとSLKAの実装は複雑な計算(行列乗算など)を含まないため、提案手法はより優れたSR性能を維持しつつトランスフォーマーベースのSRモデルよりも高速な非線形推論を実現することができる。
実験の結果,提案モデルでは,SR性能を他の高度なモデルと比較しながら,モデル推論の遅延を大幅に低減できることがわかった。
Transformer-based deep models for single image super-resolution (SISR) have greatly improved the performance of lightweight SISR tasks in recent years. However, they often suffer from heavy computational burden and slow inference due to the complex calculation of multi-head self-attention (MSA), seriously hindering their practical application and deployment. In this work, we present an efficient SR model to mitigate the dilemma between model efficiency and SR performance, which is dubbed Entropy Attention and Receptive Field Augmentation network (EARFA), and composed of a novel entropy attention (EA) and a shifting large kernel attention (SLKA). From the perspective of information theory, EA increases the entropy of intermediate features conditioned on a Gaussian distribution, providing more informative input for subsequent reasoning. On the other hand, SLKA extends the receptive field of SR models with the assistance of channel shifting, which also favors to boost the diversity of hierarchical features. Since the implementation of EA and SLKA does not involve complex computations (such as extensive matrix multiplications), the proposed method can achieve faster nonlinear inference than Transformer-based SR models while maintaining better SR performance. Extensive experiments show that the proposed model can significantly reduce the delay of model inference while achieving the SR performance comparable with other advanced models. | 翻訳日:2024-08-09 17:00:24 公開日:2024-08-08 |
# Dzyaloshinskii-Moriya相互作用を持つ2次元正方格子上での量子スピン系の実現に関するRydberg原子を用いたFloquet工学による提案
Proposal for realizing quantum-spin systems on a two-dimensional square lattice with Dzyaloshinskii-Moriya interaction by the Floquet engineering using Rydberg atoms ( http://arxiv.org/abs/2408.04160v1 ) ライセンス: Link先を確認 | Hiroki Kuji, Masaya Kunimi, Tetsuro Nikuni, | (参考訳) 理論的には、2次元正方格子に配置されたリドベルク原子内でのハイゼンベルクとジアロシンスキー-モリヤ(DM)相互作用を取り入れたハミルトニアンの実装法をフロケ工学を用いて提案する。
このスキームでは、スピンのグローバル演算と局所演算の両方を用いる。
大域的な操作はマイクロ波を印加することで実現でき、局所的なアドレス付けレーザーによって局所的な操作が実現され、アクスタークシフトが生じる。
我々の工学的ハミルトニアンは結合依存型DM相互作用を含むため、基底状態における量子スカイミオンの出現を期待する。
We theoretically propose a method for implementing the Hamiltonian incorporating Heisenberg and Dzyaloshinskii-Moriya (DM) interactions within Rydberg atoms arranged in a two-dimensional square lattice, utilizing Floquet engineering. In our scheme, we use both global and local operations of the spins. The global operations can be realized by applying the microwave and the local operations can be realized by the locally addressing lasers, which yields the ac-Stark shift. Since our engineered Hamiltonian contains bond-dependent DM interactions, we expect the emergence of quantum skyrmions in the ground state. | 翻訳日:2024-08-09 17:00:24 公開日:2024-08-08 |
# 意味論」か「綴り」か : 文脈的単語埋め込みによる正書法雑音の探索
Semantics or spelling? Probing contextual word embeddings with orthographic noise ( http://arxiv.org/abs/2408.04162v1 ) ライセンス: Link先を確認 | Jacob A. Matthews, John R. Starr, Marten van Schijndel, | (参考訳) プレトレーニング言語モデル (PLM) 隠蔽状態は文脈語埋め込み (CWE) としてしばしば用いられる。
計算言語学研究の多くの分野において、CWE間の類似性は意味的類似性(semantic similarity)と解釈される。
しかし、PLMの隠蔽状態にどのような情報がエンコードされているのかは、正確には分かっていない。
最小の正弦波雑音を用いてPLM表現を探索することにより,この手法を検証した。
CWEが主に意味情報をエンコードしている場合、入力語中の単一の文字スワップが結果の表現に大きく影響しないことを期待する。
驚いたことに、人気のあるPLMによって生成されたCWEは入力データのノイズに非常に敏感であり、この感度はサブワードのトークン化と関連している。
このことは、CWEが単語レベルの意味とは無関係な情報をキャプチャし、入力データの自明な修正によって操作できることを示唆している。
PLM由来のCWEは信頼性のあるセマンティックプロキシではない可能性があり、表現的類似性を解釈する際には注意が必要であると結論付けている。
Pretrained language model (PLM) hidden states are frequently employed as contextual word embeddings (CWE): high-dimensional representations that encode semantic information given linguistic context. Across many areas of computational linguistics research, similarity between CWEs is interpreted as semantic similarity. However, it remains unclear exactly what information is encoded in PLM hidden states. We investigate this practice by probing PLM representations using minimal orthographic noise. We expect that if CWEs primarily encode semantic information, a single character swap in the input word will not drastically affect the resulting representation,given sufficient linguistic context. Surprisingly, we find that CWEs generated by popular PLMs are highly sensitive to noise in input data, and that this sensitivity is related to subword tokenization: the fewer tokens used to represent a word at input, the more sensitive its corresponding CWE. This suggests that CWEs capture information unrelated to word-level meaning and can be manipulated through trivial modifications of input data. We conclude that these PLM-derived CWEs may not be reliable semantic proxies, and that caution is warranted when interpreting representational similarity | 翻訳日:2024-08-09 17:00:24 公開日:2024-08-08 |
# mbrs: 最小ベイズリスクデコードのためのライブラリ
mbrs: A Library for Minimum Bayes Risk Decoding ( http://arxiv.org/abs/2408.04167v1 ) ライセンス: Link先を確認 | Hiroyuki Deguchi, Yusuke Sakai, Hidetaka Kamigaito, Taro Watanabe, | (参考訳) 最小ベイズリスク(MBR)復号法(英: Minimum Bayes risk, MBR)とは、テキスト生成タスクにおいて、高確率ではなく実用機能に基づいて高品質な出力を選択することで、ビームサーチによる従来の最大値(MAP)復号法よりも優れた結果を生成する決定規則である。
典型的には、サンプル化された擬似参照の下で仮説の集合から最も適切な仮説を見つける。
mbrsはMBRデコーディングのライブラリで、様々なメトリクス、代替期待推定、アルゴリズムの変種を柔軟に組み合わせることができる。
速度測定とコードブロックの呼び出し数、透明性、再現性、拡張性に重点を置いて設計されており、研究者や開発者にとって不可欠である。
私たちはMITライセンスのオープンソースプロジェクトとしてmbrsを公開しました。
GitHub: https://github.com/naist-nlp/mbrs
Minimum Bayes risk (MBR) decoding is a decision rule of text generation tasks that outperforms conventional maximum a posterior (MAP) decoding using beam search by selecting high-quality outputs based on a utility function rather than those with high-probability. Typically, it finds the most suitable hypothesis from the set of hypotheses under the sampled pseudo-references. mbrs is a library of MBR decoding, which can flexibly combine various metrics, alternative expectation estimations, and algorithmic variants. It is designed with a focus on speed measurement and calling count of code blocks, transparency, reproducibility, and extensibility, which are essential for researchers and developers. We published our mbrs as an MIT-licensed open-source project, and the code is available on GitHub. GitHub: https://github.com/naist-nlp/mbrs | 翻訳日:2024-08-09 17:00:24 公開日:2024-08-08 |
# 知覚・反射・計画:指導無しのゴール指向型都市ナビゲーションのためのLLMエージェントの設計
Perceive, Reflect, and Plan: Designing LLM Agent for Goal-Directed City Navigation without Instructions ( http://arxiv.org/abs/2408.04168v1 ) ライセンス: Link先を確認 | Qingbin Zeng, Qinglong Yang, Shunan Dong, Heming Du, Liang Zheng, Fengli Xu, Yong Li, | (参考訳) 本稿では、都市ナビゲーションにおけるシナリオについて考察する:AIエージェントは、よく知られたランドマークに対する目標位置の言語記述を提供する;ランドマークと道路ネットワーク接続の認識を含む周囲のシーンのみを観察することにより、エージェントは指示なしで目標位置へのナビゲーションを決定する必要がある。
この問題は、しばしばランドマークが見えない複雑な都市環境の自己配置と空間表現を取得するためにエージェントが必要であるため、非常に難しい。
ナビゲーションの指示がない場合、このような能力は、長距離都市ナビゲーションにおいて高品質な意思決定を行うために、エージェントにとって不可欠である。
大規模言語モデル(LLM)の創発的推論能力によって、誘惑のベースラインは、それぞれの観察に対してLSMに「反応」させ、それに応じて決定を下すことである。
しかし、このベースラインは非常に貧弱なパフォーマンスのため、エージェントは頻繁に同じ場所を訪れ、近視眼的で一貫性のない決定をする。
これらの課題に対処するために,本論文では,その知覚・反映・計画能力に特徴付けられる新しいエージェントワークフローを提案する。
具体的には、LLaVA-7Bは、都市のナビゲーションに十分な精度でランドマークの方向と距離を把握できるように微調整できる。
さらに、過去の体験を記憶するメモリ機構を通じてリフレクションを達成し、現在の認識で検索して効果的な意思決定の議論を行う。
計画では、リフレクション結果を使って長期計画を作成し、長距離航法における短期的な決定を避けることができる。
設計したワークフローは、最先端のベースラインと比較して、LLMエージェントのナビゲーション能力を大幅に改善する。
This paper considers a scenario in city navigation: an AI agent is provided with language descriptions of the goal location with respect to some well-known landmarks; By only observing the scene around, including recognizing landmarks and road network connections, the agent has to make decisions to navigate to the goal location without instructions. This problem is very challenging, because it requires agent to establish self-position and acquire spatial representation of complex urban environment, where landmarks are often invisible. In the absence of navigation instructions, such abilities are vital for the agent to make high-quality decisions in long-range city navigation. With the emergent reasoning ability of large language models (LLMs), a tempting baseline is to prompt LLMs to "react" on each observation and make decisions accordingly. However, this baseline has very poor performance that the agent often repeatedly visits same locations and make short-sighted, inconsistent decisions. To address these issues, this paper introduces a novel agentic workflow featured by its abilities to perceive, reflect and plan. Specifically, we find LLaVA-7B can be fine-tuned to perceive the direction and distance of landmarks with sufficient accuracy for city navigation. Moreover, reflection is achieved through a memory mechanism, where past experiences are stored and can be retrieved with current perception for effective decision argumentation. Planning uses reflection results to produce long-term plans, which can avoid short-sighted decisions in long-range navigation. We show the designed workflow significantly improves navigation ability of the LLM agent compared with the state-of-the-art baselines. | 翻訳日:2024-08-09 16:50:38 公開日:2024-08-08 |
# M2EF-NN:癌生存予測のためのマルチモーダルマルチインスタンス・エビデンス融合ニューラルネットワーク
M2EF-NNs: Multimodal Multi-instance Evidence Fusion Neural Networks for Cancer Survival Prediction ( http://arxiv.org/abs/2408.04170v1 ) ライセンス: Link先を確認 | Hui Luo, Jiashuang Huang, Hengrong Ju, Tianyi Zhou, Weiping Ding, | (参考訳) 正確ながん生存予測は、治療計画を定式化する際に臨床医師を支援するために不可欠である。
病理画像やゲノムデータを含むマルチモーダルデータは、このタスクの精度を大幅に向上させる補完的かつ包括的な情報を提供する。
しかし、現在の手法は有望な結果をもたらすが、グローバルな文脈を効果的に活用せず、モダルの不確実性を無視していないという2つの顕著な制限に悩まされている。
本研究では,M2EF-NNと呼ばれるニューラルネットワークモデルを提案する。
具体的には、画像内のグローバル情報をキャプチャするために、トレーニング済みのビジョントランスフォーマー(ViT)モデルを用いて、病理像のパッチ特徴埋め込みを取得する。
次に,ゲノム埋め込みをクエリとして用いたマルチモーダルアテンションモジュールを導入し,ゲノム画像と病理像のコアテンションマッピングを学習して,マルチモーダル情報の早期の相互融合を実現し,それらの相関関係をよりよく把握する。
その後,癌生存予測にDST(Dempster-Shafer evidence theory)を適用した。
本稿では, マルチモーダル特徴を用いたクラス確率分布のパラメータ化を行い, 異なるモーダル性に関連する不確かさを推定するために主観的論理を導入する。
Dempster-Shafer理論と組み合わせることで、マルチモーダル融合後のクラス確率の重み付けを動的に調整し、信頼できる生存予測を実現することができる。
最後に,TCGAデータセットに対する実験的検証により,癌生存予測における提案手法による大幅な改善が確認され,モデルの信頼性が向上する。
Accurate cancer survival prediction is crucial for assisting clinical doctors in formulating treatment plans. Multimodal data, including histopathological images and genomic data, offer complementary and comprehensive information that can greatly enhance the accuracy of this task. However, the current methods, despite yielding promising results, suffer from two notable limitations: they do not effectively utilize global context and disregard modal uncertainty. In this study, we put forward a neural network model called M2EF-NNs, which leverages multimodal and multi-instance evidence fusion techniques for accurate cancer survival prediction. Specifically, to capture global information in the images, we use a pre-trained Vision Transformer (ViT) model to obtain patch feature embeddings of histopathological images. Then, we introduce a multimodal attention module that uses genomic embeddings as queries and learns the co-attention mapping between genomic and histopathological images to achieve an early interaction fusion of multimodal information and better capture their correlations. Subsequently, we are the first to apply the Dempster-Shafer evidence theory (DST) to cancer survival prediction. We parameterize the distribution of class probabilities using the processed multimodal features and introduce subjective logic to estimate the uncertainty associated with different modalities. By combining with the Dempster-Shafer theory, we can dynamically adjust the weights of class probabilities after multimodal fusion to achieve trusted survival prediction. Finally, Experimental validation on the TCGA datasets confirms the significant improvements achieved by our proposed method in cancer survival prediction and enhances the reliability of the model. | 翻訳日:2024-08-09 16:50:38 公開日:2024-08-08 |
# 回転振動の幾何学的関係に基づく回転中心同定
Rotation center identification based on geometric relationships for rotary motion deblurring ( http://arxiv.org/abs/2408.04171v1 ) ライセンス: Link先を確認 | Jinhui Qin, Yong Ma, Jun Huang, Fan Fan, You Du, | (参考訳) RMD (Non-blind rotation motion deblurring) は、回転運動ぼかし (RMB) 画像から遅延クリアなイメージを復元することを目的としている。
回転中心は、非盲点 RMD 法において重要な入力パラメータである。
既存の手法では、RMB画像から直接回転中心を推定する。
しかし、それらは常に重大なエラーを被り、RTDの性能は限られている。
組立画像システムでは、回転中心の位置が固定されている。
この先行知識を生かして,回転中心の同定と誤差範囲の解析を行う幾何学的手法を提案する。
さらに,RMBイメージングシステムを構築した。
実験により, 一つの軸(x軸, y軸)に沿って1ピクセル未満の誤差が得られた。
構築した画像システムを用いて実RMB画像のキャプチャを行い,実験結果から既存のRMD手法によりより優れたRMD画像が得られることを示す。
Non-blind rotary motion deblurring (RMD) aims to recover the latent clear image from a rotary motion blurred (RMB) image. The rotation center is a crucial input parameter in non-blind RMD methods. Existing methods directly estimate the rotation center from the RMB image. However they always suffer significant errors, and the performance of RMD is limited. For the assembled imaging systems, the position of the rotation center remains fixed. Leveraging this prior knowledge, we propose a geometric-based method for rotation center identification and analyze its error range. Furthermore, we construct a RMB imaging system. The experiment demonstrates that our method achieves less than 1-pixel error along a single axis (x-axis or y-axis). We utilize the constructed imaging system to capture real RMB images, and experimental results show that our method can help existing RMD approaches yield better RMD images. | 翻訳日:2024-08-09 16:50:38 公開日:2024-08-08 |
# MultiColor: 複数の色空間から学習した画像のカラー化
MultiColor: Image Colorization by Learning from Multiple Color Spaces ( http://arxiv.org/abs/2408.04172v1 ) ライセンス: Link先を確認 | Xiangcheng Du, Zhao Zhou, Yanlong Wang, Zhuoyao Wang, Yingbin Zheng, Cheng Jin, | (参考訳) ディープネットワークは、画像のカラー化など、画像復元タスクにおいて顕著なパフォーマンスを示している。
しかし、従来のアプローチは、色分けパイプライン中に特定のマッピング関数、すなわち色空間を持つ単一色モデルからのデジタル表現に依存していた。
本稿では,まず,異なる色空間のモデル化について検討し,それぞれが独特の色分布を持つ特徴を持つことを示す。
複数の色空間間の相補性は、画像のカラー化タスクの利点をもたらす。
我々は、複数の色空間からヒントを合成し、グレースケールの画像を自動的に色づけする新しい学習ベースのアプローチであるMultiColorを提案する。
具体的には、個々の色空間に専用の着色モジュール群を用いる。
各モジュール内では、まずトランスフォーマーデコーダを使用して、カラークエリの埋め込みを洗練し、次いでカラーマッパーが埋め込みとセマンティック機能を使用してカラーチャネル予測を生成する。
これらの予測色チャネルは様々な色空間を表すため、相補的なネットワークは相補性を生かし、優雅で合理的な色付き画像を生成するように設計されている。
実世界のデータセットについて広範な実験を行い、その結果、最先端のデータセットよりも優れた性能を示した。
Deep networks have shown impressive performance in the image restoration tasks, such as image colorization. However, we find that previous approaches rely on the digital representation from single color model with a specific mapping function, a.k.a., color space, during the colorization pipeline. In this paper, we first investigate the modeling of different color spaces, and find each of them exhibiting distinctive characteristics with unique distribution of colors. The complementarity among multiple color spaces leads to benefits for the image colorization task. We present MultiColor, a new learning-based approach to automatically colorize grayscale images that combines clues from multiple color spaces. Specifically, we employ a set of dedicated colorization modules for individual color space. Within each module, a transformer decoder is first employed to refine color query embeddings and then a color mapper produces color channel prediction using the embeddings and semantic features. With these predicted color channels representing various color spaces, a complementary network is designed to exploit the complementarity and generate pleasing and reasonable colorized images. We conduct extensive experiments on real-world datasets, and the results demonstrate superior performance over the state-of-the-arts. | 翻訳日:2024-08-09 16:50:38 公開日:2024-08-08 |
# wav2graph: 音声による教師付き学習知識グラフのためのフレームワーク
wav2graph: A Framework for Supervised Learning Knowledge Graph from Speech ( http://arxiv.org/abs/2408.04174v1 ) ライセンス: Link先を確認 | Khai Le-Duc, Quy-Anh Dang, Tan-Hanh Pham, Truong-Son Hy, | (参考訳) 知識グラフ(KG)は、推論と文脈認識を改善する構造化された相互接続データを提供することで、大規模言語モデル(LLM)と検索エンジンのパフォーマンスを向上させる。
しかし、KGはテキストデータのみに焦点を合わせ、音声などの他のモダリティを無視する。
本稿では,音声データから学習知識グラフを教師する最初のフレームワークであるwav2graphを紹介する。
パイプラインは,(1)書き起こされた音声音声と名前付きエンティティデータベースに基づいてKGを構築すること,(2)KGを埋め込みベクトルに変換すること,(3)ノード分類とリンク予測タスクのためのグラフニューラルネットワーク(GNN)を訓練すること,である。
最新のGNNモデルを用いて帰納的・帰納的学習の文脈で行った広範な実験を通じて、人間の転写におけるノード分類とリンク予測タスクのベースライン結果とエラー解析、および、エンコーダベースとデコーダベース両方のノード埋め込みを用いた評価を含む自動音声認識(ASR)トランスクリプト、およびモノリンガルおよびマルチリンガル音響事前学習モデルを提供する。
関連するコード、データ、モデルはすべてオンラインで公開されている。
Knowledge graphs (KGs) enhance the performance of large language models (LLMs) and search engines by providing structured, interconnected data that improves reasoning and context-awareness. However, KGs only focus on text data, thereby neglecting other modalities such as speech. In this work, we introduce wav2graph, the first framework for supervised learning knowledge graph from speech data. Our pipeline are straightforward: (1) constructing a KG based on transcribed spoken utterances and a named entity database, (2) converting KG into embedding vectors, and (3) training graph neural networks (GNNs) for node classification and link prediction tasks. Through extensive experiments conducted in inductive and transductive learning contexts using state-of-the-art GNN models, we provide baseline results and error analysis for node classification and link prediction tasks on human transcripts and automatic speech recognition (ASR) transcripts, including evaluations using both encoder-based and decoder-based node embeddings, as well as monolingual and multilingual acoustic pre-trained models. All related code, data, and models are published online. | 翻訳日:2024-08-09 16:50:38 公開日:2024-08-08 |
# pyBregMan: Bregman Manifolds用のPythonライブラリ
pyBregMan: A Python library for Bregman Manifolds ( http://arxiv.org/abs/2408.04175v1 ) ライセンス: Link先を確認 | Frank Nielsen, Alexander Soen, | (参考訳) ブレグマン多様体(英: Bregman manifold)は、情報幾何学における双対平坦空間の同義語であり、ブレグマンの発散を正準発散として認める。
ブレグマン多様体は、正則指数族(英語版)の累積あるいは分割函数、混合族(英語版)の負のエントロピー(英語版)、あるいはいくつかのそのような凸ブレグマン生成元を列挙するだけの正則錐の特性函数のような滑らかな凸函数によって誘導される。
本稿では,Bregman多様体上の汎用演算を実装し,情報科学で用いられる一般的なBregman多様体のインスタンス化を行う pyBregMan の設計について述べる。
図書館の中核にはルジャンドル・フェンシェル双対性の概念があり、双対ポテンシャル函数と双対ブレグマン発散の正準対を誘導する。
このライブラリはまた、分類的/多重項分布と多変量正規分布のフィッシャー・ラオ多様体を実装している。
Bregman と Fisher-Rao の多様体を操作する pyBregMan カーネルの使用を実証するために、このライブラリは統計学、機械学習、情報融合など様々な用途にいくつかのコアアルゴリズムを提供している。
A Bregman manifold is a synonym for a dually flat space in information geometry which admits as a canonical divergence a Bregman divergence. Bregman manifolds are induced by smooth strictly convex functions like the cumulant or partition functions of regular exponential families, the negative entropy of mixture families, or the characteristic functions of regular cones just to list a few such convex Bregman generators. We describe the design of pyBregMan, a library which implements generic operations on Bregman manifolds and instantiate several common Bregman manifolds used in information sciences. At the core of the library is the notion of Legendre-Fenchel duality inducing a canonical pair of dual potential functions and dual Bregman divergences. The library also implements the Fisher-Rao manifolds of categorical/multinomial distributions and multivariate normal distributions. To demonstrate the use of the pyBregMan kernel manipulating those Bregman and Fisher-Rao manifolds, the library also provides several core algorithms for various applications in statistics, machine learning, information fusion, and so on. | 翻訳日:2024-08-09 16:50:38 公開日:2024-08-08 |
# 非エルミタン量子系の情報熱力学
Information Thermodynamics of Non-Hermitian Quantum Systems ( http://arxiv.org/abs/2408.04177v1 ) ライセンス: Link先を確認 | Kui Cao, Qian Du, Su-Peng Kou, | (参考訳) 本研究では,非エルミート量子系の固有情報過程とその熱力学効果を明らかにする。
これらのシステムは負のエントロピー生成を示し、情報エンジンの候補となる可能性があることを実証する。
また,従来の分割関数の範囲を超えた位相遷移を特徴付ける重要な情報量も同定する。
この研究は、情報と熱力学の相互作用の理解を深め、非エルミート量子系に対する新たな視点を提供する。
In this study, we uncover the intrinsic information processes in non-Hermitian quantum systems and their thermodynamic effects. We demonstrate that these systems can exhibit negative entropy production, making them potential candidates for information engines. We also identify a key informational quantity that can characterize phase transitions beyond the reach of traditional partition functions. This work enhances our understanding of the interplay between information and thermodynamics, providing a new perspective on non-Hermitian quantum systems. | 翻訳日:2024-08-09 16:50:38 公開日:2024-08-08 |
# 最大値推定のための上層信頼境界法
An Upper Confidence Bound Approach to Estimating the Maximum Mean ( http://arxiv.org/abs/2408.04179v1 ) ライセンス: Link先を確認 | Zhang Kun, Liu Guangwu, Shi Wen, | (参考訳) 最大平均を推定すると、実際には様々な応用が見つかる。
本稿では,サンプリング予算を1つのシステムに適応的に割り当てる上信頼度境界(UCB)アプローチを用いて,最大値の推定について検討する。
本研究では,既存の大平均 (GA) 推定器について深く検討し,新たな大平均 (LSA) 推定器を提案する。
具体的には、強い一貫性、漸近平均二乗誤差、両推定器の中央極限定理(CLT)を含む統計的保証を確立する。
サンプルサイズが大きくなると, 前者のバイアスは後者よりもはるかに速い速度で崩壊するので, LSAの方がGAよりも好ましいことを示す。
CLTを用いて、最大平均に対する漸近的に有効な信頼区間を構築し、多重比較問題に対する単一仮説テストと臨床試験への応用を提案する。
結果のポイントとインターバル推定の統計的効率と,提案した単仮説テストの数値例による検証を行った。
Estimating the maximum mean finds a variety of applications in practice. In this paper, we study estimation of the maximum mean using an upper confidence bound (UCB) approach where the sampling budget is adaptively allocated to one of the systems. We study in depth the existing grand average (GA) estimator, and propose a new largest-size average (LSA) estimator. Specifically, we establish statistical guarantees, including strong consistency, asymptotic mean squared errors, and central limit theorems (CLTs) for both estimators, which are new to the literature. We show that LSA is preferable over GA, as the bias of the former decays at a rate much faster than that of the latter when sample size increases. By using the CLTs, we further construct asymptotically valid confidence intervals for the maximum mean, and propose a single hypothesis test for a multiple comparison problem with application to clinical trials. Statistical efficiency of the resulting point and interval estimates and the proposed single hypothesis test is demonstrated via numerical examples. | 翻訳日:2024-08-09 16:50:38 公開日:2024-08-08 |
# EdgeShield:ロバストAIのための汎用的で効率的なエッジコンピューティングフレームワーク
EdgeShield: A Universal and Efficient Edge Computing Framework for Robust AI ( http://arxiv.org/abs/2408.04181v1 ) ライセンス: Link先を確認 | Duo Zhong, Bojing Li, Xiang Chen, Chenchen Liu, | (参考訳) 人工知能(AI)システムに対する敵対的攻撃の増加は、革新的なセキュリティ対策の必要性を生み出している。
しかしながら、これらの攻撃に対する現在の防御方法は、しばしば高い計算コストを伴い、バックエンド処理を必要とするため、リアルタイムの防御は困難である。
幸運なことに、エッジコンピューティングの顕著な進歩により、エッジデバイスにニューラルネットワークをデプロイしやすくなっている。
これらの進歩に基づいて,敵攻撃の普遍的かつ効率的な検出を可能にするエッジフレームワークの設計を提案する。
このフレームワークには、注意に基づく敵検出手法と、軽量な検出ネットワークの形成が含まれており、幅広いニューラルネットワークに適合し、エッジデバイスにデプロイすることができる。
提案手法の有効性を評価するため,5つのニューラルネットワークを用いて評価を行った。
その結果、97.43%のFスコアが達成できることが示され、このフレームワークが敵の攻撃を検出する能力を示している。
さらに,提案手法では,従来の検出手法と比較して計算量やコストが大幅に削減されている。
この側面は、リアルタイムのオンエッジデバイスで防御機構を効率的に実装できることを保証するため、特に有益である。
The increasing prevalence of adversarial attacks on Artificial Intelligence (AI) systems has created a need for innovative security measures. However, the current methods of defending against these attacks often come with a high computing cost and require back-end processing, making real-time defense challenging. Fortunately, there have been remarkable advancements in edge-computing, which make it easier to deploy neural networks on edge devices. Building upon these advancements, we propose an edge framework design to enable universal and efficient detection of adversarial attacks. This framework incorporates an attention-based adversarial detection methodology and a lightweight detection network formation, making it suitable for a wide range of neural networks and can be deployed on edge devices. To assess the effectiveness of our proposed framework, we conducted evaluations on five neural networks. The results indicate an impressive 97.43% F-score can be achieved, demonstrating the framework's proficiency in detecting adversarial attacks. Moreover, our proposed framework also exhibits significantly reduced computing complexity and cost in comparison to previous detection methods. This aspect is particularly beneficial as it ensures that the defense mechanism can be efficiently implemented in real-time on-edge devices. | 翻訳日:2024-08-09 16:50:38 公開日:2024-08-08 |
# 量子強調ポラリメトリックイメージング
Quantum-Enhanced Polarimetric Imaging ( http://arxiv.org/abs/2408.04183v1 ) ライセンス: Link先を確認 | Meng-Yu Xie, Su-Jian Niu, Zhao-Qi-Zhi Han, Yin-Hai Li, Ren-Hui Chen, Xiao-Hua Wang, Ming-Yuan Gao, Li Chen, Yue-Wei Song, Zhi-Yuan Zhou, Bao-Sen Shi, | (参考訳) 偏光画像(Polarimetric imaging)は、与えられた物質の目に見えない偏光関連特性を捉える技術であり、基礎物理学から標的認識、ストレス検出、生体医学的診断、リモートセンシングといった高度な分野への幅広い応用がある。
古典的なイメージングシステムへの量子源の導入は、明確な利点を示してきたが、偏光イメージングと組み合わせた研究はほとんど行われていない。
本研究では,光子対を偏光器・サンプル補償器・アナライザー(PSRA)型偏光計に統合する量子偏光イメージングシステムを提案する。
本研究では, 周期分散異方性材料の複屈折特性を照明レベルの低下と多彩な乱光源下で可視化する。
古典システムと比較すると、量子アプローチは低照度条件において優れた感度と堅牢性を示し、特に低照度と非破壊検出が緊急に必要とされる生体医学的な研究で有用である。
この研究はまた、両屈折率測定における絡み合った光子の非局所性を強調し、リモートセンシング領域における量子偏光度系のポテンシャルを示している。
Polarimetric imaging, a technique that captures the invisible polarization-related properties of given materials, has broad applications from fundamental physics to advanced fields such as target recognition, stress detection, biomedical diagnosis and remote sensing. The introduction of quantum sources into classical imaging systems has demonstrated distinct advantages, yet few studies have explored their combination with polarimetric imaging. In this study, we present a quantum polarimetric imaging system that integrates polarization-entangled photon pairs into a polarizer-sample-compensator-analyzer (PSRA)-type polarimeter. Our system visualizes the birefringence properties of a periodical-distributed anisotropic material under decreasing illumination levels and diverse disturbing light sources. Compared to the classical system, the quantum approach reveals the superior sensitivity and robustness in low-light conditions, particularly useful in biomedical studies where the low illumination and non-destructive detection are urgently needed. The study also highlights the nonlocality of entangled photons in birefringence measurement, indicating the potential of quantum polarimetric system in the remote sensing domain. | 翻訳日:2024-08-09 16:50:38 公開日:2024-08-08 |
# 医用グラフRAG:グラフ検索拡張生成による安全な医療用大言語モデルを目指して
Medical Graph RAG: Towards Safe Medical Large Language Model via Graph Retrieval-Augmented Generation ( http://arxiv.org/abs/2408.04187v1 ) ライセンス: Link先を確認 | Junde Wu, Jiayuan Zhu, Yunli Qi, | (参考訳) 本稿では,大規模言語モデル(LLM)の能力向上とエビデンスに基づく結果の生成を目的とした,医用領域に特化して設計された新規なグラフベース検索型RAG(Retrieval-Augmented Generation)フレームワークを提案する。
私たちの包括的なパイプラインは、ドキュメントチャンキングのためのハイブリッドな静的セマンティックアプローチから始まり、従来のメソッドよりもコンテキストキャプチャを大幅に改善します。
抽出されたエンティティは、3階層の階層的なグラフ構造を作成するために使用され、エンティティを医療論文や辞書から得られた基礎的な医療知識にリンクする。
これらのエンティティは相互接続されてメタグラフを形成し、セマンティックな類似性に基づいてマージされ、包括的なグローバルグラフが開発される。
この構造は正確な情報検索と応答生成をサポートする。
検索プロセスは、LLMのグローバルな認識と索引付け効率のバランスをとるためにU-retrieve方式を用いる。
本手法は,文書チャンキング,グラフ構築,情報検索の様々な手法を比較した総合的アブレーション研究により検証された。
その結果、階層的なグラフ構築法は、複数の医療用Q\&Aベンチマークにおける最先端モデルよりも一貫して優れており、また、生成した応答にはソースドキュメンテーションが含まれており、医療用LCMの信頼性が著しく向上していることが確認された。
コードは次のようになる。 https://github.com/MedicineToken/Medical-Graph-RAG/tree/main
We introduce a novel graph-based Retrieval-Augmented Generation (RAG) framework specifically designed for the medical domain, called \textbf{MedGraphRAG}, aimed at enhancing Large Language Model (LLM) capabilities and generating evidence-based results, thereby improving safety and reliability when handling private medical data. Our comprehensive pipeline begins with a hybrid static-semantic approach to document chunking, significantly improving context capture over traditional methods. Extracted entities are used to create a three-tier hierarchical graph structure, linking entities to foundational medical knowledge sourced from medical papers and dictionaries. These entities are then interconnected to form meta-graphs, which are merged based on semantic similarities to develop a comprehensive global graph. This structure supports precise information retrieval and response generation. The retrieval process employs a U-retrieve method to balance global awareness and indexing efficiency of the LLM. Our approach is validated through a comprehensive ablation study comparing various methods for document chunking, graph construction, and information retrieval. The results not only demonstrate that our hierarchical graph construction method consistently outperforms state-of-the-art models on multiple medical Q\&A benchmarks, but also confirms that the responses generated include source documentation, significantly enhancing the reliability of medical LLMs in practical applications. Code will be at: https://github.com/MedicineToken/Medical-Graph-RAG/tree/main | 翻訳日:2024-08-09 16:50:38 公開日:2024-08-08 |
# オフライン選好型強化学習のためのリストワイズ・リワード推定
Listwise Reward Estimation for Offline Preference-based Reinforcement Learning ( http://arxiv.org/abs/2408.04190v1 ) ライセンス: Link先を確認 | Heewoong Choi, Sangwon Jung, Hongjoon Ahn, Taesup Moon, | (参考訳) 強化学習(Reinforcement Learning, RL)では、正確に報酬関数を設計することは、特に人間の意図に沿った場合、依然として課題である。
評価に基づくRL(PbRL)は、人間のフィードバックから報酬モデルを学ぶことによってこの問題に対処するために導入された。
しかし、既存のPbRL法では、相対的な選好強度を示す2次選好をしばしば見落としているため、制限がある。
本稿では,RLT(Randed List of Trajectories)を構築することによって2階優先情報を活用するオフラインPbRLの新しい手法であるListwise Reward Estimation (LiRE)を提案する。
LiREの有効性を検証するために,推定報酬の効果を客観的に反映した新しいオフラインPbRLデータセットを提案する。
このデータセットに関する広範な実験は、フィードバックの回数やフィードバックノイズに関して、控えめなフィードバック予算や頑健さを享受しながらも、LiREの優位性、すなわち最先端のベースラインを上回ることを実証している。
私たちのコードはhttps://github.com/chwoong/LiREで利用可能です。
In Reinforcement Learning (RL), designing precise reward functions remains to be a challenge, particularly when aligning with human intent. Preference-based RL (PbRL) was introduced to address this problem by learning reward models from human feedback. However, existing PbRL methods have limitations as they often overlook the second-order preference that indicates the relative strength of preference. In this paper, we propose Listwise Reward Estimation (LiRE), a novel approach for offline PbRL that leverages second-order preference information by constructing a Ranked List of Trajectories (RLT), which can be efficiently built by using the same ternary feedback type as traditional methods. To validate the effectiveness of LiRE, we propose a new offline PbRL dataset that objectively reflects the effect of the estimated rewards. Our extensive experiments on the dataset demonstrate the superiority of LiRE, i.e., outperforming state-of-the-art baselines even with modest feedback budgets and enjoying robustness with respect to the number of feedbacks and feedback noise. Our code is available at https://github.com/chwoong/LiRE | 翻訳日:2024-08-09 16:50:38 公開日:2024-08-08 |
# 時空間多変グラフニューラルネットワークによる不確実性を考慮した犯罪予測
Uncertainty-Aware Crime Prediction With Spatial Temporal Multivariate Graph Neural Networks ( http://arxiv.org/abs/2408.04193v1 ) ライセンス: Link先を確認 | Zepu Wang, Xiaobo Ma, Huajie Yang, Weimin Lvu, Peng Sun, Sharath Chandra Guntuku, | (参考訳) 犯罪予測は都市分析の重要な要素であり、現代社会の安定化に不可欠である。
他の時系列の予測問題とは異なり、犯罪事件は特に小さな地域や特定の時間内では少ない。
伝統的な時空間深層学習モデルは、多くのゼロと過分散パターンを特徴とする非ガウス的な犯罪データの性質を効果的に扱えないため、この空間性に苦しむことが多い。
これらの課題に対処するために,時空間多変量ゼロ拡張負二項グラフニューラルネットワーク (STMGNN-ZINB) という新しいアプローチを導入する。
この枠組みは拡散・畳み込みネットワークを利用して空間的・時間的・多変量相関を解析し、犯罪事件の確率分布のパラメータ化を可能にする。
ゼロ膨張負二項モデルを導入することにより、STMGNN-ZINBは犯罪データのスパース性を効果的に管理し、予測精度と信頼区間の精度を高める。
実世界のデータセットに対する評価では、STMGNN-ZINBが既存のモデルより優れており、犯罪力学を予測し理解するための信頼性の高いツールを提供する。
Crime forecasting is a critical component of urban analysis and essential for stabilizing society today. Unlike other time series forecasting problems, crime incidents are sparse, particularly in small regions and within specific time periods. Traditional spatial-temporal deep learning models often struggle with this sparsity, as they typically cannot effectively handle the non-Gaussian nature of crime data, which is characterized by numerous zeros and over-dispersed patterns. To address these challenges, we introduce a novel approach termed Spatial Temporal Multivariate Zero-Inflated Negative Binomial Graph Neural Networks (STMGNN-ZINB). This framework leverages diffusion and convolution networks to analyze spatial, temporal, and multivariate correlations, enabling the parameterization of probabilistic distributions of crime incidents. By incorporating a Zero-Inflated Negative Binomial model, STMGNN-ZINB effectively manages the sparse nature of crime data, enhancing prediction accuracy and the precision of confidence intervals. Our evaluation on real-world datasets confirms that STMGNN-ZINB outperforms existing models, providing a more reliable tool for predicting and understanding crime dynamics. | 翻訳日:2024-08-09 16:50:38 公開日:2024-08-08 |
# FDI: ユーザフィードバックチャネルによるニューラルネットワーク生成システムへの攻撃
FDI: Attack Neural Code Generation Systems through User Feedback Channel ( http://arxiv.org/abs/2408.04194v1 ) ライセンス: Link先を確認 | Zhensu Sun, Xiaoning Du, Xiapu Luo, Fu Song, David Lo, Li Li, | (参考訳) ニューラルコード生成システムは開発者の生産性向上とソフトウェア開発のスピードアップに注目が集まっている。
通常、これらのシステムはトレーニング済みのニューラルモデルを維持し、サービスとしての一般ユーザ(例えばリモートAPI)に利用可能にするとともに、生成されたコードに対するユーザの反応、すなわちユーザフィードバックを広範囲に収集し活用するためのフィードバックメカニズムを組み込む。
しかし、そのようなフィードバックのセキュリティへの影響はまだ調査されていない。
現在のフィードバック機構を体系的に研究した結果,フィードバックがフィードバックデータインジェクション(FDI)攻撃に対して脆弱であることが判明した。
我々は、FDI攻撃の方法論を議論し、ブラックボックス設定における標的システムの攻撃制約を推測するための攻撃前プロファイリング戦略を提案する。
本稿では、FDI攻撃面を利用した2つの概念実証例を実証し、実用的なニューラルネットワーク生成システムに対する即時インジェクション攻撃とバックドアアタックを実装した。
攻撃者は神経コード生成システムを密かに操作して、脆弱性のあるコードを生成し、ペイロードを攻撃し、悪意のあるスパムメッセージを生成する。
この結果から,ニューラルネットワーク生成システムにおけるフィードバック機構のセキュリティへの影響が明らかとなり,セキュリティ向上への道が開けた。
Neural code generation systems have recently attracted increasing attention to improve developer productivity and speed up software development. Typically, these systems maintain a pre-trained neural model and make it available to general users as a service (e.g., through remote APIs) and incorporate a feedback mechanism to extensively collect and utilize the users' reaction to the generated code, i.e., user feedback. However, the security implications of such feedback have not yet been explored. With a systematic study of current feedback mechanisms, we find that feedback makes these systems vulnerable to feedback data injection (FDI) attacks. We discuss the methodology of FDI attacks and present a pre-attack profiling strategy to infer the attack constraints of a targeted system in the black-box setting. We demonstrate two proof-of-concept examples utilizing the FDI attack surface to implement prompt injection attacks and backdoor attacks on practical neural code generation systems. The attacker may stealthily manipulate a neural code generation system to generate code with vulnerabilities, attack payload, and malicious and spam messages. Our findings reveal the security implications of feedback mechanisms in neural code generation systems, paving the way for increasing their security. | 翻訳日:2024-08-09 16:50:38 公開日:2024-08-08 |
# Web検索における意味的埋め込みモデルに対するペアワイズ判断定式化
Pairwise Judgment Formulation for Semantic Embedding Model in Web Search ( http://arxiv.org/abs/2408.04197v1 ) ライセンス: Link先を確認 | Mengze Hong, Chen Jason Zhang, | (参考訳) ニューラルネットワークに基づくSiameseアーキテクチャであるSemantic Embedding Model (SEM)は,情報検索や自然言語処理において勢いを増している。
Web検索のための教師付き方式でSEMを訓練するために、検索エンジンのクエリログは、訓練データとしてペアの判断を自動的に定式化するのに使われるのが一般的である。
検索エンジン業界におけるセマンティックな埋め込みの応用が増えているにもかかわらず、SEMを訓練するための効果的なペアワイズ判断を定式化するための作業はほとんど行われていない。
本稿では,SEMの対判定を行うための幅広い戦略について,初めて詳細に検討する。
興味深い(おそらく驚くべき)発見は、従来のペアワイズ・ラーニング・トゥ・ランド(LTR)の分野において、従来のペアワイズ・フォーミュレーション・ストラテジーがSEMのトレーニングに必ずしも有効ではないことを示している。
主要な商用検索エンジンからのクエリログとクリックスルー活動に基づく大規模な実証的研究を通じて、SEMの効果的な戦略を実証し、LTRの原子ヒューリスティック(例えば、Clicked > Skipped)と比較してハイブリッドヒューリスティック(Clicked > Non-Clicked)の利点を強調した。
我々は、SEMのトレーニングのベストプラクティスを締めくくり、将来の研究に有望な洞察を提供する。
Semantic Embedding Model (SEM), a neural network-based Siamese architecture, is gaining momentum in information retrieval and natural language processing. In order to train SEM in a supervised fashion for Web search, the search engine query log is typically utilized to automatically formulate pairwise judgments as training data. Despite the growing application of semantic embeddings in the search engine industry, little work has been done on formulating effective pairwise judgments for training SEM. In this paper, we make the first in-depth investigation of a wide range of strategies for generating pairwise judgments for SEM. An interesting (perhaps surprising) discovery reveals that the conventional pairwise judgment formulation strategy wildly used in the field of pairwise Learning-to-Rank (LTR) is not necessarily effective for training SEM. Through a large-scale empirical study based on query logs and click-through activities from a major commercial search engine, we demonstrate the effective strategies for SEM and highlight the advantages of a hybrid heuristic (i.e., Clicked > Non-Clicked) in comparison to the atomic heuristics (e.g., Clicked > Skipped) in LTR. We conclude with best practices for training SEM and offer promising insights for future research. | 翻訳日:2024-08-09 16:50:38 公開日:2024-08-08 |
# MMRole:マルチモーダルロールプレイングエージェントの開発と評価のための総合的なフレームワーク
MMRole: A Comprehensive Framework for Developing and Evaluating Multimodal Role-Playing Agents ( http://arxiv.org/abs/2408.04203v1 ) ライセンス: Link先を確認 | Yanqi Dai, Huanran Hu, Lei Wang, Shengjie Jin, Xu Chen, Zhiwu Lu, | (参考訳) 近年,ロールプレイングエージェント (RPAs) は,感情的価値の提供や社会学的研究の促進に注目が集まっている。
しかし、既存の研究は主にテキストのモダリティに限られており、人間のマルチモーダル知覚能力をシミュレートすることはできない。
このギャップを埋めるために、我々はMRPA(Multimodal Role-Playing Agents)の概念を導入し、パーソナライズされたマルチモーダルデータセットとロバストな評価方法を含む開発と評価のための総合的なフレームワークMMRoleを提案する。
具体的には,85文字,11K画像,14Kシングル/マルチターン対話からなる大規模かつ高品質なMMRole-Dataを構築した。
さらに,MMRole-Evalという,3次元にわたる8つの指標を含むロバストな評価手法を提案する。
さらに, MRPA, MMRole-Agentを開発した。
MMRole-Agentの性能向上を実証し,MRPA開発における主な課題を強調し,マルチモーダル理解とロールプレイング整合性の向上の必要性を強調した。
データ、コード、モデルはhttps://github.com/YanqiDai/MMRole.comから入手できる。
Recently, Role-Playing Agents (RPAs) have garnered increasing attention for their potential to deliver emotional value and facilitate sociological research. However, existing studies are primarily confined to the textual modality, unable to simulate humans' multimodal perceptual capabilities. To bridge this gap, we introduce the concept of Multimodal Role-Playing Agents (MRPAs), and propose a comprehensive framework, MMRole, for their development and evaluation, which comprises a personalized multimodal dataset and a robust evaluation method. Specifically, we construct a large-scale, high-quality dataset, MMRole-Data, consisting of 85 characters, 11K images, and 14K single or multi-turn dialogues. Additionally, we present a robust evaluation method, MMRole-Eval, encompassing eight metrics across three dimensions, where a reward model is trained to score MRPAs with the constructed ground-truth data for comparison. Moreover, we develop the first specialized MRPA, MMRole-Agent. Extensive evaluation results demonstrate the improved performance of MMRole-Agent and highlight the primary challenges in developing MRPAs, emphasizing the need for enhanced multimodal understanding and role-playing consistency. The data, code, and models will be available at https://github.com/YanqiDai/MMRole. | 翻訳日:2024-08-09 16:40:03 公開日:2024-08-08 |
# スパースガウス図形モデル推定のための直流アルゴリズム
DC Algorithm for Estimation of Sparse Gaussian Graphical Models ( http://arxiv.org/abs/2408.04206v1 ) ライセンス: Link先を確認 | Tomokaze Shiratori, Yuichi Takano, | (参考訳) ガウス図形モデルのスパース推定は、多くの観測変数間の関係をより解釈可能で定量化する重要な手法である。
正規化項として$\ell_1$ノルムを用いるグラフィカルラッソや、非凸正規化項を用いるメソッドなど、様々な手法が提案されている。
しかし、これらの手法のほとんどは凸関数を持つ$\ell_0$ノルムを近似する。
より正確な解を推定するには、$\ell_0$ノルムを直接正規化項として扱うことが望ましい。
本研究では,$\ell_0$ノルムを用いてガウス図形モデルのスパース推定問題を定式化し,凸関数の差分アルゴリズム(DCA)を用いてこの問題を解決する方法を提案する。
具体的には、$\ell_0$のノルム制約を等価な最大値である$K$のノルム制約に変換し、制約された問題をペナル化形式に変換し、DCアルゴリズム(DCA)を用いて解決する。
さらに,グラフィカルラッソを用いて効率的に計算するアルゴリズムを設計した。
合成データを用いた実験結果から,本手法は既存手法と同等以上の結果が得られることがわかった。
クロスバリデーションによるモデル学習の比較により,本手法が真のエッジを選択する上で特に有利であることが確認された。
Sparse estimation for Gaussian graphical models is a crucial technique for making the relationships among numerous observed variables more interpretable and quantifiable. Various methods have been proposed, including graphical lasso, which utilizes the $\ell_1$ norm as a regularization term, as well as methods employing non-convex regularization terms. However, most of these methods approximate the $\ell_0$ norm with convex functions. To estimate more accurate solutions, it is desirable to treat the $\ell_0$ norm directly as a regularization term. In this study, we formulate the sparse estimation problem for Gaussian graphical models using the $\ell_0$ norm and propose a method to solve this problem using the Difference of Convex functions Algorithm (DCA). Specifically, we convert the $\ell_0$ norm constraint into an equivalent largest-$K$ norm constraint, reformulate the constrained problem into a penalized form, and solve it using the DC algorithm (DCA). Furthermore, we designed an algorithm that efficiently computes using graphical lasso. Experimental results with synthetic data show that our method yields results that are equivalent to or better than existing methods. Comparisons of model learning through cross-validation confirm that our method is particularly advantageous in selecting true edges. | 翻訳日:2024-08-09 16:40:03 公開日:2024-08-08 |
# 衝突の程度が異なる問題に対する多目的進化アルゴリズムの理論的有用性
Theoretical Advantage of Multiobjective Evolutionary Algorithms for Problems with Different Degrees of Conflict ( http://arxiv.org/abs/2408.04207v1 ) ライセンス: Link先を確認 | Weijie Zheng, | (参考訳) 多目的進化アルゴリズム(MOEA)の分野は、しばしば矛盾する目的を持つ最適化問題に対するその人気を強調している。
しかし、MOEAが、この分野以外の典型的なアプローチと比較して、衝突の度合いが異なるとしても、どのように振る舞うかは理論上は分かっていない。
この問題に取り組むための最初のステップとして、COCZとOneMinMaxの一般化された変種である$k\in[0.n]$のコンフリクトを持つOneMaxMin$_k$ベンチマーククラスを提案する。
典型的な非MOEAアプローチとして、スカラー化(重み付きサム法)と$\epsilon$-constraint法がある。
任意の重み集合に対して、スカラー化アプローチによって見つかる最適の集合が全パレートフロントをカバーできないことを証明する。
$\epsilon$-constraint(英語版)アプローチで構築された制約問題の最適セットは、完全なパレートフロントをカバーすることができるが、一般の方法は(外的あるいは非パラメータのペナルティ関数を介して)そのような制約された問題を解くのに困難に直面する。
非パラメータペナルティ関数の方法は、関数値がParetoフロントであるオプティマの集合を構築することができず、外部の方法は(任意のParetoフロントポイントに到達するためのランダム化ローカル検索アルゴリズムに対して$O(n\ln n)$が期待されるランタイムで)、慎重に設定された$\epsilon$と$r$$$r>1/(\epsilon+1-\lceil \epsilon \rceil)$が役に立つ。
コンストラストでは、一般に分析されたMOEAは、より慎重に設計することなく、効率的にOneMaxMin$_k$を解くことができる。
我々は、(G)SEMO、MOEA/D、NSGA-II、SMS-EMOAがパレートフロント全体を$O(\max\{k,1\}n\ln n)$でカバーできることを証明した。
その結果,多目的手法による制約問題の解法の性能解析も行った。
The field of multiobjective evolutionary algorithms (MOEAs) often emphasizes its popularity for optimization problems with conflicting objectives. However, it is still theoretically unknown how MOEAs perform for different degrees of conflict, even for no conflicts, compared with typical approaches outside this field. As the first step to tackle this question, we propose the OneMaxMin$_k$ benchmark class with the degree of the conflict $k\in[0..n]$, a generalized variant of COCZ and OneMinMax. Two typical non-MOEA approaches, scalarization (weighted-sum approach) and $\epsilon$-constraint approach, are considered. We prove that for any set of weights, the set of optima found by scalarization approach cannot cover the full Pareto front. Although the set of the optima of constrained problems constructed via $\epsilon$-constraint approach can cover the full Pareto front, the general used ways (via exterior or nonparameter penalty functions) to solve such constrained problems encountered difficulties. The nonparameter penalty function way cannot construct the set of optima whose function values are the Pareto front, and the exterior way helps (with expected runtime of $O(n\ln n)$ for the randomized local search algorithm for reaching any Pareto front point) but with careful settings of $\epsilon$ and $r$ ($r>1/(\epsilon+1-\lceil \epsilon \rceil)$). In constrast, the generally analyzed MOEAs can efficiently solve OneMaxMin$_k$ without above careful designs. We prove that (G)SEMO, MOEA/D, NSGA-II, and SMS-EMOA can cover the full Pareto front in $O(\max\{k,1\}n\ln n)$ expected number of function evaluations, which is the same asymptotic runtime as the exterior way in $\epsilon$-constraint approach with careful settings. As a side result, our results also give the performance analysis of solving a constrained problem via multiobjective way. | 翻訳日:2024-08-09 16:40:03 公開日:2024-08-08 |
# MMREC:LLMによるマルチモーダルレコメンダシステム
MMREC: LLM Based Multi-Modal Recommender System ( http://arxiv.org/abs/2408.04211v1 ) ライセンス: Link先を確認 | Jiahao Tian, Jinman Zhao, Zhenkai Wang, Zhicheng Ding, | (参考訳) 推薦システムの重要性は、毎日発生するコンテンツの量の増加により急速に増大している。
このコンテンツの急増は、効果的なレコメンデーションシステムを設計するためのユニークな課題を提示している。
これらの課題の鍵となるのは、ユーザの好みを表す膨大な自然言語データとイメージを効果的に活用する必要があることだ。
本稿では,Large Language Models(LLM)とディープラーニング技術を活用して,レコメンデータシステムを強化する新しい手法を提案する。
提案フレームワークは,マルチモーダル情報処理を取り入れたレコメンデーションの精度と妥当性を,統一された潜在空間表現を用いて向上することを目的としている。
この研究は、LLMが推奨文脈における自然言語データをよりよく理解し活用し、従来の手法の限界に対処する可能性を探るものである。
フレームワークは、LLMを通してテキストや画像情報を効率よく抽出して統合し、潜在空間における多様なモダリティを統一し、ランキングモデルの学習プロセスを簡素化する。
実験結果から,マルチモーダル情報を利用したモデルの識別能力の向上が示された。
本研究は、LLMとマルチモーダルデータの統合の可能性を示し、よりパーソナライズされ、文脈的に関係のあるレコメンデーションを作成することによって、レコメンデーションシステムの進化に寄与する。
The importance of recommender systems is growing rapidly due to the exponential increase in the volume of content generated daily. This surge in content presents unique challenges for designing effective recommender systems. Key among these challenges is the need to effectively leverage the vast amounts of natural language data and images that represent user preferences. This paper presents a novel approach to enhancing recommender systems by leveraging Large Language Models (LLMs) and deep learning techniques. The proposed framework aims to improve the accuracy and relevance of recommendations by incorporating multi-modal information processing and by the use of unified latent space representation. The study explores the potential of LLMs to better understand and utilize natural language data in recommendation contexts, addressing the limitations of previous methods. The framework efficiently extracts and integrates text and image information through LLMs, unifying diverse modalities in a latent space to simplify the learning process for the ranking model. Experimental results demonstrate the enhanced discriminative power of the model when utilizing multi-modal information. This research contributes to the evolving field of recommender systems by showcasing the potential of LLMs and multi-modal data integration to create more personalized and contextually relevant recommendations. | 翻訳日:2024-08-09 16:40:03 公開日:2024-08-08 |
# SAM 2 は SAM より優れているか?
Is SAM 2 Better than SAM in Medical Image Segmentation? ( http://arxiv.org/abs/2408.04212v1 ) ライセンス: Link先を確認 | Sourya Sengupta, Satrajit Chakrabarty, Ravi Soni, | (参考訳) Segment Anything Model (SAM) は、自然画像上のゼロショットプロンプト可能なセグメンテーションにおいて、印象的な性能を示した。
先日リリースされたSegment Anything Model 2 (SAM2)モデルでは、SAMよりもパフォーマンスが向上し、モデルの機能をビデオセグメンテーションに拡張した。
医用画像セグメンテーションにおける最近のモデルの有効性を即時的に評価することが重要である。
本研究は, SAM と SAM 2 の性能を比較するために, 異なる画像モダリティから得られた複数のデータセットを用いて広範囲にわたる研究を行った。
私たちは2つのポイント・プロンプト戦略を使いました。
一 標的構造物の遠心部付近の単一正のプロンプト及び
(ii)ターゲット構造内にランダムに配置された追加の正のプロンプト。
対象は, 腹部構造, 心構造, 胎児頭部画像を含む21種類の臓器モダリティの組み合わせで, 一般用MRI, CT, Ultrasoundデータセットから得られた。
2D画像に基づく予備的な結果は、SAM 2はいくつかのケースではわずかに改善するが、一般的にはSAMよりも医療画像のセグメンテーションに勝るものではないことを示唆している。
特にCTのようにコントラストが低い場合、SAM2はSAMよりも低い。
MRI画像の場合、SAM 2はSAMより同等かそれ以上で実行される。
SAM 2 と同様に、SAM 2 は特に解剖器官の境界が自然界でファジィである場合、過剰な隔離の問題に悩まされる。
Segment Anything Model (SAM) demonstrated impressive performance in zero-shot promptable segmentation on natural images. The recently released Segment Anything Model 2 (SAM 2) model claims to have better performance than SAM on images while extending the model's capabilities to video segmentation. It is important to evaluate the recent model's ability in medical image segmentation in a zero-shot promptable manner. In this work, we performed extensive studies with multiple datasets from different imaging modalities to compare the performance between SAM and SAM 2. We used two point prompt strategies: (i) single positive prompt near the centroid of the target structure and (ii) additional positive prompts placed randomly within the target structure. The evaluation included 21 unique organ-modality combinations including abdominal structures, cardiac structures, and fetal head images acquired from publicly available MRI, CT, and Ultrasound datasets. The preliminary results, based on 2D images, indicate that while SAM 2 may perform slightly better in a few cases, but it does not in general surpass SAM for medical image segmentation. Especially when the contrast is lower like in CT, Ultrasound images, SAM 2 performs poorly than SAM. For MRI images, SAM 2 performs at par or better than SAM. Similar to SAM, SAM 2 also suffers from over-segmentation issue especially when the boundaries of the to-be-segmented organ is fuzzy in nature. | 翻訳日:2024-08-09 16:40:03 公開日:2024-08-08 |
# テキストマイニング機械翻訳における注意機構とコンテキストモデリングシステム
Attention Mechanism and Context Modeling System for Text Mining Machine Translation ( http://arxiv.org/abs/2408.04216v1 ) ライセンス: Link先を確認 | Shi Bo, Yuwei Zhang, Junming Huang, Sitong Liu, Zexi Chen, Zizheng Li, | (参考訳) 本稿では,トランスフォーマーパラダイムを基盤として,K-means分類アルゴリズムを革新的に融合させ,スキーマの文脈的理解能力を増強する新しいアーキテクチャスキーマを提案する。
トランスモデルは、並列計算能力とマルチヘッドアテンション機構により、機械翻訳タスクにおいてよく機能する。
しかし、高度に複雑な言語構造を扱う際には、文脈の曖昧さや局所的な特徴を無視することがある。
この制約を回避するために、この博覧会では、入力されたテキスト物の語彙とイディオムを階層化するために使用されるK-Meansアルゴリズムを導入し、言語の構造と文脈知性の優れた識別と保存を容易にする。
この組み合わせの利点は、K-Meansがテキスト中のトピックや概念領域を自動的に発見できる点である。
これにより、このスキーマは、トランスフォーマーに先行する準備段階としてK-Meansを登録し、マルチヘッド注意重みを補正し、類似の意味論または機能を有する語彙や慣用句の識別を支援する。
これにより、スキーマは、単に位置インテリジェンスにフォーカスするのではなく、トレーニングフェーズ中にこれらのクラスタによって具現化されたコンテキストインテリジェンスに対して高められる。
This paper advances a novel architectural schema anchored upon the Transformer paradigm and innovatively amalgamates the K-means categorization algorithm to augment the contextual apprehension capabilities of the schema. The transformer model performs well in machine translation tasks due to its parallel computing power and multi-head attention mechanism. However, it may encounter contextual ambiguity or ignore local features when dealing with highly complex language structures. To circumvent this constraint, this exposition incorporates the K-Means algorithm, which is used to stratify the lexis and idioms of the input textual matter, thereby facilitating superior identification and preservation of the local structure and contextual intelligence of the language. The advantage of this combination is that K-Means can automatically discover the topic or concept regions in the text, which may be directly related to translation quality. Consequently, the schema contrived herein enlists K-Means as a preparatory phase antecedent to the Transformer and recalibrates the multi-head attention weights to assist in the discrimination of lexis and idioms bearing analogous semantics or functionalities. This ensures the schema accords heightened regard to the contextual intelligence embodied by these clusters during the training phase, rather than merely focusing on locational intelligence. | 翻訳日:2024-08-09 16:40:03 公開日:2024-08-08 |
# 子ども向け翻訳の簡易化:LCMによる獲得年齢を考慮した反復的簡易化
Simplifying Translations for Children: Iterative Simplification Considering Age of Acquisition with LLMs ( http://arxiv.org/abs/2408.04217v1 ) ライセンス: Link先を確認 | Masashi Oshika, Makoto Morishita, Tsutomu Hirao, Ryohei Sasano, Koichi Takeda, | (参考訳) 近年、ニューラルネットワーク翻訳(NMT)は日常生活で広く使われている。
しかし、現在のNMTには、ユーザの言語レベルに合わせて翻訳の難易度を調整するメカニズムが欠けている。
さらに、NMTのトレーニングデータのバイアスのため、単純なソース文の翻訳は複雑な単語で作られることが多い。
特にこれは、翻訳の意味を正しく理解できない子供に問題を引き起こす可能性がある。
本研究では,翻訳における単語をAoA(High Age of Acquisitions)に置き換える手法を提案する。
我々は、大言語モデル(LLM)を用いて、ソース文の3倍の文、翻訳、置換すべきターゲット単語を提供することにより、これを実現する。
簡単な英語ウィキペディアの逆翻訳を用いたベンチマークデータセットを作成する。
その結果,提案手法は高AoA語を低AoA語に効果的に置き換えることができ,高いBLEUとCOMETのスコアを維持しながら,高AoA語の大部分を反復的に置き換えることができることがわかった。
In recent years, neural machine translation (NMT) has been widely used in everyday life. However, the current NMT lacks a mechanism to adjust the difficulty level of translations to match the user's language level. Additionally, due to the bias in the training data for NMT, translations of simple source sentences are often produced with complex words. In particular, this could pose a problem for children, who may not be able to understand the meaning of the translations correctly. In this study, we propose a method that replaces words with high Age of Acquisitions (AoA) in translations with simpler words to match the translations to the user's level. We achieve this by using large language models (LLMs), providing a triple of a source sentence, a translation, and a target word to be replaced. We create a benchmark dataset using back-translation on Simple English Wikipedia. The experimental results obtained from the dataset show that our method effectively replaces high-AoA words with lower-AoA words and, moreover, can iteratively replace most of the high-AoA words while still maintaining high BLEU and COMET scores. | 翻訳日:2024-08-09 16:40:03 公開日:2024-08-08 |
# 拡散誘導言語モデリング
Diffusion Guided Language Modeling ( http://arxiv.org/abs/2408.04220v1 ) ライセンス: Link先を確認 | Justin Lovelace, Varsha Kishore, Yiwei Chen, Kilian Q. Weinberger, | (参考訳) 現在の言語モデルは、テキスト生成において顕著な熟練を示している。
しかし、多くのアプリケーションにとって、生成された言語の感情や毒性などの属性を制御することが望ましい。
自動回帰言語モデルでは、既存のガイダンス手法は、生成時にカスケードしたエラーをデコードし、性能を低下させる。
対照的に、テキスト拡散モデルは、例えば単純な線形感情分類器で簡単にガイドすることができる。
本稿では,自己回帰型言語モデルを用いて所望の特性を持つテキストを生成するための遅延提案を誘導拡散モデルを用いて生成する。
本モデルでは, 自己回帰アプローチの非整合流性と, 拡散のプラグアンドプレイの柔軟性を継承する。
従来のプラグ・アンド・プレイ誘導手法よりも幅広いベンチマークデータセットで優れていることを示す。
さらに、我々のフレームワークにおける新しい属性を制御することは、単一のロジスティック回帰分類器のトレーニングに還元される。
Current language models demonstrate remarkable proficiency in text generation. However, for many applications it is desirable to control attributes, such as sentiment, or toxicity, of the generated language -- ideally tailored towards each specific use case and target audience. For auto-regressive language models, existing guidance methods are prone to decoding errors that cascade during generation and degrade performance. In contrast, text diffusion models can easily be guided with, for example, a simple linear sentiment classifier -- however they do suffer from significantly higher perplexity than auto-regressive alternatives. In this paper we use a guided diffusion model to produce a latent proposal that steers an auto-regressive language model to generate text with desired properties. Our model inherits the unmatched fluency of the auto-regressive approach and the plug-and-play flexibility of diffusion. We show that it outperforms previous plug-and-play guidance methods across a wide range of benchmark data sets. Further, controlling a new attribute in our framework is reduced to training a single logistic regression classifier. | 翻訳日:2024-08-09 16:40:03 公開日:2024-08-08 |
# 信号-雑音拡散モデルの接続的視点
Connective Viewpoints of Signal-to-Noise Diffusion Models ( http://arxiv.org/abs/2408.04221v1 ) ライセンス: Link先を確認 | Khanh Doan, Long Tung Vuong, Tuan Nguyen, Anh Tuan Bui, Quyen Tran, Thanh-Toan Do, Dinh Phung, Trung Le, | (参考訳) 拡散モデル(DM)は生成モデルの基本的な構成要素となり、画像生成、音声生成、複雑なデータ補間といった様々な領域で優れている。
信号対雑音拡散モデルは、ほとんどの最先端拡散モデルをカバーする多様なファミリーを構成する。
様々な観点から信号-雑音拡散モデル(S2N)を研究する試みはいくつかあるが、異なる視点を結合し、新しい視点を探求する包括的な研究が必要である。
本研究では,信号対雑音比(SNR)のレンズと情報理論との関連性から,ノイズスケジューラを包括的に考察する。
この枠組みに基づいて、推論プロセスの性能を高めるために一般化された後方方程式を開発した。
Diffusion models (DM) have become fundamental components of generative models, excelling across various domains such as image creation, audio generation, and complex data interpolation. Signal-to-Noise diffusion models constitute a diverse family covering most state-of-the-art diffusion models. While there have been several attempts to study Signal-to-Noise (S2N) diffusion models from various perspectives, there remains a need for a comprehensive study connecting different viewpoints and exploring new perspectives. In this study, we offer a comprehensive perspective on noise schedulers, examining their role through the lens of the signal-to-noise ratio (SNR) and its connections to information theory. Building upon this framework, we have developed a generalized backward equation to enhance the performance of the inference process. | 翻訳日:2024-08-09 16:40:03 公開日:2024-08-08 |
# LLM時代のビデオQA : 実証的研究
VideoQA in the Era of LLMs: An Empirical Study ( http://arxiv.org/abs/2408.04223v1 ) ライセンス: Link先を確認 | Junbin Xiao, Nanxin Huang, Hangyu Qin, Dongyang Li, Yicong Li, Fengbin Zhu, Zhulin Tao, Jianxing Yu, Liang Lin, Tat-Seng Chua, Angela Yao, | (参考訳) Video Large Language Models (Video-LLMs) は盛んであり、多くのビデオ言語タスクを進歩させている。
ゴールデンテストベッドとして、Video Question Answering (VideoQA)は、Video-LLMの開発において重要な役割を果たす。
本研究は、ビデオQAにおけるビデオLLMの行動のタイムリーかつ包括的な研究を行い、その成功と失敗モードを解明し、より人間的なビデオ理解と質問応答に対する洞察を提供することを目的としている。
分析の結果,ビデオ-LLMsはビデオQAで優れており,文脈的手がかりを相関し,様々な映像コンテンツに関する質問に対して妥当な応答を生成できることがわかった。
しかし、時間的コンテンツ順序の推論とQA関連時間的モーメントのグラウンド化の両方において、ビデオの時間性を扱うモデルが失敗する。
さらに、モデルは意図せず振る舞う - 対立するビデオの摂動に反応せず、候補の答えや質問の単純なバリエーションに敏感である。
また、必ずしもより一般化するとは限らない。
その結果, ビデオLLMのQA能力は, 強靭性, 解釈性に乏しいが, ビデオLLM開発における有理性に急激なニーズがあることが示唆された。
Video Large Language Models (Video-LLMs) are flourishing and has advanced many video-language tasks. As a golden testbed, Video Question Answering (VideoQA) plays pivotal role in Video-LLM developing. This work conducts a timely and comprehensive study of Video-LLMs' behavior in VideoQA, aiming to elucidate their success and failure modes, and provide insights towards more human-like video understanding and question answering. Our analyses demonstrate that Video-LLMs excel in VideoQA; they can correlate contextual cues and generate plausible responses to questions about varied video contents. However, models falter in handling video temporality, both in reasoning about temporal content ordering and grounding QA-relevant temporal moments. Moreover, the models behave unintuitively - they are unresponsive to adversarial video perturbations while being sensitive to simple variations of candidate answers and questions. Also, they do not necessarily generalize better. The findings demonstrate Video-LLMs' QA capability in standard condition yet highlight their severe deficiency in robustness and interpretability, suggesting the urgent need on rationales in Video-LLM developing. | 翻訳日:2024-08-09 16:40:03 公開日:2024-08-08 |
# Cross-View Meets Diffusion: 幾何学とテキストガイダンスによる航空画像合成
Cross-View Meets Diffusion: Aerial Image Synthesis with Geometry and Text Guidance ( http://arxiv.org/abs/2408.04224v1 ) ライセンス: Link先を確認 | Ahmad Arrabi, Xiaohan Zhang, Waqas Sultan, Chen Chen, Safwan Wshah, | (参考訳) 航空画像解析は多くの研究分野において重要である。
しかし,高精細度で高精細度で高精細度で高精細度で高精細度で高精細度で高精細度に高精細度で高精細度で高精細度で高精細度で高精細度で高精細度で高精細度で高精細
1つの解決策は、G2A技術を用いて、容易に収集可能な地上画像から空中画像を合成することである。
しかし、G2Aは大きな視界の変化、閉塞、視界の範囲など、その課題のために研究されることは稀である。
本稿では,地上画像から現実的な空中画像を生成することのできる,G2A(Geometric Preserving Ground-to-Aerial Image synthesis, GPG2A)モデルを提案する。
GPG2Aは2つの段階からなる。
第1段では、地上画像からバードアイビュー(BEV)セグメンテーション(BEVレイアウトマップ)を予測する。
第2段階は、予測されたBEVレイアウトマップと地上画像のテキスト記述から空中画像を合成する。
VIGORv2は,VIGOR上に構築され,新たに収集した空中画像,地図,テキスト記述が記述される。
GPG2Aは既存のモデルよりも優れたジオメトリー保存型空中画像を生成する。
また,GPG2Aの有効性を検証するため,クロスビュージオローカライズのためのデータ拡張とスケッチベース領域探索の2つのアプリケーションを提案する。
コードとデータは公開されます。
Aerial imagery analysis is critical for many research fields. However, obtaining frequent high-quality aerial images is not always accessible due to its high effort and cost requirements. One solution is to use the Ground-to-Aerial (G2A) technique to synthesize aerial images from easily collectible ground images. However, G2A is rarely studied, because of its challenges, including but not limited to, the drastic view changes, occlusion, and range of visibility. In this paper, we present a novel Geometric Preserving Ground-to-Aerial (G2A) image synthesis (GPG2A) model that can generate realistic aerial images from ground images. GPG2A consists of two stages. The first stage predicts the Bird's Eye View (BEV) segmentation (referred to as the BEV layout map) from the ground image. The second stage synthesizes the aerial image from the predicted BEV layout map and text descriptions of the ground image. To train our model, we present a new multi-modal cross-view dataset, namely VIGORv2 which is built upon VIGOR with newly collected aerial images, maps, and text descriptions. Our extensive experiments illustrate that GPG2A synthesizes better geometry-preserved aerial images than existing models. We also present two applications, data augmentation for cross-view geo-localization and sketch-based region search, to further verify the effectiveness of our GPG2A. The code and data will be publicly available. | 翻訳日:2024-08-09 16:40:03 公開日:2024-08-08 |
# 教育カリキュラムにおけるグラウンド化による言語モデル数学推論の評価
Evaluating Language Model Math Reasoning via Grounding in Educational Curricula ( http://arxiv.org/abs/2408.04226v1 ) ライセンス: Link先を確認 | Li Lucy, Tal August, Rose E. Wang, Luca Soldaini, Courtney Allison, Kyle Lo, | (参考訳) 本研究は,言語モデル(LM)の数学的能力を評価するために,数学的内容によって実現されるスキルや概念を識別できるかどうかを考察する。
1つは、Achieve the Core(ATC)のK-12数学のスキルと概念、あるいは標準を385のきめ細かい記述からなり、もう1つは、これらの標準(MathFish)でラベル付けされた9.9K問題である。
経験豊富な教師と一緒に働くと、LMは問題に関連する標準をタグ付けして検証するのに苦労し、代わりに、真実に近いが微妙な方法で異なるラベルを予測することに気付きます。
また、LMはプロンプトで記述された標準と完全に一致しない問題が発生することもしばしば示している。
最後に、GSM8kの問題を数学標準を用いて分類し、なぜ他のモデルよりも解決が難しいのかをよりよく理解する。
Our work presents a novel angle for evaluating language models' (LMs) mathematical abilities, by investigating whether they can discern skills and concepts enabled by math content. We contribute two datasets: one consisting of 385 fine-grained descriptions of K-12 math skills and concepts, or standards, from Achieve the Core (ATC), and another of 9.9K problems labeled with these standards (MathFish). Working with experienced teachers, we find that LMs struggle to tag and verify standards linked to problems, and instead predict labels that are close to ground truth, but differ in subtle ways. We also show that LMs often generate problems that do not fully align with standards described in prompts. Finally, we categorize problems in GSM8k using math standards, allowing us to better understand why some problems are more difficult to solve for models than others. | 翻訳日:2024-08-09 16:40:03 公開日:2024-08-08 |
# 関節乱流劣化推定と赤外線ビデオ再生のための物理先導協調学習フレームワーク
Physical prior guided cooperative learning framework for joint turbulence degradation estimation and infrared video restoration ( http://arxiv.org/abs/2408.04227v1 ) ライセンス: Link先を確認 | Ziran Zhang, Yuhang Tang, Zhigang Wang, Yueting Chen, Bin Zhao, | (参考訳) 赤外線イメージングと乱流強度測定は、多くの分野で広く求められている。
本稿では,大気乱流強度推定と赤外画像復元を共同で行うP2GCLフレームワークを提案する。
P2GCLは、2つのモデル、すなわちTMNetが乱流強度を測定し、屈折率構造定数(Cn2)を物理先行として出力し、TRNetがCn2に基づいて赤外線画像シーケンス復元を行い、復元された画像をTMNetにフィードバックして測定精度を高める。
トレーニングプロセスと物理理論を整合させるために、新しいCn2誘導周波数損失関数と物理制約損失を導入する。
実験では、P2GCLが乱流強度推定(Cn2 MAE 0.0156、R2 0.01065)と画像復元(PSNR 0.2775 dB)の両方において最高の性能を達成し、物理的事前指導型協調学習の重大な影響を検証した。
Infrared imaging and turbulence strength measurements are in widespread demand in many fields. This paper introduces a Physical Prior Guided Cooperative Learning (P2GCL) framework to jointly enhance atmospheric turbulence strength estimation and infrared image restoration. P2GCL involves a cyclic collaboration between two models, i.e., a TMNet measures turbulence strength and outputs the refractive index structure constant (Cn2) as a physical prior, a TRNet conducts infrared image sequence restoration based on Cn2 and feeds the restored images back to the TMNet to boost the measurement accuracy. A novel Cn2-guided frequency loss function and a physical constraint loss are introduced to align the training process with physical theories. Experiments demonstrate P2GCL achieves the best performance for both turbulence strength estimation (improving Cn2 MAE by 0.0156, enhancing R2 by 0.1065) and image restoration (enhancing PSNR by 0.2775 dB), validating the significant impact of physical prior guided cooperative learning. | 翻訳日:2024-08-09 16:40:03 公開日:2024-08-08 |
# 累積分布関数の確率回路
Probabilistic Circuits for Cumulative Distribution Functions ( http://arxiv.org/abs/2408.04229v1 ) ライセンス: Link先を確認 | Oliver Broadrick, William Cao, Benjie Wang, Martin Trapp, Guy Van den Broeck, | (参考訳) 確率回路(PC)は、多変量確率分布を表す関数を簡潔に表現し、回路の十分な構造特性を与えられることにより、効率的な確率推定を支援する。
通常、PCは分布の確率質量(あるいは密度)関数(PMFまたはPDF)を計算する。
累積分布関数 (CDF) をPCで計算する。
2変数の確率変数上の分布について、これらの表現(PMFとCDF)は多項式時間で他方に変換できるという意味で本質的に等価であることを示す。
次に、CDFセマンティクスと整合するバイナリ変数による標準符号化の修正を用いて、有限離散変数上の分布に対して、同様の同値がどう成り立つかを示す。
最後に、連続変数に対して、PDFとCDFを演算するスムーズで分解可能なPCを回路の葉だけを変更して効率よく変換できることを示す。
A probabilistic circuit (PC) succinctly expresses a function that represents a multivariate probability distribution and, given sufficient structural properties of the circuit, supports efficient probabilistic inference. Typically a PC computes the probability mass (or density) function (PMF or PDF) of the distribution. We consider PCs instead computing the cumulative distribution function (CDF). We show that for distributions over binary random variables these representations (PMF and CDF) are essentially equivalent, in the sense that one can be transformed to the other in polynomial time. We then show how a similar equivalence holds for distributions over finite discrete variables using a modification of the standard encoding with binary variables that aligns with the CDF semantics. Finally we show that for continuous variables, smooth, decomposable PCs computing PDFs and CDFs can be efficiently transformed to each other by modifying only the leaves of the circuit. | 翻訳日:2024-08-09 16:40:03 公開日:2024-08-08 |
# メインフレームアプリケーションのためのAPIによるコミュニケーションの実現
Enabling Communication via APIs for Mainframe Applications ( http://arxiv.org/abs/2408.04230v1 ) ライセンス: Link先を確認 | Vini Kanvar, Srikanth Tamilselvam, Keerthi Narayan Raghunath, | (参考訳) 何十年もの間、メインフレームシステムはエンタープライズコンピューティングにおいて不可欠であり、銀行、小売、ヘルスケアといった業界にまたがる重要なアプリケーションをサポートする。
これらのレガシーアプリケーションを活用して再利用を促進するため、アプリケーションプログラミングインタフェース(API)を使用して、それらのデータと機能を公開し、新しいアプリケーションを作成することへの関心が高まっています。
しかしながら、さまざまなビジネスユースケースに対するAPIの識別と公開は、レガシーコードを理解し、依存するコンポーネントを分離し、新しいアーティファクトを導入し、機能を中断することなく変更し、Turnaround Time(TAT)のような重要なサービスレベルアグリーメント(SLA)を妥協するなど、重大な課題を呈している。
これらの課題に対処するために、レガシーなメインフレームアプリケーションのためのAPIを作成するための新しいフレームワークを提案しています。
このアプローチでは、トランザクション、スクリーン、制御フローブロック、マイクロサービス間コール、ビジネスルール、データアクセスなどのアーティファクトをコンパイルすることで、APIを識別します。
ライブやリーチ定義のような静的解析を使ってコードをトラバースし、リクエスト/レスポンスフィールドを含むAPIシグネチャを自動的に計算します。
フレームワークを評価するために,9人のメインフレーム開発者による質的な調査を行った。
この調査は、候補APIを特定し、これらのAPIを公開メインフレームアプリケーション、GENAPPと2つの業界メインフレームアプリケーションでコーディングするための開発時間を見積もるのに役立った。
その結果,本フレームワークは候補APIを効果的に同定し,実装時間を短縮した。
APIシグネチャ計算は、IBM Watsonx Code Assistant for Z Refactoring Assistantに統合される。
我々は、IBM Zメインフレームシステム上でそれらを実行することで、識別されたAPIの正当性を検証し、我々のアプローチの実用性を示す。
For decades, mainframe systems have been vital in enterprise computing, supporting essential applications across industries like banking, retail, and healthcare. To harness these legacy applications and facilitate their reuse, there is increasing interest in using Application Programming Interfaces (APIs) to expose their data and functionalities, enabling the creation of new applications. However, identifying and exposing APIs for various business use cases presents significant challenges, including understanding legacy code, separating dependent components, introducing new artifacts, and making changes without disrupting functionality or compromising key Service Level Agreements (SLAs) like Turnaround Time (TAT). We address these challenges by proposing a novel framework for creating APIs for legacy mainframe applications. Our approach involves identifying APIs by compiling artifacts such as transactions, screens, control flow blocks, inter-microservice calls, business rules, and data accesses. We use static analyses like liveness and reaching definitions to traverse the code and automatically compute API signatures, which include request/response fields. To evaluate our framework, we conducted a qualitative survey with nine mainframe developers, averaging 15 years of experience. This survey helped identify candidate APIs and estimate development time for coding these APIs on a public mainframe application, GENAPP, and two industry mainframe applications. The results showed that our framework effectively identified more candidate APIs and reduced implementation time. The API signature computation is integrated into IBM Watsonx Code Assistant for Z Refactoring Assistant. We verified the correctness of the identified APIs by executing them on an IBM Z mainframe system, demonstrating the practical viability of our approach. | 翻訳日:2024-08-09 16:40:03 公開日:2024-08-08 |
# マルチセグメントフュージョンテンソルグラフ畳み込みネットワークによる交通流予測の高速化
Enhanced Traffic Flow Prediction with Multi-Segment Fusion Tensor Graph Convolutional Networks ( http://arxiv.org/abs/2408.04232v1 ) ライセンス: Link先を確認 | Wei Zhang, Peng Tang, | (参考訳) 正確な交通流予測は、交通管理、ルート計画、渋滞軽減に役立ち、インテリジェント交通システム(ITS)の効率性と信頼性を高める上で重要な役割を果たす。
しかし,既存の交通流予測モデルでは,交通ネットワーク内の複雑な空間的依存関係を捕捉する際の限界に悩まされている。
そこで本研究では,交通流予測のためのマルチセグメント融合テンソルグラフ畳み込みネットワーク(MS-FTGCN)を提案する。
a) テンソルM積に基づく統合時空間グラフ畳み込み機構を構築し、同時に時空間パターンをキャプチャする。
ロ 交通流の多時的特性をモデル化するために、時間的、日次的及び週次的要素を取り入れること。
c) 3つの構成要素の出力を注意機構で融合させ、最終的な交通流予測結果を得る。
2つの交通流データセットを用いた実験の結果,提案したMS-FTGCNは最先端モデルよりも優れていた。
Accurate traffic Flow Prediction can assist in traffic management, route planning, and congestion mitigation, which holds significant importance in enhancing the efficiency and reliability of intelligent transportation systems (ITS). However, existing traffic flow prediction models suffer from limitations in capturing the complex spatial-temporal dependencies within traffic networks. In order to address this issue, this study proposes a multi-segment fusion tensor graph convolutional network (MS-FTGCN) for traffic flow prediction with the following three-fold ideas: a) building a unified spatial-temporal graph convolutional framework based on Tensor M-product, which capture the spatial-temporal patterns simultaneously; b) incorporating hourly, daily, and weekly components to model multi temporal properties of traffic flows, respectively; c) fusing the outputs of the three components by attention mechanism to obtain the final traffic flow prediction results. The results of experiments conducted on two traffic flow datasets demonstrate that the proposed MS-FTGCN outperforms the state-of-the-art models. | 翻訳日:2024-08-09 16:29:12 公開日:2024-08-08 |
# LLDif:低照度感情認識のための拡散モデル
LLDif: Diffusion Models for Low-light Emotion Recognition ( http://arxiv.org/abs/2408.04235v1 ) ライセンス: Link先を確認 | Zhifeng Wang, Kaihao Zhang, Ramesh Sankaranarayana, | (参考訳) 本稿では,超低照度(LL)環境に適した新しい拡散型表情認識(FER)フレームワークであるLDDifを紹介する。
このような条件下で撮影された画像は、しばしば明度が低く、コントラストが著しく減少し、従来の手法に挑戦する。
これらの課題には、感情認識の精度を大幅に低下させる画像品質の低下が含まれる。
LLDifは、ラベル対応CLIP(LA-CLIP)、埋め込み前ネットワーク(PNET)、低照度画像のノイズに対処するトランスフォーマーベースのネットワークを組み合わせた、新しい2段階のトレーニングプロセスでこれらの問題に対処する。
第1段階は、ラベル回復においてLLformerを導くために、LA-CLIPが共同埋め込み事前分布(EPD)を生成することである。
第2段階では拡散モデル(DM)がEPD推論を洗練し、EPDのコンパクトさを正確に予測する。
様々なLL-FERデータセットの実験的評価により、LDDifは競合性能を達成し、難解な照明条件下でFERアプリケーションを強化する可能性を示している。
This paper introduces LLDif, a novel diffusion-based facial expression recognition (FER) framework tailored for extremely low-light (LL) environments. Images captured under such conditions often suffer from low brightness and significantly reduced contrast, presenting challenges to conventional methods. These challenges include poor image quality that can significantly reduce the accuracy of emotion recognition. LLDif addresses these issues with a novel two-stage training process that combines a Label-aware CLIP (LA-CLIP), an embedding prior network (PNET), and a transformer-based network adept at handling the noise of low-light images. The first stage involves LA-CLIP generating a joint embedding prior distribution (EPD) to guide the LLformer in label recovery. In the second stage, the diffusion model (DM) refines the EPD inference, ultilising the compactness of EPD for precise predictions. Experimental evaluations on various LL-FER datasets have shown that LLDif achieves competitive performance, underscoring its potential to enhance FER applications in challenging lighting conditions. | 翻訳日:2024-08-09 16:29:12 公開日:2024-08-08 |
# クラウドシステムにおけるクラスタワイドタスクのスローダウン検出
Cluster-Wide Task Slowdown Detection in Cloud System ( http://arxiv.org/abs/2408.04236v1 ) ライセンス: Link先を確認 | Feiyi Chen, Yingying Zhang, Lunting Fan, Yuxuan Liang, Guansong Pang, Qingsong Wen, Shuiguang Deng, | (参考訳) スロータスク検出は、ユーザエクスペリエンスに強く関連し、相当な液体化損傷をもたらすため、クラウド運用とメンテナンスにおいて重要な問題である。
ほとんどの異常検出方法は単一タスクの側面から検出する。
しかし、大規模クラウドコンピューティングクラスタにおける数百万の同時タスクを考えると、それは実用的でなく非効率になる。
さらに、シングルタスクのスローダウンは非常に一般的であり、仮想環境における激しいゆらぎの性質のため、必ずしもクラスタの誤動作を示すものではない。
したがって、クラスタ全体のタスクの時間分布を利用して、クラスタ全体のタスクのスローダウンに注意を向け、計算複雑性がタスク数に関連しないようにします。
タスク持続時間分布はしばしば、時間とともに複雑な周期性と局所的な例外的な変動を示す。
変圧器を用いた手法は,これらの時系列正規変動パターンを捕捉する最も強力な手法の1つであるが,複合周期性を扱う場合の低振幅のサブ周期再構成における標準注意機構の欠陥を実験的に発見・理論的に説明する。
これらの課題に対処するために、複合周期を再構築するスキーの注意機構と、他の異常変動とクラスタ全体の減速を区別するニューラル最適輸送モジュールからなるSORN(Simming Off sub periods in descending amplitude order and Reconstructing Non-slowing fluctuation)を提案する。
さらに,トレーニングセット内の異常は現実的なシナリオでは避けられないため,トレーニングセット内の信頼性のある時間スロットにより高い重みを適応的に割り当てるピッキー損失関数を提案する。
大規模な実験により、SORNは複数の実世界の産業データセット上で最先端の手法より優れていることが示された。
Slow task detection is a critical problem in cloud operation and maintenance since it is highly related to user experience and can bring substantial liquidated damages. Most anomaly detection methods detect it from a single-task aspect. However, considering millions of concurrent tasks in large-scale cloud computing clusters, it becomes impractical and inefficient. Moreover, single-task slowdowns are very common and do not necessarily indicate a malfunction of a cluster due to its violent fluctuation nature in a virtual environment. Thus, we shift our attention to cluster-wide task slowdowns by utilizing the duration time distribution of tasks across a cluster, so that the computation complexity is not relevant to the number of tasks. The task duration time distribution often exhibits compound periodicity and local exceptional fluctuations over time. Though transformer-based methods are one of the most powerful methods to capture these time series normal variation patterns, we empirically find and theoretically explain the flaw of the standard attention mechanism in reconstructing subperiods with low amplitude when dealing with compound periodicity. To tackle these challenges, we propose SORN (i.e., Skimming Off subperiods in descending amplitude order and Reconstructing Non-slowing fluctuation), which consists of a Skimming Attention mechanism to reconstruct the compound periodicity and a Neural Optimal Transport module to distinguish cluster-wide slowdowns from other exceptional fluctuations. Furthermore, since anomalies in the training set are inevitable in a practical scenario, we propose a picky loss function, which adaptively assigns higher weights to reliable time slots in the training set. Extensive experiments demonstrate that SORN outperforms state-of-the-art methods on multiple real-world industrial datasets. | 翻訳日:2024-08-09 16:29:12 公開日:2024-08-08 |
# 書き直し学習:汎用LLMテキスト検出
Learning to Rewrite: Generalized LLM-Generated Text Detection ( http://arxiv.org/abs/2408.04237v1 ) ライセンス: Link先を確認 | Wei Hao, Ran Li, Weiliang Zhao, Junfeng Yang, Chengzhi Mao, | (参考訳) 大規模言語モデル(LLM)は、非現実的なコンテンツを作成し、偽情報を拡散するために、大規模に悪用される。
LLM生成コンテンツの検出はこれらのリスクを軽減するために不可欠であるが、現在の分類器はオープンワールドの文脈において一般化に失敗することが多い。
以前の研究は、LCMが生成したコンテンツの書き直し頻度が低い傾向を示しており、検出に使用でき、予期せぬデータに自然に一般化することができる。
しかし、人間とLLMの編集距離の書き換えは、ドメイン間で区別できないため、検出に失敗する可能性がある。
入力テキストの書き直しにLLMを訓練し、LLM生成したコンテンツに対する最小限の編集と人書きテキストに対するさらなる編集を提案し、異なるドメイン間で識別可能で一般化可能な編集距離差を導出する。
21の独立ドメインと3つのLLM(例えば、GPT-4o、Gemini、Llama-3)のテキストによる実験により、我々の分類器は、最先端のゼロショット分類器を最大20.6%、書き直し分類器を9.2%、F1スコアを最大9.2%上回った。
我々の研究は、LLMが適切に訓練された場合、機械生成テキストを効果的に検出できることを示唆している。
Large language models (LLMs) can be abused at scale to create non-factual content and spread disinformation. Detecting LLM-generated content is essential to mitigate these risks, but current classifiers often fail to generalize in open-world contexts. Prior work shows that LLMs tend to rewrite LLM-generated content less frequently, which can be used for detection and naturally generalizes to unforeseen data. However, we find that the rewriting edit distance between human and LLM content can be indistinguishable across domains, leading to detection failures. We propose training an LLM to rewrite input text, producing minimal edits for LLM-generated content and more edits for human-written text, deriving a distinguishable and generalizable edit distance difference across different domains. Experiments on text from 21 independent domains and three popular LLMs (e.g., GPT-4o, Gemini, and Llama-3) show that our classifier outperforms the state-of-the-art zero-shot classifier by up to 20.6% on AUROC score and the rewriting classifier by 9.2% on F1 score. Our work suggests that LLM can effectively detect machine-generated text if they are trained properly. | 翻訳日:2024-08-09 16:29:12 公開日:2024-08-08 |
# 確率的退化安定化回路における強弱対称性の破れ状態
Strong-to-weak symmetry breaking states in stochastic dephasing stabilizer circuits ( http://arxiv.org/abs/2408.04241v1 ) ライセンス: Link先を確認 | Yoshihito Kuno, Takahiro Orito, Ikuo Ichinose, | (参考訳) 混合状態の量子秩序を発見することは、現在進行中の問題である。
近年、混合状態には(少なくとも)2種類の対称性、強い対称性と弱い対称性が存在することが認識されている。
対称性を無視するデコヒーレンスの下では、自発的な強弱対称性の破れ(SSSB)が発生する。
この研究は、安定化器形式とクリフォード回路の効率的な数値アルゴリズムを用いて、混合状態におけるSSSBや他のデコヒーレンス現象を記述するためのスキームを提供する。
本稿では2つの系統的な数値的研究について述べる。
確率Ising型デコヒーレンスを有する2次元(2D)回路において,SSSB相転移が明確に観察され,その臨界度が数値解析によって決定される。
特に、R\'{e}nyi-2相関を計算し、SSB遷移の臨界指数を推定する。
第2のシステムでは,サブシステム SSSB の考え方を導入する。
一例として, 1-形式と0-形式の両方で提供される対称性保護トポロジカル(SPT)秩序を持つ系について検討し, 系がデコヒーレンスの下でどのように進化するかを観察する。
数値的な結果を示すと, パーコレーションの視点はSSB遷移を理解するのに非常に有用であることが示され, 広範囲のデコヒード状態に適用可能である。
最後に、一形式対称性を例示するトーリック符号のSSSBについてコメントする。
Discovering mixed state quantum orders is an on-going issue. Recently, it has been recognized that there are (at least) two kinds of symmetries in the mixed state; strong and weak symmetries. Under symmetry-respective decoherence, spontaneous strong-to-weak symmetry breaking (SSSB) can occur. This work provides a scheme to describe SSSB and other decoherence phenomena in the mixed state by employing the stabilizer formalism and the efficient numerical algorithm of Clifford circuits. We present two systematic numerical studies. In a two-dimensional (2D) circuit with a stochastic Ising type decoherence, an SSSB phase transition is clearly observed and its criticality is elucidated by the numerical methods. In particular, we calculate R\'{e}nyi-2 correlations and estimate critical exponents of the SSSB transition. For the second system, we introduce an idea of subsystem SSSB. As an example, we study a system with symmetry-protected-topological (SPT) order provided by both one-form and zero-form symmetries, and observe how the system evolves under decoherence. After displaying numerical results, we show that viewpoint of percolation is quite useful to understand the SSSB transition, which is applicable for a wide range of decohered states. Finally, we comment on SSSB of one-form-symmetry exemplifying toric code. | 翻訳日:2024-08-09 16:29:12 公開日:2024-08-08 |
# アングラウンドアライメント問題
The Ungrounded Alignment Problem ( http://arxiv.org/abs/2408.04242v1 ) ライセンス: Link先を確認 | Marc Pickett, Aakash Kumar Nain, Joseph Modayil, Llion Jones, | (参考訳) 現代の機械学習システムは、人間が提供する知識を受け入れたり無視したりする手法でかなりの能力を発揮してきたが、両方のスタイルの利点を組み合わせることは依然として困難である。
1つの課題は、特定の抽象的な刺激パターンに対するビルトイン応答を示す学習システムを設計することである。
そこで,本稿では,与えられた刺激がどう接地されるか分からないシステムにおいて,事前定義された知識をいかに構築できるかを問う。
本稿では、教師なし学習者がテキストコーパス内の文字の連続した画像を提示する一般的な問題の単純化版について検討し、その後、特定の(稀な)連続パターンを認識する能力について評価する。
重要なことに、学習者は学習や評価中にラベルを付与されないが、未知のフォントからのイメージや置換を正しいクラスラベルにマッピングする必要がある。
つまり、画像ベクトルがクラスラベルに明示的に関連付けられている場合、学習者がラベル付きイメージを付与することは決してない。
教師なしおよび自己教師付き損失関数における十分な作業にもかかわらず、現在のすべてのメソッドは、学習した表現を正しいクラスにマッピングするために、ラベル付き微調整フェーズを必要とする。
ラベルがない状態でこのマッピングを見つけるのは馬鹿げているように思えるが、私たちの主な結果は、このパラドックスを解決しているように見える。
本研究では, 教師なし学習者にとって, 画像とクラスラベルを確実に関連付け, 入力順序におけるトリガー語を確実に識別するには, 文字大文字周波数のみを活用するだけで十分であることを示す。
より一般に、この手法は、モダリティに依存しないモデルにおいて、特定の所望の自然行動を符号化するアプローチを提案する。
Modern machine learning systems have demonstrated substantial abilities with methods that either embrace or ignore human-provided knowledge, but combining benefits of both styles remains a challenge. One particular challenge involves designing learning systems that exhibit built-in responses to specific abstract stimulus patterns, yet are still plastic enough to be agnostic about the modality and exact form of their inputs. In this paper, we investigate what we call The Ungrounded Alignment Problem, which asks How can we build in predefined knowledge in a system where we don't know how a given stimulus will be grounded? This paper examines a simplified version of the general problem, where an unsupervised learner is presented with a sequence of images for the characters in a text corpus, and this learner is later evaluated on its ability to recognize specific (possibly rare) sequential patterns. Importantly, the learner is given no labels during learning or evaluation, but must map images from an unknown font or permutation to its correct class label. That is, at no point is our learner given labeled images, where an image vector is explicitly associated with a class label. Despite ample work in unsupervised and self-supervised loss functions, all current methods require a labeled fine-tuning phase to map the learned representations to correct classes. Finding this mapping in the absence of labels may seem a fool's errand, but our main result resolves this seeming paradox. We show that leveraging only letter bigram frequencies is sufficient for an unsupervised learner both to reliably associate images to class labels and to reliably identify trigger words in the sequence of inputs. More generally, this method suggests an approach for encoding specific desired innate behaviour in modality-agnostic models. | 翻訳日:2024-08-09 16:29:12 公開日:2024-08-08 |
# MU-MAE:マルチモーダルマスクオートエンコーダを用いたワンショット学習
MU-MAE: Multimodal Masked Autoencoders-Based One-Shot Learning ( http://arxiv.org/abs/2408.04243v1 ) ライセンス: Link先を確認 | Rex Liu, Xin Liu, | (参考訳) マルチメディアデータの指数的成長により、マルチモーダルセンサを活用することで、人間の活動認識の精度を向上させるための有望なアプローチが提示される。
それにもかかわらず、ビデオデータとウェアラブルセンサーデータの両方を用いてこれらのアクティビティを正確に識別することは、労働集約的なデータアノテーションと、外部の事前訓練されたモデルや追加データへの依存による課題を示す。
これらの課題に対処するために,マルチモーダルマスクオートエンコーダに基づくワンショット学習(Mu-MAE)を導入する。
Mu-MAEは、マルチモーダルマスク付きオートエンコーダと、ウェアラブルセンサー用に調整された同期マスク戦略を統合している。
このマスキング戦略はネットワークを補完し、より意味のある時空間的特徴を捉え、外部データを必要としない効果的な自己教師付き事前訓練を可能にする。
さらに、Mu-MAEは、マルチモーダルマスク付きオートエンコーダから抽出した表現を、クロスアテンションマルチモーダル融合層への事前情報入力として利用する。
この融合層は、異なるモダリティに注意を要する時空間的特徴を強調し、他のクラスとの違いを強調し、メトリックベースのワンショット学習における様々なクラスの分類を支援する。
MMActワンショット分類の総合的な評価は、M-MAEが評価された全てのアプローチより優れており、追加データを用いることなく5方向ワンショットのマルチモーダル分類において最大80.17%の精度を達成していることを示している。
With the exponential growth of multimedia data, leveraging multimodal sensors presents a promising approach for improving accuracy in human activity recognition. Nevertheless, accurately identifying these activities using both video data and wearable sensor data presents challenges due to the labor-intensive data annotation, and reliance on external pretrained models or additional data. To address these challenges, we introduce Multimodal Masked Autoencoders-Based One-Shot Learning (Mu-MAE). Mu-MAE integrates a multimodal masked autoencoder with a synchronized masking strategy tailored for wearable sensors. This masking strategy compels the networks to capture more meaningful spatiotemporal features, which enables effective self-supervised pretraining without the need for external data. Furthermore, Mu-MAE leverages the representation extracted from multimodal masked autoencoders as prior information input to a cross-attention multimodal fusion layer. This fusion layer emphasizes spatiotemporal features requiring attention across different modalities while highlighting differences from other classes, aiding in the classification of various classes in metric-based one-shot learning. Comprehensive evaluations on MMAct one-shot classification show that Mu-MAE outperforms all the evaluated approaches, achieving up to an 80.17% accuracy for five-way one-shot multimodal classification, without the use of additional data. | 翻訳日:2024-08-09 16:29:12 公開日:2024-08-08 |
# 高次元多変量時系列予測のためのスケーラブルトランス
Scalable Transformer for High Dimensional Multivariate Time Series Forecasting ( http://arxiv.org/abs/2408.04245v1 ) ライセンス: Link先を確認 | Xin Zhou, Weiqing Wang, Wray Buntine, Shilin Qu, Abishek Sriramulu, Weicong Tan, Christoph Bergmeir, | (参考訳) 多変量時系列(MTS)予測のためのディープモデルは、最近大きな成功を収めた。
チャネル依存モデルは、チャネル依存モデルはキャプチャできない複雑な依存関係をキャプチャする。
しかし、実世界のアプリケーションにおけるチャネルの数は、既存のチャネル依存モデルの性能を上回るものであり、共通の期待に反して、いくつかのモデルは高次元データを扱う際にチャネル依存モデルより優れており、チャネル依存モデルの性能に関する疑問が提起される。
そこで本研究では,これらのチャネル依存モデルが高次元MSSデータに対して最適性能を示す理由について検討した。
分析の結果,重要チャネル間の依存関係を捉えることの難しさと,高次元データによるトレーニング戦略の課題の2つが,非関連系列からのノイズの導入にあることが明らかとなった。
これらの問題に対処するため,高次元多変量時系列予測のためのスケーラブル変換器STHDを提案する。
STHDには3つのコンポーネントがある。
a) 導入されたノイズを制限し,メモリ問題を緩和する関係マトリックスの疎結合
ロ より柔軟なバッチサイズの設定を可能にし、訓練データの多様性を高めるための訓練戦略としてReIndexを適用すること。
c) 2次元入力を処理し、チャネル依存性をキャプチャするトランスフォーマー。
これらのコンポーネントにより、STHDは計算可能性を維持しながら高次元のTSを管理することができる。
さらに,STHDによる3つの高次元データセット(クリミア・シカゴ,ウィキ・ピープル,トラヒック)の大幅な改善が示されている。
ソースコードとデータセットはhttps://github.com/xinzzzhou/ScalableTransformer4HighDimensionMTSF.gitで公開されている。
Deep models for Multivariate Time Series (MTS) forecasting have recently demonstrated significant success. Channel-dependent models capture complex dependencies that channel-independent models cannot capture. However, the number of channels in real-world applications outpaces the capabilities of existing channel-dependent models, and contrary to common expectations, some models underperform the channel-independent models in handling high-dimensional data, which raises questions about the performance of channel-dependent models. To address this, our study first investigates the reasons behind the suboptimal performance of these channel-dependent models on high-dimensional MTS data. Our analysis reveals that two primary issues lie in the introduced noise from unrelated series that increases the difficulty of capturing the crucial inter-channel dependencies, and challenges in training strategies due to high-dimensional data. To address these issues, we propose STHD, the Scalable Transformer for High-Dimensional Multivariate Time Series Forecasting. STHD has three components: a) Relation Matrix Sparsity that limits the noise introduced and alleviates the memory issue; b) ReIndex applied as a training strategy to enable a more flexible batch size setting and increase the diversity of training data; and c) Transformer that handles 2-D inputs and captures channel dependencies. These components jointly enable STHD to manage the high-dimensional MTS while maintaining computational feasibility. Furthermore, experimental results show STHD's considerable improvement on three high-dimensional datasets: Crime-Chicago, Wiki-People, and Traffic. The source code and dataset are publicly available https://github.com/xinzzzhou/ScalableTransformer4HighDimensionMTSF.git. | 翻訳日:2024-08-09 16:29:12 公開日:2024-08-08 |
# Implicitの拡張: 文境界を超えた引数検出
Explicating the Implicit: Argument Detection Beyond Sentence Boundaries ( http://arxiv.org/abs/2408.04246v1 ) ライセンス: Link先を確認 | Paul Roit, Aviv Slobodkin, Eran Hirsch, Arie Cattan, Ayal Klein, Valentina Pyatkin, Ido Dagan, | (参考訳) 述語単語の意味論証を検出することは、従来、文レベルのタスクとしてモデル化されてきた。
しかし、典型的な読者は、述語が引用された文よりもはるかに広い文脈で述語論関係を完璧に解釈する。
本研究では,文境界間の意味的関係を捉えるために,文の包含による議論検出の問題を再検討する。
本稿では,ある意味的関係を全文から推測できるかどうかを,まずそれを単純でスタンドアロンな命題に符号化し,その文に対する係り受けを検証することによって検証する手法を提案する。
提案手法は,データセットの不足により一般的に欠落している直接監視を必要としないが,既存のNLIや文レベルのSRLリソースを基盤として構築されている。
そのような手法は、現実的に理解された関係を明示的な文の集合に説明することができる。
近年の文書レベルのベンチマークでは、教師付き手法や現代言語モデルよりも優れています。
Detecting semantic arguments of a predicate word has been conventionally modeled as a sentence-level task. The typical reader, however, perfectly interprets predicate-argument relations in a much wider context than just the sentence where the predicate was evoked. In this work, we reformulate the problem of argument detection through textual entailment to capture semantic relations across sentence boundaries. We propose a method that tests whether some semantic relation can be inferred from a full passage by first encoding it into a simple and standalone proposition and then testing for entailment against the passage. Our method does not require direct supervision, which is generally absent due to dataset scarcity, but instead builds on existing NLI and sentence-level SRL resources. Such a method can potentially explicate pragmatically understood relations into a set of explicit sentences. We demonstrate it on a recent document-level benchmark, outperforming some supervised methods and contemporary language models. | 翻訳日:2024-08-09 16:29:12 公開日:2024-08-08 |
# InstantStyleGaussian: 3D Gaussian Splatting を用いた効率的なアートスタイルトランスファー
InstantStyleGaussian: Efficient Art Style Transfer with 3D Gaussian Splatting ( http://arxiv.org/abs/2408.04249v1 ) ライセンス: Link先を確認 | Xin-Yi Yu, Jun-Xin Yu, Li-Bo Zhou, Yan Wei, Lin-Lin Ou, | (参考訳) InstantStyleGaussianは3D Gaussian Splatting(3DGS)シーン表現に基づく革新的な3Dスタイルのトランスファー手法である。
ターゲットスタイルの画像を入力することで、新しい3DGSシーンを素早く生成する。
提案手法は,拡散モデルと改良された反復的データセット更新戦略を組み合わせた,事前再構成されたGSシーンで動作する。
拡散モデルを使用してターゲットスタイルの画像を生成し、トレーニングデータセットにこれらの新しいイメージを追加し、このデータセットを使用してGSシーンを反復的に更新し、最適化する。
大規模な実験結果から,本手法は高品質なスタイリングシーンを確保できると同時に,スタイル転送速度と一貫性に大きな利点があることが示された。
We present InstantStyleGaussian, an innovative 3D style transfer method based on the 3D Gaussian Splatting (3DGS) scene representation. By inputting a target style image, it quickly generates new 3D GS scenes. Our approach operates on pre-reconstructed GS scenes, combining diffusion models with an improved iterative dataset update strategy. It utilizes diffusion models to generate target style images, adds these new images to the training dataset, and uses this dataset to iteratively update and optimize the GS scenes. Extensive experimental results demonstrate that our method ensures high-quality stylized scenes while offering significant advantages in style transfer speed and consistency. | 翻訳日:2024-08-09 16:29:12 公開日:2024-08-08 |
# コンテンツランキング最適化における協調的多エージェント深層強化学習
Cooperative Multi-Agent Deep Reinforcement Learning in Content Ranking Optimization ( http://arxiv.org/abs/2408.04251v1 ) ライセンス: Link先を確認 | Zhou Qin, Kai Yuan, Pratik Lahiri, Wenyang Liu, | (参考訳) 典型的なeコマース環境では、検索ページにコンテンツを表示するためにコンテンツランキング最適化(CRO)機構が使用される。
CROは、文脈的なディープブレイディットモデルのようなモデルを用いて、異なる位置のコンテンツを独立してランク付けする。
しかし、この地域最適化アプローチは、ページ全体の最適化に必ずしも変換されない、例えば、ページの上部で収益を最大化することは、必然的に低いポジションの収益を減少させる可能性がある。
本稿では,全ページランク付けのための強化学習に基づく手法を提案する。
1) 位置レベルの最適化からページレベルの最適化へ移行し、全体的な最適化ランキングを達成する。
2) 即時報酬の代わりに累積報酬を最適化するために強化学習を適用する。
我々は、ページレベルCROを協調的マルチエージェントマルコフ決定プロセスとして定式化し、新しいマルチエージェント・ディープ決定性ポリシー勾配(MADDPG)モデルで対処する。
MADDPGは、"分散トレーニングと分散実行"アプローチを採用することで、フレキシブルでスケーラブルな共同最適化フレームワークをサポートする。
大規模な実験により、MADDPGは公共のムジョコ環境において25億のアクションスペースにスケールし、主要な電子商取引会社によって設定されたオフラインのCROデータセットにおいて、ディープ・バンディット・モデリングを25.7%上回った。
この新たなマルチエージェント最適化は、情報検索分野における同様の共同最適化問題に適用可能であると予測する。
In a typical e-commerce setting, Content Ranking Optimization (CRO) mechanisms are employed to surface content on the search page to fulfill customers' shopping missions. CRO commonly utilizes models such as contextual deep bandits model to independently rank content at different positions, e.g., one optimizer dedicated to organic search results and another to sponsored results. However, this regional optimization approach does not necessarily translate to whole page optimization, e.g., maximizing revenue at the top of the page may inadvertently diminish the revenue of lower positions. In this paper, we propose a reinforcement learning based method for whole page ranking to jointly optimize across all positions by: 1) shifting from position level optimization to whole page level optimization to achieve an overall optimized ranking; 2) applying reinforcement learning to optimize for the cumulative rewards instead of the instant reward. We formulate page level CRO as a cooperative Multi-agent Markov Decision Process , and address it with the novel Multi-Agent Deep Deterministic Policy Gradient (MADDPG) model. MADDPG supports a flexible and scalable joint optimization framework by adopting a "centralized training and decentralized execution" approach. Extensive experiments demonstrate that MADDPG scales to a 2.5 billion action space in the public Mujoco environment, and outperforms the deep bandits modeling by 25.7% on the offline CRO data set from a leading e-commerce company. We foresee that this novel multi-agent optimization is applicable to similar joint optimization problems in the field of information retrieval. | 翻訳日:2024-08-09 16:29:12 公開日:2024-08-08 |
# 予測・異常検出のための気候時系列データにおける微粒化因果関係の生成
Generating Fine-Grained Causality in Climate Time Series Data for Forecasting and Anomaly Detection ( http://arxiv.org/abs/2408.04254v1 ) ライセンス: Link先を確認 | Dongqi Fu, Yada Zhu, Hanghang Tong, Kommy Weldemariam, Onkar Bhardwaj, Jingrui He, | (参考訳) 時系列変数の因果的相互作用を理解することは、気候予報や極端な気象予報など、多くの実世界のアプリケーションにおいて時系列データ解析に寄与することができる。
しかし,センサネットワークの空間的時間的データなど,実世界の複雑な環境では因果関係を十分に観察することは困難である。
そこで, 時空間変数間の微粒な因果関係を把握し, より正確で信頼性の高い時系列解析を行うため, まず, TBN Granger Causality という概念的微粒な因果関係を設計する。
次に, TBN Granger Causality を時系列データの予測に役立て, 予測中に起こりうる異常を検出するために, TBN Granger Causality を生成方法で検出する TacSas という, エンドツーエンドの深部生成モデルを提案する。
評価のためには、因果発見ベンチマークのLorenz-96に加えて、気候予測のための気候ベンチマークのERA5や、極度気象警報のためのNOAAの極端気象ベンチマークのTacSasもテストした。
Understanding the causal interaction of time series variables can contribute to time series data analysis for many real-world applications, such as climate forecasting and extreme weather alerts. However, causal relationships are difficult to be fully observed in real-world complex settings, such as spatial-temporal data from deployed sensor networks. Therefore, to capture fine-grained causal relations among spatial-temporal variables for further a more accurate and reliable time series analysis, we first design a conceptual fine-grained causal model named TBN Granger Causality, which adds time-respecting Bayesian Networks to the previous time-lagged Neural Granger Causality to offset the instantaneous effects. Second, we propose an end-to-end deep generative model called TacSas, which discovers TBN Granger Causality in a generative manner to help forecast time series data and detect possible anomalies during the forecast. For evaluations, besides the causality discovery benchmark Lorenz-96, we also test TacSas on climate benchmark ERA5 for climate forecasting and the extreme weather benchmark of NOAA for extreme weather alerts. | 翻訳日:2024-08-09 16:29:12 公開日:2024-08-08 |
# UHNet:超軽量で高速なエッジ検出ネットワーク
UHNet: An Ultra-Lightweight and High-Speed Edge Detection Network ( http://arxiv.org/abs/2408.04258v1 ) ライセンス: Link先を確認 | Fuzhang Li, Chuan Lin, | (参考訳) エッジ検出は医用画像処理において重要であり、構造情報の正確な抽出を可能にし、病変の識別と画像解析をサポートする。
従来のエッジ検出モデルは一般的に複雑な畳み込みニューラルネットワークとビジョントランスフォーマーアーキテクチャに依存している。
多数のパラメータと高い計算要求のため、これらのモデルはリソース制約されたデバイスへの適用に限られている。
本稿では,超軽量エッジ検出モデル (UHNet) を提案する。
UHNetは42.3kパラメータ、166 FPS、0.79G FLOPの優れたパフォーマンス指標を備えている。
革新的な特徴抽出モジュールと最適化された残差接続手法を用いることで、UHNetはモデルの複雑さと計算要求を大幅に削減する。
さらに,検出精度を高める軽量な機能融合戦略について検討した。
BSDS500、NYUD、BIPEDデータセットの実験結果は、UHNetが高い効率を維持しながら、顕著なエッジ検出性能を達成することを証明している。
この研究は、軽量エッジ検出モデルの設計に関する新たな洞察を提供するだけでなく、医用画像処理などの工学的応用におけるUHNetモデルの可能性と応用の可能性も示している。
コードはhttps://github.com/stoneLi20cv/UHNetで入手できる。
Edge detection is crucial in medical image processing, enabling precise extraction of structural information to support lesion identification and image analysis. Traditional edge detection models typically rely on complex Convolutional Neural Networks and Vision Transformer architectures. Due to their numerous parameters and high computational demands, these models are limited in their application on resource-constrained devices. This paper presents an ultra-lightweight edge detection model (UHNet), characterized by its minimal parameter count, rapid computation speed, negligible of pre-training costs, and commendable performance. UHNet boasts impressive performance metrics with 42.3k parameters, 166 FPS, and 0.79G FLOPs. By employing an innovative feature extraction module and optimized residual connection method, UHNet significantly reduces model complexity and computational requirements. Additionally, a lightweight feature fusion strategy is explored, enhancing detection accuracy. Experimental results on the BSDS500, NYUD, and BIPED datasets validate that UHNet achieves remarkable edge detection performance while maintaining high efficiency. This work not only provides new insights into the design of lightweight edge detection models but also demonstrates the potential and application prospects of the UHNet model in engineering applications such as medical image processing. The codes are available at https://github.com/stoneLi20cv/UHNet | 翻訳日:2024-08-09 16:29:12 公開日:2024-08-08 |
# EfficientRAG:マルチホップ質問応答のための効率的なレトリバー
EfficientRAG: Efficient Retriever for Multi-Hop Question Answering ( http://arxiv.org/abs/2408.04259v1 ) ライセンス: Link先を確認 | Ziyuan Zhuang, Zhiyang Zhang, Sitao Cheng, Fangkai Yang, Jia Liu, Shujian Huang, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang, | (参考訳) Retrieval-augmented Generation (RAG) メソッドは、マルチホップクエリのような複雑な問題に対処する際に困難に直面する。
反復的な検索手法は付加的な情報を集めることで性能を向上させるが、現在のアプローチは大規模言語モデル(LLM)の複数の呼び出しに依存していることが多い。
本稿では,マルチホップ質問応答のための効率的な検索器であるEfficientRAGを紹介する。
効率的なRAGは、各イテレーションでLLMコールを必要とせずに、新しいクエリを反復的に生成し、無関係な情報をフィルタリングする。
実験の結果、EfficientRAGは3つのオープンドメインのマルチホップ質問応答データセット上で既存のRAG手法を超越していることがわかった。
Retrieval-augmented generation (RAG) methods encounter difficulties when addressing complex questions like multi-hop queries. While iterative retrieval methods improve performance by gathering additional information, current approaches often rely on multiple calls of large language models (LLMs). In this paper, we introduce EfficientRAG, an efficient retriever for multi-hop question answering. EfficientRAG iteratively generates new queries without the need for LLM calls at each iteration and filters out irrelevant information. Experimental results demonstrate that EfficientRAG surpasses existing RAG methods on three open-domain multi-hop question-answering datasets. | 翻訳日:2024-08-09 16:29:12 公開日:2024-08-08 |
# 隠れた視覚情報を公開する:敵対的視覚情報隠蔽に対する再構築攻撃
Unveiling Hidden Visual Information: A Reconstruction Attack Against Adversarial Visual Information Hiding ( http://arxiv.org/abs/2408.04261v1 ) ライセンス: Link先を確認 | Jonggyu Jang, Hyeonsu Lyu, Seongjin Hwang, Hyun Jong Yang, | (参考訳) 本稿では,データ再構成(DR)攻撃を暗号化画像に対して実行することにより,逆例ベースの画像暗号化のセキュリティ脆弱性について検討する。
代表的な画像暗号化法は、画像認識タスクで使用されるギャラリーデータセットを保護するために、I型対角的サンプルトレーニングを使用する、対角的視覚情報隠蔽(AVIH)である。
AVIH法では、型I対逆例法は、全く異なるように見えるが、依然としてマシンによって元のものとして認識されている画像を生成する。
さらに、AVIH法は、予め定義された秘密鍵生成モデルを用いて、暗号化された画像を元の形式に復元することができる。
最高のセキュリティのために、各イメージにユニークなキーを割り当てることが推奨されるが、ストレージの制限は、同じキーモデルを共有するいくつかのイメージを必要とする可能性がある。
AVIHには重要なセキュリティ上の疑問が浮かび上がっています。DR攻撃によって侵害されることなく、同じキーモデルを安全に共有できる画像はいくつありますか?
この問題に対処するために,(1) 生成的逆転損失と(2) 拡張ID損失を取り入れたAVIH暗号方式に対する二重戦略DR攻撃を導入し,DRが過度に適合することを防止する。
この手法を画像認識と再同定ベンチマークを用いて検証し, 再構成画像の品質を著しく向上させることで, 暗号画像のキー共有を少なくすることができることを示した。
結果の再現を行うソースコードが近く公開されます。
This paper investigates the security vulnerabilities of adversarial-example-based image encryption by executing data reconstruction (DR) attacks on encrypted images. A representative image encryption method is the adversarial visual information hiding (AVIH), which uses type-I adversarial example training to protect gallery datasets used in image recognition tasks. In the AVIH method, the type-I adversarial example approach creates images that appear completely different but are still recognized by machines as the original ones. Additionally, the AVIH method can restore encrypted images to their original forms using a predefined private key generative model. For the best security, assigning a unique key to each image is recommended; however, storage limitations may necessitate some images sharing the same key model. This raises a crucial security question for AVIH: How many images can safely share the same key model without being compromised by a DR attack? To address this question, we introduce a dual-strategy DR attack against the AVIH encryption method by incorporating (1) generative-adversarial loss and (2) augmented identity loss, which prevent DR from overfitting -- an issue akin to that in machine learning. Our numerical results validate this approach through image recognition and re-identification benchmarks, demonstrating that our strategy can significantly enhance the quality of reconstructed images, thereby requiring fewer key-sharing encrypted images. Our source code to reproduce our results will be available soon. | 翻訳日:2024-08-09 16:29:12 公開日:2024-08-08 |
# CoBooM: 医用画像表現学習のためのコードブックガイドブートストラップ
CoBooM: Codebook Guided Bootstrapping for Medical Image Representation Learning ( http://arxiv.org/abs/2408.04262v1 ) ライセンス: Link先を確認 | Azad Singh, Deepak Mishra, | (参考訳) 自己教師付き学習(SSL)は、注釈のないデータを活用することで医療画像分析のための有望なパラダイムとして浮上している。
その可能性にもかかわらず、既存のSSLアプローチは、医療画像に固有の高い解剖学的類似性を見落としている。
これにより、SSLメソッドが医療画像の多様なセマンティックコンテンツを継続的にキャプチャすることは困難になる。
この研究は、SSLにコードブックを統合することによって、解剖学的類似性を暗黙的に活用する、新しく一般化されたソリューションを導入している。
コードブックは視覚パターンの簡潔で情報的な辞書として機能し、解剖学的詳細を捉えるだけでなく、堅牢で一般化された特徴表現の作成を促進する。
本稿では,連続的および離散的表現を統合することで,自己監督型医用画像学習のための新しいフレームワークであるCoBooMを提案する。
連続成分は微細な詳細の保存を保証し、離散的な側面は、構造化された埋め込み空間を通して粗い微細な特徴抽出を容易にする。
CoBooMの有効性を理解するため,胸部X線および底部画像を含む各種医療データセットの総合的な評価を行った。
実験結果から,分類やセグメンテーション作業において顕著な性能向上が示された。
Self-supervised learning (SSL) has emerged as a promising paradigm for medical image analysis by harnessing unannotated data. Despite their potential, the existing SSL approaches overlook the high anatomical similarity inherent in medical images. This makes it challenging for SSL methods to capture diverse semantic content in medical images consistently. This work introduces a novel and generalized solution that implicitly exploits anatomical similarities by integrating codebooks in SSL. The codebook serves as a concise and informative dictionary of visual patterns, which not only aids in capturing nuanced anatomical details but also facilitates the creation of robust and generalized feature representations. In this context, we propose CoBooM, a novel framework for self-supervised medical image learning by integrating continuous and discrete representations. The continuous component ensures the preservation of fine-grained details, while the discrete aspect facilitates coarse-grained feature extraction through the structured embedding space. To understand the effectiveness of CoBooM, we conduct a comprehensive evaluation of various medical datasets encompassing chest X-rays and fundus images. The experimental results reveal a significant performance gain in classification and segmentation tasks. | 翻訳日:2024-08-09 16:17:56 公開日:2024-08-08 |
# 3次元シーン再構成における現代的アプローチの評価:NeRF法とガウス法の比較
Evaluating Modern Approaches in 3D Scene Reconstruction: NeRF vs Gaussian-Based Methods ( http://arxiv.org/abs/2408.04268v1 ) ライセンス: Link先を確認 | Yiming Zhou, Zixuan Zeng, Andi Chen, Xiaofan Zhou, Haowei Ni, Shiyao Zhang, Panfeng Li, Liangxi Liu, Mengyao Zheng, Xupeng Chen, | (参考訳) 本研究では,3次元シーン再構成の文脈におけるニューラルレージアン場(NeRF)とガウス法(ガウス法)の能力を探索し,これらの手法を従来のSLAMシステムと対比した。
ReplicaやScanNetなどのデータセットを利用することで、トラッキング精度、マッピング忠実度、ビュー合成に基づいてパフォーマンスを評価する。
発見によると、NeRFはビュー合成に優れており、処理速度が遅いにもかかわらず、既存のデータから新たな視点を生成するユニークな機能を提供する。
逆に、ガウスに基づく手法は、高速な処理と顕著な表現性を提供するが、包括的なシーン補完は欠如している。
NICE-SLAMやSplaTAMといった新しい手法は、グローバルな最適化とループクロージャ技術によって強化され、堅牢性の観点からはORB-SLAM2のような古いフレームワークを上回るだけでなく、動的で複雑な環境においても優れたパフォーマンスを示す。
この比較分析は、実世界の様々な応用にまたがるロバストな3Dシーン再構築における将来の発展に光を当て、実践的な意味を持つ理論研究を橋渡しする。
Exploring the capabilities of Neural Radiance Fields (NeRF) and Gaussian-based methods in the context of 3D scene reconstruction, this study contrasts these modern approaches with traditional Simultaneous Localization and Mapping (SLAM) systems. Utilizing datasets such as Replica and ScanNet, we assess performance based on tracking accuracy, mapping fidelity, and view synthesis. Findings reveal that NeRF excels in view synthesis, offering unique capabilities in generating new perspectives from existing data, albeit at slower processing speeds. Conversely, Gaussian-based methods provide rapid processing and significant expressiveness but lack comprehensive scene completion. Enhanced by global optimization and loop closure techniques, newer methods like NICE-SLAM and SplaTAM not only surpass older frameworks such as ORB-SLAM2 in terms of robustness but also demonstrate superior performance in dynamic and complex environments. This comparative analysis bridges theoretical research with practical implications, shedding light on future developments in robust 3D scene reconstruction across various real-world applications. | 翻訳日:2024-08-09 16:17:56 公開日:2024-08-08 |
# 大規模言語モデルBERTにおける引数構造の解析
Analysis of Argument Structure Constructions in the Large Language Model BERT ( http://arxiv.org/abs/2408.04270v1 ) ライセンス: Link先を確認 | Pegah Ramezani, Achim Schilling, Patrick Krauss, | (参考訳) 本研究では,従来のLSTM解析を拡張したArgument Structure Constructions (ASC) のプロセスと表現について検討した。
ASCの4つのタイプにまたがる2000文のデータセットを用いて,12層にまたがるBERTのトークン埋め込みを分析した。
一般化識別値(GDV)で定量化したMDS, t-SNE, クラスタリングによる可視化を行った。
フィードフォワード分類器(プローブ)は埋め込みから構築カテゴリを予測した。
CLSトークンの埋め込みは2-4層にクラスタ化され、中間層では減少し、最終層ではわずかに増加した。
DETとSUBJの埋め込みは中間層で一貫したクラスタリングを示し,VERBの埋め込みは1層から12層に増加し,OBJの埋め込みは10層にピークに達した。
プローブ精度は,GDVクラスタリング以上の潜伏構造情報を明らかにするため,第1層からの90%以上の精度で構築情報が低かった。
注意重量のFDR分析では、OBJトークンはASCの識別に不可欠であり、VERBトークンとDETトークンが続くことがわかった。
SUBJ, CLS, SEPトークンは重要なFDRスコアを持っていた。
本研究は,BERTによる言語構成の階層化処理とLSTMとの相違について述べる。
今後の研究は、これらの結果と神経画像データを比較して、ASC処理の神経関連性を理解する予定である。
この研究は、人間の脳における言語処理を反映するニューラルネットワークモデルの可能性を強調し、言語理解の基礎となる計算的および神経メカニズムに関する洞察を提供する。
This study investigates how BERT processes and represents Argument Structure Constructions (ASCs), extending previous LSTM analyses. Using a dataset of 2000 sentences across four ASC types (transitive, ditransitive, caused-motion, resultative), we analyzed BERT's token embeddings across 12 layers. Visualizations with MDS and t-SNE and clustering quantified by Generalized Discrimination Value (GDV) were used. Feedforward classifiers (probes) predicted construction categories from embeddings. CLS token embeddings clustered best in layers 2-4, decreased in intermediate layers, and slightly increased in final layers. DET and SUBJ embeddings showed consistent clustering in intermediate layers, VERB embeddings increased in clustering from layer 1 to 12, and OBJ embeddings peaked in layer 10. Probe accuracies indicated low construction information in layer 1, with over 90 percent accuracy from layer 2 onward, revealing latent construction information beyond GDV clustering. Fisher Discriminant Ratio (FDR) analysis of attention weights showed OBJ tokens were crucial for differentiating ASCs, followed by VERB and DET tokens. SUBJ, CLS, and SEP tokens had insignificant FDR scores. This study highlights BERT's layered processing of linguistic constructions and its differences from LSTMs. Future research will compare these findings with neuroimaging data to understand the neural correlates of ASC processing. This research underscores neural language models' potential to mirror linguistic processing in the human brain, offering insights into the computational and neural mechanisms underlying language understanding. | 翻訳日:2024-08-09 16:17:56 公開日:2024-08-08 |
# SG-JND: 画像圧縮に注意すべき歪み予測器
SG-JND: Semantic-Guided Just Noticeable Distortion Predictor For Image Compression ( http://arxiv.org/abs/2408.04273v1 ) ライセンス: Link先を確認 | Linhan Cao, Wei Sun, Xiongkuo Min, Jun Jia, Zicheng Zhang, Zijian Chen, Yucheng Zhu, Lizhou Liu, Qiubo Chen, Jing Chen, Guangtao Zhai, | (参考訳) 人間の視覚システム(HVS)に最小限の影響を受けやすい画像における歪みのしきい値を表すジャストインタブル歪み(JND)は、画像圧縮アルゴリズムにおいて、伝送ビットレートと画質のトレードオフを達成するために重要である。
しかし、従来のJND予測手法は画素レベルまたはサブバンドレベルの機能のみに依存しており、JNDにおける画像コンテンツの影響を捉える能力は欠如している。
このギャップを埋めるために,意味情報を利用してJND予測を行うセマンティックガイドJND(SG-JND)ネットワークを提案する。
特に、SG-JNDは、画像前処理モジュールが画像からセマンティックレベルパッチを抽出し、特徴抽出モジュールがクロススケールアテンション層を利用して多層特徴を抽出し、JND予測モジュールが抽出した特徴を最終JND値に回帰する3つの必須モジュールから構成される。
実験結果から,SG-JNDは2つの公開JNDデータセット上での最先端性能を実現し,SG-JNDの有効性を実証し,意味情報をJNDアセスメントに組み込むことの重要性を強調した。
Just noticeable distortion (JND), representing the threshold of distortion in an image that is minimally perceptible to the human visual system (HVS), is crucial for image compression algorithms to achieve a trade-off between transmission bit rate and image quality. However, traditional JND prediction methods only rely on pixel-level or sub-band level features, lacking the ability to capture the impact of image content on JND. To bridge this gap, we propose a Semantic-Guided JND (SG-JND) network to leverage semantic information for JND prediction. In particular, SG-JND consists of three essential modules: the image preprocessing module extracts semantic-level patches from images, the feature extraction module extracts multi-layer features by utilizing the cross-scale attention layers, and the JND prediction module regresses the extracted features into the final JND value. Experimental results show that SG-JND achieves the state-of-the-art performance on two publicly available JND datasets, which demonstrates the effectiveness of SG-JND and highlight the significance of incorporating semantic information in JND assessment. | 翻訳日:2024-08-09 16:17:56 公開日:2024-08-08 |
# 多モード機械学習を用いた不安定狭心症患者のICAタイミング戦略の早期リスク評価モデル
Early Risk Assessment Model for ICA Timing Strategy in Unstable Angina Patients Using Multi-Modal Machine Learning ( http://arxiv.org/abs/2408.04276v1 ) ライセンス: Link先を確認 | Candi Zheng, Kun Liu, Yang Wang, Shiyi Chen, Hongli Li, | (参考訳) 背景: 不安定狭心症(UA)を含む心血管疾患の診断における金の基準として, 侵襲的冠動脈造影(ICA)が認められている。
課題は、UA患者のICAの最適なタイミングを決定することであり、高リスク患者の再血管化の必要性と低リスク患者の潜在的合併症とのバランスをとることである。
心筋梗塞とは異なり、UAはST偏位や心筋酵素のような特定の指標を持っておらず、リスクアセスメントが複雑になる。
目的:本研究は,機械学習アルゴリズムを用いてUA患者の早期リスク評価を強化することを目的としている。
これらのアルゴリズムは、人間医師が解釈を困難にしている、特定されていないが関連する指標を分析することによって、ICAから最も恩恵を受ける患者を識別する可能性がある。
方法: 上海総合病院のUA患者640名から, 診療歴と心電図 (ECG) のデータを収集した。
機械学習アルゴリズムは、臨床リスクファクター、症状、バイオマーカーレベル、トレーニング済みニューラルネットワークによって抽出されたECG特徴を含むマルチモーダルな人口統計特性を用いて訓練された。
目的は、再血管化リスクに基づいて患者を階層化することである。
さらに,本モデルは,臨床応用のための離散化により,適用可能かつ説明可能なルックアップテーブルに変換した。
結果: この研究は、0.719 \pm 0.065$のリスク階層化(AUC)を達成し、広く採用されているGRACEスコアのAUCの0.579 \pm 0.044$を大きく上回った。
結論: 結果は, 機械学習がUA患者に優れたリスク階層化をもたらすことを示唆している。
この成層化の改善は、ICAに関連するリスク、コスト、合併症のバランスをとるのに役立ち、不安定な狭心症に対する臨床評価の実践の変化を示唆している。
Background: Invasive coronary arteriography (ICA) is recognized as the gold standard for diagnosing cardiovascular diseases, including unstable angina (UA). The challenge lies in determining the optimal timing for ICA in UA patients, balancing the need for revascularization in high-risk patients against the potential complications in low-risk ones. Unlike myocardial infarction, UA does not have specific indicators like ST-segment deviation or cardiac enzymes, making risk assessment complex. Objectives: Our study aims to enhance the early risk assessment for UA patients by utilizing machine learning algorithms. These algorithms can potentially identify patients who would benefit most from ICA by analyzing less specific yet related indicators that are challenging for human physicians to interpret. Methods: We collected data from 640 UA patients at Shanghai General Hospital, including medical history and electrocardiograms (ECG). Machine learning algorithms were trained using multi-modal demographic characteristics including clinical risk factors, symptoms, biomarker levels, and ECG features extracted by pre-trained neural networks. The goal was to stratify patients based on their revascularization risk. Additionally, we translated our models into applicable and explainable look-up tables through discretization for practical clinical use. Results: The study achieved an Area Under the Curve (AUC) of $0.719 \pm 0.065$ in risk stratification, significantly surpassing the widely adopted GRACE score's AUC of $0.579 \pm 0.044$. Conclusions: The results suggest that machine learning can provide superior risk stratification for UA patients. This improved stratification could help in balancing the risks, costs, and complications associated with ICA, indicating a potential shift in clinical assessment practices for unstable angina. | 翻訳日:2024-08-09 16:17:56 公開日:2024-08-08 |
# 等変多層CKNレンズによる等変畳み込み表現の安定性解析
Stability Analysis of Equivariant Convolutional Representations Through The Lens of Equivariant Multi-layered CKNs ( http://arxiv.org/abs/2408.04277v1 ) ライセンス: Link先を確認 | Soutrik Roy Chowdhury, | (参考訳) 本稿では、(同変)CNNの幾何学を再現カーネルヒルベルト空間(RKHS)のレンズを通して理解するのに有用な群同変畳み込みカーネルネットワーク(CKN)を構築し、理論的に解析する。
次に、微分同相の作用下でのそのような同相CKNの安定性解析の研究を進め、同相CNNとの接続を図り、そこではカーネルヒルベルト空間(RKHS)を再現するレンズを通して同相CNNの帰納バイアスの幾何学を解析することを目的とする。
高度な最適化アルゴリズムでトレーニングされたCNNを含む従来のディープラーニングアーキテクチャは、‘逆例’など、摂動に弱い。
CKNを通してそのようなモデルのRKHS規範を理解することは、適切なアーキテクチャを設計するのに有用であり、ロバストな同変表現学習モデルの設計に有用である。
In this paper we construct and theoretically analyse group equivariant convolutional kernel networks (CKNs) which are useful in understanding the geometry of (equivariant) CNNs through the lens of reproducing kernel Hilbert spaces (RKHSs). We then proceed to study the stability analysis of such equiv-CKNs under the action of diffeomorphism and draw a connection with equiv-CNNs, where the goal is to analyse the geometry of inductive biases of equiv-CNNs through the lens of reproducing kernel Hilbert spaces (RKHSs). Traditional deep learning architectures, including CNNs, trained with sophisticated optimization algorithms is vulnerable to perturbations, including `adversarial examples'. Understanding the RKHS norm of such models through CKNs is useful in designing the appropriate architecture and can be useful in designing robust equivariant representation learning models. | 翻訳日:2024-08-09 16:17:56 公開日:2024-08-08 |
# LaDiMo:層単位で蒸留したMoEfier
LaDiMo: Layer-wise Distillation Inspired MoEfier ( http://arxiv.org/abs/2408.04278v1 ) ライセンス: Link先を確認 | Sungyoon Kim, Youngjun Kim, Kihyo Moon, Minsung Jang, | (参考訳) 大規模言語モデルの出現は自然言語処理に革命をもたらしたが、その複雑さが増し、かなりの訓練コスト、資源需要、環境への影響がもたらされた。
これに対し、疎混合実験モデル(MoE)は高密度モデルに代わる有望な代替品として出現している。
ゼロからMoEモデルをトレーニングすることは違法にコストがかかるため、最近の研究では、事前訓練された非MoEモデルからの知識の活用が検討されている。
しかし、既存のアプローチには、重要なハードウェアリソースやデータを必要とするような制限がある。
本稿では,Transformerベースの非MoEモデルを最小限のトレーニングコストでMoEモデルに変換する新しいアルゴリズムLaDiMoを提案する。
LaDiMoは2つの段階で構成されている。
知識蒸留の概念を利用することで、モデルを圧縮し、その性能を迅速に回復する。
さらに、ルーティング重みの分布をプロファイリングし、精度とレイテンシのバランスをとるレイヤワイドポリシーを決定することで、推論効率を最適化する適応ルータを開発する。
本稿では,100Kトークンのみを用いてLLaMA2-7BモデルをMoEモデルに変換し,精度を維持しながら活性パラメータを20%以上削減することで,本手法の有効性を実証する。
私たちのアプローチは、MoEモデルの構築とデプロイのための柔軟で効率的なソリューションを提供します。
The advent of large language models has revolutionized natural language processing, but their increasing complexity has led to substantial training costs, resource demands, and environmental impacts. In response, sparse Mixture-of-Experts (MoE) models have emerged as a promising alternative to dense models. Since training MoE models from scratch can be prohibitively expensive, recent studies have explored leveraging knowledge from pre-trained non-MoE models. However, existing approaches have limitations, such as requiring significant hardware resources and data. We propose a novel algorithm, LaDiMo, which efficiently converts a Transformer-based non-MoE model into a MoE model with minimal additional training cost. LaDiMo consists of two stages: layer-wise expert construction and routing policy decision. By harnessing the concept of Knowledge Distillation, we compress the model and rapidly recover its performance. Furthermore, we develop an adaptive router that optimizes inference efficiency by profiling the distribution of routing weights and determining a layer-wise policy that balances accuracy and latency. We demonstrate the effectiveness of our method by converting the LLaMA2-7B model to a MoE model using only 100K tokens, reducing activated parameters by over 20% while keeping accuracy. Our approach offers a flexible and efficient solution for building and deploying MoE models. | 翻訳日:2024-08-09 16:17:56 公開日:2024-08-08 |
# 対称性による有限時間熱力学的トレードオフ関係の強化
Symmetry induced enhancement in finite-time thermodynamic trade-off relations ( http://arxiv.org/abs/2408.04280v1 ) ライセンス: Link先を確認 | Ken Funo, Hiroyasu Tajima, | (参考訳) 対称性は開量子系に制約を課し、非平衡過程における散逸性に影響を及ぼす。
超放射率 (superradiance) は、系の崩壊速度が、置換対称性を尊重する集合系-基底結合によって強化される典型的な例である。
このようなモデルは熱機関にも応用されている。
しかし、有限時間熱力学における対称性の影響に対処する一般的な枠組みは十分に確立されていない。
ここでは、有限時間熱力学における集合的拡張の基本的な限界を記述する対称性に基づく枠組みを示す。
具体的には、熱力学速度制限とトレードオフ関係によって設定された基本速度を定量化する平均ジャンプ速度の一般上限を導出する。
得られた境界を達成する対称性条件を同定し、従来の超輝度モデルによって実現されたエンハンスメントを超越したオープン量子系モデルを構築する。
Symmetry imposes constraints on open quantum systems, affecting the dissipative properties in nonequilibrium processes. Superradiance is a typical example in which the decay rate of the system is enhanced via a collective system-bath coupling that respects permutation symmetry. Such model has also been applied to heat engines. However, a generic framework that addresses the impact of symmetry in finite-time thermodynamics is not well established. Here, we show a symmetry-based framework that describes the fundamental limit of collective enhancement in finite-time thermodynamics. Specifically, we derive a general upper bound on the average jump rate, which quantifies the fundamental speed set by thermodynamic speed limits and trade-off relations. We identify the symmetry condition which achieves the obtained bound, and explicitly construct an open quantum system model that goes beyond the enhancement realized by the conventional superradiance model. | 翻訳日:2024-08-09 16:17:56 公開日:2024-08-08 |
# エッジネットワークにおける侵入検知のためのAI駆動チャットボット:倫理的ユーザコンテンツによるサイバーセキュリティの強化
AI-Driven Chatbot for Intrusion Detection in Edge Networks: Enhancing Cybersecurity with Ethical User Consent ( http://arxiv.org/abs/2408.04281v1 ) ライセンス: Link先を確認 | Mugheez Asif, Abdul Manan, Abdul Moiz ur Rehman, Mamoona Naveed Asghar, Muhammad Umair, | (参考訳) 今日の現代のデジタルランドスケープでは、チャットボットはさまざまな分野において欠かせないツールとなり、カスタマーサービスの合理化、個人支援の提供、ルーチンタスクの自動化、健康アドバイスの提供が進められている。
しかし、ネットワークセキュリティ、特に侵入検知の分野では、その可能性はまだ探索されていない。
このギャップを埋めるために,侵入検出に特化したエッジネットワーク内のセキュリティ向上を目的としたアーキテクチャチャットボットを提案する。
高度な機械学習アルゴリズムを活用して、このチャットボットはネットワークトラフィックを監視し、潜在的な侵入を検知し軽減する。
Raspberry Piモジュールが管理するエッジネットワークを使用してネットワーク環境を確保し、透明性と信頼を促進する倫理的ユーザの同意を確保することにより、この革新的なソリューションは、機密データを保護し、安全な職場を維持することを目的としており、デジタル時代の堅牢なネットワークセキュリティ対策の必要性が高まっている。
In today's contemporary digital landscape, chatbots have become indispensable tools across various sectors, streamlining customer service, providing personal assistance, automating routine tasks, and offering health advice. However, their potential remains underexplored in the realm of network security, particularly for intrusion detection. To bridge this gap, we propose an architecture chatbot specifically designed to enhance security within edge networks specifically for intrusion detection. Leveraging advanced machine learning algorithms, this chatbot will monitor network traffic to identify and mitigate potential intrusions. By securing the network environment using an edge network managed by a Raspberry Pi module and ensuring ethical user consent promoting transparency and trust, this innovative solution aims to safeguard sensitive data and maintain a secure workplace, thereby addressing the growing need for robust network security measures in the digital age. | 翻訳日:2024-08-09 16:17:56 公開日:2024-08-08 |
# 周期的干渉チャンネルにおけるプロンプト支援セマンティック干渉キャンセラ
Prompt-Assisted Semantic Interference Cancellation on Moderate Interference Channels ( http://arxiv.org/abs/2408.04283v1 ) ライセンス: Link先を確認 | Zian Meng, Qiang Li, Ashish Pandharipande, Xiaohu Ge, | (参考訳) 従来の干渉管理戦略の性能は、干渉電力が信号電力に匹敵するときに低下する。
セマンティックコミュニケーションを用いた干渉管理の新しい視点について考察する。
具体的には,多ユーザセマンティック通信システムについて,深層学習に基づくセマンティックインタプリタキャンセリング(DeepPASIC)の新たなフレームワークを提案する中等度インタプリタチャネル(IC)について検討する。
各送信信号は、共通部分とプライベート部分に分割される。
異なるユーザの共通部分は同時に共有媒体に送信され、重畳される。
一方、プライベート部は、共通部が抱える干渉をセマンティックレベルでキャンセルするのを支援するプロンプトとして機能する。
シミュレーションの結果,提案したDeepPASICは,中等度干渉条件下での従来の干渉管理戦略よりも優れていた。
The performance of conventional interference management strategies degrades when interference power is comparable to signal power. We consider a new perspective on interference management using semantic communication. Specifically, a multi-user semantic communication system is considered on moderate interference channels (ICs), for which a novel framework of deep learning-based prompt-assisted semantic interference cancellation (DeepPASIC) is proposed. Each transmitted signal is partitioned into common and private parts. The common parts of different users are transmitted simultaneously in a shared medium, resulting in superposition. The private part, on the other hand, serves as a prompt to assist in canceling the interference suffered by the common part at the semantic level. Simulation results demonstrate that the proposed DeepPASIC outperforms conventional interference management strategies under moderate interference conditions. | 翻訳日:2024-08-09 16:17:56 公開日:2024-08-08 |
# LLM-DetectAIve:微細加工によるテキスト検出ツール
LLM-DetectAIve: a Tool for Fine-Grained Machine-Generated Text Detection ( http://arxiv.org/abs/2408.04284v1 ) ライセンス: Link先を確認 | Mervat Abassy, Kareem Elozeiri, Alexander Aziz, Minh Ngoc Ta, Raj Vardhan Tomar, Bimarsha Adhikari, Saad El Dine Ahmed, Yuxia Wang, Osama Mohammed Afzal, Zhuohan Xie, Jonibek Mansurov, Ekaterina Artemova, Vladislav Mikhailov, Rui Xing, Jiahui Geng, Hasan Iqbal, Zain Muhammad Mujahid, Tarek Mahmoud, Akim Tsvigun, Alham Fikri Aji, Artem Shelmanov, Nizar Habash, Iryna Gurevych, Preslav Nakov, | (参考訳) 大規模言語モデル(LLM)が一般大衆に広く普及し,機械生成テキスト(MGT)の普及が著しく進んでいる。
迅速な操作の進歩は、テキストの起源を識別することの難しさを悪化させた(人間による認可と機械による生成)。
これはMGTの潜在的な誤用、特に教育や学術分野での懸念を提起する。
本稿では,細粒度MGT検出のためのシステムである$\textbf{LLM-DetectAIve}$を提案する。
テキストは、人間による書き起こし、機械による書き起こし、機械による書き起こし、人間による書き起こしの4つのカテゴリに分類することができる。
従来のMGT検出器とは対照的に、LLM-DetectiAIveに2つの追加カテゴリを導入し、テキスト作成中のLLMの介入の度合いに関する洞察を提供する。
これは、LLMの介入が通常禁止されている教育のようないくつかの領域で有用かもしれない。
実験により, LLM-DetectAIveはテキストコンテンツの著者を効果的に同定し, 教育, アカデミア, その他の領域における整合性向上に有用であることが示された。
LLM-DetectAIveはhttps://huggingface.co/spaces/raj-tomar001/MGT-Newで公開されている。
私たちのシステムを説明するビデオはhttps://youtu.be/E8eT_bE7k8cで公開されている。
The widespread accessibility of large language models (LLMs) to the general public has significantly amplified the dissemination of machine-generated texts (MGTs). Advancements in prompt manipulation have exacerbated the difficulty in discerning the origin of a text (human-authored vs machinegenerated). This raises concerns regarding the potential misuse of MGTs, particularly within educational and academic domains. In this paper, we present $\textbf{LLM-DetectAIve}$ -- a system designed for fine-grained MGT detection. It is able to classify texts into four categories: human-written, machine-generated, machine-written machine-humanized, and human-written machine-polished. Contrary to previous MGT detectors that perform binary classification, introducing two additional categories in LLM-DetectiAIve offers insights into the varying degrees of LLM intervention during the text creation. This might be useful in some domains like education, where any LLM intervention is usually prohibited. Experiments show that LLM-DetectAIve can effectively identify the authorship of textual content, proving its usefulness in enhancing integrity in education, academia, and other domains. LLM-DetectAIve is publicly accessible at https://huggingface.co/spaces/raj-tomar001/MGT-New. The video describing our system is available at https://youtu.be/E8eT_bE7k8c. | 翻訳日:2024-08-09 16:17:56 公開日:2024-08-08 |
# EMTeC: 機械生成テキストの眼球運動コーパス
EMTeC: A Corpus of Eye Movements on Machine-Generated Texts ( http://arxiv.org/abs/2408.04289v1 ) ライセンス: Link先を確認 | Lena Sophia Bolliger, Patrick Haller, Isabelle Caroline Rose Cretton, David Robert Reich, Tannon Kew, Lena Ann Jäger, | (参考訳) The Eye Movements on Machine-Generated Texts Corpus (EMTeC)は、英語母語話者107人が機械生成テキストを読んでいる自然主義的な眼球運動コーパスである。
テキストは5つの異なるデコード戦略を用いて3つの大きな言語モデルによって生成され、6つの異なるテキストタイプカテゴリに分類される。
EMTeCは、前処理の全段階での眼球運動データ、すなわち2000Hzでサンプリングされた生の座標データ、固定シーケンス、読取手段を包含する。
さらに、垂直キャリブレーションドリフトを考慮した固定シーケンスの原版と修正版の両方を提供する。
さらに、コーパスには、トランジションスコア、アテンションスコア、隠れ状態といった刺激テキストを生成する言語モデルの内部が含まれている。
刺激は、テキストおよび単語レベルでの様々な言語的特徴に対して注釈付けされる。
EMTeCは,機械生成テキストにおける読み出し行動の調査や,異なる復号戦略の影響,テキストタイプによる読み出し行動,新しい事前処理,データフィルタリング,ドリフト補正アルゴリズムの開発,言語モデルの認知的解釈可能性と強化,人間の読取時間に対するサブプライサルとエントロピーの予測力の評価など,さまざまなユースケースに利用されることを期待する。
プレプロセス、モデル内部、刺激生成、データ前処理、分析を再現するコードは、https://github.com/DiLi-Lab/EMTeC/を介してアクセスすることができる。
The Eye Movements on Machine-Generated Texts Corpus (EMTeC) is a naturalistic eye-movements-while-reading corpus of 107 native English speakers reading machine-generated texts. The texts are generated by three large language models using five different decoding strategies, and they fall into six different text type categories. EMTeC entails the eye movement data at all stages of pre-processing, i.e., the raw coordinate data sampled at 2000 Hz, the fixation sequences, and the reading measures. It further provides both the original and a corrected version of the fixation sequences, accounting for vertical calibration drift. Moreover, the corpus includes the language models' internals that underlie the generation of the stimulus texts: the transition scores, the attention scores, and the hidden states. The stimuli are annotated for a range of linguistic features both at text and at word level. We anticipate EMTeC to be utilized for a variety of use cases such as, but not restricted to, the investigation of reading behavior on machine-generated text and the impact of different decoding strategies; reading behavior on different text types; the development of new pre-processing, data filtering, and drift correction algorithms; the cognitive interpretability and enhancement of language models; and the assessment of the predictive power of surprisal and entropy for human reading times. The data at all stages of pre-processing, the model internals, and the code to reproduce the stimulus generation, data pre-processing and analyses can be accessed via https://github.com/DiLi-Lab/EMTeC/. | 翻訳日:2024-08-09 16:17:56 公開日:2024-08-08 |
# マルチスケールトランスを用いた高効率かつ高精度肺炎検出
Efficient and Accurate Pneumonia Detection Using a Novel Multi-Scale Transformer Approach ( http://arxiv.org/abs/2408.04290v1 ) ライセンス: Link先を確認 | Alireza Saber, Pouria Parhami, Alimihammad Siahkarzadeh, Amirreza Fateh, | (参考訳) 重篤な呼吸器疾患である肺炎は、特に未発達の地域では重大な診断上の課題を引き起こす。
胸部X線などの従来の診断法は、信頼できる自動化ツールを必要とする放射線技師の間で解釈のばらつきに悩まされている。
本研究では,胸部X線からの肺炎検出を促進するために,ディープラーニングとトランスフォーマーに基づく注意機構を組み合わせた新しいアプローチを提案する。
提案手法は,TransUNetモデルを用いて肺の分画から開始する。
このモデルは、"Chest Xray Masks and Labels"データセットに基づいてトレーニングされ、KermanyとCohenデータセットに適用して、肺領域を分離し、その後の分類タスクを強化する。
分類には事前訓練されたResNetモデル(ResNet-50とResNet-101)を用いてマルチスケールの特徴マップを抽出し、修正したトランスフォーマーモジュールを通して処理する。
特殊変圧器を用いることで、一般的な変圧器モデルに比べてパラメータが大幅に少ない優れた結果が得られる。
提案手法は,Kermanyデータセットで92.79%,Cohenデータセットで95.11%の精度を実現し,資源制約環境に適した堅牢で効率的な性能を実現する。
『https://github.com/amirrezafateh/Multi-Scale-Transformer-Pneumonia』
Pneumonia, a severe respiratory disease, poses significant diagnostic challenges, especially in underdeveloped regions. Traditional diagnostic methods, such as chest X-rays, suffer from variability in interpretation among radiologists, necessitating reliable automated tools. In this study, we propose a novel approach combining deep learning and transformer-based attention mechanisms to enhance pneumonia detection from chest X-rays. Our method begins with lung segmentation using a TransUNet model that integrates our specialized transformer module, which has fewer parameters compared to common transformers while maintaining performance. This model is trained on the "Chest Xray Masks and Labels" dataset and then applied to the Kermany and Cohen datasets to isolate lung regions, enhancing subsequent classification tasks. For classification, we employ pre-trained ResNet models (ResNet-50 and ResNet-101) to extract multi-scale feature maps, processed through our modified transformer module. By employing our specialized transformer, we attain superior results with significantly fewer parameters compared to common transformer models. Our approach achieves high accuracy rates of 92.79% on the Kermany dataset and 95.11% on the Cohen dataset, ensuring robust and efficient performance suitable for resource-constrained environments. "https://github.com/amirrezafateh/Multi-Scale-Transformer-Pneumonia" | 翻訳日:2024-08-09 16:17:56 公開日:2024-08-08 |
# LLMにおける社会的感性は継承されるか? : 画像間感性の抽出に関する実証的研究
Are Social Sentiments Inherent in LLMs? An Empirical Study on Extraction of Inter-demographic Sentiments ( http://arxiv.org/abs/2408.04293v1 ) ライセンス: Link先を確認 | Kunitomo Tanaka, Ryohei Sasano, Koichi Takeda, | (参考訳) 大規模言語モデル(LLM)は、大量のテキストからモデルを訓練することで、社会的常識や偏見といった無意識の人間の知識や感情を取得することを目的としている。
しかし、特定の社会集団の感情が様々な LLM でどの程度捉えられるかは明らかになっていない。
本研究では、民族性、宗教、人種・民族性の観点から定義された社会集団に着目し、LLMから社会集団間の感情を捕捉・抽出できる範囲を検証した。
具体的には、あるグループから別のグループへの感情に関する質問をLSMに入力し、反応に感情分析を適用し、その結果を社会調査と比較する。
5つの代表LSMを用いた検証結果から, 国や宗教のp値が比較的小さいのに対し, データは比較的多かった。
その結果,グループ間感情を含むLCM反応は,実際の社会調査結果とよく一致していることがわかった。
Large language models (LLMs) are supposed to acquire unconscious human knowledge and feelings, such as social common sense and biases, by training models from large amounts of text. However, it is not clear how much the sentiments of specific social groups can be captured in various LLMs. In this study, we focus on social groups defined in terms of nationality, religion, and race/ethnicity, and validate the extent to which sentiments between social groups can be captured in and extracted from LLMs. Specifically, we input questions regarding sentiments from one group to another into LLMs, apply sentiment analysis to the responses, and compare the results with social surveys. The validation results using five representative LLMs showed higher correlations with relatively small p-values for nationalities and religions, whose number of data points were relatively large. This result indicates that the LLM responses including the inter-group sentiments align well with actual social survey results. | 翻訳日:2024-08-09 16:17:56 公開日:2024-08-08 |
# GraphMAEと局所特徴抽出に基づくデュアルブランチ PolSAR 画像分類
Dual-branch PolSAR Image Classification Based on GraphMAE and Local Feature Extraction ( http://arxiv.org/abs/2408.04294v1 ) ライセンス: Link先を確認 | Yuchen Wang, Ziyi Guo, Haixia Bi, Danfeng Hong, Chen Xu, | (参考訳) 偏光合成開口レーダ(PolSAR)画像のアノテーションは、労働集約的で時間を要するプロセスである。
したがって、限られたラベルでPolSAR画像を分類することは、リモートセンシング領域では難しい課題である。
近年, 自己教師型学習アプローチは, スパースラベルを用いた PolSAR 画像分類に有効であることが証明されている。
しかし,本研究における自己指導型自己学習の研究の欠如が観察された。
そこで本稿では,生成的自己教師型学習に基づく二分岐分類モデルを提案する。
最初のブランチはスーパーピクセルブランチであり、生成的な自己教師付きグラフマスキングオートエンコーダを用いてスーパーピクセルレベルの偏光度表現を学習する。
より詳細な分類結果を得るために、畳み込みニューラルネットワークに基づく画素ブランチをさらに組み込んで画素レベルの特徴を学習する。
融合二重分岐特徴を用いた分類を行い、予測値を得る。
Flevoland のベンチマーク実験の結果,提案手法が有望な分類結果をもたらすことが示された。
The annotation of polarimetric synthetic aperture radar (PolSAR) images is a labor-intensive and time-consuming process. Therefore, classifying PolSAR images with limited labels is a challenging task in remote sensing domain. In recent years, self-supervised learning approaches have proven effective in PolSAR image classification with sparse labels. However, we observe a lack of research on generative selfsupervised learning in the studied task. Motivated by this, we propose a dual-branch classification model based on generative self-supervised learning in this paper. The first branch is a superpixel-branch, which learns superpixel-level polarimetric representations using a generative self-supervised graph masked autoencoder. To acquire finer classification results, a convolutional neural networks-based pixel-branch is further incorporated to learn pixel-level features. Classification with fused dual-branch features is finally performed to obtain the predictions. Experimental results on the benchmark Flevoland dataset demonstrate that our approach yields promising classification results. | 翻訳日:2024-08-09 16:17:56 公開日:2024-08-08 |
# 多エージェント政策最適化における部分リワードデカップリングによるクレジットの割り当て
Assigning Credit with Partial Reward Decoupling in Multi-Agent Proximal Policy Optimization ( http://arxiv.org/abs/2408.04295v1 ) ライセンス: Link先を確認 | Aditya Kapoor, Benjamin Freed, Howie Choset, Jeff Schneider, | (参考訳) マルチエージェント近似ポリシー最適化(MAPPO)は,最近,マルチエージェント強化学習タスクにおける最先端性能を実証した。
しかしMAPPOは、個々のエージェントの行動にクレジットを割り当てることの難しさがチームの規模に悪影響を及ぼすという、クレジット割り当ての問題に苦慮している。
本稿では,MAPPOの改善に向け,近年の信用代入に適応したマルチエージェント強化学習アルゴリズムを提案する。
このアプローチでは、学習したアテンションメカニズムを使用して、学習更新に関連する特定のエージェントのチームメイトを見積もる。
この推定値を用いて、大規模なエージェント群をより小さく、より管理しやすいサブグループに動的に分解する。
我々は,我々のアプローチであるPRD-MAPPOが,期待する将来的な報酬に影響を与えないチームメイトからエージェントを分離し,クレジットの割り当てを合理化していることを実証的に実証した。
また, PRD-MAPPOは, StarCraft IIを含む複数のマルチエージェントタスクにおけるMAPPOおよび他の最先端手法と比較して,データ効率と漸近性能を著しく向上させることを示した。
最後に PRD-MAPPO のバージョンを提案し,PRD が以前は適用されなかった \textit{shared} 報酬設定に適用し,MAPPO よりも性能が向上したことを示す。
Multi-agent proximal policy optimization (MAPPO) has recently demonstrated state-of-the-art performance on challenging multi-agent reinforcement learning tasks. However, MAPPO still struggles with the credit assignment problem, wherein the sheer difficulty in ascribing credit to individual agents' actions scales poorly with team size. In this paper, we propose a multi-agent reinforcement learning algorithm that adapts recent developments in credit assignment to improve upon MAPPO. Our approach leverages partial reward decoupling (PRD), which uses a learned attention mechanism to estimate which of a particular agent's teammates are relevant to its learning updates. We use this estimate to dynamically decompose large groups of agents into smaller, more manageable subgroups. We empirically demonstrate that our approach, PRD-MAPPO, decouples agents from teammates that do not influence their expected future reward, thereby streamlining credit assignment. We additionally show that PRD-MAPPO yields significantly higher data efficiency and asymptotic performance compared to both MAPPO and other state-of-the-art methods across several multi-agent tasks, including StarCraft II. Finally, we propose a version of PRD-MAPPO that is applicable to \textit{shared} reward settings, where PRD was previously not applicable, and empirically show that this also leads to performance improvements over MAPPO. | 翻訳日:2024-08-09 16:08:12 公開日:2024-08-08 |
# 肺マイクロ波アブレーション評価のための呼吸サブトラクション
Respiratory Subtraction for Pulmonary Microwave Ablation Evaluation ( http://arxiv.org/abs/2408.04299v1 ) ライセンス: Link先を確認 | Wan Li, Xinyun Zhong, Wei Li, Song Zhang, Moheng Rong, Yan Xi, Peng Yuan, Zechen Wang, Xiaolei Jiang, Rongxi Yi, Hui Tang, Yang Chen, Chaohui Tong, Zhan Wu, Feng Wang, | (参考訳) 現在、肺がんは世界的ながん死亡の主な原因であり、しばしば最小限の侵襲的介入を必要としている。
マイクロ波アブレーション(MWA)は原発性および二次性肺腫瘍に広く用いられている。
MWAに関する多くの臨床ガイドラインや基準が確立されているが、アブレーション手術の臨床評価は依然として困難であり、長期の経過観察が必要である。
本稿では,術前および術後の画像誘導に基づく肺腫瘍アブレーション治療成績を評価するための呼吸減量法を提案する。
当初,術中画像は術後の部位に粗い硬直な登録を行い,さらに非厳密な登録を行った。
その後、登録された術前画像と術後画像とを減算して減算画像を生成する。
さらに, MWA治療成績の臨床的評価を高めるために, 腫瘍領域と治療領域の差異を比較することで, アブレーション効果を評価する定量的分析指標を考案した。
我々の知る限り、肺腫瘍に対するMWA手術成績の評価を容易にするため、この分野における先駆的な取り組みである。
35の臨床症例を含む広範囲な実験により,呼吸減量法の有効性がさらに検証された。
肺腫瘍治療の評価において,呼吸減量法の有効性と定量的評価基準の有効性を実験的に検証した。
Currently, lung cancer is a leading cause of global cancer mortality, often necessitating minimally invasive interventions. Microwave ablation (MWA) is extensively utilized for both primary and secondary lung tumors. Although numerous clinical guidelines and standards for MWA have been established, the clinical evaluation of ablation surgery remains challenging and requires long-term patient follow-up for confirmation. In this paper, we propose a method termed respiratory subtraction to evaluate lung tumor ablation therapy performance based on pre- and post-operative image guidance. Initially, preoperative images undergo coarse rigid registration to their corresponding postoperative positions, followed by further non-rigid registration. Subsequently, subtraction images are generated by subtracting the registered preoperative images from the postoperative ones. Furthermore, to enhance the clinical assessment of MWA treatment performance, we devise a quantitative analysis metric to evaluate ablation efficacy by comparing differences between tumor areas and treatment areas. To the best of our knowledge, this is the pioneering work in the field to facilitate the assessment of MWA surgery performance on pulmonary tumors. Extensive experiments involving 35 clinical cases further validate the efficacy of the respiratory subtraction method. The experimental results confirm the effectiveness of the respiratory subtraction method and the proposed quantitative evaluation metric in assessing lung tumor treatment. | 翻訳日:2024-08-09 16:08:12 公開日:2024-08-08 |
# 新型コロナウイルス診断のための説明可能な非ローカルネットワーク
An Explainable Non-local Network for COVID-19 Diagnosis ( http://arxiv.org/abs/2408.04300v1 ) ライセンス: Link先を確認 | Jingfu Yang, Peng Huang, Jing Hu, Shu Hu, Siwei Lyu, Xin Wang, Jun Guo, Xi Wu, | (参考訳) CNNは医療画像の自動分類において優れた成果を上げている。
そこで本研究では,COVID-19,コモン肺炎,正常などのCT像を分類し,迅速かつ説明可能な診断を行うために,新しい3次元非局所ネットワーク(NL-RAN)を提案する。
エンド・ツー・エンドのトレーニングを達成できる3次元非ローカルネットワークを構築した。
ネットワークにはグローバル情報をキャプチャするための非局所モジュールが埋め込まれており、3Dアテンションモジュールは病変の詳細に集中して3D肺CTを直接解析し、分類結果を出力する。
注意モジュールの出力は、モデルの解釈可能性を高めるためにヒートマップとして使用することができる。
40793次元CT検査を施行した。
それぞれのスキャンにはユニークなラベル(ノーベルウイルス肺炎、一般的な肺炎、正常)があった。
CTスキャンコホートは、トレーニングセット3263スキャン、検証セット408スキャン、テストセット408スキャンにランダムに分割された。
そして、CovNet、CBAM、ResNetといった既存の主流の分類方法と比較します。
視覚化結果とCAMなどの可視化手法を同時に比較する。
ROC曲線(AUC)、精度、F1スコアを用いてモデル性能を評価した。
NL-RANはAUCの0.9903、精度の0.9473、F1スコアの0.9462を達成し、比較した全ての分類法を上回った。
また、注意モジュールが出力する熱マップは、CAMが出力する熱マップよりもクリアである。
実験結果から,提案手法は既存手法よりも優れた性能を示した。
さらに、第1の注意モジュールは、詳細なアウトライン情報を含むヒートマップを出力し、モデルの解釈可能性を高める。
我々の実験は、我々のモデルの推測が速いことを示唆している。
リアルタイムで診断を行うことができる。
The CNN has achieved excellent results in the automatic classification of medical images. In this study, we propose a novel deep residual 3D attention non-local network (NL-RAN) to classify CT images included COVID-19, common pneumonia, and normal to perform rapid and explainable COVID-19 diagnosis. We built a deep residual 3D attention non-local network that could achieve end-to-end training. The network is embedded with a nonlocal module to capture global information, while a 3D attention module is embedded to focus on the details of the lesion so that it can directly analyze the 3D lung CT and output the classification results. The output of the attention module can be used as a heat map to increase the interpretability of the model. 4079 3D CT scans were included in this study. Each scan had a unique label (novel coronavirus pneumonia, common pneumonia, and normal). The CT scans cohort was randomly split into a training set of 3263 scans, a validation set of 408 scans, and a testing set of 408 scans. And compare with existing mainstream classification methods, such as CovNet, CBAM, ResNet, etc. Simultaneously compare the visualization results with visualization methods such as CAM. Model performance was evaluated using the Area Under the ROC Curve(AUC), precision, and F1-score. The NL-RAN achieved the AUC of 0.9903, the precision of 0.9473, and the F1-score of 0.9462, surpass all the classification methods compared. The heat map output by the attention module is also clearer than the heat map output by CAM. Our experimental results indicate that our proposed method performs significantly better than existing methods. In addition, the first attention module outputs a heat map containing detailed outline information to increase the interpretability of the model. Our experiments indicate that the inference of our model is fast. It can provide real-time assistance with diagnosis. | 翻訳日:2024-08-09 16:08:12 公開日:2024-08-08 |
# 終端ラベル補正によるフェデレーション学習におけるノイズの多いクライアントの対応
Tackling Noisy Clients in Federated Learning with End-to-end Label Correction ( http://arxiv.org/abs/2408.04301v1 ) ライセンス: Link先を確認 | Xuefeng Jiang, Sheng Sun, Jia Li, Jingjing Xue, Runhan Li, Zhiyuan Wu, Gang Xu, Yuwei Wang, Min Liu, | (参考訳) 近年、FL(Federated Learning)は、クライアントの機密情報を犠牲にすることなく、多様なプライバシーに敏感なアプリケーションで広く成功している。
しかし、クライアントデータセットのデータ品質は、異なるクライアントのアノテーションが様々な程度に複雑なラベルノイズを含むことが多いため保証できない。
直感的には、訓練されたモデルがデータからの誤報を多く含んでいるため、性能劣化はより高いノイズ率を持つクライアントに支配されているため、これらのノイズの多いクライアントの負の影響を緩和する効果的な最適化スキームを考案する必要がある。
本研究では,この複雑なラベルノイズ問題に対処する2段階のFedELCを提案する。
第1段階は、ラベルノイズの高いノイズのあるノイズの多いクライアントの検出をガイドすることを目的としており、第2段階は、バック伝搬を通じてノイズの多いクライアントのデータセットの地味ラベルを学習することで達成されるエンドツーエンドのラベル補正フレームワークを通じて、ノイズの多いクライアントのラベルを修正することを目的としている。
我々は16種類の関連手法を実装し,3種類の複雑なラベルノイズシナリオを持つ5つのデータセットを総合的な比較のために評価した。
提案するフレームワークは, 異なるシナリオにおいて, 比較した場合よりも優れた性能を発揮することを示す。
さらに,検出されたノイズの多いクライアントのローカルデータセットのデータ品質をラベル補正フレームワークで効果的に改善する。
コードはhttps://github.com/Sprinter 1999/FedELCで公開されている。
Recently, federated learning (FL) has achieved wide successes for diverse privacy-sensitive applications without sacrificing the sensitive private information of clients. However, the data quality of client datasets can not be guaranteed since corresponding annotations of different clients often contain complex label noise of varying degrees, which inevitably causes the performance degradation. Intuitively, the performance degradation is dominated by clients with higher noise rates since their trained models contain more misinformation from data, thus it is necessary to devise an effective optimization scheme to mitigate the negative impacts of these noisy clients. In this work, we propose a two-stage framework FedELC to tackle this complicated label noise issue. The first stage aims to guide the detection of noisy clients with higher label noise, while the second stage aims to correct the labels of noisy clients' data via an end-to-end label correction framework which is achieved by learning possible ground-truth labels of noisy clients' datasets via back propagation. We implement sixteen related methods and evaluate five datasets with three types of complicated label noise scenarios for a comprehensive comparison. Extensive experimental results demonstrate our proposed framework achieves superior performance than its counterparts for different scenarios. Additionally, we effectively improve the data quality of detected noisy clients' local datasets with our label correction framework. The code is available at https://github.com/Sprinter1999/FedELC. | 翻訳日:2024-08-09 16:08:12 公開日:2024-08-08 |
# トランストークン化と言語間語彙変換:低リソースNLPのためのLLMの言語適応
Trans-Tokenization and Cross-lingual Vocabulary Transfers: Language Adaptation of LLMs for Low-Resource NLP ( http://arxiv.org/abs/2408.04303v1 ) ライセンス: Link先を確認 | François Remy, Pieter Delobelle, Hayastan Avetisyan, Alfiya Khabibullina, Miryam de Lhoneux, Thomas Demeester, | (参考訳) 低級および中級の言語を対象としたモノリンガル言語モデルの開発は、高品質なトレーニングデータをソーシングすることの難しさに悩まされ続けている。
本研究では,この課題に対処し,より効率的な言語適応を実現するために,新たな言語間語彙移動戦略であるトランストークン化を提案する。
提案手法は,ソースコードからの意味論的に類似したトークン埋め込みの重み付け平均を用いて,ターゲット言語のトークン埋め込みを初期化することにより,高リソースのモノリンガルLLMを未知のターゲット言語に適応することに焦点を当てる。
このために、ソース言語とターゲット言語の両方をカバーする翻訳リソースを活用します。
提案手法を,トランストークン化 LLM のシリーズであるTweeties を用いて検証し,小型だが多種多様な言語を対象とした下流タスクにおける競合性能を示す。
さらに,複数のスワップ可能な言語モデリングヘッドと埋め込みテーブルを備えたモデルであるHydra LLMを導入し,トランストークン化戦略の能力をさらに拡張した。
マルチ言語モデルであるT TowerInstruct に基づくHydra LLMを設計することにより,高品質な並列データの必要性を完全に回避し,ゼロショット方式でタタールの最先端機械翻訳モデルを開発した。
このブレークスルーは、高品質の並列データを得るのが難しいTatarのような低リソース言語にとって、特に重要である。
高品質なモデルをトレーニングするためのデータと時間要件を下げることによって、我々のトランストークン化戦略は、より広い範囲の言語、特に限られたリソースを持つ言語のためのLLMの開発を可能にします。
我々は、言語間の語彙移動の分野におけるさらなる研究と協力を刺激し、グローバルなスケールでの言語の強化に貢献することを願っている。
The development of monolingual language models for low and mid-resource languages continues to be hindered by the difficulty in sourcing high-quality training data. In this study, we present a novel cross-lingual vocabulary transfer strategy, trans-tokenization, designed to tackle this challenge and enable more efficient language adaptation. Our approach focuses on adapting a high-resource monolingual LLM to an unseen target language by initializing the token embeddings of the target language using a weighted average of semantically similar token embeddings from the source language. For this, we leverage a translation resource covering both the source and target languages. We validate our method with the Tweeties, a series of trans-tokenized LLMs, and demonstrate their competitive performance on various downstream tasks across a small but diverse set of languages. Additionally, we introduce Hydra LLMs, models with multiple swappable language modeling heads and embedding tables, which further extend the capabilities of our trans-tokenization strategy. By designing a Hydra LLM based on the multilingual model TowerInstruct, we developed a state-of-the-art machine translation model for Tatar, in a zero-shot manner, completely bypassing the need for high-quality parallel data. This breakthrough is particularly significant for low-resource languages like Tatar, where high-quality parallel data is hard to come by. By lowering the data and time requirements for training high-quality models, our trans-tokenization strategy allows for the development of LLMs for a wider range of languages, especially those with limited resources. We hope that our work will inspire further research and collaboration in the field of cross-lingual vocabulary transfer and contribute to the empowerment of languages on a global scale. | 翻訳日:2024-08-09 16:08:12 公開日:2024-08-08 |
# デジタルエージェントによる学習 : 活動理論に基づく分析
Learning with Digital Agents: An Analysis based on the Activity Theory ( http://arxiv.org/abs/2408.04304v1 ) ライセンス: Link先を確認 | Mateusz Dolata, Dzmitry Katsiuba, Natalie Wellnhammer, Gerhard Schwabe, | (参考訳) デジタルエージェントは汎用技術と考えられている。
教育を含む私的・組織的な文脈で急速に広まった。
しかし、研究はそのようなエージェントとの相互作用を包括的に記述する概念的なフレーミングを欠いている。
学習者との自然言語対話が可能なデジタルエージェントである教育エージェントとのインタラクションに着目しながら,活動理論に基づく学習活動のモデルを提案する。
このモデルを用いて、教育におけるデジタルエージェントに関する先行研究のレビューを行い、教育エージェントや学習者の特徴、学習結果への影響など、活動の様々な特徴について分析する。
この分析は、教育エージェントやデジタルエージェント全般の開発者のためのIS研究の方向性とガイダンスの特定につながる。
我々は、活動理論に基づくモデルを教育の文脈を超えて拡張し、デジタルエージェントを作成する際に、デザイナーや研究者が正しい質問をするのにどのように役立つかを示す。
Digital agents are considered a general-purpose technology. They spread quickly in private and organizational contexts, including education. Yet, research lacks a conceptual framing to describe interaction with such agents in a holistic manner. While focusing on the interaction with a pedagogical agent, i.e., a digital agent capable of natural-language interaction with a learner, we propose a model of learning activity based on activity theory. We use this model and a review of prior research on digital agents in education to analyze how various characteristics of the activity, including features of a pedagogical agent or learner, influence learning outcomes. The analysis leads to identification of IS research directions and guidance for developers of pedagogical agents and digital agents in general. We conclude by extending the activity theory-based model beyond the context of education and show how it helps designers and researchers ask the right questions when creating a digital agent. | 翻訳日:2024-08-09 16:08:12 公開日:2024-08-08 |
# 部分的エキスパートチェックポイント:スパース・ミックス・オブ・エクササイズ・モデルトレーニングのための効率的なフォールトトレランス
Partial Experts Checkpoint: Efficient Fault Tolerance for Sparse Mixture-of-Experts Model Training ( http://arxiv.org/abs/2408.04307v1 ) ライセンス: Link先を確認 | Weilin Cai, Le Qin, Jiayi Huang, | (参考訳) 大規模言語モデルが拡大を続けるにつれて、分散ディープラーニングシステムにおけるフォールトトレランスの必須条件が強化され、AIインフラストラクチャ研究の焦点となる。
チェックポイントは耐障害性の主要な戦略として現れ、その効率を最適化するための広範な研究がなされている。
しかし、Sparse Mixture-of-Experts(MoE)モデルの出現は、高密度モデルに対する計算要求に匹敵するにもかかわらず、モデルサイズが大幅に増加するため、従来のチェックポイント技術に新たな課題をもたらす。
モデルトレーニングにおける効率的な耐故障性という領域の新たな基盤を打破し、対応するPEC耐故障システムと並行して、新しい部分エキスパートチェックポイント(PEC)機構を導入する。
提案手法は,専門家の選抜したサブセットを戦略的にチェックポイントし,MoEモデルのチェックポイントサイズを高密度モデルに匹敵するレベルに大幅に削減する。
8-expert GPT-MoEモデルの実証分析により,提案手法は最終モデルの品質を損なうことなく,非冗長チェックポイント(データ並列複製なし)のサイズを54.2%減少させることを示した。
さらに,本システムでは,データ並列分散ランク当たりのチェックポイント負荷を76.9%削減し,対応するチェックポイント時間を短縮し,トレーニングプロセスとの完全な重複を容易にする。
As large language models continue to scale up, the imperative for fault tolerance in distributed deep learning systems intensifies, becoming a focal area of AI infrastructure research. Checkpoint has emerged as the predominant fault tolerance strategy, with extensive studies dedicated to optimizing its efficiency. However, the advent of the sparse Mixture-of-Experts (MoE) model presents new challenges for traditional checkpoint techniques due to the substantial increase in model size, despite comparable computational demands to dense models. Breaking new ground in the realm of efficient fault tolerance for MoE model training, we introduce a novel Partial Experts Checkpoint (PEC) mechanism alongside a corresponding PEC fault-tolerant system. Our approach strategically checkpoints a selected subset of experts, thereby significantly reducing the checkpoint size for MoE models to a level comparable with that of dense models. The empirical analysis on our 8-expert GPT-MoE model demonstrates that the proposed PEC approach facilitates a substantial 54.2% decrease in the size of non-redundant checkpoint (no data-parallel duplication), without compromising the final model quality. Moreover, our PEC fault-tolerant system achieves a 76.9% reduction in checkpoint workload per data-parallel distributed rank, thereby correspondingly diminishing the checkpointing time and facilitating complete overlap with the training process. | 翻訳日:2024-08-09 16:08:12 公開日:2024-08-08 |
# TheGlueNote:ロバストでフレキシブルなノートアライメントのための学習された表現
TheGlueNote: Learned Representations for Robust and Flexible Note Alignment ( http://arxiv.org/abs/2408.04309v1 ) ライセンス: Link先を確認 | Silvan David Peter, Gerhard Widmer, | (参考訳) ノートアライメント(英: Noteアライメント)とは、同じ記号で符号化された2つのバージョンの個々の音符をマッチングするタスクである。
このタスクに対処する方法は、通常、ノートやオンセットシーケンスに直接適用される隠れマルコフモデルや動的時間ウォーピング(DTW)のようなシーケンスアライメントアルゴリズムに依存する。
多くの場合は成功したが、このような手法はバージョン間の大きなミスマッチに悩まされる。
本研究では,様々な複雑なミスマッチ,例えばリピート,スキップ,ブロック挿入,長いトリルを付加したデータからノートワイズ表現を学習する。
このアプローチの中心には、トランスフォーマーエンコーダネットワークであるTheGlueNoteがあります。
重み付きDTWとピッチ分離したonsetDTWのフレーバーを用いて予測類似性を後処理し,任意の長さの2列の音符一致を検索する。
我々の手法は、ノートアライメントの正確さの観点から最先端の手法と同等に動作し、バージョンミスマッチに対してかなり堅牢であり、MIDIファイルの任意のペアで直接動作する。
Note alignment refers to the task of matching individual notes of two versions of the same symbolically encoded piece. Methods addressing this task commonly rely on sequence alignment algorithms such as Hidden Markov Models or Dynamic Time Warping (DTW) applied directly to note or onset sequences. While successful in many cases, such methods struggle with large mismatches between the versions. In this work, we learn note-wise representations from data augmented with various complex mismatch cases, e.g. repeats, skips, block insertions, and long trills. At the heart of our approach lies a transformer encoder network - TheGlueNote - which predicts pairwise note similarities for two 512 note subsequences. We postprocess the predicted similarities using flavors of weightedDTW and pitch-separated onsetDTW to retrieve note matches for two sequences of arbitrary length. Our approach performs on par with the state of the art in terms of note alignment accuracy, is considerably more robust to version mismatches, and works directly on any pair of MIDI files. | 翻訳日:2024-08-09 16:08:12 公開日:2024-08-08 |
# 垂直的フェデレーション学習における逆例の構成:マルチアーマッドバンドによる最適クライアント破壊
Constructing Adversarial Examples for Vertical Federated Learning: Optimal Client Corruption through Multi-Armed Bandit ( http://arxiv.org/abs/2408.04310v1 ) ライセンス: Link先を確認 | Duanyi Yao, Songze Li, Ye Xue, Jin Liu, | (参考訳) それぞれのクライアントがデータ機能のサブセットを持っている垂直連合学習(VFL)は、ファイナンス、ヘルスケア、IoTシステムで多くのアプリケーションを見つけている。
しかしながら、敵対的攻撃、特に敵対的事例(AE)の注入は、VFLモデルの安全性に深刻な課題をもたらす。
本稿では,クライアントのサブセットを適応的に破壊できる現実的なシナリオの下で,VFL推論プロセスを破壊する新たな攻撃を開発することにより,このような脆弱性を調査する。
本稿では,オンライン最適化問題として最適攻撃戦略を求める問題を,敵対的事例生成(AEG)の内的問題と汚職パターン選択(CPS)の外的問題に分解する。
具体的には、定式化されたCPS問題とマルチアームバンディット(MAB)問題との等価性を確立し、敵に対するE-TSアルゴリズムを用いたトンプソンサンプリングを提案し、クライアントの汚職に対する最適なサブセットを効率的に同定する。
E-TSの鍵となる考え方は、各アームに対して期待される最大報酬の見積もりを導入することである。
これにより、探索スペースが大幅に減少し、クライアントの数が増加するにつれて、さもなければ違法に大きくなる可能性がある。
我々は,E-TSの残忍な境界を解析的に特徴付け,最も高い攻撃成功率で最適な汚職パターンを効率的に明らかにする能力を,VFLタスクの様々なデータセットで実証的に示す。
Vertical federated learning (VFL), where each participating client holds a subset of data features, has found numerous applications in finance, healthcare, and IoT systems. However, adversarial attacks, particularly through the injection of adversarial examples (AEs), pose serious challenges to the security of VFL models. In this paper, we investigate such vulnerabilities through developing a novel attack to disrupt the VFL inference process, under a practical scenario where the adversary is able to adaptively corrupt a subset of clients. We formulate the problem of finding optimal attack strategies as an online optimization problem, which is decomposed into an inner problem of adversarial example generation (AEG) and an outer problem of corruption pattern selection (CPS). Specifically, we establish the equivalence between the formulated CPS problem and a multi-armed bandit (MAB) problem, and propose the Thompson sampling with Empirical maximum reward (E-TS) algorithm for the adversary to efficiently identify the optimal subset of clients for corruption. The key idea of E-TS is to introduce an estimation of the expected maximum reward for each arm, which helps to specify a small set of competitive arms, on which the exploration for the optimal arm is performed. This significantly reduces the exploration space, which otherwise can quickly become prohibitively large as the number of clients increases. We analytically characterize the regret bound of E-TS, and empirically demonstrate its capability of efficiently revealing the optimal corruption pattern with the highest attack success rate, under various datasets of popular VFL tasks. | 翻訳日:2024-08-09 16:08:12 公開日:2024-08-08 |
# AIシステム開発を理解する
Making sense of AI systems development ( http://arxiv.org/abs/2408.04311v1 ) ライセンス: Link先を確認 | Mateusz Dolata, Kevin Crowston, | (参考訳) 我々は、IBMやクライアント企業が実施したプロジェクトにおいて、現代のAIベースのシステム開発における課題に関するセンスメイキングのエピソードを特定し、記述する。
すべてのプロジェクトは、AIベースのソリューションを構築するための開発プラットフォームとしてIBM Watsonを使用しており、クライアント企業の労働者や顧客を支援していた。
しかし、多くのプロジェクトは、IBMとそのクライアントが予想していたよりもはるかに難しいことが判明した。
この分析によると、プロジェクトメンバーは、技術、プロジェクト、コンテキスト、そして実行すべきデータについて信頼できる意味を確立するのに苦労している。
プロジェクトメンバーはプロジェクトの複数の側面を報告します。
多くの問題は、大規模なデータセットへの依存や、より多くのデータが利用可能になるにつれて継続的な改善など、現在のAI固有の特性に対処する。
これらの特徴はプロジェクトの複雑さを高め、予期しない問題を避けるためにバランスのとれたマインドフルネスを求める。
We identify and describe episodes of sensemaking around challenges in modern AI-based systems development that emerged in projects carried out by IBM and client companies. All projects used IBM Watson as the development platform for building tailored AI-based solutions to support workers or customers of the client companies. Yet, many of the projects turned out to be significantly more challenging than IBM and its clients had expected. The analysis reveals that project members struggled to establish reliable meanings about the technology, the project, context, and data to act upon. The project members report multiple aspects of the projects that they were not expecting to need to make sense of yet were problematic. Many issues bear upon the current-generation AI's inherent characteristics, such as dependency on large data sets and continuous improvement as more data becomes available. Those characteristics increase the complexity of the projects and call for balanced mindfulness to avoid unexpected problems. | 翻訳日:2024-08-09 16:08:12 公開日:2024-08-08 |
# Qonductorによる量子クラウド環境のオーケストレーション
Orchestrating Quantum Cloud Environments with Qonductor ( http://arxiv.org/abs/2408.04312v1 ) ライセンス: Link先を確認 | Emmanouil Giortamis, Francisco Romão, Nathaniel Tornow, Dmitry Lugovoy, Pramod Bhatotia, | (参考訳) 異種ハイブリッドリソース上で動作するハイブリッド量子古典アプリケーションのためのクラウドオーケストレータであるQonductorについて述べる。
Qonductorは、ハイブリッドアプリケーション開発と実行をカスタマイズ可能な高レベルかつハードウェアに依存しないAPIであるQonductor~API$を公開し、ハイブリッドリソース管理の複雑さを抽象化する。
ハイブリッドリソース管理をガイドするために、$resource~estimator$は、リソース計画の生成と提供のために、実行の忠実さとランタイムを正確に見積もる。
この$hybrid~scheduler$は、ハイブリッドリソース上のジョブスケジューリングを自動化するリソースプランを活用し、高い忠実度と低ランタイムのユーザの目標と、リソース効率のクラウドオペレータの目標とのトレードオフをバランスさせる。
当社は、Kubernetes上に構築したQonductorのオープンソースプロトタイプを実装し、実際のクラウドワークロードをシミュレートするために、IBM量子クラウド上で7000以上の実際の量子実行を使用して評価します。
Qonductorは6\%の忠実さを犠牲にして最大54\%のジョブ完了時間(JCT)を実現し、QPU全体の負荷をバランスさせ、量子リソースの利用を最大66\%増加させ、システムサイズと負荷の増加とともにスケールする。
We describe Qonductor, a cloud orchestrator for hybrid quantum-classical applications that run on heterogeneous hybrid resources. Qonductor exposes the $Qonductor~API$, a high-level and hardware-agnostic API for customizable hybrid application development and execution, that abstracts away the complexity of hybrid resource management. To guide hybrid resource management, the $resource~estimator$ accurately estimates execution fidelity and runtime to generate and offer resource plans. The $hybrid~scheduler$ leverages the resource plans to automate job scheduling on hybrid resources and balance the tradeoff between users' objectives of high fidelity and low runtimes and the cloud operator's objective of resource efficiency. We implement an open-source prototype of Qonductor by building on top of Kubernetes and evaluate it using more than 7000 real quantum runs on the IBM quantum cloud to simulate real cloud workloads. Qonductor achieves up to 54\% lower job completion times (JCTs) while sacrificing 6\% fidelity, balances the load across QPU which increases quantum resource utilization by up to 66\%, and scales with increasing system sizes and loads. | 翻訳日:2024-08-09 16:08:12 公開日:2024-08-08 |
# ユーザ当たりのサンプル数を考慮したローカル・プライベート・スパース推定
Better Locally Private Sparse Estimation Given Multiple Samples Per User ( http://arxiv.org/abs/2408.04313v1 ) ライセンス: Link先を確認 | Yuheng Ma, Ke Jia, Hanfang Yang, | (参考訳) 従来の研究では、$s^*$-sparsityの仮定でアイテムレベルの局所微分線型回帰に対して、$nm$サンプルの最小値は$\mathcal{O}(s^{*}d / nm\varepsilon^2)$である。
これは、次元$d$が極端に大きい高次元データにとって困難である。
本研究では,ユーザレベルの局所微分型プライベートスパース線形回帰について検討する。
それぞれ$m$のサンプルを提供する$n$のユーザの場合、$d$の線形依存は排除され、エラー上限は$\mathcal{O}(s^{*2} / nm\varepsilon^2)$となる。
本稿では,まず候補変数を選択し,次に狭い低次元空間で推定を行うフレームワークを提案する。
合成データセットと実データセットの両方の実験は、提案手法の優位性を実証している。
理論的および実証的な結果は、同じサンプル数で、複数のサンプルが利用できる場合に、局所的なプライベートスパース推定がより良く行われることを示唆している。
Previous studies yielded discouraging results for item-level locally differentially private linear regression with $s^*$-sparsity assumption, where the minimax rate for $nm$ samples is $\mathcal{O}(s^{*}d / nm\varepsilon^2)$. This can be challenging for high-dimensional data, where the dimension $d$ is extremely large. In this work, we investigate user-level locally differentially private sparse linear regression. We show that with $n$ users each contributing $m$ samples, the linear dependency of dimension $d$ can be eliminated, yielding an error upper bound of $\mathcal{O}(s^{*2} / nm\varepsilon^2)$. We propose a framework that first selects candidate variables and then conducts estimation in the narrowed low-dimensional space, which is extendable to general sparse estimation problems with tight error bounds. Experiments on both synthetic and real datasets demonstrate the superiority of the proposed methods. Both the theoretical and empirical results suggest that, with the same number of samples, locally private sparse estimation is better conducted when multiple samples per user are available. | 翻訳日:2024-08-09 16:08:12 公開日:2024-08-08 |
# スパシフィケーションを増幅した微分プライバシによる正則化立方形ニュートン学習
Federated Cubic Regularized Newton Learning with Sparsification-amplified Differential Privacy ( http://arxiv.org/abs/2408.04315v1 ) ライセンス: Link先を確認 | Wei Huo, Changxin Liu, Kemi Ding, Karl Henrik Johansson, Ling Shi, | (参考訳) 本稿では,連合学習フレームワークにおける3次規則化ニュートン法の利用について検討するとともに,連合学習において一般的に発生する2つの主要な懸念,すなわちプライバシリークと通信ボトルネックに対処する。
そこで本稿では,DP-FCRN (Disferially Private Federated Cubic Regularized Newton) というフェデレーション学習アルゴリズムを提案する。
2次手法を活用することにより,本アルゴリズムは1次手法に比べてイテレーションの複雑さを小さくする。
また、プライバシーを確保するために、局所的な計算中にノイズの摂動も取り入れる。
また,通信コストの削減だけでなく,プライバシー保証の強化も図っている。
具体的には、プライバシー保護を損なうことなく、必要なノイズ強度を減らす。
我々は,アルゴリズムの収束特性を分析し,プライバシ保証を確立する。
最後に,提案アルゴリズムの有効性をベンチマークデータセットを用いて検証した。
This paper investigates the use of the cubic-regularized Newton method within a federated learning framework while addressing two major concerns that commonly arise in federated learning: privacy leakage and communication bottleneck. We introduce a federated learning algorithm called Differentially Private Federated Cubic Regularized Newton (DP-FCRN). By leveraging second-order techniques, our algorithm achieves lower iteration complexity compared to first-order methods. We also incorporate noise perturbation during local computations to ensure privacy. Furthermore, we employ sparsification in uplink transmission, which not only reduces the communication costs but also amplifies the privacy guarantee. Specifically, this approach reduces the necessary noise intensity without compromising privacy protection. We analyze the convergence properties of our algorithm and establish the privacy guarantee. Finally, we validate the effectiveness of the proposed algorithm through experiments on a benchmark dataset. | 翻訳日:2024-08-09 16:08:12 公開日:2024-08-08 |
# Project Archetypes: AI開発のための祝福とカース
Project Archetypes: A Blessing and a Curse for AI Development ( http://arxiv.org/abs/2408.04317v1 ) ライセンス: Link先を確認 | Mateusz Dolata, Kevin Crowston, Gerhard Schwabe, | (参考訳) ソフトウェアプロジェクトは、私たちがプロジェクトアーチタイプと呼ぶもの、すなわち、プロジェクトの動作方法に関する既存のメンタルイメージに依存しています。
責任、計画、あるいは期待の分散をガイドします。
しかし、技術が進歩すると、プロジェクトアーチタイプはより適切なアプローチを妨げることによって時代遅れになり、効果が無く、あるいは非生産的になる可能性がある。
ソフトウェア開発プロジェクトのアーキタイプを理解することは、その潜在能力を活用するための中核である。
機械学習と人工知能を用いたアプリケーションの開発は、既存のアーチタイプが時代遅れになり、疑問を呈し、適応し、置き換える必要がある状況を提供する。
我々は、IBM Watsonとクライアント企業の間の21のプロジェクトからの36のインタビューを分析し、プロジェクトを理解するのに最初に使われた4人のプロジェクトアーチタイプメンバーを特定した。
そして、インタビューから新しいプロジェクトアーカイタイプ、認知コンピューティングプロジェクトを導きました。
AI開発プラットフォームに基づいた将来の開発プロジェクトを通知することができる。
プロジェクトリーダーは、プロジェクトのアーキタイプを積極的に管理し、研究者は、ソフトウェアプロジェクトの最初の理解のガイドとなるものを調査する必要がある。
Software projects rely on what we call project archetypes, i.e., pre-existing mental images of how projects work. They guide distribution of responsibilities, planning, or expectations. However, with the technological progress, project archetypes may become outdated, ineffective, or counterproductive by impeding more adequate approaches. Understanding archetypes of software development projects is core to leverage their potential. The development of applications using machine learning and artificial intelligence provides a context in which existing archetypes might outdate and need to be questioned, adapted, or replaced. We analyzed 36 interviews from 21 projects between IBM Watson and client companies and identified four project archetypes members initially used to understand the projects. We then derive a new project archetype, cognitive computing project, from the interviews. It can inform future development projects based on AI-development platforms. Project leaders should proactively manage project archetypes while researchers should investigate what guides initial understandings of software projects. | 翻訳日:2024-08-09 16:08:12 公開日:2024-08-08 |
# 腎癌診断のためのDeep Transfer Learning
Deep Transfer Learning for Kidney Cancer Diagnosis ( http://arxiv.org/abs/2408.04318v1 ) ライセンス: Link先を確認 | Yassine Habchi, Hamza Kheddar, Yassine Himeur, Abdelkrim Boukabou, Shadi Atalla, Wathiq Mansoor, Hussain Al-Ahmad, | (参考訳) 世界的な社会で流行する多くの不治の病気は、生活様式の選択、経済状況、社会的要因、遺伝学など様々な影響を受けている。
研究は主に、死を減らし、治療オプションを強化し、医療基準を改善することを目的として、これらの病気に焦点を絞っている。
このうち、腎臓病は世界中で男性や女性に特に重篤な症状である。
それにもかかわらず、これらの疾患に対するより効果的な治療法を開発するために、革新的な早期診断方法に関する継続的な研究の必要性が高まっている。
近年,医学データセットのトレーニングの重要性から,特にディープラーニング(DL)を用いた場合,腎癌の自動診断が重要な課題となっている。
さらに、ほとんどの場合、アルゴリズムは同じドメインからのデータと効率的なストレージ容量を持つ強力なコンピュータを必要とする。
この問題を克服するために、他の様々な事前学習データに基づいて印象的な結果が得られる、トランスファーラーニング(TL)と呼ばれる新しいタイプの学習法が提案されている。
本報告では, 腎癌診断のためのDL-based TL フレームワークについて, 著者の知る限り, 総括的調査を行った。
これは、研究者がこのトピックの現在の課題と視点を理解するのに役立つ強力な貢献である。
したがって、各フレームワークの主な制限と利点が特定され、詳細な批判分析が提供される。
この記事は、今後の研究の今後の方向性を明らかにしている。
この議論は、精密医療の発展におけるTLの役割と、その臨床実践と腫瘍学研究への影響を反映して進められている。
Many incurable diseases prevalent across global societies stem from various influences, including lifestyle choices, economic conditions, social factors, and genetics. Research predominantly focuses on these diseases due to their widespread nature, aiming to decrease mortality, enhance treatment options, and improve healthcare standards. Among these, kidney disease stands out as a particularly severe condition affecting men and women worldwide. Nonetheless, there is a pressing need for continued research into innovative, early diagnostic methods to develop more effective treatments for such diseases. Recently, automatic diagnosis of Kidney Cancer has become an important challenge especially when using deep learning (DL) due to the importance of training medical datasets, which in most cases are difficult and expensive to obtain. Furthermore, in most cases, algorithms require data from the same domain and a powerful computer with efficient storage capacity. To overcome this issue, a new type of learning known as transfer learning (TL) has been proposed that can produce impressive results based on other different pre-trained data. This paper presents, to the best of the authors' knowledge, the first comprehensive survey of DL-based TL frameworks for kidney cancer diagnosis. This is a strong contribution to help researchers understand the current challenges and perspectives of this topic. Hence, the main limitations and advantages of each framework are identified and detailed critical analyses are provided. Looking ahead, the article identifies promising directions for future research. Moving on, the discussion is concluded by reflecting on the pivotal role of TL in the development of precision medicine and its effects on clinical practice and research in oncology. | 翻訳日:2024-08-09 16:08:12 公開日:2024-08-08 |
# ローレント多項式を用いたQSPプロセッシングにおけるほとんど無害法
Mostly Harmless Methods for QSP-Processing with Laurent Polynomials ( http://arxiv.org/abs/2408.04321v1 ) ライセンス: Link先を確認 | S. E. Skelton, | (参考訳) 量子信号処理(QSP)とその拡張は、量子アルゴリズムを開発するための人気フレームワークである。
しかし、QSPの実装は、QSP回路を定義するSU(2)$回転行列の集合を決定する古典的な前処理ステップ(「QSP処理」)を完成させるのに依然として苦労している。
本稿では,最適化や根のフィニングを伴わない解を同定し,浮動小数点精度係数を特徴とする多項式を用いたQSP処理手法を提案する。
QSPハミルトニアン・シミュレーションで用いられるジャコビ・アンガー展開を含む,関連する対象多項式と精度体系に対する我々の手法の成功を実証する。
符号関数と逆関数近似の一般的な選択については、任意の精度の算術を使わずに、既知の全てのQSP処理手法が競合することを期待する規則を特徴付ける。
Quantum signal processing (QSP) and its extensions are increasingly popular frameworks for developing quantum algorithms. Yet QSP implementations still struggle to complete a classical pre-processing step ('QSP-processing') that determines the set of $SU(2)$ rotation matrices defining the QSP circuit. We introduce a method of QSP-processing for complex polynomials that identifies a solution without optimization or root-finding and verify the success of our methods with polynomials characterized by floating point precision coefficients. We demonstrate the success of our technique for relevant target polynomials and precision regimes, including the Jacobi-Anger expansion used in QSP Hamiltonian Simulation. For popular choices of sign and inverse function approximations, we characterize regimes where all known QSP-processing methods should be expected to struggle without arbitrary precision arithmetic. | 翻訳日:2024-08-09 15:58:21 公開日:2024-08-08 |
# HydraFormer:全サブサンプルレートのエンコーダ
HydraFormer: One Encoder For All Subsampling Rates ( http://arxiv.org/abs/2408.04325v1 ) ライセンス: Link先を確認 | Yaoxun Xu, Xingchen Song, Zhiyong Wu, Di Wu, Zhendong Peng, Binbin Zhang, | (参考訳) 音声認識では,多様なシナリオに対処するために,サブサンプリングが不可欠である。
しかし、様々な現実世界の状況に対処するための単一のサブサンプリングレートの不十分さは、トレーニングと複数のモデルのデプロイを必要とし、結果として関連するコストが増大する。
この問題に対処するために,HydraSub, Conformerベースのエンコーダ, BiTransformerベースのデコーダからなるHydraFormerを提案する。
HydraSubは複数のブランチを含み、それぞれが異なるサブサンプリング率を表しており、特定のユースケースに基づいて推論中に任意のブランチを柔軟に選択することができる。
HydraFormerは、異なるサブサンプリング率を効率的に管理でき、トレーニングとデプロイメントのコストを大幅に削減できる。
AISHELL-1とLibriSpeechデータセットの実験により、HydraFormerは高い認識性能を維持しながら、様々なサブサンプリングレートや言語に効果的に適応できることが判明した。
さらに、HydraFormerは例外的な安定性を示し、様々な初期化条件下で一貫したパフォーマンスを維持し、事前訓練された単一サブサンプリングレートの自動音声認識モデルから学習することで堅牢な転送性を示す。
In automatic speech recognition, subsampling is essential for tackling diverse scenarios. However, the inadequacy of a single subsampling rate to address various real-world situations often necessitates training and deploying multiple models, consequently increasing associated costs. To address this issue, we propose HydraFormer, comprising HydraSub, a Conformer-based encoder, and a BiTransformer-based decoder. HydraSub encompasses multiple branches, each representing a distinct subsampling rate, allowing for the flexible selection of any branch during inference based on the specific use case. HydraFormer can efficiently manage different subsampling rates, significantly reducing training and deployment expenses. Experiments on AISHELL-1 and LibriSpeech datasets reveal that HydraFormer effectively adapts to various subsampling rates and languages while maintaining high recognition performance. Additionally, HydraFormer showcases exceptional stability, sustaining consistent performance under various initialization conditions, and exhibits robust transferability by learning from pretrained single subsampling rate automatic speech recognition models\footnote{Model code and scripts: https://github.com/HydraFormer/hydraformer}. | 翻訳日:2024-08-09 15:58:21 公開日:2024-08-08 |
# 有能な物体検出のためのマルチスケール・詳細拡張セグメンテーションモデル
Multi-Scale and Detail-Enhanced Segment Anything Model for Salient Object Detection ( http://arxiv.org/abs/2408.04326v1 ) ライセンス: Link先を確認 | Shixuan Gao, Pingping Zhang, Tianyu Yan, Huchuan Lu, | (参考訳) Salient Object Detection (SOD) は、画像中の最も顕著なオブジェクトを識別し、セグメント化することを目的としている。
高度なSOD法は、様々な畳み込みニューラルネットワーク(CNN)や変換器を深い特徴抽出に利用することが多い。
しかし、これらの手法は複雑な場合においても低い性能と低い一般化をもたらす。
近年,Segment Anything Model (SAM) は視覚的基本モデルとして提案され,強力なセグメンテーションと一般化機能を提供している。
それでもSAMは、SODでは利用できないターゲットオブジェクトの正確なプロンプトを必要とする。
さらにSAMには、マルチスケールおよびマルチレベル情報の利用や、きめ細かい詳細情報の導入が欠如している。
これらの欠点に対処するため,SODのためのMDSAM(Multi-scale and Detail-enhanced SAM)を提案する。
具体的には、まず軽量マルチスケール適応器(LMSA)を導入し、SAMがトレーニング可能なパラメータをほとんど持たずにマルチスケール情報を学習できるようにする。
そこで本研究では,SAMエンコーダのマルチレベル情報を包括的に利用するマルチレベル核融合モジュール(MLFM)を提案する。
最後に、SAMを細かな詳細に組み込むための詳細拡張モジュール(DEM)を提案する。
実験により、複数のSODデータセット上でのモデルの性能と、他のセグメンテーションタスクに対する強力な一般化が示された。
ソースコードはhttps://github.com/BellyBeauty/MDSAMで公開されている。
Salient Object Detection (SOD) aims to identify and segment the most prominent objects in images. Advanced SOD methods often utilize various Convolutional Neural Networks (CNN) or Transformers for deep feature extraction. However, these methods still deliver low performance and poor generalization in complex cases. Recently, Segment Anything Model (SAM) has been proposed as a visual fundamental model, which gives strong segmentation and generalization capabilities. Nonetheless, SAM requires accurate prompts of target objects, which are unavailable in SOD. Additionally, SAM lacks the utilization of multi-scale and multi-level information, as well as the incorporation of fine-grained details. To address these shortcomings, we propose a Multi-scale and Detail-enhanced SAM (MDSAM) for SOD. Specifically, we first introduce a Lightweight Multi-Scale Adapter (LMSA), which allows SAM to learn multi-scale information with very few trainable parameters. Then, we propose a Multi-Level Fusion Module (MLFM) to comprehensively utilize the multi-level information from the SAM's encoder. Finally, we propose a Detail Enhancement Module (DEM) to incorporate SAM with fine-grained details. Experimental results demonstrate the superior performance of our model on multiple SOD datasets and its strong generalization on other segmentation tasks. The source code is released at https://github.com/BellyBeauty/MDSAM. | 翻訳日:2024-08-09 15:58:21 公開日:2024-08-08 |
# オープン量子システムのユニバーサルクエンチダイナミクス
Universal Quench Dynamics of an Open Quantum System ( http://arxiv.org/abs/2408.04329v1 ) ライセンス: Link先を確認 | Chengxiang Ding, Long Zhang, | (参考訳) 量子北エブ連鎖を例として、環境温度クエンチ条件下での量子臨界から生じる普遍的動的挙動について検討した。
その結果, 量子パラメータが臨界値である場合, 線形クエンチの終端における過剰励起密度とその後の自由緩和挙動の両方が普遍的なスケーリング挙動を示すことがわかった。
ゼロ温度臨界点と非ゼロ温度点への加熱で観測されるスケーリング法則は、それぞれ異なるスケーリング指数を示し、これらは全て量子相転移の動的臨界指数と密接に関連している。
さらに、線形クエンチから有限温度の場合、量子臨界性に依存しない固有普遍力学挙動も発見されている。
我々の研究は、2つの観点から量子臨界性と非平衡力学の関係について深い洞察を与えている。
特に、この文脈におけるKibble-Zurekのようなスケーリングの挙動は、標準のKibble-Zurekメカニズムとは異なる。
これら2つの側面は、有限温度でもリアルタイムな動的挙動を通じて量子臨界を理解するための新しい道を開く。
Taking the quantum Kitaev chain as an example, we have studied the universal dynamical behaviors resulting from quantum criticality under the condition of environmental temperature quench. Our findings reveal that when the quantum parameter is at its critical value, both the excess excitation density at the end of linear quench and the subsequent free relaxation behavior exhibit universal scaling behaviors. The scaling laws observed upon quenching to the zero-temperature quantum critical point and non-zero temperature points exhibit distinct scaling exponents, which are all intimately related to the dynamical critical exponents of the quantum phase transition. Additionally, for the case of linear quench to finite temperatures, we have also discovered an intrinsic universal dynamical behavior that is independent of quantum criticality. Our research offers profound insights into the relationship between quantum criticality and nonequilibrium dynamics from two perspectives: Kibble-Zurek-like scaling behavior and free relaxation dynamics. Notably, the Kibble-Zurek-like scaling behavior in this context differs from the standard Kibble-Zurek mechanism. These two aspects jointly open up a new avenue for us to understand quantum criticality through real-time dynamical behavior, even at finite temperatures. | 翻訳日:2024-08-09 15:58:21 公開日:2024-08-08 |
# AIによるジャーナリズムの強化:LLMとLMMを用いたニュース記事のコンテクスト化画像キャプションに関する研究
Enhancing Journalism with AI: A Study of Contextualized Image Captioning for News Articles using LLMs and LMMs ( http://arxiv.org/abs/2408.04331v1 ) ライセンス: Link先を確認 | Aliki Anagnostopoulou, Thiago Gouvea, Daniel Sonntag, | (参考訳) 大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)は、AIコミュニティ、産業、および様々な経済セクターに大きな影響を与えている。
ジャーナリズムにおいて、AIの統合は、特にニュースレポートの品質と効率を高める上で、ユニークな課題と機会をもたらす。
本研究では,LLMとLMMが,ニュース記事に付随する画像の文脈的キャプションを生成することによって,ジャーナリストの実践を支援する方法について検討する。
我々はGoodNewsデータセットを用いて、LMM(BLIP-2, GPT-4v, LLaVA)の2種類のコンテキストを組み込む能力を評価する実験を行った。
さらに,キャプションモデル(BLIP-2,OFA,VT-GPT2)とLLM(GPT-4,LLaMA)を併用した2段階パイプラインとの比較を行った。
モデルの多様性を評価し、文脈化モデルの選択が2段階のパイプラインにとって重要な要素であることに気付きましたが、小型のオープンソースモデルがプロプライエタリなGPTモデルと比較してうまく機能するLMMではそうではありません。
さらに、提供されたコンテキスト量を制御することで、パフォーマンスが向上することがわかった。
これらの結果は、完全に自動化されたアプローチの限界を強調し、インタラクティブで人力によるループ戦略の必要性を浮き彫りにしている。
Large language models (LLMs) and large multimodal models (LMMs) have significantly impacted the AI community, industry, and various economic sectors. In journalism, integrating AI poses unique challenges and opportunities, particularly in enhancing the quality and efficiency of news reporting. This study explores how LLMs and LMMs can assist journalistic practice by generating contextualised captions for images accompanying news articles. We conducted experiments using the GoodNews dataset to evaluate the ability of LMMs (BLIP-2, GPT-4v, or LLaVA) to incorporate one of two types of context: entire news articles, or extracted named entities. In addition, we compared their performance to a two-stage pipeline composed of a captioning model (BLIP-2, OFA, or ViT-GPT2) with post-hoc contextualisation with LLMs (GPT-4 or LLaMA). We assess a diversity of models, and we find that while the choice of contextualisation model is a significant factor for the two-stage pipelines, this is not the case in the LMMs, where smaller, open-source models perform well compared to proprietary, GPT-powered ones. Additionally, we found that controlling the amount of provided context enhances performance. These results highlight the limitations of a fully automated approach and underscore the necessity for an interactive, human-in-the-loop strategy. | 翻訳日:2024-08-09 15:58:21 公開日:2024-08-08 |
# KnowPC:ゼロショットコーディネーションのための知識駆動型プログラム強化学習
KnowPC: Knowledge-Driven Programmatic Reinforcement Learning for Zero-shot Coordination ( http://arxiv.org/abs/2408.04336v1 ) ライセンス: Link先を確認 | Yin Gu, Qi Liu, Zhi Li, Kai Zhang, | (参考訳) ゼロショットコーディネート(ZSC)は、トレーニング環境や新しい環境において、見えないパートナーと協力するエージェントを学ぶことを目的とした、AI分野における大きな課題である。
近年、人気のあるZSCソリューションパラダイムは、未確認のパートナーを扱う神経政策の能力を高めるための高度な自己プレイまたは人口ベースの手法と組み合わせて、深層強化学習(DRL)である。
いくつかの成功にもかかわらず、これらのアプローチは通常、ポリシー機能としてブラックボックスニューラルネットワークに依存している。
しかし、ニューラルネットワークは一般的に解釈可能性と論理を欠いているため、学習されたポリシーは、パートナー(例えば人間)が一般化能力を理解して制限することを困難にしている。
これらの欠点は, 多様な協調シナリオにおける強化学習手法の適用を阻害するものであり, エージェントの政策を解釈可能なプログラムで表現することを提案する。
ニューラルネットワークとは異なり、プログラムには安定な論理が含まれているが、それらは微分不可能で最適化が難しいため、そのようなプログラムを自動的に学習するために、ゼロショットコーディネーション(KnowPC)のための知識駆動型プログラム強化学習を導入する。
まず、プログラム構造、条件付きプリミティブ、アクションプリミティブを含む基礎的なドメイン特化言語(DSL)を定義します。
重要な課題は、膨大なプログラム検索スペースであり、高性能なプログラムを効率的に見つけることは困難である。
この問題を解決するために、KnowPCは抽出器と推論器を統合する。
抽出器は、多エージェント相互作用軌跡から環境遷移知識を発見し、推論器は、遷移知識に基づいて、各アクションプリミティブの前提条件を推定する。
Zero-shot coordination (ZSC) remains a major challenge in the cooperative AI field, which aims to learn an agent to cooperate with an unseen partner in training environments or even novel environments. In recent years, a popular ZSC solution paradigm has been deep reinforcement learning (DRL) combined with advanced self-play or population-based methods to enhance the neural policy's ability to handle unseen partners. Despite some success, these approaches usually rely on black-box neural networks as the policy function. However, neural networks typically lack interpretability and logic, making the learned policies difficult for partners (e.g., humans) to understand and limiting their generalization ability. These shortcomings hinder the application of reinforcement learning methods in diverse cooperative scenarios.We suggest to represent the agent's policy with an interpretable program. Unlike neural networks, programs contain stable logic, but they are non-differentiable and difficult to optimize.To automatically learn such programs, we introduce Knowledge-driven Programmatic reinforcement learning for zero-shot Coordination (KnowPC). We first define a foundational Domain-Specific Language (DSL), including program structures, conditional primitives, and action primitives. A significant challenge is the vast program search space, making it difficult to find high-performing programs efficiently. To address this, KnowPC integrates an extractor and an reasoner. The extractor discovers environmental transition knowledge from multi-agent interaction trajectories, while the reasoner deduces the preconditions of each action primitive based on the transition knowledge. | 翻訳日:2024-08-09 15:58:20 公開日:2024-08-08 |
# 構造情報融合による自己監督型コントラストグラフクラスタリングネットワーク
Self-Supervised Contrastive Graph Clustering Network via Structural Information Fusion ( http://arxiv.org/abs/2408.04339v1 ) ライセンス: Link先を確認 | Xiaoyang Ji, Yuchen Zhou, Haofu Yang, Shiyue Xu, Jiahao Li, | (参考訳) グラフ学習における古典的なタスクであるグラフクラスタリングでは、グラフのノードを別のクラスタに分割する。
このタスクは、異常検出、ソーシャルネットワーク分析、コミュニティ発見など、さまざまな現実シナリオに応用されている。
現在のグラフクラスタリング手法は、モデルに対する信頼性の高い事前分布を得るために、モジュール事前学習に依存しており、最適化の目的として使用される。
しかし、これらの手法は、しばしばより深い教師付き信号を見落とし、以前の分布の準最適信頼性をもたらす。
そこで本研究では,CGCNと呼ばれる新しいディープグラフクラスタリング手法を提案する。
提案手法では,事前学習プロセスにコントラスト信号と深部構造情報を導入している。
具体的には、CGCNは対照的な学習機構を使用して、複数のモジュール間の情報相互運用性を促進し、異なる順序構造に対する情報集約の度合いを適応的に調整することができる。
我々のCGCN法は,複数の実世界のグラフデータセットに対して実験的に検証され,事前学習により得られたクラスタリング分布の信頼性を高める能力を示している。
その結果,モデルの性能は顕著に向上した。
Graph clustering, a classical task in graph learning, involves partitioning the nodes of a graph into distinct clusters. This task has applications in various real-world scenarios, such as anomaly detection, social network analysis, and community discovery. Current graph clustering methods commonly rely on module pre-training to obtain a reliable prior distribution for the model, which is then used as the optimization objective. However, these methods often overlook deeper supervised signals, leading to sub-optimal reliability of the prior distribution. To address this issue, we propose a novel deep graph clustering method called CGCN. Our approach introduces contrastive signals and deep structural information into the pre-training process. Specifically, CGCN utilizes a contrastive learning mechanism to foster information interoperability among multiple modules and allows the model to adaptively adjust the degree of information aggregation for different order structures. Our CGCN method has been experimentally validated on multiple real-world graph datasets, showcasing its ability to boost the dependability of prior clustering distributions acquired through pre-training. As a result, we observed notable enhancements in the performance of the model. | 翻訳日:2024-08-09 15:58:20 公開日:2024-08-08 |
# 大規模言語モデルを用いた説明可能なネットワーク侵入検出に向けて
Towards Explainable Network Intrusion Detection using Large Language Models ( http://arxiv.org/abs/2408.04342v1 ) ライセンス: Link先を確認 | Paul R. B. Houssel, Priyanka Singh, Siamak Layeghy, Marius Portmann, | (参考訳) 大規模言語モデル(LLM)は、特にチャットエージェントのような自然言語処理タスクに革命をもたらした。
しかし、脅威検出問題への適用性はまだ不明である。
本稿では,ネットワーク侵入検知システム (NIDS) としてLLMを採用する可能性について検討する。
さらに、LLMの開発にかなりのリソースが投資されており、NIDSのユーティリティを提供する可能性がある。
現在の最先端のNIDSは、人工的なベンチマークデータセットに依存しており、現実のネットワーク環境に適用した場合、パフォーマンスが悪くなる。
したがって、GPT-4とLLama3モデルと従来のアーキテクチャとトランスフォーマーベースのモデルを比較し、人工的に歪んだデータセットに依存することなく悪意のあるNetFlowを検出する能力を評価する。
以上の結果から,LSMは正確な攻撃検出に苦しむが,説明可能なNIDSへの道のりは有意な可能性を秘めていることが明らかとなった。
予備調査の結果, LLM は悪性ネットフローの検出に不適であることがわかった。
しかし、最も有望なことは、これらがNIDSの補完剤として有意義な可能性を秘めており、特にRetrieval Augmented Generation(RAG)と機能呼び出し機能を統合した場合、特に脅威応答の説明と補助を提供する。
Large Language Models (LLMs) have revolutionised natural language processing tasks, particularly as chat agents. However, their applicability to threat detection problems remains unclear. This paper examines the feasibility of employing LLMs as a Network Intrusion Detection System (NIDS), despite their high computational requirements, primarily for the sake of explainability. Furthermore, considerable resources have been invested in developing LLMs, and they may offer utility for NIDS. Current state-of-the-art NIDS rely on artificial benchmarking datasets, resulting in skewed performance when applied to real-world networking environments. Therefore, we compare the GPT-4 and LLama3 models against traditional architectures and transformer-based models to assess their ability to detect malicious NetFlows without depending on artificially skewed datasets, but solely on their vast pre-trained acquired knowledge. Our results reveal that, although LLMs struggle with precise attack detection, they hold significant potential for a path towards explainable NIDS. Our preliminary exploration shows that LLMs are unfit for the detection of Malicious NetFlows. Most promisingly, however, these exhibit significant potential as complementary agents in NIDS, particularly in providing explanations and aiding in threat response when integrated with Retrieval Augmented Generation (RAG) and function calling capabilities. | 翻訳日:2024-08-09 15:58:20 公開日:2024-08-08 |
# グラフィクス処理ユニット上のスパーススパイクニューラルライク膜システム
Sparse Spiking Neural-like Membrane Systems on Graphics Processing Units ( http://arxiv.org/abs/2408.04343v1 ) ライセンス: Link先を確認 | Javier Hernández-Tello, Miguel Ángel Martínez-del-Amor, David Orellana-Martín, Francis George C. Cabarle, | (参考訳) スパイキングニューラルPシステムの並列シミュレーションは主に行列表現に基づいており、そこではニューラルモデル固有のグラフが隣接行列に符号化される。
シミュレーションアルゴリズムは、並列デバイス上で効率的に実装された演算である行列ベクトル乗法に基づいている。
しかし、スパイキングニューラルPシステムのグラフが完全に接続されていない場合、隣接行列は疎いため、時間領域とメモリ領域の両方で多くの計算資源が無駄にされる。
このため、行列表現のための2つの圧縮法が以前の研究で提案されたが、シミュレータ上では実装も並列化もされなかった。
本稿では,遅延シミュレータを備えた新しいスパイキングニューラルPシステムの一部として,GPU上で実装および並列化を行う。
ハイエンドGPU(RTX2080とA10080GB)で大規模な実験を行い、スパイキングニューラルPシステムのシミュレーションにおいて、最先端GPUライブラリに基づく他のソリューションよりも優れていると結論付けた。
The parallel simulation of Spiking Neural P systems is mainly based on a matrix representation, where the graph inherent to the neural model is encoded in an adjacency matrix. The simulation algorithm is based on a matrix-vector multiplication, which is an operation efficiently implemented on parallel devices. However, when the graph of a Spiking Neural P system is not fully connected, the adjacency matrix is sparse and hence, lots of computing resources are wasted in both time and memory domains. For this reason, two compression methods for the matrix representation were proposed in a previous work, but they were not implemented nor parallelized on a simulator. In this paper, they are implemented and parallelized on GPUs as part of a new Spiking Neural P system with delays simulator. Extensive experiments are conducted on high-end GPUs (RTX2080 and A100 80GB), and it is concluded that they outperform other solutions based on state-of-the-art GPU libraries when simulating Spiking Neural P systems. | 翻訳日:2024-08-09 15:58:20 公開日:2024-08-08 |
# 大規模言語モデルを用いた意味的拡張間接呼分析
Semantic-Enhanced Indirect Call Analysis with Large Language Models ( http://arxiv.org/abs/2408.04344v1 ) ライセンス: Link先を確認 | Baijun Cheng, Cen Zhang, Kailong Wang, Ling Shi, Yang Liu, Haoyu Wang, Yao Guo, Xiangqun Chen, | (参考訳) 現代のソフトウェア開発において、動的特徴を達成するために間接呼び出しが広く使われることは、正確な制御フローグラフ(CFG)を構築する上での課題を招き、下流の静的解析タスクのパフォーマンスにさらに影響を及ぼす。
この問題に対処するために、様々な種類の間接呼び出しアナライザが提案されている。
しかし、プログラムのセマンティック情報を完全に活用せず、現実のシナリオでの有効性を制限している。
これらの問題に対処するために,間接的な呼分析の有効性を高めるための新しいアプローチであるセマンティック・エンハンスメント・アナリティクス(SEA)を提案する。
私たちの基本的な洞察は、一般的なプログラミングプラクティスでは、間接呼び出しは、しばしば呼び出されたターゲットとセマンティックな類似性を示します。
このセマンティックアライメントは、偽ターゲットをフィルタリングする静的解析手法の補助メカニズムとして機能する。
特に、現代の大規模言語モデル(LLM)は、コード要約などのタスクを含む広範なコードコーパスで訓練されており、セマンティック分析に適している。
特に、SEAはLLMを活用し、複数の視点から間接呼び出しとターゲット関数の両方の自然言語要約を生成する。
これらの要約をさらに分析することで、SEAは呼び出しとキャリーのペアとして適合性を決定することができる。
実験により,SEAは間接呼び出しのためのより正確なターゲットセットを生成することにより,既存の静的解析手法を大幅に強化できることが示された。
In contemporary software development, the widespread use of indirect calls to achieve dynamic features poses challenges in constructing precise control flow graphs (CFGs), which further impacts the performance of downstream static analysis tasks. To tackle this issue, various types of indirect call analyzers have been proposed. However, they do not fully leverage the semantic information of the program, limiting their effectiveness in real-world scenarios. To address these issues, this paper proposes Semantic-Enhanced Analysis (SEA), a new approach to enhance the effectiveness of indirect call analysis. Our fundamental insight is that for common programming practices, indirect calls often exhibit semantic similarity with their invoked targets. This semantic alignment serves as a supportive mechanism for static analysis techniques in filtering out false targets. Notably, contemporary large language models (LLMs) are trained on extensive code corpora, encompassing tasks such as code summarization, making them well-suited for semantic analysis. Specifically, SEA leverages LLMs to generate natural language summaries of both indirect calls and target functions from multiple perspectives. Through further analysis of these summaries, SEA can determine their suitability as caller-callee pairs. Experimental results demonstrate that SEA can significantly enhance existing static analysis methods by producing more precise target sets for indirect calls. | 翻訳日:2024-08-09 15:58:20 公開日:2024-08-08 |
# AggSS: Aggregated Self-Supervised Approach for Class-Incremental Learning
AggSS: An Aggregated Self-Supervised Approach for Class-Incremental Learning ( http://arxiv.org/abs/2408.04347v1 ) ライセンス: Link先を確認 | Jayateja Kalla, Soma Biswas, | (参考訳) 本稿では,自己指導型学習,特に画像回転が様々なクラス増分学習パラダイムに与える影響について検討する。
ここでは、予め定義された回転を持つ各画像は、トレーニングのための新しいクラスとみなされる。
AggSS(Aggregated Self-Supervision, AggSS, AggSS)と呼ばれる,最終的な予測のために,すべての画像回転予測が集約される。
AggSS戦略を通じて学習する本質的なオブジェクト特徴に対するディープニューラルネットワークの注目度の変化を観察する。
この学習アプローチは、堅牢な特徴学習を促進することによって、クラスインクリメンタル学習を大幅に強化する。
AggSSは、任意のクラス増分学習フレームワークにシームレスに組み込むことができるプラグイン・アンド・プレイモジュールとして機能し、その強力な機能学習機能を活用して、クラス増分学習アプローチのパフォーマンスを向上させる。
標準インクリメンタル学習データセットCIFAR-100とImageNet-Subsetで実施された大規模な実験は、これらのパラダイムにおけるパフォーマンス向上におけるAggSSの重要な役割を実証している。
This paper investigates the impact of self-supervised learning, specifically image rotations, on various class-incremental learning paradigms. Here, each image with a predefined rotation is considered as a new class for training. At inference, all image rotation predictions are aggregated for the final prediction, a strategy we term Aggregated Self-Supervision (AggSS). We observe a shift in the deep neural network's attention towards intrinsic object features as it learns through AggSS strategy. This learning approach significantly enhances class-incremental learning by promoting robust feature learning. AggSS serves as a plug-and-play module that can be seamlessly incorporated into any class-incremental learning framework, leveraging its powerful feature learning capabilities to enhance performance across various class-incremental learning approaches. Extensive experiments conducted on standard incremental learning datasets CIFAR-100 and ImageNet-Subset demonstrate the significant role of AggSS in improving performance within these paradigms. | 翻訳日:2024-08-09 15:58:20 公開日:2024-08-08 |
# ファジィ・トゥ・クリア:脅威ハンター認知プロセスの解明と認知支援の必要性
Fuzzy to Clear: Elucidating the Threat Hunter Cognitive Process and Cognitive Support Needs ( http://arxiv.org/abs/2408.04348v1 ) ライセンス: Link先を確認 | Alessandra Maciel Paz Milani, Arty Starr, Samantha Hill, Callum Curtis, Norman Anderson, David Moreno-Lumbreras, Margaret-Anne Storey, | (参考訳) セキュリティの脅威が頻度と重大さで増加する中、我々は脅威ハンターの重要な役割を考えることが重要である。
これらの高度に訓練されたセキュリティ専門家は、セキュリティの脅威を確認し、特定し、インターセプトすることを学ぶ。
近年のサイバーセキュリティにおける多くの研究や既存のツールが脅威追跡プロセスの自動化に重点を置いており、しばしば重要な人間の要素を見下ろしている。
我々の研究は、脅威ハンターの生きた経験を理解するための人間中心のアプローチを強調することで、このパラダイムをシフトさせます。
ハンティングセッション中に脅威ハンターを観察し,それらが提供する豊富な洞察を分析して,その認知過程とツールサポートの理解を深める。
脅威ハンターの詳細な観察研究を通じて、脅威ハンターのセッション中にどのように精神モデルを構築し、改善するかのモデルを紹介した。
また、脅威ハンターのニーズをよりよく理解するための基盤を提供する23のテーマと、それらをサポートするツールを強化するための5つの実行可能な設計提案を提示します。
これらの貢献を通じて、我々の研究は脅威狩りの理論的理解を深め、より効果的で人間中心のサイバーセキュリティツールを設計するための実践的な洞察を提供する。
With security threats increasing in frequency and severity, it is critical that we consider the important role of threat hunters. These highly-trained security professionals learn to see, identify, and intercept security threats. Many recent works and existing tools in cybersecurity are focused on automating the threat hunting process, often overlooking the critical human element. Our study shifts this paradigm by emphasizing a human-centered approach to understanding the lived experiences of threat hunters. By observing threat hunters during hunting sessions and analyzing the rich insights they provide, we seek to advance the understanding of their cognitive processes and the tool support they need. Through an in-depth observational study of threat hunters, we introduce a model of how they build and refine their mental models during threat hunting sessions. We also present 23 themes that provide a foundation to better understand threat hunter needs and five actionable design propositions to enhance the tools that support them. Through these contributions, our work enriches the theoretical understanding of threat hunting and provides practical insights for designing more effective, human-centered cybersecurity tools. | 翻訳日:2024-08-09 15:58:20 公開日:2024-08-08 |
# ビット置換を用いた最適レイアウト対応CNOT回路合成
Optimal Layout-Aware CNOT Circuit Synthesis with Qubit Permutation ( http://arxiv.org/abs/2408.04349v1 ) ライセンス: Link先を確認 | Irfansha Shaik, Jaco van de Pol, | (参考訳) CNOT最適化は量子回路のノイズ低減に重要な役割を果たしている。
CNOT最適化にはいくつかのヒューリスティックで正確なアプローチが存在する。
本稿では、キュービットの置換とレイアウト制限の扱いにより、最適合成のより複雑なバリエーションについて検討する。
我々はこれらの問題をプランニング、SAT、QBFにエンコードする。
CNOTゲート数と回路深度の両方を最適化する。
実験評価では,標準Tゲート最適化ベンチマークとCNOTサブ回路の最適化について検討する。
また,CNOT数では56%,回路深さでは46%まで低減できることを示した。
レイアウト制限下で最適にマッピングされた回路の場合、最大17%のCNOTカウントと19%のCNOT深さが減少する。
CNOT optimization plays a significant role in noise reduction for Quantum Circuits. Several heuristic and exact approaches exist for CNOT optimization. In this paper, we investigate more complicated variations of optimal synthesis by allowing qubit permutations and handling layout restrictions. We encode such problems into Planning, SAT, and QBF. We provide optimization for both CNOT gate count and circuit depth. For experimental evaluation, we consider standard T-gate optimized benchmarks and optimize CNOT sub-circuits. We show that allowing qubit permutations can further reduce up to 56% in CNOT count and 46% in circuit depth. In the case of optimally mapped circuits under layout restrictions, we observe a reduction up to 17% CNOT count and 19% CNOT depth. | 翻訳日:2024-08-09 15:58:20 公開日:2024-08-08 |
# 物体検出と深度推定による車速検出:ディープラーニングフレームワーク
Detecting Car Speed using Object Detection and Depth Estimation: A Deep Learning Framework ( http://arxiv.org/abs/2408.04360v1 ) ライセンス: Link先を確認 | Subhasis Dasgupta, Arshi Naaz, Jayeeta Choudhury, Nancy Lahiri, | (参考訳) 道路事故は世界のほぼすべての地域で非常にありふれたものであり、ほとんどの場合、致命的な事故は車両の速度超過によるものである。
オーバースピード化の傾向は通常、道路の様々な部分のチェックポイントを使って制御されるが、全ての交通警察がLIDARベースやレーダーベース銃のような既存の速度推定装置で速度をチェックする装置を持っているわけではない。
現在のプロジェクトは、ディープラーニングフレームワークを使用して速度を推定するために、携帯電話やウェアラブルカメラなどのハンドヘルドデバイスによる車両速度推定の問題に対処しようとしている。
Road accidents are quite common in almost every part of the world, and, in majority, fatal accidents are attributed to over speeding of vehicles. The tendency to over speeding is usually tried to be controlled using check points at various parts of the road but not all traffic police have the device to check speed with existing speed estimating devices such as LIDAR based, or Radar based guns. The current project tries to address the issue of vehicle speed estimation with handheld devices such as mobile phones or wearable cameras with network connection to estimate the speed using deep learning frameworks. | 翻訳日:2024-08-09 15:58:20 公開日:2024-08-08 |
# 波長404km光上の超直交型量子鍵分布
Ultrabright-entanglement-based quantum key distribution over a 404-km-long optical ( http://arxiv.org/abs/2408.04361v1 ) ライセンス: Link先を確認 | Shi-Chang Zhuang, Bo Li, Ming-Yang Zheng, Yi-Xi Zeng, Hui-Nan Wu, Guang-Bing Li, Quan Yao, Xiu-Ping Xie, Yu-Huai Li, Hao Qin, Li-Xing You, Fei-Hu Xu, Juan Yin, Yuan Cao, Qiang Zhang, Cheng-Zhi Peng, Jian-Wei Pan, | (参考訳) 絡み合った光子は量子通信やネットワークにとって重要な資源である。
ここでは、実用的な量子通信ネットワークのために設計された、周期的に偏極したニオブ酸リチウム導波路に基づく超高輝度偏光束光子源を提案する。
780nmのポンプレーザーを用い、光源は2.4$\times 10^{10}$ pairs/s/mWとなる。
この研究は3.2mWのポンプ出力を持つ絡み合った光子発生において17.9nWの直接測定力を達成した。
本研究は,長距離ファイバリンク上で量子鍵分布実験を行い,200km以上で最大440.80ビット/秒,62dBの損失で最大キー生成距離404kmを達成し,情報源の実用性を実証する。
これらの結果は、高速で長距離の量子通信のための波長多重偏光共役光子源の可能性を示し、将来の大規模量子ネットワークの鍵となる要素として位置づけた。
The entangled photons are crucial resources for quantum communications and networking. Here, we present an ultra-bright polarization-entangled photon source based on a periodically poled lithium niobate waveguide designed for practical quantum communication networks. Using a 780 nm pump laser, the source achieves a pair generation rate of 2.4 $\times 10^{10}$ pairs/s/mW. This work has achieved a directly measured power of 17.9 nW in entangled photon generation with a 3.2 mW pump power. Based on this, we demonstrate the practicality of the source by conducting quantum key distribution experiments over long-distance fiber links, achieving the applicable secure key rates of up to 440.80 bits/s over 200 km with 62 dB loss and reaching a maximum secure key generation distance of 404 km. These results demonstrate the potential of wavelength-multiplexed polarization-entangled photon sources for high-speed, long-distance quantum communication, positioning them as key components for future large-scale quantum networks. | 翻訳日:2024-08-09 15:58:20 公開日:2024-08-08 |
# 音韻的特徴補間による調音軌道のシミュレーション
Simulating Articulatory Trajectories with Phonological Feature Interpolation ( http://arxiv.org/abs/2408.04363v1 ) ライセンス: Link先を確認 | Angelo Ortiz Tandazo, Thomas Schatz, Thomas Hueber, Emmanuel Dupoux, | (参考訳) 認識生成ループを含む音声学習の完全な計算モデルへの第一歩として,擬似モダコマンドと音声軌道の前方マッピングについて検討する。
2つの音韻的特徴集合は、それぞれ生成的および調音的音韻論に基づいて、音素的ターゲットシーケンスを符号化するために使用される。
異なる補間手法を比較して、これらの特徴空間における滑らかな軌道を生成する。
生成したトラジェクトリの線形投影と,電磁動脈造影(EMA)記録のマルチスピーカデータセットから得られた調音データとのピアソン相関を報告する。
生成音韻法および線形補間法に基づく拡張特徴セットで0.67の相関を求める。
本研究の目的は, 生体運動のダイナミクスを理解することにある。
As a first step towards a complete computational model of speech learning involving perception-production loops, we investigate the forward mapping between pseudo-motor commands and articulatory trajectories. Two phonological feature sets, based respectively on generative and articulatory phonology, are used to encode a phonetic target sequence. Different interpolation techniques are compared to generate smooth trajectories in these feature spaces, with a potential optimisation of the target value and timing to capture co-articulation effects. We report the Pearson correlation between a linear projection of the generated trajectories and articulatory data derived from a multi-speaker dataset of electromagnetic articulography (EMA) recordings. A correlation of 0.67 is obtained with an extended feature set based on generative phonology and a linear interpolation technique. We discuss the implications of our results for our understanding of the dynamics of biological motion. | 翻訳日:2024-08-09 15:48:23 公開日:2024-08-08 |
# サブグラフゲームにおける低純度量子連成構造生成に向けて
Towards Less Greedy Quantum Coalition Structure Generation in Induced Subgraph Games ( http://arxiv.org/abs/2408.04366v1 ) ライセンス: Link先を確認 | Jonas Nüßlein, Daniëlle Schuman, David Bucher, Naeimeh Mohseni, Kumar Ghosh, Corey O'Meara, Giorgio Cortiana, Claudia Linnhoff-Popien, | (参考訳) 100%再生可能エネルギーへの移行には、マイクログレードと呼ばれる有能なプロシューマーのサブセットに分割するなど、エネルギーネットワークを管理する新しい技術が必要である。
これはNP完全問題であり、非方向の完全重み付きグラフを、内部重みの和を最大化する方法でサブグラフに分割する必要がある。
最近、Venkatesh et al (arXiv:2212.11372)は、GCS-Qと呼ばれる量子アニーリング(QA)ベースの反復アルゴリズムを発表した。
この問題に対するQAの適用は期待できるように思えるが、これは欲張りのアルゴリズムであり、この研究はより欲求の少ないQAベースのアプローチを提案し、いずれもソリューションの品質の観点からGCS-Qより優れているかどうかを調査する。
従来のQBSolvソフトウェアをソルバとして使用する場合、ほとんどの場合、D-Waveハードウェアではまだそうではないことが分かっています。
特に,4分割反復R-QUBOと呼ぶアルゴリズムが潜在的な可能性を示し,実行時の問題サイズに優しくスケールしながら,データセット内のすべての最適化を見つけ出す。
したがって、QAハードウェアが時間とともによりノイズ耐性を持つようになると仮定して、この問題に対する量子的アプローチに関する将来の研究は興味深いものと思われる。
The transition to 100% renewable energy requires new techniques for managing energy networks, such as dividing them into sensible subsets of prosumers called micro-grids. Doing so in an optimal manner is a difficult optimization problem, as it can be abstracted to the Coalition Structure Generation problem in Induced Subgraph Games, a NP-complete problem which requires dividing an undirected, complete, weighted graph into subgraphs in a way that maximizes the sum of their internal weights. Recently, Venkatesh et al. (arXiv:2212.11372) published a Quantum Annealing (QA)-based iterative algorithm called GCS-Q, which they claim to be the best currently existing solver for the problem in terms of runtime complexity. As this algorithm makes the application of QA to the problem seem promising, but is a greedy one, this work proposes several less greedy QA-based approaches and investigates whether any of them can outperform GCS-Q in terms of solution quality. While we find that this is not the case yet on D-Wave hardware, most of them do when using the classical QBSolv software as a solver. Especially an algorithm we call 4-split iterative R-QUBO shows potential here, finding all optima in our dataset while scaling favorably with the problem size in terms of runtime. Thus, it appears to be interesting for future research on quantum approaches to the problem, assuming QA hardware will become more noise-resilient over time. | 翻訳日:2024-08-09 15:48:23 公開日:2024-08-08 |
# MultiViPerFrOG: カメラモーションと組織変形のためのグローバル最適化多視点知覚フレームワーク
MultiViPerFrOG: A Globally Optimized Multi-Viewpoint Perception Framework for Camera Motion and Tissue Deformation ( http://arxiv.org/abs/2408.04367v1 ) ライセンス: Link先を確認 | Guido Caccianiga, Julian Nubert, Cesar Cadena, Marco Hutter, Katherine J. Kuchenbecker, | (参考訳) 移動深度カメラが捉えた情報から、変形可能な環境の3次元形状を再構成することは、手術に非常に関係している。
根底にある課題は、完全に変形可能なシーンにおけるカメラの動きと組織の変形を同時に推定することが不適切な問題であるという事実である。
現在の解はしばしばオルガン特異的であり、大きな変形を扱うために必要な頑丈さは欠如している。
本稿では,低レベル認識モジュール(データアソシエーション,深度,相対的なシーンフロー)の出力をキネマティック・シーンモデリングに柔軟に統合し,複数のカメラの動きと絶対的なシーンフローを同時推定する多視点グローバル最適化フレームワークを提案する。
シミュレーションノイズデータを用いて、一意解への収束をうまく制約する3つの実例を示す。
提案手法は,数ミリ秒で数百ポイントの処理が可能であり,ノイズの多い入力手段の組み合わせに対するロバスト性を示す。
MultiViPerFrOGは、時空間符号化のための汎用的な学習不要の足場を構築し、高度な手術シーン表現を解放し、将来のコンピュータ支援手術技術の開発を促進する。
Reconstructing the 3D shape of a deformable environment from the information captured by a moving depth camera is highly relevant to surgery. The underlying challenge is the fact that simultaneously estimating camera motion and tissue deformation in a fully deformable scene is an ill-posed problem, especially from a single arbitrarily moving viewpoint. Current solutions are often organ-specific and lack the robustness required to handle large deformations. Here we propose a multi-viewpoint global optimization framework that can flexibly integrate the output of low-level perception modules (data association, depth, and relative scene flow) with kinematic and scene-modeling priors to jointly estimate multiple camera motions and absolute scene flow. We use simulated noisy data to show three practical examples that successfully constrain the convergence to a unique solution. Overall, our method shows robustness to combined noisy input measures and can process hundreds of points in a few milliseconds. MultiViPerFrOG builds a generalized learning-free scaffolding for spatio-temporal encoding that can unlock advanced surgical scene representations and will facilitate the development of the computer-assisted-surgery technologies of the future. | 翻訳日:2024-08-09 15:48:23 公開日:2024-08-08 |
# ホテルのレーティングのドライバーを理解するための消費者レビューの分析--インドの視点から
Analyzing Consumer Reviews for Understanding Drivers of Hotels Ratings: An Indian Perspective ( http://arxiv.org/abs/2408.04369v1 ) ライセンス: Link先を確認 | Subhasis Dasgupta, Soumya Roy, Jaydip Sen, | (参考訳) インターネット時代には、ほとんどすべての企業がデジタルメディアやその他のソーシャルメディアプラットフォームにデジタルフットプリントを組み込もうとしている。
これらの実体にとって、マウスの言葉もまた非常に重要である。
特に、ホテルやレストラン等を扱うホスピタリティセクターにとって、これは極めて重要である。
消費者は最終決定をする前に他の消費者レビューを読む。
どの側面が消費者の心のほとんどに影響を与えているかを理解しながら、評価を与えていくことがとても重要だ。
本研究は、最終評価に重要な側面を抽出するインドホテルの消費者レビューに焦点を当てている。
この研究は、Webスクレイピング手法を用いてデータを収集し、トピック抽出のためのレイト・ディリクレ・アロケーションを用いてテキストを分析し、アスペクト特異的な感情マッピングのための感情分析を含む。
最後に、Random Forestを組み込んで、ユーザの最終的な評価を予測する上での側面の重要性を理解する。
In the internet era, almost every business entity is trying to have its digital footprint in digital media and other social media platforms. For these entities, word of mouse is also very important. Particularly, this is quite crucial for the hospitality sector dealing with hotels, restaurants etc. Consumers do read other consumers reviews before making final decisions. This is where it becomes very important to understand which aspects are affecting most in the minds of the consumers while giving their ratings. The current study focuses on the consumer reviews of Indian hotels to extract aspects important for final ratings. The study involves gathering data using web scraping methods, analyzing the texts using Latent Dirichlet Allocation for topic extraction and sentiment analysis for aspect-specific sentiment mapping. Finally, it incorporates Random Forest to understand the importance of the aspects in predicting the final rating of a user. | 翻訳日:2024-08-09 15:48:23 公開日:2024-08-08 |
# 光選択規則を通した暗黒状態の選択的調製のための刺激X線ラマン散乱
Stimulated X-ray Raman scattering for selective preparation of dark states bypassing optical selection rules ( http://arxiv.org/abs/2408.04370v1 ) ライセンス: Link先を確認 | Francesco Montorsi, Shaul Mukamel, Filippo Tamassia, Marco Garavelli, Francesco Segatta, Artur Nenov, | (参考訳) 我々は、分子系における光学的に暗い電子状態の生成を制御するために、X線に基づく刺激されたラマンアプローチを提案する。
コアレベルの励起状態のユニークな性質を利用して、単項状態と三項状態の間の光学的に禁止された遷移がアクセス可能であることを示す。
2つの分子系が提案手法のテストベッドとして研究され、その実験的実現可能性について論じられる。
We present an X-ray based stimulated Raman approach to control the preparation of optically dark electronic states in generic molecular systems. Leveraging on the unique properties of core-level excited states, we demonstrate that optically forbidden transitions between singlet states, or between singlet and triplet states are made accessible. Two molecular systems are studied as a test-bed of the proposed approach, and its experimental feasibility is eventually discussed. | 翻訳日:2024-08-09 15:48:23 公開日:2024-08-08 |
# 機能的適合制御によるメタマテリアル機構設計のための深部強化学習
Deep Reinforcement Learning for the Design of Metamaterial Mechanisms with Functional Compliance Control ( http://arxiv.org/abs/2408.04376v1 ) ライセンス: Link先を確認 | Yejun Choi, Yeoneung Kim, Keun Park, | (参考訳) メタマテリアル機構は、特殊に設計されたフレキシブルな部材の弾性変形を通した微小構造を持つ構造である。
本研究では, 深部強化学習(RL)を用いた適合機構の効率的な設計手法を開発した。
この目的のために、設計ドメインを様々なヒンジ接続を持つ有限セルにデジタル化し、異なるセルの組み合わせによるコンプライアンス機構の変形挙動を評価するために有限要素解析(FEAs)を行う。
FEAデータはRL法を用いて学習し、所望の機能要件に対して最適な適合機構を得る。
RLアルゴリズムはドアラッチ機構の設計に適用され、人的誘導とタイリング方向の影響を探索する。
最適結果は、人間の指導と内向きのタイリングが最小限に抑えられ、その結果、人が設計したメカニズムに比べて、事前に定義された報酬が3倍に増加する。
提案手法は,ヒンジ接続の効果を考慮したソフトグリップ機構の設計に拡張される。
ヒンジペナル化条件下での最適設計は, 極めて高い適合性を示し, 加法的に製造したグリップを用いた実験によりその性能を検証した。
これらの結果から, RLを最適化した設計は, 人間の洞察によって開発された設計よりも優れており, 実用化におけるセルベース適合機構の効率的な設計手法を提供する。
Metamaterial mechanisms are micro-architectured compliant structures that operate through the elastic deformation of specially designed flexible members. This study develops an efficient design methodology for compliant mechanisms using deep reinforcement learning (RL). For this purpose, design domains are digitized into finite cells with various hinge connections, and finite element analyses (FEAs) are conducted to evaluate the deformation behaviors of the compliance mechanism with different cell combinations. The FEA data are learned through the RL method to obtain optimal compliant mechanisms for desired functional requirements. The RL algorithm is applied to the design of a compliant door-latch mechanism, exploring the effect of human guidance and tiling direction. The optimal result is achieved with minimal human guidance and inward tiling, resulting in a threefold increase in the predefined reward compared to human-designed mechanisms. The proposed approach is extended to the design of a soft gripper mechanism, where the effect of hinge connections is additionally considered. The optimal design under hinge penalization reveals remarkably enhanced compliance, and its performance is validated by experimental tests using an additively manufactured gripper. These findings demonstrate that RL-optimized designs outperform those developed with human insight, providing an efficient design methodology for cell-based compliant mechanisms in practical applications. | 翻訳日:2024-08-09 15:48:23 公開日:2024-08-08 |
# 異常予測: 明示的遅延と水平による新しいアプローチ
Anomaly Prediction: A Novel Approach with Explicit Delay and Horizon ( http://arxiv.org/abs/2408.04377v1 ) ライセンス: Link先を確認 | Jiang You, Arben Cela, René Natowicz, Jacob Ouanounou, Patrick Siarry, | (参考訳) 時系列データの異常を検出することは、さまざまな領域において重要な課題である。
従来の手法では、通常、後続のステップで異常を識別することに集中しており、多くの場合、遅延時間や異常の地平線といった時間的ダイナミクスの重要性を過小評価している。
本稿では,時系列異常予測に時間的情報を直接組み込んだ新しい手法を提案する。
本稿では,このアプローチの評価と,いくつかの最先端手法を用いた包括的実験を行うために設計された新しいデータセットを提案する。
その結果、時間的かつ正確な異常予測を提供することによるアプローチの有効性が示され、この分野での今後の研究のための新しいベンチマークが設定される。
Detecting anomalies in time series data is a critical challenge across various domains. Traditional methods typically focus on identifying anomalies in immediate subsequent steps, often underestimating the significance of temporal dynamics such as delay time and horizons of anomalies, which generally require extensive post-analysis. This paper introduces a novel approach for time series anomaly prediction, incorporating temporal information directly into the prediction results. We propose a new dataset specifically designed to evaluate this approach and conduct comprehensive experiments using several state-of-the-art methods. results demonstrate the efficacy of our approach in providing timely and accurate anomaly predictions, setting a new benchmark for future research in this field. | 翻訳日:2024-08-09 15:48:23 公開日:2024-08-08 |
# NLPCC2024の中国メタファー生成に関する共有課題の概要
Overview of the NLPCC 2024 Shared Task on Chinese Metaphor Generation ( http://arxiv.org/abs/2408.04378v1 ) ライセンス: Link先を確認 | Xingwei Qu, Ge Zhang, Siwei Wu, Yizhi Li, Chenghua Lin, | (参考訳) 本稿では,第13回CCF自然言語処理・中国語コンピューティング会議(NLPCC 2024)で開催されている,中国語メタファ生成における共有タスクの結果について述べる。
この共有タスクの目的は、機械学習技術を用いて中国語の比喩を生成し、比喩文の基本成分を効果的に識別することである。
2つのサブタスクに分けられる。
1)メタファー生成は、TENOR、GROUND、VEHICLEからなる提供されるタプルからメタファーを生成する。
ここでのゴールは、対象(すなわちTENOR)と対象(すなわちVEHICLE)を結びつけるメタファーを合成することである。
2)メタファー成分同定は,比喩文から最も適したTENOR,GROUND,VEHICLEを抽出する。
この構成要素は、指定された根拠に対応する最も適した比喩的要素を識別する必要がある。
総合的な結果に加えて、メタファ生成共有タスクのセットアップと洞察についても報告し、両サブタスクで合計4チームが参加した。
This paper presents the results of the shared task on Chinese metaphor generation, hosted at the 13th CCF Conference on Natural Language Processing and Chinese Computing (NLPCC 2024). The goal of this shared task is to generate Chinese metaphors using machine learning techniques and effectively identifying basic components of metaphorical sentences. It is divided into two subtasks: 1) Metaphor Generation, which involves creating a metaphor from a provided tuple consisting of TENOR, GROUND, and VEHICLE. The goal here is to synthesize a metaphor that connects the subject (i.e. TENOR) with the object (i.e. VEHICLE), guided by the concept of the GROUND. 2) Metaphor Components Identification, which extracts the most fitting TENORs, GROUNDs, and VEHICLEs from a metaphorical sentence. This component requires the identification of the most fitting metaphor elements that correspond to the specified grounds. In addition to overall results, we report on the setup and insights from the metaphor generation shared task, which attracted a total of 4 participating teams across both subtasks. | 翻訳日:2024-08-09 15:48:23 公開日:2024-08-08 |
# ロボットの深部生成モデル:マルチモーダルなデモから学ぶ
Deep Generative Models in Robotics: A Survey on Learning from Multimodal Demonstrations ( http://arxiv.org/abs/2408.04380v1 ) ライセンス: Link先を確認 | Julen Urain, Ajay Mandlekar, Yilun Du, Mahi Shafiullah, Danfei Xu, Katerina Fragkiadaki, Georgia Chalvatzaki, Jan Peters, | (参考訳) データからロボットの行動モデルを学ぶための分野であるDemonstrationsからの学習は、深層生成モデルの出現によって人気が高まっている。
この問題は、Imitation Learning, Behavioral Cloning, Inverse Reinforcement Learningといった名前で何年も研究されてきたが、古典的な手法は複雑なデータ分布をうまく捉えていない、あるいは多くのデモにうまくスケールしていないモデルに依存している。
近年、ロボット学習コミュニティは、大規模なデータセットの複雑さを捉えるために、深層生成モデルを使うことへの関心が高まっている。
本調査では,ロボット工学における深部生成モデルの利用における昨年の進歩を総合的かつ包括的に検証することを目的としている。
我々は、エネルギーベースモデル、拡散モデル、アクションバリューマップ、生成的敵ネットワークなど、コミュニティが探求した様々なタイプのモデルを提示する。
また,情報生成から軌道生成,コスト学習に至るまで,深層生成モデルを用いた様々なアプリケーションについて述べる。
生成モデルの最も重要な要素の1つは分布の一般化である。
本調査では,学習モデルの一般化を改善するために,コミュニティが行ったさまざまな決定についてレビューする。
最後に,研究課題を取り上げ,ロボット工学における深層生成モデル学習の今後の方向性について述べる。
Learning from Demonstrations, the field that proposes to learn robot behavior models from data, is gaining popularity with the emergence of deep generative models. Although the problem has been studied for years under names such as Imitation Learning, Behavioral Cloning, or Inverse Reinforcement Learning, classical methods have relied on models that don't capture complex data distributions well or don't scale well to large numbers of demonstrations. In recent years, the robot learning community has shown increasing interest in using deep generative models to capture the complexity of large datasets. In this survey, we aim to provide a unified and comprehensive review of the last year's progress in the use of deep generative models in robotics. We present the different types of models that the community has explored, such as energy-based models, diffusion models, action value maps, or generative adversarial networks. We also present the different types of applications in which deep generative models have been used, from grasp generation to trajectory generation or cost learning. One of the most important elements of generative models is the generalization out of distributions. In our survey, we review the different decisions the community has made to improve the generalization of the learned models. Finally, we highlight the research challenges and propose a number of future directions for learning deep generative models in robotics. | 翻訳日:2024-08-09 15:48:23 公開日:2024-08-08 |
# Judgment2vec: 類似した判断の検索と推奨にグラフ分析を適用する
Judgment2vec: Apply Graph Analytics to Searching and Recommendation of Similar Judgments ( http://arxiv.org/abs/2408.04382v1 ) ライセンス: Link先を確認 | Hsuan-Lei Shao, | (参考訳) 裁判所の実務において、法律専門家は、事件を解決するための意見を提供するための訓練を頼りにしており、最も重要な側面の1つは、以前の裁判所から同様の判断を効果的に特定する能力である。
しかし、同様の事件を見つけることは困難であり、しばしば経験、法的なドメイン知識、広範囲の労働時間に依存するため、ベテラン弁護士や裁判官は不可欠である。
本研究は,判断テキストの類似性の分析を自動化することを目的とする。
専門家による「ゴールドスタンダード」とラベル付けされた判断データセットを用いて,「専門家の類似度スコア」に変換可能な,人間の検証された特徴を含む。
次に,「ケース・アーティクル」関係に基づく知識グラフを構築し,自然言語処理を用いて各事例をランキングし,「Node2vec類似度スコア」を導出する。
これら2つの類似点を評価することにより,両者の相違点と関係を同定した。
その結果、法的な検索やレコメンデーションに要する労働時間を著しく短縮することができ、潜在的な適用範囲は情報検索の様々な分野に拡大する。
In court practice, legal professionals rely on their training to provide opinions that resolve cases, one of the most crucial aspects being the ability to identify similar judgments from previous courts efficiently. However, finding a similar case is challenging and often depends on experience, legal domain knowledge, and extensive labor hours, making veteran lawyers or judges indispensable. This research aims to automate the analysis of judgment text similarity. We utilized a judgment dataset labeled as the "golden standard" by experts, which includes human-verified features that can be converted into an "expert similarity score." We then constructed a knowledge graph based on "case-article" relationships, ranking each case using natural language processing to derive a "Node2vec similarity score." By evaluating these two similarity scores, we identified their discrepancies and relationships. The results can significantly reduce the labor hours required for legal searches and recommendations, with potential applications extending to various fields of information retrieval. | 翻訳日:2024-08-09 15:48:23 公開日:2024-08-08 |
# 期待する多条件の願望を満たす非最大化政策
Non-maximizing policies that fulfill multi-criterion aspirations in expectation ( http://arxiv.org/abs/2408.04385v1 ) ライセンス: Link先を確認 | Simon Dima, Simon Fischer, Jobst Heitzig, Joss Oliver, | (参考訳) 動的プログラミングおよび強化学習において、確率的環境におけるエージェントの逐次決定のためのポリシーは、通常、目標をスカラー報酬関数として表現し、期待される総報酬を最大化するポリシーを求めることで決定される。
しかしながら、人間が関心を持つ多くのゴールは、自然に世界の複数の側面に関係しており、それらを単一の報酬関数に凝縮する方法は明確ではないかもしれない。
さらに、最大化は仕様ゲームに苦しめられ、得られたポリシーは意図しない方法で高い期待された総報酬を達成し、しばしば極端なまたは非感覚的な行動を取る。
ここでは,複数の異なる評価指標を持つ有限非巡回マルコフ決定過程について考察する。
エージェントのタスクは、評価指標の期待総数のベクトルが、吸引集合と呼ばれる特定の凸集合に該当することを保証することであると仮定する。
提案アルゴリズムは,本課題を簡易性を用いて実現可能集合を近似し,その実現可能性を維持しつつ,前もって願望を伝達することによって達成することを保証する。
状態-作用-成功三重項の数には複雑性が線形であり、評価指標の数には多項式がある。
さらに、選択された政策と目標を明示的に最大化しない性質は、さらなる自由度をもたらし、行動の選択にヒューリスティックな安全基準を適用するのに使用できる。
我々は,より保守的な行動に向けたエージェントの操縦を目的とした,そのような安全基準について論じる。
In dynamic programming and reinforcement learning, the policy for the sequential decision making of an agent in a stochastic environment is usually determined by expressing the goal as a scalar reward function and seeking a policy that maximizes the expected total reward. However, many goals that humans care about naturally concern multiple aspects of the world, and it may not be obvious how to condense those into a single reward function. Furthermore, maximization suffers from specification gaming, where the obtained policy achieves a high expected total reward in an unintended way, often taking extreme or nonsensical actions. Here we consider finite acyclic Markov Decision Processes with multiple distinct evaluation metrics, which do not necessarily represent quantities that the user wants to be maximized. We assume the task of the agent is to ensure that the vector of expected totals of the evaluation metrics falls into some given convex set, called the aspiration set. Our algorithm guarantees that this task is fulfilled by using simplices to approximate feasibility sets and propagate aspirations forward while ensuring they remain feasible. It has complexity linear in the number of possible state-action-successor triples and polynomial in the number of evaluation metrics. Moreover, the explicitly non-maximizing nature of the chosen policy and goals yields additional degrees of freedom, which can be used to apply heuristic safety criteria to the choice of actions. We discuss several such safety criteria that aim to steer the agent towards more conservative behavior. | 翻訳日:2024-08-09 15:48:23 公開日:2024-08-08 |
# MM-Forecast:大規模言語モデルを用いた時系列イベント予測のためのマルチモーダルアプローチ
MM-Forecast: A Multimodal Approach to Temporal Event Forecasting with Large Language Models ( http://arxiv.org/abs/2408.04388v1 ) ライセンス: Link先を確認 | Haoxuan Li, Zhengmao Yang, Yunshan Ma, Yi Bin, Yang Yang, Tat-Seng Chua, | (参考訳) 大規模言語モデルを用いた多モーダル時間事象予測の新興かつ興味深い課題について検討する。
テキストやグラフのモダリティと比較して、特に大規模言語モデル(LLM)の時代には、時間的事象予測のための画像の利用に関する調査が完全には行われていない。
このギャップを埋めるために、私たちは特に2つの重要な質問に興味を持っています。
1)画像が時間的イベント予測になぜ役立つのか、そして
2) LLM ベースの予測フレームワークに画像を統合する方法。
これらの研究課題に答えるために、画像が時間的事象予測のシナリオ、すなわちハイライトと補完のシナリオで機能する2つの重要な機能を特定することを提案する。
そこで我々はMM-Forecastという新しいフレームワークを開発した。
MLLM(Multimodal large language model)を用いてこれらの関数を言語記述として認識するためにイメージ関数識別モジュールを使用し、その後、これらの関数記述をLSMベースの予測モデルに組み込む。
提案手法を評価するために,既存のイベントデータセットであるMidEast-TE-miniを画像で拡張することにより,新しいマルチモーダルデータセットであるMidEast-TE-mmを構築した。
実験的な研究により,我々のMM-Forecastは画像関数を正しく識別でき,さらにこれらの言語機能記述を取り入れることで予測性能が大幅に向上することが示された。
データセット、コード、プロンプトはhttps://github.com/LuminosityX/MM-Forecastで確認できる。
We study an emerging and intriguing problem of multimodal temporal event forecasting with large language models. Compared to using text or graph modalities, the investigation of utilizing images for temporal event forecasting has not been fully explored, especially in the era of large language models (LLMs). To bridge this gap, we are particularly interested in two key questions of: 1) why images will help in temporal event forecasting, and 2) how to integrate images into the LLM-based forecasting framework. To answer these research questions, we propose to identify two essential functions that images play in the scenario of temporal event forecasting, i.e., highlighting and complementary. Then, we develop a novel framework, named MM-Forecast. It employs an Image Function Identification module to recognize these functions as verbal descriptions using multimodal large language models (MLLMs), and subsequently incorporates these function descriptions into LLM-based forecasting models. To evaluate our approach, we construct a new multimodal dataset, MidEast-TE-mm, by extending an existing event dataset MidEast-TE-mini with images. Empirical studies demonstrate that our MM-Forecast can correctly identify the image functions, and further more, incorporating these verbal function descriptions significantly improves the forecasting performance. The dataset, code, and prompts are available at https://github.com/LuminosityX/MM-Forecast. | 翻訳日:2024-08-09 15:48:23 公開日:2024-08-08 |
# 機械学習モデル評価のための品質指標のロバスト性調査
Robustness investigation of quality measures for the assessment of machine learning models ( http://arxiv.org/abs/2408.04391v1 ) ライセンス: Link先を確認 | Thomas Most, Lars Gräning, Sebastian Wolff, | (参考訳) 本稿では,機械学習モデルの評価のための品質指標の精度とロバスト性について検討する。
機械学習モデルの予測品質は、未知データに対して近似誤差を推定するクロスバリデーションアプローチに基づいて、モデルに依存しない評価を行う。
提案手法は,モデル予測における説明された変動量の定量化である。
これらの測定の信頼性は、いくつかの数値的な例を用いて評価され、推定された予測誤差の検証のための追加データセットが利用可能である。
さらに、提案した品質指標の信頼性境界を推定し、クロスバリデーション手法により得られた予測残差から局所品質指標を導出する。
In this paper the accuracy and robustness of quality measures for the assessment of machine learning models are investigated. The prediction quality of a machine learning model is evaluated model-independent based on a cross-validation approach, where the approximation error is estimated for unknown data. The presented measures quantify the amount of explained variation in the model prediction. The reliability of these measures is assessed by means of several numerical examples, where an additional data set for the verification of the estimated prediction error is available. Furthermore, the confidence bounds of the presented quality measures are estimated and local quality measures are derived from the prediction residuals obtained by the cross-validation approach. | 翻訳日:2024-08-09 15:48:23 公開日:2024-08-08 |
# 大規模言語モデル生成のためのオープンドメイン命令フォーマット制御
Open-domain Implicit Format Control for Large Language Model Generation ( http://arxiv.org/abs/2408.04392v1 ) ライセンス: Link先を確認 | Yiqun Yao, Wenjia Ma, Xuezhi Fang, Xin Jiang, Xiang Li, Xuying Meng, Peng Han, Jing Li, Aixin Sun, Yequan Wang, | (参考訳) 大規模言語モデル(LLM)によって生成される出力の形式を制御することは、様々なアプリケーションにおいて重要な機能である。
現行の手法では、ルールベースのオートマトンによる制約付きデコーディングや、手作業によるフォーマット命令による微調整が一般的である。
この制限に対処するために、ユーザが提供するワンショットQAペアを活用したLLMにおける制御生成のための新しいフレームワークを導入する。
本研究は,LLMがオープンドメイン,ワンショット制約に追従し,サンプル回答の形式を再現する能力について検討する。
現在のLLMでは、これは非自明な問題である。
また,LLMの出力品質を劣化させることなく,LLMのオープンドメインフォーマット制御を向上する教師付き微調整のためのデータセット収集手法や,LLM出力の有用性とフォーマットの正しさを評価するベンチマークも開発した。
OIFC-SFTという名前のデータセットと関連するコードはhttps://github.com/cofe-ai/OIFCで公開される。
Controlling the format of outputs generated by large language models (LLMs) is a critical functionality in various applications. Current methods typically employ constrained decoding with rule-based automata or fine-tuning with manually crafted format instructions, both of which struggle with open-domain format requirements. To address this limitation, we introduce a novel framework for controlled generation in LLMs, leveraging user-provided, one-shot QA pairs. This study investigates LLMs' capabilities to follow open-domain, one-shot constraints and replicate the format of the example answers. We observe that this is a non-trivial problem for current LLMs. We also develop a dataset collection methodology for supervised fine-tuning that enhances the open-domain format control of LLMs without degrading output quality, as well as a benchmark on which we evaluate both the helpfulness and format correctness of LLM outputs. The resulting datasets, named OIFC-SFT, along with the related code, will be made publicly available at https://github.com/cofe-ai/OIFC. | 翻訳日:2024-08-09 15:48:23 公開日:2024-08-08 |
# 大規模言語モデルを用いた異なるブルームスキルレベルでの教育的質問の自動生成:戦略と評価
Automated Educational Question Generation at Different Bloom's Skill Levels using Large Language Models: Strategies and Evaluation ( http://arxiv.org/abs/2408.04394v1 ) ライセンス: Link先を確認 | Nicy Scaria, Suma Dharani Chenna, Deepak Subramani, | (参考訳) 教育者にとって、教育的に健全で、関連性があり、学習を促進するような質問を開発することは、困難で時間を要する課題である。
現代の大規模言語モデル(LLM)は、複数のドメインにわたる高品質なコンテンツを生成し、教育者が高品質な質問を開発するのに役立つ可能性がある。
オンライン教育を多様な学生に展開する上で,AEQG(Automated Education Question Generation)が重要である。
AEQGの過去の試みでは、高い認知レベルで質問を生成する能力は限られていた。
本研究では,Bloomの分類学で定義された,異なる認知レベルの多様で高品質な質問を生成するために,異なる大きさの5つの最先端LCMの能力について検討した。
AEQGには様々な複雑さを持つ高度なプロンプト技術を用いる。
言語的および教育的妥当性と質問の質を評価するために,専門家およびLSMによる評価を行った。
以上より, LLmsは, 5つのLLmsの性能に有意な差異があるにもかかわらず, 認知レベルが異なる関連性, 高品質な教育的質問を生じさせる可能性が示唆された。
また,自動評価は人的評価と同等ではないことを示す。
Developing questions that are pedagogically sound, relevant, and promote learning is a challenging and time-consuming task for educators. Modern-day large language models (LLMs) generate high-quality content across multiple domains, potentially helping educators to develop high-quality questions. Automated educational question generation (AEQG) is important in scaling online education catering to a diverse student population. Past attempts at AEQG have shown limited abilities to generate questions at higher cognitive levels. In this study, we examine the ability of five state-of-the-art LLMs of different sizes to generate diverse and high-quality questions of different cognitive levels, as defined by Bloom's taxonomy. We use advanced prompting techniques with varying complexity for AEQG. We conducted expert and LLM-based evaluations to assess the linguistic and pedagogical relevance and quality of the questions. Our findings suggest that LLms can generate relevant and high-quality educational questions of different cognitive levels when prompted with adequate information, although there is a significant variance in the performance of the five LLms considered. We also show that automated evaluation is not on par with human evaluation. | 翻訳日:2024-08-09 15:48:23 公開日:2024-08-08 |
# ソーシャルサイトからのユーザ関心検索のための感性分析によるセマンティックグラフに基づくアプローチの強化
Enhanced Semantic Graph Based Approach With Sentiment Analysis For User Interest Retrieval From Social Sites ( http://arxiv.org/abs/2408.04395v1 ) ライセンス: Link先を確認 | Usama Ahmed Jamal, | (参考訳) ブログやソーシャルネットワークサイトは、ユーザーの興味や考え、考えを表現するためのプラットフォームとして機能している。
ターゲットマーケティングは、レコメンデーションシステムを使用して、サービスや製品をユーザやクライアントに提案する。
そこで,ターゲットマーケティングで使用する手法は,ユーザ生成テキストからキーワードと主トピックを抽出することである。
従来の手法のほとんどは、調査と評価システムに基づく個人的関心事の特定を含む。
しかし,提案した研究は,ユーザの知識ベース領域として個人的関心を識別・分析するための情報源として,ユーザ生成テキストを使用することを目的としていることが異なる。
セマンティックグラフに基づくアプローチは、クライアントやユーザの参照を、ツイートなどの自身のテキストを分析して識別する研究手法である。
キーワードは、ソーシャルネットワークサイトのユーザが生成したテキストから抽出する必要がある。
これは、ユーザーが提供した利用可能なコンテンツからキーワードを自動的に抽出するいくつかのアルゴリズムを使用することで可能となる。
頻度と度合いに基づいて抽出したキーワードをランク付けする。
さらに、セマンティックグラフに基づくモデルは、ソーシャルメディアからコンテンツを分析することによって、ユーザの興味を引き出すだけで有用な提案を提供するのに役立つ。
このアプローチグラフでは、ノードがアルゴリズムによって抽出されたキーワードを表すノードとエッジで構成され、エッジはノード間のセマンティックな接続を示す。
調査や評価などのインターネット関連のユーザアクティビティを必要とせず、ユーザの関心に関連する情報を収集する。
Blogs and social networking sites serve as a platform to the users for expressing their interests, ideas and thoughts. Targeted marketing uses the recommendation systems for suggesting their services and products to the users or clients. So the method used by target marketing is extraction of keywords and main topics from the user generated texts. Most of conventional methods involve identifying the personal interests just on the basis of surveys and rating systems. But the proposed research differs in manner that it aim at using the user generated text as a source medium for identifying and analyzing the personal interest as a knowledge base area of users. Semantic graph based approach is proposed research work that identifies the references of clients and users by analyzing their own texts such as tweets. The keywords need to be extracted from the text generated by the user on the social networking sites. This can be made possible by using several algorithms that extracts the keywords automatically from the available content provided by the user. Based on frequency and degree it ranks the extracted keywords. Furthermore, semantic graph based model assists in providing useful suggestions just by extracting the interests of users by analyzing their contents from social media. In this approach graph comprises of nodes and edges where nodes represents the keywords extracted by the algorithm and edges shows the semantic connection between the nodes. The method does not require internet related user activities like surveys or ratings to gather user interest related information. | 翻訳日:2024-08-09 15:38:36 公開日:2024-08-08 |
# 反現実的思考下での機械学習におけるパルスオキシメトリバイアスの影響評価
Evaluating the Impact of Pulse Oximetry Bias in Machine Learning under Counterfactual Thinking ( http://arxiv.org/abs/2408.04396v1 ) ライセンス: Link先を確認 | Inês Martins, João Matos, Tiago Gonçalves, Leo A. Celi, A. Ian Wong, Jaime S. Cardoso, | (参考訳) 医療におけるアルゴリズムバイアスは、既存のデータバイアスを反映する。
しかし、不公平な要因は必ずしも分かっていない。
例えば、パルスオキシメータは、より暗い肌の個体の動脈酸素飽和を過大評価し、結果が悪化する。
このバイアスが機械学習(ML)モデルに与える影響は、まだ不明である。
本研究は,下流MLにおける医療機器バイアスの影響を定量化する技術的課題に対処する。
実験では, パルスオキシメトリのバイアスを伴わない「完璧な世界」を, SAO2 (血液ガス) を「実際の世界」と, SpO2 (パルスオキシメトリ) を用いてバイアス測定した「実際の世界」と比較した。
この対物設計の下では、2つのモデルが同じデータ、特徴、設定で訓練され、酸素飽和度を測定する方法を除いて: SaO2 を用いたモデルは「制御」であり、SpO2 を使用したモデルは「処理」である。
血液ガスオキシメトリリンクデータセットは163,396個のほぼ同時なSpO2-SaO2ペア測定結果を含む好適な試験層であった。
本研究は, 院内死亡率, 呼吸中SOFAスコア, 呼吸中SOFAスコアの3つの分類課題について検討した。
SpO2の代わりにSaO2を使用するモデルでは、一般的にパフォーマンスが向上した。
パルスオキシメトリーでO2を過大評価した患者は、死亡予測のリコールが0.63から0.59、P < 0.001と有意に減少した。
これは、偏光パルスオキシメトリーが臨床医に患者の酸素濃度の誤測定を与える臨床過程を反映している。
同様の劣化はMLモデルで発生し、パルスオキシメトリーのバイアスは、悪い結果を予測する際により偽陰性をもたらす。
Algorithmic bias in healthcare mirrors existing data biases. However, the factors driving unfairness are not always known. Medical devices capture significant amounts of data but are prone to errors; for instance, pulse oximeters overestimate the arterial oxygen saturation of darker-skinned individuals, leading to worse outcomes. The impact of this bias in machine learning (ML) models remains unclear. This study addresses the technical challenges of quantifying the impact of medical device bias in downstream ML. Our experiments compare a "perfect world", without pulse oximetry bias, using SaO2 (blood-gas), to the "actual world", with biased measurements, using SpO2 (pulse oximetry). Under this counterfactual design, two models are trained with identical data, features, and settings, except for the method of measuring oxygen saturation: models using SaO2 are a "control" and models using SpO2 a "treatment". The blood-gas oximetry linked dataset was a suitable test-bed, containing 163,396 nearly-simultaneous SpO2 - SaO2 paired measurements, aligned with a wide array of clinical features and outcomes. We studied three classification tasks: in-hospital mortality, respiratory SOFA score in the next 24 hours, and SOFA score increase by two points. Models using SaO2 instead of SpO2 generally showed better performance. Patients with overestimation of O2 by pulse oximetry of > 3% had significant decreases in mortality prediction recall, from 0.63 to 0.59, P < 0.001. This mirrors clinical processes where biased pulse oximetry readings provide clinicians with false reassurance of patients' oxygen levels. A similar degradation happened in ML models, with pulse oximetry biases leading to more false negatives in predicting adverse outcomes. | 翻訳日:2024-08-09 15:38:36 公開日:2024-08-08 |
# DIVE: Graph Out-of-Distribution Generalizationのためのサブグラフの分離
DIVE: Subgraph Disagreement for Graph Out-of-Distribution Generalization ( http://arxiv.org/abs/2408.04400v1 ) ライセンス: Link先を確認 | Xin Sun, Liang Wang, Qiang Liu, Shu Wu, Zilei Wang, Liang Wang, | (参考訳) 本稿では,グラフ機械学習におけるアウト・オブ・ディストリビューション(OOD)の一般化の課題について述べる。
従来のグラフ学習アルゴリズムは、トレーニングデータとテストデータの間の均一な分布の仮定に基づいて、この仮定が失敗する現実のシナリオに干渉し、最適以下のパフォーマンスをもたらす。
この亜最適性能に寄与する主な要因は、SGD(Stochastic Gradient Descent)を通じてトレーニングされたニューラルネットワークの固有の単純さバイアスである。
このバイアスは、画像認識、自然言語理解、グラフ分類といった様々なタスクにおいて、OODのパフォーマンスに悪影響を及ぼす、急激な相関に依存する。
サブグラフ・ミックスアップや情報ボトルネックアプローチといった現在の手法は部分的には成功したが、単純さのバイアスを克服するのに苦労しており、しばしば素早い相関を補強している。
そこで本研究では,DIVEを用いて,単純な構造パターンに対応する部分グラフのみに焦点を絞ったモデルの制限を回避するために,サブグラフマスクのばらつきをモデルに促進させることにより,すべてのラベル予測サブグラフにフォーカスするモデルの集合を訓練する。
具体的には、モデル間で抽出された部分グラフの重複を抑えるために正規化器を使用し、異なるモデルに異なる構造パターンに集中するよう促す。
堅牢なOOD性能のためのモデル選択は、検証精度によって達成される。
GOODベンチマークの4つのデータセットとDragonOODベンチマークの1つのデータセットでテストし、既存の手法よりも大幅に改善され、グラフ機械学習における単純さのバイアスに効果的に対処し、一般化を向上する。
This paper addresses the challenge of out-of-distribution (OOD) generalization in graph machine learning, a field rapidly advancing yet grappling with the discrepancy between source and target data distributions. Traditional graph learning algorithms, based on the assumption of uniform distribution between training and test data, falter in real-world scenarios where this assumption fails, resulting in suboptimal performance. A principal factor contributing to this suboptimal performance is the inherent simplicity bias of neural networks trained through Stochastic Gradient Descent (SGD), which prefer simpler features over more complex yet equally or more predictive ones. This bias leads to a reliance on spurious correlations, adversely affecting OOD performance in various tasks such as image recognition, natural language understanding, and graph classification. Current methodologies, including subgraph-mixup and information bottleneck approaches, have achieved partial success but struggle to overcome simplicity bias, often reinforcing spurious correlations. To tackle this, we propose DIVE, training a collection of models to focus on all label-predictive subgraphs by encouraging the models to foster divergence on the subgraph mask, which circumvents the limitation of a model solely focusing on the subgraph corresponding to simple structural patterns. Specifically, we employs a regularizer to punish overlap in extracted subgraphs across models, thereby encouraging different models to concentrate on distinct structural patterns. Model selection for robust OOD performance is achieved through validation accuracy. Tested across four datasets from GOOD benchmark and one dataset from DrugOOD benchmark, our approach demonstrates significant improvement over existing methods, effectively addressing the simplicity bias and enhancing generalization in graph machine learning. | 翻訳日:2024-08-09 15:38:36 公開日:2024-08-08 |
# Syllogismによる大規模言語モデルの推論バイアスの探索:NeuBAROCOデータセットからの考察
Exploring Reasoning Biases in Large Language Models Through Syllogism: Insights from the NeuBAROCO Dataset ( http://arxiv.org/abs/2408.04403v1 ) ライセンス: Link先を確認 | Kentaro Ozeki, Risako Ando, Takanobu Morishita, Hirohiko Abe, Koji Mineshima, Mitsuhiro Okada, | (参考訳) 本稿では,現在の大規模言語モデルが自然言語の論理的推論をどの程度正確に行うかという問題について考察し,これらのモデルが人間に類似した推論バイアスを示すかどうかを考察する。
具体的には,人間の推論の自然な形態として認知科学において広く研究されている誘因的推論の一形態であるシロメトリクスに焦点をあてる。
我々は,英語と日本語のシロジズム推論問題からなるNeuBAROCOというシロジズムデータセットを提案する。
このデータセットはもともと、様々な形態のシロジズムを用いて人間の推論能力を評価する心理的実験のために設計された。
大きな言語モデルを用いた我々の実験は、これらのモデルが、他のエラー傾向とともに、人間に類似した推論バイアスを示すことを示している。
特に、前提と仮説の関係が必然的かつ矛盾しないような、推論上の問題を改善するための重要な余地がある。
また,新たなChain-of-Thoughtプロンプト法を用いて,Syllogismを抽象論理式に変換し,その推論過程を説明する実験結果と詳細な解析を行った。
本手法を用いて解析した結果, LLM の基本的限界は, 論理学の解釈よりも推論過程そのものにあることが示唆された。
This paper explores the question of how accurately current large language models can perform logical reasoning in natural language, with an emphasis on whether these models exhibit reasoning biases similar to humans. Specifically, our study focuses on syllogistic reasoning, a form of deductive reasoning extensively studied in cognitive science as a natural form of human reasoning. We present a syllogism dataset called NeuBAROCO, which consists of syllogistic reasoning problems in English and Japanese. This dataset was originally designed for psychological experiments to assess human reasoning capabilities using various forms of syllogisms. Our experiments with leading large language models indicate that these models exhibit reasoning biases similar to humans, along with other error tendencies. Notably, there is significant room for improvement in reasoning problems where the relationship between premises and hypotheses is neither entailment nor contradiction. We also present experimental results and in-depth analysis using a new Chain-of-Thought prompting method, which asks LLMs to translate syllogisms into abstract logical expressions and then explain their reasoning process. Our analysis using this method suggests that the primary limitations of LLMs lie in the reasoning process itself rather than the interpretation of syllogisms. | 翻訳日:2024-08-09 15:38:36 公開日:2024-08-08 |
# 再生核ヒルベルト空間における量子レグレッションによる確率エネルギー予測
Probabilistic energy forecasting through quantile regression in reproducing kernel Hilbert spaces ( http://arxiv.org/abs/2408.04405v1 ) ライセンス: Link先を確認 | Luca Pernigo, Rohan Sen, Davide Baroli, | (参考訳) 正確なエネルギー需要予測は持続的で回復力のあるエネルギー開発に不可欠である。
DACH諸国におけるネットゼロ代表集中経路(RCP)の4.5ドルのシナリオを満たすためには、再生可能エネルギー生産の増加、エネルギー貯蔵、商業建築の消費の削減が必要である。
このシナリオの成功は、水力発電能力と気候要因に依存する。
インフォームド決定は予測の不確実性を定量化する必要がある。
本研究では、エネルギー予測のためにカーネル量子レグレッション(カーネル量子レグレッション)として知られる \emph{re producer kernel Hilbert space (RKHS) に基づく非パラメトリック手法を探索する。
本実験は信頼性とシャープさを実証し,DACH領域の負荷および価格予測における最先端手法と比較した。
我々は、我々の研究の再現性を確保するために、追加のスクリプトと共に実装を提供します。
Accurate energy demand forecasting is crucial for sustainable and resilient energy development. To meet the Net Zero Representative Concentration Pathways (RCP) $4.5$ scenario in the DACH countries, increased renewable energy production, energy storage, and reduced commercial building consumption are needed. This scenario's success depends on hydroelectric capacity and climatic factors. Informed decisions require quantifying uncertainty in forecasts. This study explores a non-parametric method based on \emph{reproducing kernel Hilbert spaces (RKHS)}, known as kernel quantile regression, for energy prediction. Our experiments demonstrate its reliability and sharpness, and we benchmark it against state-of-the-art methods in load and price forecasting for the DACH region. We offer our implementation in conjunction with additional scripts to ensure the reproducibility of our research. | 翻訳日:2024-08-09 15:38:36 公開日:2024-08-08 |
# 移動目標の有限サンプル学習
Finite sample learning of moving targets ( http://arxiv.org/abs/2408.04406v1 ) ライセンス: Link先を確認 | Nikolaus Vertovec, Kostas Margellos, Maria Prandini, | (参考訳) サンプルから学ぶための移動目標について検討する。
その結果,一定目標に対する制御と最適化のために開発されたランダム化手法を,目標が変化している場合に拡張した。
対象のほぼ正しい推定値(PAC)を構築するのに必要なサンプル数に縛られた小説を導出する。
さらに,移動対象が凸多面体である場合,混合整数線形プログラム(MILP)を用いてPAC推定を生成する構築的手法を提案する。
提案手法は,自律型緊急ブレーキへの応用について実証した。
We consider a moving target that we seek to learn from samples. Our results extend randomized techniques developed in control and optimization for a constant target to the case where the target is changing. We derive a novel bound on the number of samples that are required to construct a probably approximately correct (PAC) estimate of the target. Furthermore, when the moving target is a convex polytope, we provide a constructive method of generating the PAC estimate using a mixed integer linear program (MILP). The proposed method is demonstrated on an application to autonomous emergency braking. | 翻訳日:2024-08-09 15:38:36 公開日:2024-08-08 |
# 深層学習を用いた複数段階のクラッタ分類
Clutter Classification Using Deep Learning in Multiple Stages ( http://arxiv.org/abs/2408.04407v1 ) ライセンス: Link先を確認 | Ryan Dempsey, Jonathan Ethier, | (参考訳) 無線通信における経路損失予測は局所環境に大きく依存する。
クラッタ情報を含む伝搬モデルは,モデル精度を著しく向上させることが示されている。
本稿では,衛星画像への深層学習の適用について検討し,環境クラッタのタイプを自動的に識別する。
これらの乱雑な型を認識するには多くの用途があるが、我々の主な応用は、伝播予測モデルを強化するために乱雑な情報を使用することである。
障害の種類(ツリー、ビルディング、さらに分類)を知ることで、経路損失などの重要な伝搬指標の予測精度を向上させることができる。
Path loss prediction for wireless communications is highly dependent on the local environment. Propagation models including clutter information have been shown to significantly increase model accuracy. This paper explores the application of deep learning to satellite imagery to identify environmental clutter types automatically. Recognizing these clutter types has numerous uses, but our main application is to use clutter information to enhance propagation prediction models. Knowing the type of obstruction (tree, building, and further classifications) can improve the prediction accuracy of key propagation metrics such as path loss. | 翻訳日:2024-08-09 15:38:36 公開日:2024-08-08 |
# Deeploy: 異種マイクロコントローラ上での小型言語モデルのエネルギー効率向上
Deeploy: Enabling Energy-Efficient Deployment of Small Language Models On Heterogeneous Microcontrollers ( http://arxiv.org/abs/2408.04413v1 ) ライセンス: Link先を確認 | Moritz Scherer, Luka Macan, Victor Jung, Philip Wiese, Luca Bompani, Alessio Burrello, Francesco Conti, Luca Benini, | (参考訳) Embodied Foundation Models (EFMs)、特にSmall Language Models (SLMs) の台頭により、エッジアプリケーションにトランスフォーマーを適用することが、非常に活発な研究分野となっている。
しかし、マイクロコントローラ(MCU)クラスのチップにSLMをエンド・ツー・エンドで展開する際、チップオフチップのメモリアクセスを不要にすることは、依然としてオープンな課題である。
本稿では,ML命令拡張を付加したマルチコアRISC-V (RV32) MCUとハードウェアニューラル処理ユニット (NPU) 上で,高効率なエンドツーエンドSLMデプロイメントを実演する。
ヘテロジニアス(multicore+NPU)リソース上の攻撃的SLM展開に関わる制約付き多次元メモリ対計算トレードオフの探索を自動化するために,我々は,ランタイムサポートを最小限にする必要のある高度に最適化されたCコードを生成する,新しいDeep Neural Network (DNN)コンパイラであるDeeployを紹介した。
我々は、TinyStoriesデータセットでトレーニングされたSLMに対して、SI{340}{Token \per \second} において、SI{490}{\micro\joule \per Token} の先端エネルギーとスループットを達成する。
With the rise of Embodied Foundation Models (EFMs), most notably Small Language Models (SLMs), adapting Transformers for edge applications has become a very active field of research. However, achieving end-to-end deployment of SLMs on microcontroller (MCU)-class chips without high-bandwidth off-chip main memory access is still an open challenge. In this paper, we demonstrate high-efficiency end-to-end SLM deployment on a multicore RISC-V (RV32) MCU augmented with ML instruction extensions and a hardware neural processing unit (NPU). To automate the exploration of the constrained, multi-dimensional memory vs. computation tradeoffs involved in aggressive SLM deployment on heterogeneous (multicore+NPU) resources, we introduce Deeploy, a novel Deep Neural Network (DNN) compiler, which generates highly-optimized C code requiring minimal runtime support. We demonstrate that Deeploy generates end-to-end code for executing SLMs, fully exploiting the RV32 cores' instruction extensions and the NPU: We achieve leading-edge energy and throughput of \SI{490}{\micro\joule \per Token}, at \SI{340}{Token \per \second} for an SLM trained on the TinyStories dataset, running for the first time on an MCU-class device without external memory. | 翻訳日:2024-08-09 15:38:36 公開日:2024-08-08 |
# 文脈内学習を用いた検索言語モデルのロバスト性向上
Enhancing Robustness of Retrieval-Augmented Language Models with In-Context Learning ( http://arxiv.org/abs/2408.04414v1 ) ライセンス: Link先を確認 | Seong-Il Park, Seung-Woo Choi, Na-Hyun Kim, Jay-Yoon Lee, | (参考訳) Retrieval-Augmented Language Models (RALMs) は、外部知識を活用することにより、オープンドメイン質問応答(QA)の性能を大幅に向上させた。
しかし、ALMは、検索されたコンテキストが正しい回答を含まない、不完全な検索のために異なるソースが矛盾する回答を提供する、という、解決不可能なクエリに苦慮している。
本研究では、ALMの推論能力を高めるために、文脈内学習に基づくアプローチを導入し、不完全な検索シナリオにおいてより堅牢にする。
提案手法では,Machine Reading Comprehension (MRC) デモをケースとして組み込んで,検索したコンテキスト間の不確実性や矛盾を識別するモデルの能力を向上する。
オープンドメインの2つのQAデータセットの実験では、追加の微調整を必要とせず、解決不可能なシナリオと競合するシナリオを特定する際の精度が向上している。
この研究は、オープンドメインQAタスクにおけるRALMの堅牢性を効果的に向上できることを実証する。
Retrieval-Augmented Language Models (RALMs) have significantly improved performance in open-domain question answering (QA) by leveraging external knowledge. However, RALMs still struggle with unanswerable queries, where the retrieved contexts do not contain the correct answer, and with conflicting information, where different sources provide contradictory answers due to imperfect retrieval. This study introduces an in-context learning-based approach to enhance the reasoning capabilities of RALMs, making them more robust in imperfect retrieval scenarios. Our method incorporates Machine Reading Comprehension (MRC) demonstrations, referred to as cases, to boost the model's capabilities to identify unanswerabilities and conflicts among the retrieved contexts. Experiments on two open-domain QA datasets show that our approach increases accuracy in identifying unanswerable and conflicting scenarios without requiring additional fine-tuning. This work demonstrates that in-context learning can effectively enhance the robustness of RALMs in open-domain QA tasks. | 翻訳日:2024-08-09 15:38:36 公開日:2024-08-08 |
# 量子ノイズキャンセラ用アンシラリーシステムの逆設計
Inverse design of Ancillary System for Quantum Noise Cancellation ( http://arxiv.org/abs/2408.04418v1 ) ライセンス: Link先を確認 | Fabio Anselmi, Fabio Benatti, Giuseppe D'Auria, Giovanna Morigi, | (参考訳) そこで本研究では,ターゲットシステムSにおけるデコヒーレンス効果を,調整可能なパラメータを持つ補助システムAに結合することで緩和する手法を提案する。
S-A相互作用ハミルトニアンを適切に設計することにより、効果的なノイズキャンセリングを実現し、ターゲット系Sにおける量子コヒーレンスを著しく維持するダークファクタ化化合物状態が見つかる。
密度と密度の相互作用によって同じ種類のSの2モード系と$S$の適切な結合により、量子力学的多体絡み状態であるNOON状態のレジリエンスが向上する。
さらに、光学格子における双極子-双極子相互作用を含む構成に着目し、提案手法の実験的実装の可能性について検討する。
最後に、より汎用的な量子システムで使用可能な特定の量子状態の生存確率を最大化するために、システムAとそのSとの相互作用を学習する数値最適化プロトコルを提案する。
We propose a novel approach to mitigate the decoherence effects on a target system S by coupling it to an ancillary system A with tunable parameters. By suitably engineering the S-A interaction Hamiltonian, a dark factorized compound state is found that achieves effective noise cancellation and significantly preserves quantum coherence in the target system S. We illustrate our methodology for a system $S$ consisting of two-mode Bosons trapped in a double-well potential and affected by decoherence through a Gorini-Kossakowski-Sudarshan-Lindblad (GKSL) master equation. By a suitable coupling of the system $S$ with an ancillary two-mode system of the same kind of S via a density-density interaction, we enhance the resilience of the system NOON state, a quantum-mechanical many-body entangled state crucial for quantum computing. We further explore potential experimental implementations of the proposed noise cancellation technique, focusing on configurations involving dipole-dipole interactions in optical lattices. Finally, we propose a numerical optimization protocol that learns the system A and its interaction with S to maximize the survival probability of specific quantum states which can be potentially used in more generic quantum systems. | 翻訳日:2024-08-09 15:38:36 公開日:2024-08-08 |
# 大規模言語モデルを用いた人間行動からの感情制御戦略の認識
Recognizing Emotion Regulation Strategies from Human Behavior with Large Language Models ( http://arxiv.org/abs/2408.04420v1 ) ライセンス: Link先を確認 | Philipp Müller, Alexander Heimerl, Sayed Muddashir Hossain, Lea Siegel, Jan Alexandersson, Patrick Gebhard, Elisabeth André, Tanja Schneeberger, | (参考訳) 人間の感情は直接表現されないことが多いが、内部のプロセスや社会的表示規則に従って制御される。
情緒的コンピューティングシステムでは、ユーザーの感情の制御方法を理解することは、例えば、面接のトレーニングや精神療法のシナリオでフィードバックを提供するのに非常に有用である。
しかし、現時点では、ユーザ間のシナリオで異なる感情制御戦略を自動分類する方法は存在しない。
同時に、近年の研究では、命令調整型大規模言語モデル(LLM)が、カテゴリー的感情認識や感情分析など、様々な影響認識タスクにまたがって、印象的なパフォーマンスを達成できることが示されている。
これらの結果は有望であるが, ユーザの内的感情制御戦略を分類するより微妙な作業において, LLMの表現力がどの程度活用できるかは定かではない。
このギャップを埋めるために、最近導入された「textsc{Deep}corpus」を用いて、感情の恥の社会的表示をモデル化する。
我々はLlama2-7Bと最近導入されたGemmaモデルを用いて、異なる情報ソースから生成されるプロンプトを低ランクで最適化する。
これらには、言語的および非言語的行動、人的要因、そしてインタラクション後の詳細なインタビューの結果が含まれる。
以上の結果から,Llama2-7B LLMは,インタラクション後のインタビューからのデータにアクセスすることなく,利用した感情制御戦略を高い精度 (0.84) で分類できることが示唆された。
これはベイジアンネットワークに基づく従来のアプローチよりも顕著な改善であり、感情制御における言語行動のモデル化の重要性を強調している。
Human emotions are often not expressed directly, but regulated according to internal processes and social display rules. For affective computing systems, an understanding of how users regulate their emotions can be highly useful, for example to provide feedback in job interview training, or in psychotherapeutic scenarios. However, at present no method to automatically classify different emotion regulation strategies in a cross-user scenario exists. At the same time, recent studies showed that instruction-tuned Large Language Models (LLMs) can reach impressive performance across a variety of affect recognition tasks such as categorical emotion recognition or sentiment analysis. While these results are promising, it remains unclear to what extent the representational power of LLMs can be utilized in the more subtle task of classifying users' internal emotion regulation strategy. To close this gap, we make use of the recently introduced \textsc{Deep} corpus for modeling the social display of the emotion shame, where each point in time is annotated with one of seven different emotion regulation classes. We fine-tune Llama2-7B as well as the recently introduced Gemma model using Low-rank Optimization on prompts generated from different sources of information on the \textsc{Deep} corpus. These include verbal and nonverbal behavior, person factors, as well as the results of an in-depth interview after the interaction. Our results show, that a fine-tuned Llama2-7B LLM is able to classify the utilized emotion regulation strategy with high accuracy (0.84) without needing access to data from post-interaction interviews. This represents a significant improvement over previous approaches based on Bayesian Networks and highlights the importance of modeling verbal behavior in emotion regulation. | 翻訳日:2024-08-09 15:38:36 公開日:2024-08-08 |
# 偏光量子ビットとしてのダークスピンキャット
Dark spin-cats as biased qubits ( http://arxiv.org/abs/2408.04421v1 ) ライセンス: Link先を確認 | Andreas Kruckenhauser, Ming Yuan, Han Zheng, Mikhail Mamaev, Pei Zeng, Xuanhui Mao, Qian Xu, Torsten V. Zache, Liang Jiang, Rick van Bijnen, Peter Zoller, | (参考訳) 基底状態ゼーマンレベル内の「スピンキャット」として符号化された、すべての原子プラットフォームで普遍的に実装可能なバイアス付き原子量子ビットを提示する。
我々の構成の重要な特徴は、サイズ$F_g \gg 1$の基底状態スピン多様体とサイズ$F_e = F_g - 1$の励起ゼーマンスピン多様体との光による結合である。
この結合は、励起状態から自然に放出される光と免疫から切り離された基底状態多様体にちょうど2つの暗黒状態を含む駆動原子の固有状態をもたらす。
これらの暗黒状態は 'spin-cat' を構成し、 'dark spin-cat' という命名に繋がる。
強いRabiドライブと大きめの$F_g$では、'dark spin-cat'は一般的なノイズ源に対して自律的に安定化され、かなりバイアスのある量子ビットを符号化する。
具体的には、ビットフリップ誤差率は、デファスレートに対して$F_g$で指数関数的に減少する。
本稿では,ダークスピンキャットの解析,ノイズに対するロバスト性,およびRydberg tweezerプラットフォーム上で実証されたバイアス保存シングルキュービットおよびエンタングルゲートについて考察する。
We present a biased atomic qubit, universally implementable across all atomic platforms, encoded as a `spin-cat' within ground state Zeeman levels. The key characteristic of our configuration is the coupling of the ground state spin manifold of size $F_g \gg 1$ to an excited Zeeman spin manifold of size $F_e = F_g - 1$ using light. This coupling results in eigenstates of the driven atom that include exactly two dark states in the ground state manifold, which are decoupled from light and immune to spontaneous emission from the excited states. These dark states constitute the `spin-cat', leading to the designation `dark spin-cat'. We demonstrate that under strong Rabi drive and for large $F_g$, the `dark spin-cat' is autonomously stabilized against common noise sources and encodes a qubit with significantly biased noise. Specifically, the bit-flip error rate decreases exponentially with $F_g$ relative to the dephasing rate. We provide an analysis of dark spin-cats, their robustness to noise, and discuss bias-preserving single qubit and entangling gates, exemplified on a Rydberg tweezer platform. | 翻訳日:2024-08-09 15:38:36 公開日:2024-08-08 |
# 自己監督学習による気象レーダからの動物運動の検出
Detection of Animal Movement from Weather Radar using Self-Supervised Learning ( http://arxiv.org/abs/2408.04424v1 ) ライセンス: Link先を確認 | Mubin Ul Haque, Joel Janek Dabrowski, Rebecca M. Rogers, Hazel Parry, | (参考訳) 気象レーダーを用いた空飛ぶ動物(鳥、コウモリ、昆虫など)の検出は、動物の動きや移動パターン、管理活動(バイオセキュリティなど)の助けとなり、生態系の理解を深める。
最近では、Deep Learningアプローチによって検出のパフォーマンスが向上することが示されている。
しかし、飛行動物が学習モデルを構築するのに十分なラベル付き気象レーダーデータを得るには、時間と労力がかかる。
データラベリングの課題に対処するために,動物の動きを検出する自己教師型学習法を提案する。
提案手法では,しきい値を用いた雑音ラベル付き大規模データセット上でモデルを事前学習する。
鍵となる利点は、トレーニング済みのデータセットのサイズが利用可能なレーダー画像の数によって制限されていることだ。
そして、小さな人間のラベル付きデータセットでモデルを微調整します。
オーストラリアの気象レーダデータを用いた水鳥セグメンテーション実験により, 提案手法は, ダイス共効率統計学において, 現在の最先端技術よりも43.53%優れていることが判明した。
Detecting flying animals (e.g., birds, bats, and insects) using weather radar helps gain insights into animal movement and migration patterns, aids in management efforts (such as biosecurity) and enhances our understanding of the ecosystem.The conventional approach to detecting animals in weather radar involves thresholding: defining and applying thresholds for the radar variables, based on expert opinion. More recently, Deep Learning approaches have been shown to provide improved performance in detection. However, obtaining sufficient labelled weather radar data for flying animals to build learning-based models is time-consuming and labor-intensive. To address the challenge of data labelling, we propose a self-supervised learning method for detecting animal movement. In our proposed method, we pre-train our model on a large dataset with noisy labels produced by a threshold approach. The key advantage is that the pre-trained dataset size is limited only by the number of radar images available. We then fine-tune the model on a small human-labelled dataset. Our experiments on Australian weather radar data for waterbird segmentation show that the proposed method outperforms the current state-of-the art approach by 43.53% in the dice co-efficient statistic. | 翻訳日:2024-08-09 15:38:36 公開日:2024-08-08 |
# ロボット手術における変形性組織の3次元再構成技術の検討
A Review of 3D Reconstruction Techniques for Deformable Tissues in Robotic Surgery ( http://arxiv.org/abs/2408.04426v1 ) ライセンス: Link先を確認 | Mengya Xu, Ziqi Guo, An Wang, Long Bai, Hongliang Ren, | (参考訳) ロボットによる低侵襲手術において, 立体的, 単眼的内視鏡的ビデオを用いた手術シーンの再構築は, 臨床応用にとって大きな可能性を秘めている。
NeRFベースの技術は、暗黙的にシーンを再構築する能力に注目が集まっている。
一方、ガウシアンスプラッティングに基づく3D-GSは、3Dガウシアンを明示的に使用し、NeRFの複雑なボリュームレンダリングの代替として2D平面に投影するシーンを表現している。
しかし, これらの手法は, 遅い推論, ダイナミックシーン, 手術器具の閉塞など, 外科的シーンの再構築に関する課題に直面している。
この研究は、最先端のSOTA(State-of-the-art)アプローチを探求し、レビューし、彼らのイノベーションと実装原則について議論する。
さらに、モデルを複製し、2つのデータセットでテストと評価を行う。
実験の結果,これらの手法の進歩により,リアルタイムな高品質な再構築が実現可能であることが示された。
As a crucial and intricate task in robotic minimally invasive surgery, reconstructing surgical scenes using stereo or monocular endoscopic video holds immense potential for clinical applications. NeRF-based techniques have recently garnered attention for the ability to reconstruct scenes implicitly. On the other hand, Gaussian splatting-based 3D-GS represents scenes explicitly using 3D Gaussians and projects them onto a 2D plane as a replacement for the complex volume rendering in NeRF. However, these methods face challenges regarding surgical scene reconstruction, such as slow inference, dynamic scenes, and surgical tool occlusion. This work explores and reviews state-of-the-art (SOTA) approaches, discussing their innovations and implementation principles. Furthermore, we replicate the models and conduct testing and evaluation on two datasets. The test results demonstrate that with advancements in these techniques, achieving real-time, high-quality reconstructions becomes feasible. | 翻訳日:2024-08-09 15:38:36 公開日:2024-08-08 |
# アクロスティックス:多言語コーパスにおけるアクロスティックの確率的同定とランク付け
AcrosticSleuth: Probabilistic Identification and Ranking of Acrostics in Multilingual Corpora ( http://arxiv.org/abs/2408.04427v1 ) ライセンス: Link先を確認 | Aleksandr Fedchin, Isabel Cooperman, Pramit Chaudhuri, Joseph P. Dexter, | (参考訳) 何世紀にもわたって、作家はアクロスティックとしてテキストにメッセージを隠しており、そこでは連続した行や段落の最初の文字が意味のある単語やフレーズを形成する。
アクロスティックを手動で探す研究者は、一度に少数の著者にのみ焦点を当てることができ、故意に議論する際には定性的な議論を好むことがしばしばある。
アクロスティックスルース(AcrosticSleuth)は、アクロスティックを自動的に識別し、文字列が偶然に起こらない確率でランク付けするツールである。
アクロスティックスは稀であるので、極端クラス不均衡の存在下では二項分類タスクとして問題を定式化する。
Acrostic Identification Dataset (AcrosticID, Acrostic Identification Dataset, Acrostic Identification Dataset, Acrostic Identification Dataset, Acrostic Identification Dataset, Acrostic Identification Dataset, Acrostic Identification Dataset, Acrostic Identification Dataset, Acrostic Identification Dataset, Acrostic Identification Dataset, Acrostic Identification Dataset)をWikiSourceのオンラインデータベースから収集した。
クラス不均衡にもかかわらず、AcrosticSleuthはWikiSourceのフランス語、英語、ロシア語のサブドメインでそれぞれ0.39、0.59、0.66のスコアを達成している。
さらに、AcrosticSleuthは、イタリアのヒューマニストAlbertino Mussatoとイギリスの哲学者Thomas Hobbesの『法の要素』の冒頭段落の署名による「ARSPOETICA」(「詩の芸術」)のような、これまで知られていなかった有名な語句の例を特定できることを示した。
For centuries, writers have hidden messages in their texts as acrostics, where initial letters of consecutive lines or paragraphs form meaningful words or phrases. Scholars searching for acrostics manually can only focus on a few authors at a time and often favor qualitative arguments in discussing intentionally. We aim to put the study of acrostics on firmer statistical footing by presenting AcrosticSleuth, a first-of-its-kind tool that automatically identifies acrostics and ranks them by the probability that the sequence of characters does not occur by chance (and therefore may have been inserted intentionally). Acrostics are rare, so we formalize the problem as a binary classification task in the presence of extreme class imbalance. To evaluate AcrosticSleuth, we present the Acrostic Identification Dataset (AcrostID), a collection of acrostics from the WikiSource online database. Despite the class imbalance, AcrosticSleuth achieves F1 scores of 0.39, 0.59, and 0.66 on French, English, and Russian subdomains of WikiSource, respectively. We further demonstrate that AcrosticSleuth can identify previously unknown high-profile instances of wordplay, such as the acrostic spelling ARSPOETICA (``art of poetry") by Italian Humanist Albertino Mussato and English philosopher Thomas Hobbes' signature in the opening paragraphs of The Elements of Law. | 翻訳日:2024-08-09 15:38:36 公開日:2024-08-08 |
# 言語間コードクローン検出のための大規模言語モデル
Large Language Models for cross-language code clone detection ( http://arxiv.org/abs/2408.04430v1 ) ライセンス: Link先を確認 | Micheline Bénédicte Moumoula, Abdoul Kader Kabore, Jacques Klein, Tegawendé Bissyande, | (参考訳) 現代のソフトウェア開発における複数のプログラミング言語の関与により、言語間コードクローン検出は、ソフトウェア工学コミュニティで注目を集めている。
多くの研究がこの問題を探求し、様々な有望なアプローチを提案している。
近年の機械学習、特に様々なタスクに対処する能力を示したLarge Language Models(LLMs)に触発されて、この記事では、言語間コードクローン検出を再考する。
言語間コードクローンの同定において,4つの (04) LLMと8つの (08) プロンプトの能力について検討した。
さらに,クローンと非クローンのペアを分類するために生成された表現の有効性を評価するために,事前学習した埋め込みモデルを評価する。
両研究(LLMモデルと埋め込みモデルに基づく)は、広く使われている2つの言語間データセット、XLCoSTとCodeNetを用いて評価される。
以上の結果から,LCMはプログラミングの簡単な例(例えばXLCoSTから)に対して最大0.98までの高いF1スコアを達成できることがわかった。
しかし、複雑なプログラミング課題に関連するプログラムではあまりうまく機能しないだけでなく、言語横断的な設定でコードクローンの意味を必ずしも理解していない。
同一表現空間における異なるプログラミング言語のコードフラグメントを表現するために使用される埋め込みモデルは、XLCoSTとCodeNetのデータセットにおいて、全てのLLMを約2と24のパーセンテージで上回る基本分類器のトレーニングを可能にすることを示す。
この結果は、LLMの明らかな機能にもかかわらず、埋め込みモデルが提供する埋め込みは、言語間コードクローン検出における最先端のパフォーマンスを達成するのに適した表現を提供することを示している。
With the involvement of multiple programming languages in modern software development, cross-lingual code clone detection has gained traction with the software engineering community. Numerous studies have explored this topic, proposing various promising approaches. Inspired by the significant advances in machine learning in recent years, particularly Large Language Models (LLMs), which have demonstrated their ability to tackle various tasks, this paper revisits cross-lingual code clone detection. We investigate the capabilities of four (04) LLMs and eight (08) prompts for the identification of cross-lingual code clones. Additionally, we evaluate a pre-trained embedding model to assess the effectiveness of the generated representations for classifying clone and non-clone pairs. Both studies (based on LLMs and Embedding models) are evaluated using two widely used cross-lingual datasets, XLCoST and CodeNet. Our results show that LLMs can achieve high F1 scores, up to 0.98, for straightforward programming examples (e.g., from XLCoST). However, they not only perform less well on programs associated with complex programming challenges but also do not necessarily understand the meaning of code clones in a cross-lingual setting. We show that embedding models used to represent code fragments from different programming languages in the same representation space enable the training of a basic classifier that outperforms all LLMs by ~2 and ~24 percentage points on the XLCoST and CodeNet datasets, respectively. This finding suggests that, despite the apparent capabilities of LLMs, embeddings provided by embedding models offer suitable representations to achieve state-of-the-art performance in cross-lingual code clone detection. | 翻訳日:2024-08-09 15:28:24 公開日:2024-08-08 |
# SCGトレースにおけるシストリック錯体の同定のための深層学習--クロスデータセット解析
Deep Learning for identifying systolic complexes in SCG traces: a cross-dataset analysis ( http://arxiv.org/abs/2408.04439v1 ) ライセンス: Link先を確認 | Michele Craighero, Sarah Solbiati, Federica Mozzini, Enrico Caiani, Giacomo Boracchi, | (参考訳) 心電図信号は、心活動解析における従来の心電図の代替として有望である。
特に、収縮複合体は筋電図の最も情報的な部分であることが知られており、さらなる解析が必要である。
サイストリック複合体を検出する最先端のソリューションは、先駆的な研究で有効であることが証明されたディープラーニングモデルに基づいている。
しかし、これらのソリューションはコントロールされたシナリオでのみテストされ、ユーザから取得したクリーンな信号のみは、まだ停止状態にある。
それに加えて、これらの研究はすべて単一のデータセットから得られるデータを検討し、データセット間のシナリオに関連するメリットと課題を無視しています。
本研究では,実世界のシナリオからのデータも考慮し,データセット間の実験分析を行った。
本研究は,個人化ステップがドメインシフトと対比する重要性,すなわちトレーニングデータとテストデータ間のデータ分散の変化を示すとともに,ディープラーニングソリューションの有効性を実証するものである。
最後に、加速度計とジャイロスコープのデータから抽出した情報を活用するマルチチャネルアプローチの利点を実証する。
The seismocardiographic signal is a promising alternative to the traditional ECG in the analysis of the cardiac activity. In particular, the systolic complex is known to be the most informative part of the seismocardiogram, thus requiring further analysis. State-of-art solutions to detect the systolic complex are based on Deep Learning models, which have been proven effective in pioneering studies. However, these solutions have only been tested in a controlled scenario considering only clean signals acquired from users maintained still in supine position. On top of that, all these studies consider data coming from a single dataset, ignoring the benefits and challenges related to a cross-dataset scenario. In this work, a cross-dataset experimental analysis was performed considering also data from a real-world scenario. Our findings prove the effectiveness of a deep learning solution, while showing the importance of a personalization step to contrast the domain shift, namely a change in data distribution between training and testing data. Finally, we demonstrate the benefits of a multi-channels approach, leveraging the information extracted from both accelerometers and gyroscopes data. | 翻訳日:2024-08-09 15:28:24 公開日:2024-08-08 |
# FedAD-Bench: タブラルデータにおけるフェデレートされた教師なし異常検出のための統一ベンチマーク
FedAD-Bench: A Unified Benchmark for Federated Unsupervised Anomaly Detection in Tabular Data ( http://arxiv.org/abs/2408.04442v1 ) ライセンス: Link先を確認 | Ahmed Anwar, Brian Moser, Dayananda Herurkar, Federico Raue, Vinit Hegiste, Tatjana Legler, Andreas Dengel, | (参考訳) FL(Federated Learning)の出現は、プライバシを保ちながら分散データを活用するための有望なアプローチを示す。
さらに、FLと異常検出の組み合わせは、サイバーセキュリティや医療など、複数のソースからの機密データから稀で重要な異常(通常は局所的な収集データでも稀)を検出することができるため、特に魅力的である。
しかし、FL環境における異常検出手法の性能のベンチマークは、まだ未調査領域である。
本稿ではFLの文脈内における教師なし異常検出アルゴリズムの評価のための統一ベンチマークであるFedAD-Benchを紹介する。
我々は,近年の深層学習異常検出モデルの性能を,一元的設定でのみ評価されるフェデレーション条件下で体系的に解析し,比較した。
FedAD-Benchは、総合的な評価を提供するために、さまざまなデータセットとメトリクスを含んでいる。
広範囲な実験を通じて、モデル集約の非効率性や計量的不確実性といった重要な課題を特定する。
FLの正規化効果に関する洞察を提示し、オーバーフィッティングを緩和する固有の能力のために集中型アプローチよりも優れているシナリオを明らかにする。
本研究の目的は,フェデレートされた異常検出における今後の研究・開発をガイドし,再現性と研究間の公正比較を促進するための標準化されたベンチマークを確立することである。
The emergence of federated learning (FL) presents a promising approach to leverage decentralized data while preserving privacy. Furthermore, the combination of FL and anomaly detection is particularly compelling because it allows for detecting rare and critical anomalies (usually also rare in locally gathered data) in sensitive data from multiple sources, such as cybersecurity and healthcare. However, benchmarking the performance of anomaly detection methods in FL environments remains an underexplored area. This paper introduces FedAD-Bench, a unified benchmark for evaluating unsupervised anomaly detection algorithms within the context of FL. We systematically analyze and compare the performance of recent deep learning anomaly detection models under federated settings, which were typically assessed solely in centralized settings. FedAD-Bench encompasses diverse datasets and metrics to provide a holistic evaluation. Through extensive experiments, we identify key challenges such as model aggregation inefficiencies and metric unreliability. We present insights into FL's regularization effects, revealing scenarios in which it outperforms centralized approaches due to its inherent ability to mitigate overfitting. Our work aims to establish a standardized benchmark to guide future research and development in federated anomaly detection, promoting reproducibility and fair comparison across studies. | 翻訳日:2024-08-09 15:28:24 公開日:2024-08-08 |
# RiskAwareBench: LLMをベースとした身体的エージェントの高レベル計画のための身体的リスク意識の評価に向けて
RiskAwareBench: Towards Evaluating Physical Risk Awareness for High-level Planning of LLM-based Embodied Agents ( http://arxiv.org/abs/2408.04449v1 ) ライセンス: Link先を確認 | Zihao Zhu, Bingzhe Wu, Zhengyou Zhang, Baoyuan Wu, | (参考訳) ロボット工学への大型言語モデル(LLM)の統合は、複雑な自然言語命令の理解と実行において、エンボディエージェントの能力を大幅に向上させる。
しかし, LLMをベースとした実環境への実施は, 財産被害や個人的損害などの潜在的な物理的リスクを生じさせる可能性がある。
LLMの既存のセキュリティベンチマークは、LLMをベースとしたエンボディエージェントのリスク意識を見落としている。
このギャップに対処するため,LLMをベースとしたエンボディエージェントの身体的リスク意識を評価するための自動フレームワークである RiskAwareBench を提案する。
RiskAwareBenchは、安全ヒント生成、リスクのあるシーン生成、計画生成、評価の4つのモジュールで構成されており、手動で最小限の介入で包括的なリスク評価を可能にする。
このフレームワークを利用することで、フィジカルリスクデータセットをコンパイルし、関連する安全ヒント、観察、指示を含むさまざまなシナリオを包含する。
広範囲にわたる実験の結果、ほとんどのLSMは身体的リスク認識が不十分であり、ベースラインのリスク軽減戦略は限定的な強化をもたらすことが判明した。
The integration of large language models (LLMs) into robotics significantly enhances the capabilities of embodied agents in understanding and executing complex natural language instructions. However, the unmitigated deployment of LLM-based embodied systems in real-world environments may pose potential physical risks, such as property damage and personal injury. Existing security benchmarks for LLMs overlook risk awareness for LLM-based embodied agents. To address this gap, we propose RiskAwareBench, an automated framework designed to assess physical risks awareness in LLM-based embodied agents. RiskAwareBench consists of four modules: safety tips generation, risky scene generation, plan generation, and evaluation, enabling comprehensive risk assessment with minimal manual intervention. Utilizing this framework, we compile the PhysicalRisk dataset, encompassing diverse scenarios with associated safety tips, observations, and instructions. Extensive experiments reveal that most LLMs exhibit insufficient physical risk awareness, and baseline risk mitigation strategies yield limited enhancement, which emphasizes the urgency and cruciality of improving risk awareness in LLM-based embodied agents in the future. | 翻訳日:2024-08-09 15:28:24 公開日:2024-08-08 |
# 画像分類のためのバイナリニューラルネットワークトレーニングのためのバックプロパゲーションと代替手段に関する実験的検討
An experimental comparative study of backpropagation and alternatives for training binary neural networks for image classification ( http://arxiv.org/abs/2408.04460v1 ) ライセンス: Link先を確認 | Ben Crulis, Barthelemy Serres, Cyril de Runz, Gilles Venturini, | (参考訳) 現在の人工ニューラルネットワークは、推論時に多くのメモリ空間を占める浮動小数点数として符号化されたパラメータで訓練されている。
ディープラーニングモデルのサイズが大きくなるため、エッジデバイス上でのトレーニングやニューラルネットワークの使用を考えることは極めて困難になっている。
バイナリニューラルネットワークは、ディープニューラルネットワークモデルのサイズを減らし、エネルギー消費を減らしながら推論速度を向上することを約束する。
したがって、より強力なモデルをエッジデバイスにデプロイすることが可能になる。
しかしながら、バイナリニューラルネットワークは、バックプロパゲーションに基づく勾配降下法を用いて訓練することが依然として難しいことが証明されている。
本稿では,主に連続ニューラルネットワーク用に設計されたバックプロパゲーションの2つの有望な代替手段として,バイナリニューラルネットワークへの適応を提案し,簡単な画像分類データセットを用いて実験を行った,‘cite{crulis2023alternatives’の研究を拡張した。
本稿では、画像分類のための3つの異なるモデルアーキテクチャを比較し、バックプロパゲーションに2つの選択肢を加える。
Current artificial neural networks are trained with parameters encoded as floating point numbers that occupy lots of memory space at inference time. Due to the increase in the size of deep learning models, it is becoming very difficult to consider training and using artificial neural networks on edge devices. Binary neural networks promise to reduce the size of deep neural network models, as well as to increase inference speed while decreasing energy consumption. Thus, they may allow the deployment of more powerful models on edge devices. However, binary neural networks are still proven to be difficult to train using the backpropagation-based gradient descent scheme. This paper extends the work of \cite{crulis2023alternatives}, which proposed adapting to binary neural networks two promising alternatives to backpropagation originally designed for continuous neural networks, and experimented with them on simple image classification datasets. This paper proposes new experiments on the ImageNette dataset, compares three different model architectures for image classification, and adds two additional alternatives to backpropagation. | 翻訳日:2024-08-09 15:28:24 公開日:2024-08-08 |
# 高速大規模グラフ生成のためのランダムウォーク拡散
Random Walk Diffusion for Efficient Large-Scale Graph Generation ( http://arxiv.org/abs/2408.04461v1 ) ライセンス: Link先を確認 | Tobias Bernecker, Ghalia Rehawi, Francesco Paolo Casale, Janine Knauer-Arloth, Annalisa Marsico, | (参考訳) グラフ生成は、現実世界のグラフに似たデータ分布を持つ新しいグラフを生成する問題に対処する。
従来の拡散に基づくグラフ生成手法は有望な結果を示しているが、大きなグラフにスケールするのに苦労することが多い。
本研究では,ARROW-Diff(AutoRegressive RandOm Walk Diffusion)を提案する。
本手法は,ランダムウォークサンプリングとグラフプルーニングの反復的なプロセスにおける2つの成分を含む。
我々は、ARROW-Diffが、生成時間と複数のグラフ統計の両面において、他のベースライン手法を超越して、大きなグラフに効率的にスケールできることを示し、生成したグラフの高品質さを反映している。
Graph generation addresses the problem of generating new graphs that have a data distribution similar to real-world graphs. While previous diffusion-based graph generation methods have shown promising results, they often struggle to scale to large graphs. In this work, we propose ARROW-Diff (AutoRegressive RandOm Walk Diffusion), a novel random walk-based diffusion approach for efficient large-scale graph generation. Our method encompasses two components in an iterative process of random walk sampling and graph pruning. We demonstrate that ARROW-Diff can scale to large graphs efficiently, surpassing other baseline methods in terms of both generation time and multiple graph statistics, reflecting the high quality of the generated graphs. | 翻訳日:2024-08-09 15:28:24 公開日:2024-08-08 |
# ソーシャルメディアにおける誤情報予測のためのクラウドインテリジェンス
Crowd Intelligence for Early Misinformation Prediction on Social Media ( http://arxiv.org/abs/2408.04463v1 ) ライセンス: Link先を確認 | Megha Sundriyal, Harshit Choudhary, Tanmoy Chakraborty, Md Shad Akhtar, | (参考訳) 誤報はソーシャルメディアに急速に広まり、世論に影響を与え、危険な行動を奨励したり、信頼できる情報源の信頼を損なうなど、深刻な被害をもたらす。
従来のファクトチェックにはあまりにも速く広がり、予測方法の必要性を強調します。
本稿では,クラウドインテリジェンスに基づく早期誤報予測手法であるCROWDSHIELDを紹介する。
我々は、誤報に対する群衆の反応がその正確さを明らかにしていると仮定する。
さらに、会話スレッド内のソースポストに、誇張されたアサーション/ステートメントと、特定の位置/スタンスに対する返信をヒンジする。
私たちは2つの次元(スタンスとクレーム)を捉えるためにQラーニングを採用しています。
我々は、複雑な決定空間をナビゲートし、ネットワーク特性を効果的に学習する能力により、深いQ-ラーニングを利用する。
さらに,コンテントとコンテキストの両方を包括的に理解するために,トランスフォーマーベースのエンコーダを使用する。
この多面的アプローチは、モデルがユーザのインタラクションに注意を払い、コミュニケーションの内容に固定されていることを確実にするのに役立つ。
約200の会話スレッドと14K以上の応答からなるTwitterコーパスを手動で注釈付き誤報検出するMISTを提案する。
実験では、CROWDSHIELDは10のベースラインシステムより優れ、約4%のマクロF1スコアが向上した。
我々は,提案モデルの性能を評価するために,アブレーション研究と誤り解析を行う。
ソースコードとデータセットはhttps://github.com/LCS2-IIITD/CrowdShield.gitで公開されている。
Misinformation spreads rapidly on social media, causing serious damage by influencing public opinion, promoting dangerous behavior, or eroding trust in reliable sources. It spreads too fast for traditional fact-checking, stressing the need for predictive methods. We introduce CROWDSHIELD, a crowd intelligence-based method for early misinformation prediction. We hypothesize that the crowd's reactions to misinformation reveal its accuracy. Furthermore, we hinge upon exaggerated assertions/claims and replies with particular positions/stances on the source post within a conversation thread. We employ Q-learning to capture the two dimensions -- stances and claims. We utilize deep Q-learning due to its proficiency in navigating complex decision spaces and effectively learning network properties. Additionally, we use a transformer-based encoder to develop a comprehensive understanding of both content and context. This multifaceted approach helps ensure the model pays attention to user interaction and stays anchored in the communication's content. We propose MIST, a manually annotated misinformation detection Twitter corpus comprising nearly 200 conversation threads with more than 14K replies. In experiments, CROWDSHIELD outperformed ten baseline systems, achieving an improvement of ~4% macro-F1 score. We conduct an ablation study and error analysis to validate our proposed model's performance. The source code and dataset are available at https://github.com/LCS2-IIITD/CrowdShield.git. | 翻訳日:2024-08-09 15:28:24 公開日:2024-08-08 |
# コンピュータービジョンにおける障害モードの発見と説明
What could go wrong? Discovering and describing failure modes in computer vision ( http://arxiv.org/abs/2408.04471v1 ) ライセンス: Link先を確認 | Gabriela Csurka, Tyler L. Hayes, Diane Larlus, Riccardo Volpi, | (参考訳) ディープラーニングモデルは効率的だが脆弱だ。
丁寧に訓練されたとしても、その行動は配布外サンプルに直面すると予測しにくい傾向にある。
本研究の目的は、コンピュータビジョンモデルにおいて、自然言語による潜在的な障害モードを予測し、記述するための、シンプルで効果的なソリューションを提案することである。
事前訓練されたモデルとサンプルのセットが与えられた場合、そのモデルが過小評価される視覚的条件を正確に記述した文を見つけることが目的である。
この重要なトピックについて研究し、今後の研究を促進するために、言語ベースの誤り説明可能性(LBEE)の問題を形式化し、このタスクの異なる手法を評価し比較するための指標セットを提案する。
我々は,共同視覚・言語埋め込み空間で動作し,学習中や視覚条件の悪い物体が原因で発生する言語記述のモデル故障を特徴付けることができるソリューションを提案する。
本研究では,データセットバイアスやセマンティックセグメンテーションの存在下での分類などの異なるタスクを実験し,提案手法が特定の誤りの原因に関連する非自明な文を分離することを示す。
私たちの仕事は、実践者がモデルの振る舞いをよりよく理解し、全体的な安全性と解釈可能性を高めるのに役立つことを願っています。
Deep learning models are effective, yet brittle. Even carefully trained, their behavior tends to be hard to predict when confronted with out-of-distribution samples. In this work, our goal is to propose a simple yet effective solution to predict and describe via natural language potential failure modes of computer vision models. Given a pretrained model and a set of samples, our aim is to find sentences that accurately describe the visual conditions in which the model underperforms. In order to study this important topic and foster future research on it, we formalize the problem of Language-Based Error Explainability (LBEE) and propose a set of metrics to evaluate and compare different methods for this task. We propose solutions that operate in a joint vision-and-language embedding space, and can characterize through language descriptions model failures caused, e.g., by objects unseen during training or adverse visual conditions. We experiment with different tasks, such as classification under the presence of dataset bias and semantic segmentation in unseen environments, and show that the proposed methodology isolates nontrivial sentences associated with specific error causes. We hope our work will help practitioners better understand the behavior of models, increasing their overall safety and interpretability. | 翻訳日:2024-08-09 15:28:24 公開日:2024-08-08 |
# LLMは人間に勝てるか? 競争力のある議論のための動的マルチエージェントフレームワーク
Can LLMs Beat Humans in Debating? A Dynamic Multi-agent Framework for Competitive Debate ( http://arxiv.org/abs/2408.04472v1 ) ライセンス: Link先を確認 | Yiqun Zhang, Xiaocui Yang, Shi Feng, Daling Wang, Yifei Zhang, Kaisong Song, | (参考訳) 競争的議論は包括的で複雑な計算的議論課題である。
大きな言語モデル(LLM)は幻覚に遭遇し、このタスクでは競争力に欠ける。
これらの課題に対処するために,競争上の議論においてその能力を高めるために設計されたLLMをベースとした動的マルチエージェントフレームワークであるAgent4Debate(Agent4Debate)を紹介した。
Agent4Debateは、議論の準備と実行における人間の行動からインスピレーションを得て、4つの専門エージェント(Searcher、Analyzer、Writer、Reviewer)が動的に対話し協力する協調アーキテクチャを採用している。
これらのエージェントは議論プロセス全体を通して働き、最初の研究から議論の定式化から反感と要約まで、様々な段階をカバーする。
フレームワークのパフォーマンスを網羅的に評価するために,66の慎重に選択された中国語討論運動からなる中国語討論アリーナを構築した。
我々は、経験豊富な10人の議論者を募集し、Agent4Debate、ベースラインモデル、および人間を含む200の議論の記録を収集します。
評価には、Debatrix自動スコアシステムと、確立されたDebatrix-EloとHuman-Eloのランキングに基づく専門家の人間レビュアーが使用されている。
実験の結果、最先端のAgent4Debateは人間の能力に匹敵する能力を示した。
さらに、アブレーション研究は、エージェント構造における各成分の有効性を示す。
Competitive debate is a comprehensive and complex computational argumentation task. Large Language Models (LLMs) encounter hallucinations and lack competitiveness in this task. To address these challenges, we introduce Agent for Debate (Agent4Debate), a dynamic, multi-agent framework based on LLMs designed to enhance their capabilities in competitive debate. Drawing inspiration from human behavior in debate preparation and execution, Agent4Debate employs a collaborative architecture where four specialized agents (Searcher, Analyzer, Writer, and Reviewer) dynamically interact and cooperate. These agents work throughout the debate process, covering multiple stages from initial research and argument formulation to rebuttal and summary. To comprehensively evaluate framework performance, we construct the Chinese Debate Arena, comprising 66 carefully selected Chinese debate motions. We recruite ten experienced human debaters and collect records of 200 debates involving Agent4Debate, baseline models, and humans. The evaluation employs the Debatrix automatic scoring system and professional human reviewers based on the established Debatrix-Elo and Human-Elo ranking. Experimental results indicate that the state-of-the-art Agent4Debate exhibits capabilities comparable to those of humans. Furthermore, ablation studies demonstrate the effectiveness of each component in the agent structure. | 翻訳日:2024-08-09 15:28:24 公開日:2024-08-08 |
# 必要なものは何か: LLMベースのコード理解アシスタントのための心の理論
What You Need is What You Get: Theory of Mind for an LLM-Based Code Understanding Assistant ( http://arxiv.org/abs/2408.04477v1 ) ライセンス: Link先を確認 | Jonan Richards, Mairieli Wessel, | (参考訳) 開発者のコード理解を支援するために、多くのツールがLLM(Large Language Models)を使用している。
しかしながら、開発者は、自然言語での意図の説明、ツールの結果の解釈、有用な情報を得るために効果的なプロンプトの修正など、そのようなツールの使用に対する障壁に直面する。
本研究では,LLMに基づく対話型アシスタントを設計し,推定されたユーザの精神状態(背景知識や経験など)に基づいて個人化された対話を提供する。
本研究は,14人の初級者を対象に,その知覚と嗜好を捉えた内科的な研究で評価した。
コード理解の初心者をサポートするためにLLMベースの会話アシスタントを開発したり改善したりしたい研究者やツールビルダーに洞察を提供する。
A growing number of tools have used Large Language Models (LLMs) to support developers' code understanding. However, developers still face several barriers to using such tools, including challenges in describing their intent in natural language, interpreting the tool outcome, and refining an effective prompt to obtain useful information. In this study, we designed an LLM-based conversational assistant that provides a personalized interaction based on inferred user mental state (e.g., background knowledge and experience). We evaluate the approach in a within-subject study with fourteen novices to capture their perceptions and preferences. Our results provide insights for researchers and tool builders who want to create or improve LLM-based conversational assistants to support novices in code understanding. | 翻訳日:2024-08-09 15:28:24 公開日:2024-08-08 |
# 総合データ生成・評価・リスク管理のためのNFDI4ヘルスワークフローとサービス
NFDI4Health workflow and service for synthetic data generation, assessment and risk management ( http://arxiv.org/abs/2408.04478v1 ) ライセンス: Link先を確認 | Sobhan Moazemi, Tim Adams, Hwei Geok NG, Lisa Kühnel, Julian Schneider, Anatol-Fiete Näher, Juliane Fluck, Holger Fröhlich, | (参考訳) 個々の健康データは、特に人工知能(AI)の開発において、科学的進歩に不可欠である。
この課題に対する有望な解決策は、合成データ生成である。
この技術は、秘密の患者情報を保存しながら、実際のデータの統計的特性を模倣する全く新しいデータセットを作成する。
本稿では,ドイツのNFDI4Healthプロジェクト(NFDI4Health)の文脈で開発されたワークフローとサービスについて述べる。
まず、合成健康データを生成するための最先端AIツール(VAMBNとMultiNODE)について概説する。
さらに、ユーザが所望の生成モデルによって提供される合成データの品質とリスクを可視化し、評価できるSynDAT(パブリックウェブベースツール)を導入する。
さらに、アルツハイマー病神経画像イニシアチブ (ADNI) とロバート・コッホ研究所 (RKI) のがん登録データセンター (Center for Cancer Registry Data) のデータを用いて、提案手法とWebベースのツールの有用性を示した。
Individual health data is crucial for scientific advancements, particularly in developing Artificial Intelligence (AI); however, sharing real patient information is often restricted due to privacy concerns. A promising solution to this challenge is synthetic data generation. This technique creates entirely new datasets that mimic the statistical properties of real data, while preserving confidential patient information. In this paper, we present the workflow and different services developed in the context of Germany's National Data Infrastructure project NFDI4Health. First, two state-of-the-art AI tools (namely, VAMBN and MultiNODEs) for generating synthetic health data are outlined. Further, we introduce SYNDAT (a public web-based tool) which allows users to visualize and assess the quality and risk of synthetic data provided by desired generative models. Additionally, the utility of the proposed methods and the web-based tool is showcased using data from Alzheimer's Disease Neuroimaging Initiative (ADNI) and the Center for Cancer Registry Data of the Robert Koch Institute (RKI). | 翻訳日:2024-08-09 15:28:24 公開日:2024-08-08 |
# 移動電位井戸による量子粒子の搬送の最適化
Optimization of conveyance of quantum particles by moving potential-well ( http://arxiv.org/abs/2408.04480v1 ) ライセンス: Link先を確認 | Satoshi Morita, Yoshiaki Teranishi, Seiji Miyashita, | (参考訳) トラップ電位井戸を用いた粒子の位置の量子力学的制御は、量子粒子の操作において重要な問題である。
本研究では, ある一定時間内に粒子を輸送する過程において, 電位井戸内の粒子トラップが正常に搬送される確率,すなわち生存確率について検討する。
搬送の実際の動きについては、粒子の移動を加速し、目的地で停止するために減速する必要がある。
まず, 直接数値計算, Wentzel-Kramers-Brillouin法, 共鳴状態の方法により, 一定の加速速度での生存確率の緩和について詳細に検討した。
生存確率は, 固有値問題の観点から解析した結果, 長い時間で指数的崩壊を示した。
ドロップオフの重要な原因は、開始点における速度の非解析的変化である。
静止粒子が動き始めると、静止フレームの基底状態が移動フレームの固有状態に再分配され、移動フレームの各固有状態は時間とともに進化する。
分散集団の波動関数の強調は、伝達を成功させる確率を減少させる。
一般に、スムーズなスタートは小さな初期乱れを与えるが、一定時間内に目的地に到達するためには、プロセス中に大きな加速を必要とする。
これらの矛盾する事実を考慮し, コンクリート搬送方式の生存確率について検討する。
搬送過程における捕捉確率と個体群分布の時間的変化を観察する。
ポテンシャル井戸がいくつかの境界状態を持つ場合、境界状態の生存確率の差を利用して、基底状態に閉じ込められた粒子を選択する方法を提案する。
Quantum mechanical control of the position of a particle by using a trapping potential-well is an important problem for the manipulation of a quantum particle. We study the probability of successful conveyance of a particle trapping in a potential-well, i.e., survival probability in the process carrying of the particle for a given length within a given fixed time. For the actual motion of conveyance, we need to accelerate the particle to move and then decelerate it to stop at the destination. First, the relaxation of the survival probability in a constant acceleration rate is studied in detail by direct numerical calculation, the Wentzel-Kramers-Brillouin method, and a method of the resonance states. The survival probability was found to show an exponential decay in a long time, which is analyzed from a viewpoint of eigenvalue problem. An important source of drop-off comes from a non-analytic change of velocity at the starting point. When the rested particle begins to move, the ground state of the rest frame is redistributed to eigenstates of the moving frame, and then, each eigenstate of the moving frame evolves in time. The dephasing of wavefunctions of the distributed populations reduces the probability of successful conveyance. In general, a smooth start gives a small initial disturbance but requires a large acceleration during the process to reach the destination in the fixed time which causes a larger drop-off in the process. Considering these conflicting facts, we study the survival probability in concrete conveyance schemes. We observe the time evolution of the trapped probability and the population distribution during the conveyance process. In cases that the potential-well has several bound states, we propose a method to select the particle trapped at the ground state by making use of the difference of survival probabilities of bound states. | 翻訳日:2024-08-09 15:28:24 公開日:2024-08-08 |
# SegXAL: シーンシナリオを駆動するセマンティックセグメンテーションのための説明可能なアクティブラーニング
SegXAL: Explainable Active Learning for Semantic Segmentation in Driving Scene Scenarios ( http://arxiv.org/abs/2408.04482v1 ) ライセンス: Link先を確認 | Sriram Mandalika, Athira Nambiar, | (参考訳) 高度なAIモデルのほとんどは、大量の注釈付きデータと重いトレーニングを使って、ハイエンドのパフォーマンスを実現している。
しかし、AIモデルの「夢中」シナリオの展開を妨げるいくつかの課題、すなわち、ラベルなしデータの非効率的な使用、人間の専門知識の取り込みの欠如、結果の解釈の欠如がある。
これらの課題を軽減するために,XALに基づくセマンティックセグメンテーションモデル "SegXAL" を新たに提案する。
i) ラベルのないデータを効果的に活用すること。
(二)「Human-in-the-loop」パラダイムの推進、及び
三 モデル決定を解釈可能な方法で拡張すること。
特に,シーン駆動シナリオにおけるセマンティックセグメンテーションに対するSegXALモデルの適用について検討する。
SegXALモデルは、説明可能なAI(XAI)と不確実性対策を弱教師付きで使用することにより、Oracleからのラベリング支援を必要とするイメージ領域を提案する。
具体的には、教師や人間の専門家が、結果の背後にある直感的な推論を提供し、アクティブな学習戦略を通じてAIシステムにフィードバックを要請することを可能にする、プロクシミティ対応のExplainable-AI(PAE)モジュールとエントロピーベースのUncertainty(EBU)モジュールを提案する。
このようなメカニズムは、人間とAIが互いに補完的な強みを積極的に強化する、協調的な知性を通じて、人間と機械のセマンティックギャップを橋渡しする。
また,DICE類似度係数に基づく新しい高信頼サンプル選択手法をSegXALフレームワークに導入した。
ベンチマークを行うCityscapeデータセットにおいて,大規模な定量的および定性的な分析を行う。
その結果,他の最先端モデルに対して提案したSegXALの有効性が示された。
Most of the sophisticated AI models utilize huge amounts of annotated data and heavy training to achieve high-end performance. However, there are certain challenges that hinder the deployment of AI models "in-the-wild" scenarios, i.e., inefficient use of unlabeled data, lack of incorporation of human expertise, and lack of interpretation of the results. To mitigate these challenges, we propose a novel Explainable Active Learning (XAL) model, XAL-based semantic segmentation model "SegXAL", that can (i) effectively utilize the unlabeled data, (ii) facilitate the "Human-in-the-loop" paradigm, and (iii) augment the model decisions in an interpretable way. In particular, we investigate the application of the SegXAL model for semantic segmentation in driving scene scenarios. The SegXAL model proposes the image regions that require labeling assistance from Oracle by dint of explainable AI (XAI) and uncertainty measures in a weakly-supervised manner. Specifically, we propose a novel Proximity-aware Explainable-AI (PAE) module and Entropy-based Uncertainty (EBU) module to get an Explainable Error Mask, which enables the machine teachers/human experts to provide intuitive reasoning behind the results and to solicit feedback to the AI system via an active learning strategy. Such a mechanism bridges the semantic gap between man and machine through collaborative intelligence, where humans and AI actively enhance each other's complementary strengths. A novel high-confidence sample selection technique based on the DICE similarity coefficient is also presented within the SegXAL framework. Extensive quantitative and qualitative analyses are carried out in the benchmarking Cityscape dataset. Results show the outperformance of our proposed SegXAL against other state-of-the-art models. | 翻訳日:2024-08-09 15:28:24 公開日:2024-08-08 |
# 1964年ジョン・ベルの論文
The 1964 paper of John Bell ( http://arxiv.org/abs/2408.04483v1 ) ライセンス: Link先を確認 | Ujjwal Sen, | (参考訳) 我々は、1964年の有名なジョン・ベルの論文に、局所的な量子力学の基盤となる隠れ変数理論の全クラスを規定する注釈を提示する。
We present a commentary on the famous 1964 paper of John Bell that rules out the entire class of underlying hidden variable theories for quantum mechanics that are local. | 翻訳日:2024-08-09 15:28:24 公開日:2024-08-08 |
# 2次統計を用いたMU-MIMO無線のクラスタリングのための統計的枠組み
Statistical Framework for Clustering MU-MIMO Wireless via Second Order Statistics ( http://arxiv.org/abs/2408.04484v1 ) ライセンス: Link先を確認 | Roberto Pereira, Xavier Mestre, | (参考訳) 本研究は, 正定値行列のリーマン多様体上に存在するチャネル共分散行列間の距離を調べることにより, 無線ユーザのクラスタリングを探索する。
具体的には,複数サンプル共分散行列(SCM)間の対数-ユークリッド距離の推定器について,サンプル数と観測サイズが同じ速度で非有界に成長した場合に一貫した推定器を検討する。
マルチユーザMIMO(MU-MIMO)無線通信システムのコンテキスト内で,現実的な条件下でのクラスタリングアルゴリズムの性能の正確な予測を可能にする統計フレームワークを開発する。
具体的には、2つのサンプル共分散行列上で計算された対数ユークリッド距離の一貫した推定器の漸近的なガウス性を確立する中心極限定理を示す。
This work explores the clustering of wireless users by examining the distances between their channel covariance matrices, which reside on the Riemannian manifold of positive definite matrices. Specifically, we consider an estimator of the Log-Euclidean distance between multiple sample covariance matrices (SCMs) consistent when the number of samples and the observation size grow unbounded at the same rate. Within the context of multi-user MIMO (MU-MIMO) wireless communication systems, we develop a statistical framework that allows to accurate predictions of the clustering algorithm's performance under realistic conditions. Specifically, we present a central limit theorem that establishes the asymptotic Gaussianity of the consistent estimator of the log-Euclidean distance computed over two sample covariance matrices. | 翻訳日:2024-08-09 15:18:18 公開日:2024-08-08 |
# 連鎖型動作モードを用いた準群に基づく対称暗号化方式
Symmetric Encryption Scheme Based on Quasigroup Using Chained Mode of Operation ( http://arxiv.org/abs/2408.04490v1 ) ライセンス: Link先を確認 | Satish Kumar, Harshdeep Singh, Indivar Gupta, Ashok Ji Gupta, | (参考訳) 本稿では,準群の構造に基づく対称暗号方式SEBQを提案する。
動作モードのような連鎖の概念を利用し、内蔵特性を持つブロック暗号を提示する。
我々はSEBQが選択された平文攻撃(CPA)に対する耐性を示し、不均衡なFeistel変換[19]を適用することにより、選択された暗号文攻撃(CCA)に対するセキュリティを実現することを証明した。
その後、NISTテストスイートを実行することで提案手法のランダム性を評価し、アバランシェ効果解析により、初期ベクトル、秘密鍵、平文が暗号文に与える影響を分析する。
また、その結果を擬群 [11,46] に基づく既存のスキームと比較する。
さらに,暗号化および復号化処理に必要な演算数の観点から,計算複雑性を解析する。
In this paper, we propose a novel construction for a symmetric encryption scheme, referred as SEBQ which is based on the structure of quasigroup. We utilize concepts of chaining like mode of operation and present a block cipher with in-built properties. We prove that SEBQ shows resistance against chosen plaintext attack (CPA) and by applying unbalanced Feistel transformation [19], it achieves security against chosen ciphertext attacks (CCA). Subsequently, we conduct an assessment of the randomness of the proposed scheme by running the NIST test suite and we analyze the impact of the initial vector, secret key and plaintext on ciphertext through an avalanche effect analysis. We also compare the results with existing schemes based on quasigroups [11,46]. Moreover, we analyze the computational complexity in terms of number of operations needed for encryption and decryption process. | 翻訳日:2024-08-09 15:18:18 公開日:2024-08-08 |
# MRIにおける体積肝硬変の相乗的深層学習モデルに向けて
Towards Synergistic Deep Learning Models for Volumetric Cirrhotic Liver Segmentation in MRIs ( http://arxiv.org/abs/2408.04491v1 ) ライセンス: Link先を確認 | Vandan Gorade, Onkar Susladkar, Gorkem Durak, Elif Keles, Ertugrul Aktas, Timurhan Cebeci, Alpay Medetalibeyoglu, Daniela Ladner, Debesh Jha, Ulas Bagci, | (参考訳) 世界的死亡の主な原因である肝硬変は、効果的な疾患モニタリングと治療計画のためにROIを正確に区分する必要がある。
既存のセグメンテーションモデルは、複雑な機能インタラクションをキャプチャして、さまざまなデータセットをまたいだ一般化に失敗することが多い。
これらの制約に対処するため,機能相互作用モデリングの強化に相補的な潜在空間を利用する新しい相乗的理論を提案する。
提案アーキテクチャであるnnSynergyNet3Dは,3次元ボリュームのための連続および離散的な潜伏空間を統合し,自動構成トレーニングを特徴とする。
このアプローチはきめ細かな特徴と粗い特徴の両方を捉え、複雑な特徴相互作用の効果的なモデリングを可能にする。
339例の高分解能T1腹部MRIのプライベートデータセットを用いてnnSynergyNet3Dを実験的に検証した。
我々のモデルはベースラインであるnnUNet3Dを約2%上回った。
さらに、公衆のLiTSデータセットから正常な肝CTスキャンのゼロショットテストでは、より優れたクロスモーダル一般化能力が示された。
これらの結果は, セグメンテーション精度とロバスト性を向上させるための相乗的潜在空間モデルの可能性を強調した。
Liver cirrhosis, a leading cause of global mortality, requires precise segmentation of ROIs for effective disease monitoring and treatment planning. Existing segmentation models often fail to capture complex feature interactions and generalize across diverse datasets. To address these limitations, we propose a novel synergistic theory that leverages complementary latent spaces for enhanced feature interaction modeling. Our proposed architecture, nnSynergyNet3D integrates continuous and discrete latent spaces for 3D volumes and features auto-configured training. This approach captures both fine-grained and coarse features, enabling effective modeling of intricate feature interactions. We empirically validated nnSynergyNet3D on a private dataset of 628 high-resolution T1 abdominal MRI scans from 339 patients. Our model outperformed the baseline nnUNet3D by approximately 2%. Additionally, zero-shot testing on healthy liver CT scans from the public LiTS dataset demonstrated superior cross-modal generalization capabilities. These results highlight the potential of synergistic latent space models to improve segmentation accuracy and robustness, thereby enhancing clinical workflows by ensuring consistency across CT and MRI modalities. | 翻訳日:2024-08-09 15:18:18 公開日:2024-08-08 |
# 超立方体格子上のqubitセルオートマトンの分類
Classification of qubit cellular automata on hypercubic lattices ( http://arxiv.org/abs/2408.04493v1 ) ライセンス: Link先を確認 | Andrea Pizzamiglio, Alessandro Bisio, Paolo Perinotti, | (参考訳) 我々は、有限深度量子回路として実現可能性の観点から、フォン・ノイマン近傍スキームによる格子$\mathbb Z^s$の量子ビットQCAを分類する。
このような量子回路の最も一般的な構造を示し、その特性化を利用して、進化のいくつかのステップをシミュレートし、1つのセルとその周辺における絡み合いの発生率を評価する。
We classify qubit QCAs on lattices $\mathbb Z^s$ with von Neumann neighbourhood scheme, in terms of feasibility as finite depth quantum circuits. We show the most general structure of such quantum circuit and use its characterisation to simulate a few steps of evolution and evaluate the rate of entanglement production between one cell and its surroundings. | 翻訳日:2024-08-09 15:18:18 公開日:2024-08-08 |
# 文脈強化学習のためのモデルに基づく伝達学習
Model-Based Transfer Learning for Contextual Reinforcement Learning ( http://arxiv.org/abs/2408.04498v1 ) ライセンス: Link先を確認 | Jung-Hoon Cho, Vindula Jayawardana, Sirui Li, Cathy Wu, | (参考訳) 深層強化学習は、複雑な意思決定に対する強力なアプローチである。
しかし、実用的応用を制限している問題のひとつは、その脆さであり、時には環境に小さな変化があった場合の訓練に失敗することがある。
この研究は、既に訓練されたモデルを関連するタスクに直接適用するという経験的観察によって動機付けられ、ゼロショット転送(zero-shot transfer)とも呼ばれる。
この実践的なトリックをさらに進めて、さまざまなタスクにわたる全体的なパフォーマンスを最大化しながら、トレーニングする優れたタスクを体系的に選択する方法を検討します。
トレーニングのコストが高いことから、少数のトレーニングタスクを選択することが重要です。
このアプローチの背後にある重要なアイデアは、トレーニングされたモデルを転送することで生じるパフォーマンス損失(一般化ギャップ)を明示的にモデル化することです。
そこで我々は,文脈RL問題の解法としてモデルベーストランスファーラーニング(MBTL)を導入する。
本研究では,タスクコンテキスト類似性の単純な線形関数として性能損失をモデル化する。
さらに,ベイズ最適化手法を利用して,タスク空間の未知のトレーニング性能を効率的にモデル化し,推定する。
理論的には,本手法はトレーニングタスク数に比例する後悔を示し,後悔境界をさらに厳格化するための条件について議論する。
都市交通と標準制御ベンチマークを用いて,提案手法を実験的に検証した。
概念的単純さにもかかわらず、実験結果はMBTLが全てのタスクの徹底的なトレーニング、マルチタスクトレーニング、ランダムなトレーニングタスクの選択など、強いベースラインよりも高いパフォーマンスを達成できることを示唆している。
この研究は、一般化の明示的モデリングを調査するための基礎を築き、文脈的RLの原則的かつ効果的な方法を可能にする。
Deep reinforcement learning is a powerful approach to complex decision making. However, one issue that limits its practical application is its brittleness, sometimes failing to train in the presence of small changes in the environment. This work is motivated by the empirical observation that directly applying an already trained model to a related task often works remarkably well, also called zero-shot transfer. We take this practical trick one step further to consider how to systematically select good tasks to train, maximizing overall performance across a range of tasks. Given the high cost of training, it is critical to choose a small set of training tasks. The key idea behind our approach is to explicitly model the performance loss (generalization gap) incurred by transferring a trained model. We hence introduce Model-Based Transfer Learning (MBTL) for solving contextual RL problems. In this work, we model the performance loss as a simple linear function of task context similarity. Furthermore, we leverage Bayesian optimization techniques to efficiently model and estimate the unknown training performance of the task space. We theoretically show that the method exhibits regret that is sublinear in the number of training tasks and discuss conditions to further tighten regret bounds. We experimentally validate our methods using urban traffic and standard control benchmarks. Despite the conceptual simplicity, the experimental results suggest that MBTL can achieve greater performance than strong baselines, including exhaustive training on all tasks, multi-task training, and random selection of training tasks. This work lays the foundations for investigating explicit modeling of generalization, thereby enabling principled yet effective methods for contextual RL. | 翻訳日:2024-08-09 15:18:18 公開日:2024-08-08 |
# 確率的グラフィカルモデリングを活用した知識支援セマンティックコミュニケーション
Knowledge-Aided Semantic Communication Leveraging Probabilistic Graphical Modeling ( http://arxiv.org/abs/2408.04499v1 ) ライセンス: Link先を確認 | Haowen Wan, Qianqian Yang, Jiancheng Tang, Zhiguo shi, | (参考訳) 本稿では,確率的グラフィカルモデル(PGM)に基づく意味コミュニケーション手法を提案する。
提案手法では、トレーニングデータセットからPGMを構築し、送信機と受信機の間で共通知識として共有する。
種々の意味的特徴の重要性を評価し,予測可能な意味情報の部分を除去するPGMに基づく圧縮アルゴリズムを提案する。
さらに,削除した意味情報を受信側で再構築し,PGMに基づいて近似結果を生成する手法を提案する。
シミュレーションの結果,送信画像の品質を維持しつつ,既存の手法に比べて伝送効率が大幅に向上したことを示す。
In this paper, we propose a semantic communication approach based on probabilistic graphical model (PGM). The proposed approach involves constructing a PGM from a training dataset, which is then shared as common knowledge between the transmitter and receiver. We evaluate the importance of various semantic features and present a PGM-based compression algorithm designed to eliminate predictable portions of semantic information. Furthermore, we introduce a technique to reconstruct the discarded semantic information at the receiver end, generating approximate results based on the PGM. Simulation results indicate a significant improvement in transmission efficiency over existing methods, while maintaining the quality of the transmitted images. | 翻訳日:2024-08-09 15:18:18 公開日:2024-08-08 |
# 教育用ビデオにおける正当性検出:電流モデルの性能解析、限界の同定、進行方向
Saliency Detection in Educational Videos: Analyzing the Performance of Current Models, Identifying Limitations and Advancement Directions ( http://arxiv.org/abs/2408.04515v1 ) ライセンス: Link先を確認 | Evelyn Navarrete, Ralph Ewerth, Anett Hoppe, | (参考訳) 学習者が注意を払う学習資源の地域を特定することは、材料の影響を評価し、その設計および関連する支援システムを改善するために重要である。
ビデオの残差検出は、単一のフレームにおける注意を引く領域の自動認識に対処する。
教育環境では、ビデオの視覚ストリーム内の関連する領域の認識は、コンテンツアクセシビリティと、ビデオセグメンテーション、ナビゲーション、要約などの情報検索タスクを強化することができる。
このような進歩は、より効果的な学習を支援する先進的なAI支援技術の発展の道を開くことができる。
しかし, テキスト, 音声, イラスト, アニメーションなど, ユニークな特徴が組み合わさって, 教育ビデオでは特に難しい課題となっている。
我々の知る限りでは、現在、教育ビデオにおける唾液度検出のアプローチを評価する研究は行われていない。
本稿では,このギャップを,教育用ビデオの4つの最先端唾液度検出手法の評価により解決する。
我々は、元の研究を再現し、汎用的な(非教育的な)データセットの複製能力を探求する。
そこで,本研究では,モデルの一般化能力について検討し,その性能を教育ビデオで評価する。
一般的な障害シナリオと可能な改善領域を特定するために、包括的な分析を行います。
実験結果から,教育用ビデオは一般的なビデオ・サリエンシ検出モデルでは困難な状況にあることが明らかとなった。
Identifying the regions of a learning resource that a learner pays attention to is crucial for assessing the material's impact and improving its design and related support systems. Saliency detection in videos addresses the automatic recognition of attention-drawing regions in single frames. In educational settings, the recognition of pertinent regions in a video's visual stream can enhance content accessibility and information retrieval tasks such as video segmentation, navigation, and summarization. Such advancements can pave the way for the development of advanced AI-assisted technologies that support learning with greater efficacy. However, this task becomes particularly challenging for educational videos due to the combination of unique characteristics such as text, voice, illustrations, animations, and more. To the best of our knowledge, there is currently no study that evaluates saliency detection approaches in educational videos. In this paper, we address this gap by evaluating four state-of-the-art saliency detection approaches for educational videos. We reproduce the original studies and explore the replication capabilities for general-purpose (non-educational) datasets. Then, we investigate the generalization capabilities of the models and evaluate their performance on educational videos. We conduct a comprehensive analysis to identify common failure scenarios and possible areas of improvement. Our experimental results show that educational videos remain a challenging context for generic video saliency detection models. | 翻訳日:2024-08-09 15:18:18 公開日:2024-08-08 |
# フランス・ラジオ・テレビアーカイブにおけるジェンダーと時代をまたいだ芸術的構成
Articulatory Configurations across Genders and Periods in French Radio and TV archives ( http://arxiv.org/abs/2408.04519v1 ) ライセンス: Link先を確認 | Benjamin Elie, David Doukhan, Rémi Uro, Lucas Ondel-Yang, Albert Rilliard, Simon Devauchelle, | (参考訳) 本稿では,音響パラメータから調音パラメータへの逆変換を用いた性別・期間間の調音構成の変化について検討する。
1955年から2015年までの60年間にわたるフランスのメディアアーカイブに基づくダイアクロニックコーパスから、自動転写と強制的なアライメントにより、各母音の中央フレームの抽出が可能となった。
ジェンダーと年齢のカテゴリーで1000人以上の話者から100万フレーム以上が得られた。
それらのフォルマントは、前田の調音モデルのパラメータに適合するためにこれらの声帯から使用された。
これらのプロセスの品質評価が提供される。
前田モデルでは喉頭(女性高位)と唇隆起(男性高位)の相対的な位置について,全声道長に関連する2つのパラメータに着目した。
性別間での音声品質の意義について論じる。
期間による効果は性別に依存しないように見えるため、女性が時間とともにピッチを下げたという主張は支持されない。
This paper studies changes in articulatory configurations across genders and periods using an inversion from acoustic to articulatory parameters. From a diachronic corpus based on French media archives spanning 60 years from 1955 to 2015, automatic transcription and forced alignment allowed extracting the central frame of each vowel. More than one million frames were obtained from over a thousand speakers across gender and age categories. Their formants were used from these vocalic frames to fit the parameters of Maeda's articulatory model. Evaluations of the quality of these processes are provided. We focus here on two parameters of Maeda's model linked to total vocal tract length: the relative position of the larynx (higher for females) and the lips protrusion (more protruded for males). Implications for voice quality across genders are discussed. The effect across periods seems gender independent; thus, the assertion that females lowered their pitch with time is not supported. | 翻訳日:2024-08-09 15:18:18 公開日:2024-08-08 |
# 立体エレクトロニクスを融合した分子グラフによる分子機械(学習)表現の促進
Advancing Molecular Machine (Learned) Representations with Stereoelectronics-Infused Molecular Graphs ( http://arxiv.org/abs/2408.04520v1 ) ライセンス: Link先を確認 | Daniil A. Boiko, Thiago Reschützegger, Benjamin Sanchez-Lengeling, Samuel M. Blau, Gabe Gomes, | (参考訳) 分子表現は、物理世界を理解する基本的な要素である。
その重要性は化学反応の基礎から新しい治療法や材料の設計まで様々である。
これまでの分子機械学習モデルでは、文字列、指紋、グローバルな特徴、および本質的に情報スパース表現である単純な分子グラフが採用されていた。
しかし、予測タスクの複雑さが増大するにつれて、分子表現はより高い忠実度情報をエンコードする必要がある。
この研究は、立体電子効果によって量子化学的に豊富な情報を分子グラフに注入する新しいアプローチを導入している。
立体電子相互作用の明示的な付加は分子機械学習モデルの性能を著しく向上させることを示す。
さらに、ステレオエレクトロニクスに注入された表現を学習し、カスタマイズされたダブルグラフニューラルネットワークワークフローでデプロイすることで、下流の分子機械学習タスクに適用することができる。
最後に, 分子設計の新たな道を開くことによって, タンパク質全体など, 従来は難解であったシステムに対して, ファクシブルな立体電子的評価が可能であることを示す。
Molecular representation is a foundational element in our understanding of the physical world. Its importance ranges from the fundamentals of chemical reactions to the design of new therapies and materials. Previous molecular machine learning models have employed strings, fingerprints, global features, and simple molecular graphs that are inherently information-sparse representations. However, as the complexity of prediction tasks increases, the molecular representation needs to encode higher fidelity information. This work introduces a novel approach to infusing quantum-chemical-rich information into molecular graphs via stereoelectronic effects. We show that the explicit addition of stereoelectronic interactions significantly improves the performance of molecular machine learning models. Furthermore, stereoelectronics-infused representations can be learned and deployed with a tailored double graph neural network workflow, enabling its application to any downstream molecular machine learning task. Finally, we show that the learned representations allow for facile stereoelectronic evaluation of previously intractable systems, such as entire proteins, opening new avenues of molecular design. | 翻訳日:2024-08-09 15:18:18 公開日:2024-08-08 |
# 大規模言語モデルの安全性を損なうイタリアの多目的脱獄事件
Compromesso! Italian Many-Shot Jailbreaks Undermine the Safety of Large Language Models ( http://arxiv.org/abs/2408.04522v1 ) ライセンス: Link先を確認 | Fabio Pernisi, Dirk Hovy, Paul Röttger, | (参考訳) 多様な言語コミュニティやユーザが大きな言語モデル(LLM)を採用するにつれ、言語間での安全性の評価が重要になる。
LLMを安全にするための継続的な努力にもかかわらず、彼らはまだ、モデルが運用ガイドラインの外で行動するよう促される技術であるジェイルブレイク(jailbreaking)によって安全でない行動にすることができる。
しかし、LLMの安全性と脱獄に関する研究は、これまで主に英語に焦点を当てており、他の言語でのLLMの安全性に対する理解を制限してきた。
イタリアでは、安全でない動作を誘発するために、モデルに安全でない動作を誘導する、多発ジェイルブレイクの有効性を調査することで、このギャップを埋めることに貢献している。
分析を可能にするために、安全でないイタリアの質問応答ペアの新しいデータセットを作成します。
このデータセットを用いて、オープンウェイトLLMの4つのファミリーにおいて、明確な安全性の脆弱性を特定する。
安全でないデモがほとんどなかったとしても、モデルが安全でない振る舞いを示しており、さらに不安なことに、この傾向は、より多くのデモで急速にエスカレートしているのです。
As diverse linguistic communities and users adopt large language models (LLMs), assessing their safety across languages becomes critical. Despite ongoing efforts to make LLMs safe, they can still be made to behave unsafely with jailbreaking, a technique in which models are prompted to act outside their operational guidelines. Research on LLM safety and jailbreaking, however, has so far mostly focused on English, limiting our understanding of LLM safety in other languages. We contribute towards closing this gap by investigating the effectiveness of many-shot jailbreaking, where models are prompted with unsafe demonstrations to induce unsafe behaviour, in Italian. To enable our analysis, we create a new dataset of unsafe Italian question-answer pairs. With this dataset, we identify clear safety vulnerabilities in four families of open-weight LLMs. We find that the models exhibit unsafe behaviors even when prompted with few unsafe demonstrations, and -- more alarmingly -- that this tendency rapidly escalates with more demonstrations. | 翻訳日:2024-08-09 15:18:18 公開日:2024-08-08 |
# Depth Any Canopy: キャノピー高さ推定のためのDepth Foundationモデルを活用する
Depth Any Canopy: Leveraging Depth Foundation Models for Canopy Height Estimation ( http://arxiv.org/abs/2408.04523v1 ) ライセンス: Link先を確認 | Daniele Rege Cambrin, Isaac Corley, Paolo Garza, | (参考訳) 世界樹高の推定は森林保全と気候変動の応用に不可欠である。
しかし、LiDARを用いた高解像度地上真理天蓋の高さの撮影は高価であり、全世界で利用できない。
効率的な代替手段として、キャノピーの高さ推定器を訓練して、単一ビューのリモートセンシング画像を操作する方法がある。
このアプローチの主な障害は、これらの手法が、グローバルにまたがって、一般的でないエッジケースをまたがって適切に一般化するために、重要なトレーニングデータを必要とすることである。
近年の単眼深度推定基礎モデルでは,複雑なシーンにおいても強いゼロショット性能を示した。
本稿では,これらのモデルから得られた表現を活用して,キャノピー高さを測定するためにリモートセンシング領域に転送する。
提案したDepth Any Canopyは, キャノピー高さ推定のためのDepth Anything v2モデルを微調整した結果, 計算資源とパラメータのごく一部しか使用せず, 最先端ないし同等の性能で, 高性能かつ効率的な解が得られたことを示唆する。
さらに、計算には1.30ドル以下が必要であり、その結果炭素フットプリントは0.14kgCO2と推定される。
コード、実験結果、モデルチェックポイントはhttps://github.com/DarthReca/depth-any-canopy.comで公開されている。
Estimating global tree canopy height is crucial for forest conservation and climate change applications. However, capturing high-resolution ground truth canopy height using LiDAR is expensive and not available globally. An efficient alternative is to train a canopy height estimator to operate on single-view remotely sensed imagery. The primary obstacle to this approach is that these methods require significant training data to generalize well globally and across uncommon edge cases. Recent monocular depth estimation foundation models have show strong zero-shot performance even for complex scenes. In this paper we leverage the representations learned by these models to transfer to the remote sensing domain for measuring canopy height. Our findings suggest that our proposed Depth Any Canopy, the result of fine-tuning the Depth Anything v2 model for canopy height estimation, provides a performant and efficient solution, surpassing the current state-of-the-art with superior or comparable performance using only a fraction of the computational resources and parameters. Furthermore, our approach requires less than \$1.30 in compute and results in an estimated carbon footprint of 0.14 kgCO2. Code, experimental results, and model checkpoints are openly available at https://github.com/DarthReca/depth-any-canopy. | 翻訳日:2024-08-09 15:18:18 公開日:2024-08-08 |
# 自律走行用カメラ干渉のフィールドテストと検出
Field Testing and Detection of Camera Interference for Autonomous Driving ( http://arxiv.org/abs/2408.04524v1 ) ライセンス: Link先を確認 | Ki Beom Park, Huy Kang Kim, | (参考訳) 近年のコネクテッド・自動運転車(CAV)の進歩により、車内ネットワーク(IVN)にとって重要な技術として自動車用イーサネットが登場し、CANのような従来のプロトコルに取って代わられている。
本研究は,新しいGRUベースのIDSを用いて,自動車用イーサネット駆動環境におけるカメラ干渉攻撃(CIA)の検出について検討する。
我々のIDSは,スライディングウインドウデータ前処理技術を活用し,パケット長列を効果的に解析し,通常のデータ伝送と異常なデータ転送を区別する。
H.264エンコーディングとフラグメンテーションユニットA(FU-A)を備えた商用車上での実験的な評価により、AUCは0.9982、真の正率は0.99で、ウィンドウサイズは255であった。
In recent advancements in connected and autonomous vehicles (CAVs), automotive ethernet has emerged as a critical technology for in-vehicle networks (IVNs), superseding traditional protocols like the CAN due to its superior bandwidth and data transmission capabilities. This study explores the detection of camera interference attacks (CIA) within an automotive ethernet-driven environment using a novel GRU-based IDS. Leveraging a sliding-window data preprocessing technique, our IDS effectively analyzes packet length sequences to differentiate between normal and anomalous data transmissions. Experimental evaluations conducted on a commercial car equipped with H.264 encoding and fragmentation unit-A (FU-A) demonstrated high detection accuracy, achieving an AUC of 0.9982 and a true positive rate of 0.99 with a window size of 255. | 翻訳日:2024-08-09 15:18:18 公開日:2024-08-08 |
# ハイブリッド強化学習は線形MDPにおけるサンプルサイズバリアを破る
Hybrid Reinforcement Learning Breaks Sample Size Barriers in Linear MDPs ( http://arxiv.org/abs/2408.04526v1 ) ライセンス: Link先を確認 | Kevin Tan, Wei Fan, Yuting Wei, | (参考訳) エージェントがオフラインデータセットと未知の環境でオンライン探索の両方から学習するハイブリッド強化学習(RL)は、最近の大きな関心を集めている。
Xie et al (2022) が主張する重要な疑問は、ハイブリッドRLが単一政治中心性仮定に頼ることなく、純粋にオフラインかつ純粋にオンラインRLで確立された既存の下限を改善できるかどうかである。
Li et al (2023) はこの質問に対して表型PAC RLの場合において肯定的な回答を与えたが、後悔を最小化する RL の場合と非タブラキな場合の両方で疑問は未解決のままである。
本研究では,近年のオフラインRLの進歩と報酬に依存しない探索に基づいて,線形関数近似を用いたPACおよび後悔最小化RLの計算効率向上のためのアルゴリズムを開発した。
これらのアルゴリズムは, オフラインRL(PAC RLの第1アルゴリズム, PAC RL)とオンラインRL(第2アルゴリズム, 後悔最小化RL)の線形マルコフ決定過程(MDP)において, 動作ポリシーの質に関わらず, 精度が悪く, 改善できることを示す。
我々の知る限り、この研究は線形MDPにおけるハイブリッドRLで現在利用可能な最も厳密な理論的保証を確立する。
Hybrid Reinforcement Learning (RL), where an agent learns from both an offline dataset and online explorations in an unknown environment, has garnered significant recent interest. A crucial question posed by Xie et al. (2022) is whether hybrid RL can improve upon the existing lower bounds established in purely offline and purely online RL without relying on the single-policy concentrability assumption. While Li et al. (2023) provided an affirmative answer to this question in the tabular PAC RL case, the question remains unsettled for both the regret-minimizing RL case and the non-tabular case. In this work, building upon recent advancements in offline RL and reward-agnostic exploration, we develop computationally efficient algorithms for both PAC and regret-minimizing RL with linear function approximation, without single-policy concentrability. We demonstrate that these algorithms achieve sharper error or regret bounds that are no worse than, and can improve on, the optimal sample complexity in offline RL (the first algorithm, for PAC RL) and online RL (the second algorithm, for regret-minimizing RL) in linear Markov decision processes (MDPs), regardless of the quality of the behavior policy. To our knowledge, this work establishes the tightest theoretical guarantees currently available for hybrid RL in linear MDPs. | 翻訳日:2024-08-09 15:18:18 公開日:2024-08-08 |
# 解答集合プログラミングにおける学習規則に関する考察
Reasoning about Study Regulations in Answer Set Programming ( http://arxiv.org/abs/2408.04528v1 ) ライセンス: Link先を確認 | Susana Hahn, Cedric Martens, Amade Nemes, Henry Otunuya, Javier Romero, Torsten Schaub, Sebastian Schellhorn, | (参考訳) 我々は、管理者から教員、さまざまな段階の学生まで、様々な利害関係者を対象に、学習規則による推論と学習に関する自動化に興味を持っている。
我々の研究はポツダム大学の様々な研究プログラムの広範な分析に基づいている。
基礎となる原則の概念化は、研究規則の正式な説明を与えてくれる。
特に、形式化は許容可能な研究計画の特性を明らかにする。
最後に,これに対応する学習計画を作成するAnswer Set Programmingにおける学習規則の符号化を提案する。
最後に,本手法を汎用ユーザインタフェースに拡張して,研究計画の探索を行う方法を示す。
We are interested in automating reasoning with and about study regulations, catering to various stakeholders, ranging from administrators, over faculty, to students at different stages. Our work builds on an extensive analysis of various study programs at the University of Potsdam. The conceptualization of the underlying principles provides us with a formal account of study regulations. In particular, the formalization reveals the properties of admissible study plans. With these at end, we propose an encoding of study regulations in Answer Set Programming that produces corresponding study plans. Finally, we show how this approach can be extended to a generic user interface for exploring study plans. | 翻訳日:2024-08-09 15:18:18 公開日:2024-08-08 |
# AExGym: 適応実験のためのベンチマークと環境
AExGym: Benchmarks and Environments for Adaptive Experimentation ( http://arxiv.org/abs/2408.04531v1 ) ライセンス: Link先を確認 | Jimmy Wang, Ethan Che, Daniel R. Jiang, Hongseok Namkoong, | (参考訳) 科学と産業のイノベーションはランダム化試験(A/Bテスト)によって評価される。
単純で堅牢な設計であるが、そのような静的な設計は多くの仮説をテストするのに非効率または非効率である。
適応設計は理論上の統計的パワーを大幅に向上させることができるが、実際には脆弱性のために採用が限られている。
本稿では,非定常性,バッチ/遅延フィードバック,複数の結果と目的,外部妥当性など,適応性を運用する上での顕著な実践的課題を取り上げ,実世界のデータセットに基づく適応実験のベンチマークを示す。
本ベンチマークは,提案手法を応用した手法開発を推し進めることを目的としている。
我々はオープンソースのライブラリであるAExGymをリリースし、モジュラリティと拡張性を念頭に設計し、実験実践者がカスタム環境やアルゴリズムを開発できるようにする。
Innovations across science and industry are evaluated using randomized trials (a.k.a. A/B tests). While simple and robust, such static designs are inefficient or infeasible for testing many hypotheses. Adaptive designs can greatly improve statistical power in theory, but they have seen limited adoption due to their fragility in practice. We present a benchmark for adaptive experimentation based on real-world datasets, highlighting prominent practical challenges to operationalizing adaptivity: non-stationarity, batched/delayed feedback, multiple outcomes and objectives, and external validity. Our benchmark aims to spur methodological development that puts practical performance (e.g., robustness) as a central concern, rather than mathematical guarantees on contrived instances. We release an open source library, AExGym, which is designed with modularity and extensibility in mind to allow experimentation practitioners to develop custom environments and algorithms. | 翻訳日:2024-08-09 15:18:18 公開日:2024-08-08 |
# インテクスト学習におけるマルチヘッドアテンションを利用したトランスフォーマーの活用 : 疎線形回帰を事例として
How Transformers Utilize Multi-Head Attention in In-Context Learning? A Case Study on Sparse Linear Regression ( http://arxiv.org/abs/2408.04532v1 ) ライセンス: Link先を確認 | Xingwu Chen, Lei Zhao, Difan Zou, | (参考訳) 様々な現実世界のタスクにおいてトランスフォーマーベースのモデルが顕著に成功したにもかかわらず、その基盤となるメカニズムはいまだに理解されていない。
近年の研究では、線形回帰問題に対する文脈内学習者として変換器が勾配降下を実装できることが示唆されており、それに応じて様々な理論的解析が展開されている。
しかし、これらの研究は主に、特定のパラメータ構造を設計することでトランスフォーマーの表現力に焦点を合わせており、訓練後の動作メカニズムの包括的な理解が欠如している。
本研究では、疎線形回帰問題を考察し、訓練されたマルチヘッドトランスがコンテキスト内学習を行う方法を検討する。
複数のヘッドが第1層で利用され、必要不可欠なのに対して、通常1つのヘッドのみが後続層で十分であるのに対して、マルチヘッドの利用は層間で異なるパターンを示すことが実験的に明らかになった。
第1のレイヤはコンテキストデータを前処理し、以下のレイヤは前処理されたコンテキストに基づいて簡単な最適化手順を実行する。
さらに、そのような前処理列最適化アルゴリズムは、直交勾配勾配とリッジ回帰アルゴリズムを大幅に上回ることを実証する。
さらなる実験結果が説明に役立ちます。
本研究は,マルチヘッドアテンションの利点に関する知見を提供し,トレーニングされたトランスフォーマー内に隠されたより複雑なメカニズムの理解に寄与する。
Despite the remarkable success of transformer-based models in various real-world tasks, their underlying mechanisms remain poorly understood. Recent studies have suggested that transformers can implement gradient descent as an in-context learner for linear regression problems and have developed various theoretical analyses accordingly. However, these works mostly focus on the expressive power of transformers by designing specific parameter constructions, lacking a comprehensive understanding of their inherent working mechanisms post-training. In this study, we consider a sparse linear regression problem and investigate how a trained multi-head transformer performs in-context learning. We experimentally discover that the utilization of multi-heads exhibits different patterns across layers: multiple heads are utilized and essential in the first layer, while usually only a single head is sufficient for subsequent layers. We provide a theoretical explanation for this observation: the first layer preprocesses the context data, and the following layers execute simple optimization steps based on the preprocessed context. Moreover, we demonstrate that such a preprocess-then-optimize algorithm can significantly outperform naive gradient descent and ridge regression algorithms. Further experimental results support our explanations. Our findings offer insights into the benefits of multi-head attention and contribute to understanding the more intricate mechanisms hidden within trained transformers. | 翻訳日:2024-08-09 15:08:24 公開日:2024-08-08 |
# パケットレベル符号化を用いた同期マルチモーダルセマンティック通信システム
Synchronous Multi-modal Semantic CommunicationSystem with Packet-level Coding ( http://arxiv.org/abs/2408.04535v1 ) ライセンス: Link先を確認 | Yun Tian, Jingkai Ying, Zhijin Qin, Ye Jin, Xiaoming Tao, | (参考訳) 共同セマンティック・チャネル・コーディング設計によるセマンティック・コミュニケーションは,物理層チャネル上で異なるモダリティのデータを伝送する上で有望な性能を示しているが,マルチモーダル・セマンティクスの同期とパケットレベルの前方誤り補正は十分に研究されていない。
セマンティックエンコーダの独立設計のため、セマンティックドメインと時間ドメインの両方でマルチモーダル機能を同期させることは難しい問題である。
本稿では,顔映像と音声の伝送を例として,パケットレベル符号化を用いた同期マルチモーダル・セマンティック通信システム(SyncSC)を提案する。
意味的・時間的同期を実現するために,3次元モーフィブルモード(3DMM)係数とテキストを意味論として送信し,従来の手法に比べて低帯域幅での再構成と同期の類似性を実現するセマンティックコーデックを提案する。
消去チャネル下でのセマンティックパケットの保護を目的として,パケット損失率が高い場合でも,特定の視覚的品質性能を維持するパケットレベルフォワード誤り訂正法(PacSC)を提案する。
特にテキストパケットに対しては,双方向エンコーダ表現(BERT)に基づくTextPCと呼ばれるテキストパケット損失隠蔽モジュールが提案され,従来のFEC手法の性能が大幅に向上した。
シミュレーションの結果,提案したSyncSCは伝送オーバーヘッドを低減し,パケットロスネットワーク上での映像と音声の高品質同期伝送を実現することがわかった。
Although the semantic communication with joint semantic-channel coding design has shown promising performance in transmitting data of different modalities over physical layer channels, the synchronization and packet-level forward error correction of multimodal semantics have not been well studied. Due to the independent design of semantic encoders, synchronizing multimodal features in both the semantic and time domains is a challenging problem. In this paper, we take the facial video and speech transmission as an example and propose a Synchronous Multimodal Semantic Communication System (SyncSC) with Packet-Level Coding. To achieve semantic and time synchronization, 3D Morphable Mode (3DMM) coefficients and text are transmitted as semantics, and we propose a semantic codec that achieves similar quality of reconstruction and synchronization with lower bandwidth, compared to traditional methods. To protect semantic packets under the erasure channel, we propose a packet-Level Forward Error Correction (FEC) method, called PacSC, that maintains a certain visual quality performance even at high packet loss rates. Particularly, for text packets, a text packet loss concealment module, called TextPC, based on Bidirectional Encoder Representations from Transformers (BERT) is proposed, which significantly improves the performance of traditional FEC methods. The simulation results show that our proposed SyncSC reduce transmission overhead and achieve high-quality synchronous transmission of video and speech over the packet loss network. | 翻訳日:2024-08-09 15:08:24 公開日:2024-08-08 |
# テレポーテーションスケジューリングにおけるエラー症候群の役割
Role of Error Syndromes in Teleportation Scheduling ( http://arxiv.org/abs/2408.04536v1 ) ライセンス: Link先を確認 | Aparimit Chandra, Filip Rozpędek, Don Towsley, | (参考訳) 量子テレポーテーションは量子情報伝送を可能にするが、絡み合った資源状態の分布を必要とする。
残念ながら、量子状態保存中に環境干渉によって引き起こされたデコヒーレンス(英語版)は、量子状態の劣化を招き、リソース状態の絡み合いが失われ、テレポートされた情報の忠実度が低下する。
本研究では,複数のテレポーテーション要求が存在する場合の量子ネットワークノードでのテレポーテーションのスケジューリングにおける誤り訂正とエラーシンドローム情報の利用について検討する。
具体的には、記憶された量子ビットが不完全な記憶のために時間とともにデコヒーレンスを行うシナリオに焦点を当てる。
得られた誤りから量子ビットを保護するため、量子符号化を用い、記憶された量子ビットは繰り返しエラー訂正を行い、各ラウンドでエラーシンドロームを発生させる。
これらのエラーシンドロームは、キュービット固有のエラー確率を計算するために使用できるため、さらなる利点を提供することができる。
スケジューリングプロセスにエラー補正技術を統合することで,エラーやデコヒーレンスの影響を最小限に抑え,量子ネットワーク環境におけるテレポーテーションの忠実度と効率を高めることが目的である。
Quantum teleportation enables quantum information transmission, but requires distribution of entangled resource states. Unfortunately, decoherence, caused by environmental interference during quantum state storage, can degrade quantum states, leading to entanglement loss in the resource state and reduction of the fidelity of the teleported information. In this work, we investigate the use of error correction and error syndrome information in scheduling teleportation at a quantum network node in the presence of multiple teleportation requests and a finite rate of remote entanglement distribution. Specifically, we focus on the scenario where stored qubits undergo decoherence over time due to imperfect memories. To protect the qubits from the resulting errors, we employ quantum encodings, and the stored qubits undergo repeated error correction, generating error syndromes in each round. These error syndromes can provide additional benefits, as they can be used to calculate qubit-specific error likelihoods, which can then be utilized to make better scheduling decisions. By integrating error correction techniques into the scheduling process, our goal is to minimize errors and decoherence effects, thereby enhancing the fidelity and efficiency of teleportation in a quantum network setting. | 翻訳日:2024-08-09 15:08:24 公開日:2024-08-08 |
# ParetoTracker:ビジュアル分析による多目的進化アルゴリズムにおける人口動態の理解
ParetoTracker: Understanding Population Dynamics in Multi-objective Evolutionary Algorithms through Visual Analytics ( http://arxiv.org/abs/2408.04539v1 ) ライセンス: Link先を確認 | Zherui Zhang, Fan Yang, Ran Cheng, Yuxin Ma, | (参考訳) 多目的進化アルゴリズム(MOEA)は、複数の、しばしば矛盾する、目的を特徴とする複雑な最適化問題を解く強力なツールとして登場した。
計算効率とソリューションの多様性と収束が進歩してきたが、重要な課題は、内部の進化メカニズムが人間のユーザにとって不透明であることだ。
複雑なアルゴリズムとモデルを説明するための説明可能なAIの成功に基づいて、MOEAの基盤となる進化的演算子と人口動態を理解する必要性は、ビジュアル分析パラダイムとよく一致している、と我々は主張する。
本稿では,MOEAの進化過程における人口動態の理解と検査を支援する視覚分析フレームワークParetoTrackerを紹介する。
予備的な文献レビューと専門家のインタビューにより、このフレームワークは、ユーザエンゲージメントと探索に焦点をあてるマルチレベル分析スキームを確立し、パフォーマンス指標の全体的な傾向を調べ、進化的操作のきめ細かい検査を行う。
ParetoTrackerは、各世代のソリューションを手動でプロットする必要がある従来のプラクティスとは対照的に、統合されたビジュアルインターフェースにおいて、連続世代にわたる時間的傾向とダイナミクスの検証を容易にする。
このフレームワークの有効性は、広く採用されているベンチマーク最適化問題に焦点をあてたケーススタディと専門家インタビューを通じて実証される。
Multi-objective evolutionary algorithms (MOEAs) have emerged as powerful tools for solving complex optimization problems characterized by multiple, often conflicting, objectives. While advancements have been made in computational efficiency as well as diversity and convergence of solutions, a critical challenge persists: the internal evolutionary mechanisms are opaque to human users. Drawing upon the successes of explainable AI in explaining complex algorithms and models, we argue that the need to understand the underlying evolutionary operators and population dynamics within MOEAs aligns well with a visual analytics paradigm. This paper introduces ParetoTracker, a visual analytics framework designed to support the comprehension and inspection of population dynamics in the evolutionary processes of MOEAs. Informed by preliminary literature review and expert interviews, the framework establishes a multi-level analysis scheme, which caters to user engagement and exploration ranging from examining overall trends in performance metrics to conducting fine-grained inspections of evolutionary operations. In contrast to conventional practices that require manual plotting of solutions for each generation, ParetoTracker facilitates the examination of temporal trends and dynamics across consecutive generations in an integrated visual interface. The effectiveness of the framework is demonstrated through case studies and expert interviews focused on widely adopted benchmark optimization problems. | 翻訳日:2024-08-09 15:08:24 公開日:2024-08-08 |
# ArAIEval Shared Task における MemeMind: Persuasive Spans in Arabic Text with Persuasion Techniques Identification
MemeMind at ArAIEval Shared Task: Spotting Persuasive Spans in Arabic Text with Persuasion Techniques Identification ( http://arxiv.org/abs/2408.04540v1 ) ライセンス: Link先を確認 | Md Rafiul Biswas, Zubair Shah, Wajdi Zaghouani, | (参考訳) 本稿では,ツイートやニュース段落からアラビア語テキスト中の伝搬的スパンと説得技術を検出することに焦点を当てる。
データセットの各エントリには、テキストサンプルと、テキスト内のプロパガンダテクニックの開始位置と終了位置を示す対応するラベルが含まれている。
特定のプロパガンダ技術に対応する「B」(ベギン)または「I」(インサイド)、「O」(オ)が付けられた。
注意マスクを用いて各スパンに均一な長さを作成し,提供されたラベルに基づいて各トークンにBIOタグを割り当てた。
次に、アラビア文字のトークン化とトークン分類層への埋め込みのために、AraBERTベースの事前学習モデルを用いて、プロパガンダのテクニックを同定した。
トレーニングプロセスには2段階の微調整アプローチが伴います。
まず、いくつかのエポックに対して分類層のみをトレーニングし、続いて完全なモデル微調整を行い、すべてのパラメータを更新します。
この手法により、事前学習されたAraBERTモデルによって得られた知識を活用しながら、プロパガンダ検出タスクの特定の特性に適応することができる。
提案手法はF1スコア0.2774を達成し,タスク1のリーダーボードにおける第3位を確保した。
This paper focuses on detecting propagandistic spans and persuasion techniques in Arabic text from tweets and news paragraphs. Each entry in the dataset contains a text sample and corresponding labels that indicate the start and end positions of propaganda techniques within the text. Tokens falling within a labeled span were assigned "B" (Begin) or "I" (Inside), "O", corresponding to the specific propaganda technique. Using attention masks, we created uniform lengths for each span and assigned BIO tags to each token based on the provided labels. Then, we used AraBERT-base pre-trained model for Arabic text tokenization and embeddings with a token classification layer to identify propaganda techniques. Our training process involves a two-phase fine-tuning approach. First, we train only the classification layer for a few epochs, followed by full model fine-tuning, updating all parameters. This methodology allows the model to adapt to the specific characteristics of the propaganda detection task while leveraging the knowledge captured by the pre-trained AraBERT model. Our approach achieved an F1 score of 0.2774, securing the 3rd position in the leaderboard of Task 1. | 翻訳日:2024-08-09 15:08:24 公開日:2024-08-08 |
# 量子機械学習 - 実世界のアプリケーションにおけるパフォーマンスとセキュリティへの影響
Quantum Machine Learning: Performance and Security Implications in Real-World Applications ( http://arxiv.org/abs/2408.04543v1 ) ライセンス: Link先を確認 | Zhengping Jay Luo, Tyler Stewart, Mourya Narasareddygari, Rui Duan, Shangqing Zhao, | (参考訳) 量子コンピューティングは、古典的コンピュータよりも「量子優位」を達成できる可能性から、近年、学術と産業の両方から大きな注目を集めている。
量子コンピューティングの出現は、セキュリティとプライバシに対する新たな課題をもたらす。
このポスターは、現実世界のアプリケーションにおける機械学習のケーススタディを通じて、量子コンピューティングのパフォーマンスとセキュリティへの影響を探求している。
本稿では,アルツハイマー病データセットを用いて,量子機械学習(QML)アルゴリズムの性能を従来のアルゴリズムと比較する。
この結果から,QMLアルゴリズムは学習能力や収束の難しさという点では古典的アルゴリズムに勝ってはいないが,古典的コンピュータ上でのシミュレーションによる量子アルゴリズムの実行にはメモリ容量とCPU時間が非常に大きいことが示唆された。
我々の研究は、QMLが従来の機械学習アルゴリズムから脆弱性を継承し、新たな攻撃ベクトルも導入したことを示している。
Quantum computing has garnered significant attention in recent years from both academia and industry due to its potential to achieve a "quantum advantage" over classical computers. The advent of quantum computing introduces new challenges for security and privacy. This poster explores the performance and security implications of quantum computing through a case study of machine learning in a real-world application. We compare the performance of quantum machine learning (QML) algorithms to their classical counterparts using the Alzheimer's disease dataset. Our results indicate that QML algorithms show promising potential while they still have not surpassed classical algorithms in terms of learning capability and convergence difficulty, and running quantum algorithms through simulations on classical computers requires significantly large memory space and CPU time. Our study also indicates that QMLs have inherited vulnerabilities from classical machine learning algorithms while also introduce new attack vectors. | 翻訳日:2024-08-09 15:08:24 公開日:2024-08-08 |
# Molyé: 植民地フランスにおけるコーパスベースの言語接触アプローチ
Molyé: A Corpus-based Approach to Language Contact in Colonial France ( http://arxiv.org/abs/2408.04554v1 ) ライセンス: Link先を確認 | Rasul Dent, Juliette Janès, Thibault Clérice, Pedro Ortiz Suarez, Benoît Sagot, | (参考訳) 近世に発達したクレオール諸語がヨーロッパ諸言語の遺伝的子孫であるかどうかについては、激しい議論の対象となっている。
これは、中間形態の証拠が欠如しているためである。
この研究は、新しいオープンコーパス、Moly\'e corpusを導入し、ヨーロッパにおける3種類の言語変異のステレオタイプ表現と、400年間にわたってフランス語ベースのクレオール語の早期証明を組み合わせた。
ヨーロッパにおける接触状況とクレオフォン(旧)植民地の間の連続性に関する将来の研究を促進することを目的としている。
Whether or not several Creole languages which developed during the early modern period can be considered genetic descendants of European languages has been the subject of intense debate. This is in large part due to the absence of evidence of intermediate forms. This work introduces a new open corpus, the Moly\'e corpus, which combines stereotypical representations of three kinds of language variation in Europe with early attestations of French-based Creole languages across a period of 400 years. It is intended to facilitate future research on the continuity between contact situations in Europe and Creolophone (former) colonies. | 翻訳日:2024-08-09 15:08:24 公開日:2024-08-08 |
# Bias-Aware Low-Rank Adaptation:大規模言語モデルの破滅的継承を緩和する
Bias-Aware Low-Rank Adaptation: Mitigating Catastrophic Inheritance of Large Language Models ( http://arxiv.org/abs/2408.04556v1 ) ライセンス: Link先を確認 | Yupeng Chang, Yi Chang, Yuan Wu, | (参考訳) 大規模言語モデル(LLM)は、自然言語処理(NLP)タスクの多岐にわたる顕著な習熟度を示した。
しかし、LLMを下流のアプリケーションに適用するには、通常、計算集約的でメモリ要求の微調整手順を必要とする。
これらの負担を軽減するため、パラメータ効率のよい微調整(PEFT)技術が計算オーバーヘッドを最小限に抑えるための有望なアプローチとして登場した。
PEFT法はかなりの利点があるが、事前学習データからのバイアス伝搬の広汎な問題に完全には対処していない。
本研究では,バイアスの継承に対処する新しいPEFT法であるBias-Aware Low-Rank Adaptation (BA-LoRA)を紹介する。
BA-LoRAは、(1)整合正則化器、(2)多様性正則化器、(3)特異ベクトル分解正則化器という3つの異なる正則化用語を取り入れている。
これらの正規化器は、微調整プロセス中に生成モデルの一貫性、多様性、一般化能力を改善することを目的としている。
様々な自然言語理解(NLU)や自然言語生成(NLG)タスクの広範な実験を通じて、LLaMA、Mistral、Gemmaといった著名なLLMを用いて、BA-LoRAがLoRAとその最先端の派生品の性能を上回ることを実証した。
さらに,本手法は,事前学習バイアスの有害な影響を効果的に軽減し,より信頼性が高く堅牢なモデル出力をもたらす。
コードはhttps://github.com/cyp-jlu-ai/BA-LoRAで公開されている。
Large language models (LLMs) have exhibited remarkable proficiency across a diverse array of natural language processing (NLP) tasks. However, adapting LLMs to downstream applications typically necessitates computationally intensive and memory-demanding fine-tuning procedures. To mitigate these burdens, parameter-efficient fine-tuning (PEFT) techniques have emerged as a promising approach to tailor LLMs with minimal computational overhead. While PEFT methods offer substantial advantages, they do not fully address the pervasive issue of bias propagation from pre-training data. In this work, we introduce Bias-Aware Low-Rank Adaptation (BA-LoRA), a novel PEFT method designed to counteract bias inheritance. BA-LoRA incorporates three distinct regularization terms: (1) consistency regularizer, (2) diversity regularizer, and (3) singular vector decomposition regularizer. These regularizers collectively aim to improve the generative models' consistency, diversity, and generalization capabilities during the fine-tuning process. Through extensive experiments on a variety of natural language understanding (NLU) and natural language generation (NLG) tasks, employing prominent LLMs such as LLaMA, Mistral, and Gemma, we demonstrate that BA-LoRA surpasses the performance of LoRA and its state-of-the-art variants. Moreover, our method effectively mitigates the deleterious effects of pre-training bias, leading to more reliable and robust model outputs. The code is available at https://github.com/cyp-jlu-ai/BA-LoRA. | 翻訳日:2024-08-09 15:08:24 公開日:2024-08-08 |
# 会話型プロンプト工学
Conversational Prompt Engineering ( http://arxiv.org/abs/2408.04560v1 ) ライセンス: Link先を確認 | Liat Ein-Dor, Orith Toledo-Ronen, Artem Spector, Shai Gretz, Lena Dankin, Alon Halfon, Yoav Katz, Noam Slonim, | (参考訳) プロンプトとは、人間がLDMと通信する方法である。
インフォーマティブなプロンプトは、所望の出力を生成するためにLLMを導くのに不可欠である。
しかし、急進的なエンジニアリングは退屈で時間を要することが多く、かなりの専門知識を必要とし、広く使われることを制限する。
ユーザが特定のタスクに対してパーソナライズされたプロンプトを作成するのを支援する,ユーザフレンドリーなツールであるConversational Prompt Engineering (CPE)を提案する。
CPEはチャットモデルを使ってユーザと短時間の対話を行い、アウトプットの好みを明確にし、それらをプロンプトに統合する。
このプロセスには2つの主要なステージが含まれている: まず、このモデルはユーザーが提供する未ラベルのデータを使用してデータ駆動の質問を生成し、ユーザー応答を利用して初期命令を形作る。
そして、モデルが命令によって生成された出力を共有し、ユーザフィードバックを使用して命令と出力をさらに洗練する。
最終的な結果は数発のプロンプトで、ユーザが承認したアウトプットが数発の例になる。
要約タスクのユーザスタディは、パーソナライズされたハイパフォーマンスなプロンプトを作成する際のCPEの価値を示す。
結果は、得られたゼロショットプロンプトは、非常に長い、より少ないショットのプロンプトと同等であり、大きなテキストボリュームを持つ反復タスクを含むシナリオの大幅な削減を示していることを示唆している。
Prompts are how humans communicate with LLMs. Informative prompts are essential for guiding LLMs to produce the desired output. However, prompt engineering is often tedious and time-consuming, requiring significant expertise, limiting its widespread use. We propose Conversational Prompt Engineering (CPE), a user-friendly tool that helps users create personalized prompts for their specific tasks. CPE uses a chat model to briefly interact with users, helping them articulate their output preferences and integrating these into the prompt. The process includes two main stages: first, the model uses user-provided unlabeled data to generate data-driven questions and utilize user responses to shape the initial instruction. Then, the model shares the outputs generated by the instruction and uses user feedback to further refine the instruction and the outputs. The final result is a few-shot prompt, where the outputs approved by the user serve as few-shot examples. A user study on summarization tasks demonstrates the value of CPE in creating personalized, high-performing prompts. The results suggest that the zero-shot prompt obtained is comparable to its - much longer - few-shot counterpart, indicating significant savings in scenarios involving repetitive tasks with large text volumes. | 翻訳日:2024-08-09 15:08:24 公開日:2024-08-08 |
# ディジタル通貨のための量子Vaultスキーム
A Quantum Vault Scheme for Digital Currency ( http://arxiv.org/abs/2408.04563v1 ) ライセンス: Link先を確認 | Anne Broadbent, Raza Ali Kazmi, Cyrus Minwalla, | (参考訳) デジタル通貨は、デジタル形態の通貨である。
このモデルでは、供給の整合性を維持することが主要な関心事であるため、二重投機に対する保護は、しばしば安全なデジタルマネースキームの中心にある。
量子マネーは、非閉鎖の量子力学的原理を利用して、二重支出に免疫のある通貨を可能にする。
このスキームの課題の1つは、ユーザーが現在手が届かない技術を必要とすることである。
本稿では、量子ストレージと処理を「量子金庫」と呼ぶ仲介者に委譲することで、量子ウォレットの必要性を軽減する量子通貨モデルを提案する。
我々は、この量子可能なデジタル通貨の基本構成要素を開発し、その利点と課題について議論する。
A digital currency is money in a digital form. In this model, maintaining integrity of the supply is a core concern, therefore protections against double-spending are often at the heart of a secure digital money scheme. Quantum money exploits the quantum mechanical principle of no-cloning to enable a currency that is immune to double spending. One of the challenges of the scheme is that users require technology that is currently out of reach. Here, we propose a model for quantum currency, which alleviates the need for quantum wallets by delegating quantum storage and processing to an intermediary that we call a "quantum vault". We develop the basic building blocks of this quantum-enabled digital currency and discuss its benefits and challenges. | 翻訳日:2024-08-09 15:08:24 公開日:2024-08-08 |
# 多出力および多出力量子シナリオにおけるランダム性と非局所性
Randomness versus Nonlocality in Multi-input and Multi-output Quantum Scenario ( http://arxiv.org/abs/2408.04566v1 ) ライセンス: Link先を確認 | Chao Zhang, Yi Li, Xiao-Min Hu, Yu Xiang, Chuan-Feng Li, Guang-Can Guo, Jordi Tura, Qihuang Gong, Qiongyi He, Bi-Heng Liu, | (参考訳) ベル非局所性に基づくデバイス非依存ランダム性認証は、デバイスに関する仮定を一切必要とせず、したがって適切なセキュリティを提供する。
非局所性は量子ランダム性を生成するのに必要であることを示すために多大な努力がなされてきたが、乱数生成に必要な最小限の資源は明らかにされていない。
ここでは、まず、任意の2入力ベルの不等式に違反することがランダム性を証明するのに必要かつ十分であることを証明し、実験的に証明するが、多入力の場合において、この十分性は適用されなくなり、ランダム性を証明する能力のないベル非局所性を示す状態が生じる。
我々は高次元フォトニックシステムにおいて,多入出力および多出力のベル不等式,ファセット不等式,およびSalavrakos-Augusiak-Tura-Wittek-Ac\in-Pironio Bell不等式の2つの典型的なクラスを検討した。
1光子対あたり1.867\pm0.018ビットを生成するプライベートランダム性は、3インプットと4アウトプットを持つSalavrakos-Augusiak-Tura-Wittek-Ac\in-Pironio Bellの不等式のシナリオで得られる。
本研究は, ランダム性と非局所性との間の内部関係を解明し, デバイス非依存型乱数生成などのタスクの性能を効果的に向上する。
Device-independent randomness certification based on Bell nonlocality does not require any assumptions about the devices and therefore provides adequate security. Great effort has been made to demonstrate that nonlocality is necessary for generating quantum randomness, but the minimal resource required for random number generation has not been clarified. Here we first prove and experimentally demonstrate that violating any two-input Bell inequality is both necessary and sufficient for certifying randomness, however, for the multi-input cases, this sufficiency ceases to apply, leading to certain states exhibiting Bell nonlocality without the capability to certify randomness. We examine two typical classes of Bell inequalities with multi-input and multi-output, the facet inequalities and Salavrakos-Augusiak-Tura-Wittek-Ac\'in-Pironio Bell inequalities, in the high-dimensional photonic system, and observe the violation of the latter one can always certify randomness which is not true for the former. The private randomness with a generation rate of 1.867\pm0.018 bits per photon pair is obtained in the scenario of Salavrakos-Augusiak-Tura-Wittek-Ac\'in-Pironio Bell inequalities with 3-input and 4-output. Our work unravels the internal connection between randomness and nonlocality, and effectively enhances the performance of tasks such as device-independent random number generation. | 翻訳日:2024-08-09 15:08:24 公開日:2024-08-08 |
# Sketch2Scene: ユーザのCasual Sketchesからインタラクティブな3Dゲームシーンの自動生成
Sketch2Scene: Automatic Generation of Interactive 3D Game Scenes from User's Casual Sketches ( http://arxiv.org/abs/2408.04567v1 ) ライセンス: Link先を確認 | Yongzhi Xu, Yonhon Ng, Yifu Wang, Inkyu Sa, Yunfei Duan, Yang Li, Pan Ji, Hongdong Li, | (参考訳) 3Dコンテンツ生成は、ビデオゲーム、映画制作、バーチャルおよび拡張現実など、多くのコンピュータグラフィックスアプリケーションの中心にある。
本稿では,手書きスケッチのようなユーザのカジュアルなプロンプトから,インタラクティブでプレイ可能な3Dゲームシーンを自動的に生成する,新たなディープラーニングベースのアプローチを提案する。
スケッチベースの入力は、コンテンツ作成プロセスにおいてユーザの設計意図を伝える自然な、便利な方法を提供する。
学習におけるデータ不足の課題(すなわち3次元シーンの大規模な訓練データ不足)を回避するため,事前学習した2次元デノナイズ拡散モデルを用いて,シーンの2次元イメージを概念的ガイダンスとして生成する。
このプロセスでは、シーンレイアウトを取得しながら、未知のカメラのポーズを判断するために、等尺射影モードを採用する。
生成した等尺画像から、事前学習した画像理解手法を用いて、画像をオフグラウンドオブジェクト、木、建物などの意味のある部分に分割し、2次元のシーンレイアウトを抽出する。
これらのセグメントとレイアウトはその後、UnityやUnrealのような3Dビデオゲームエンジンのようなプロシージャコンテンツ生成(PCG)エンジンに供給され、3Dシーンを生成する。
結果の3Dシーンは、シームレスにゲーム開発環境に統合することができ、容易にプレイできる。
本手法は,ユーザの意図に忠実に追従したレイアウトで,高品質でインタラクティブな3Dゲームシーンを効率よく生成できることを示す。
3D Content Generation is at the heart of many computer graphics applications, including video gaming, film-making, virtual and augmented reality, etc. This paper proposes a novel deep-learning based approach for automatically generating interactive and playable 3D game scenes, all from the user's casual prompts such as a hand-drawn sketch. Sketch-based input offers a natural, and convenient way to convey the user's design intention in the content creation process. To circumvent the data-deficient challenge in learning (i.e. the lack of large training data of 3D scenes), our method leverages a pre-trained 2D denoising diffusion model to generate a 2D image of the scene as the conceptual guidance. In this process, we adopt the isometric projection mode to factor out unknown camera poses while obtaining the scene layout. From the generated isometric image, we use a pre-trained image understanding method to segment the image into meaningful parts, such as off-ground objects, trees, and buildings, and extract the 2D scene layout. These segments and layouts are subsequently fed into a procedural content generation (PCG) engine, such as a 3D video game engine like Unity or Unreal, to create the 3D scene. The resulting 3D scene can be seamlessly integrated into a game development environment and is readily playable. Extensive tests demonstrate that our method can efficiently generate high-quality and interactive 3D game scenes with layouts that closely follow the user's intention. | 翻訳日:2024-08-09 15:08:24 公開日:2024-08-08 |
# 大規模言語モデルのための微粒な接地シテーションの学習
Learning Fine-Grained Grounded Citations for Attributed Large Language Models ( http://arxiv.org/abs/2408.04568v1 ) ライセンス: Link先を確認 | Lei Huang, Xiaocheng Feng, Weitao Ma, Yuxuan Gu, Weihong Zhong, Xiachong Feng, Weijiang Yu, Weihua Peng, Duyu Tang, Dandan Tu, Bing Qin, | (参考訳) 情報探索タスクにおける印象的なパフォーマンスにもかかわらず、大きな言語モデル(LLM)は幻覚に苦しむ。
インライン引用によるテキストの生成を増強する分散LLMは、幻覚を緩和し、妥当性を向上する可能性を示している。
しかし、現在のアプローチは、文脈内学習に依存しているため、最適な引用品質に悩まされている。
さらに、粗い文書識別子のみを引用する慣行は、ユーザがきめ細かい検証を行うのを困難にしている。
本研究では,FRONTについて紹介する。FRONTは,LLMにファイングラインドグラウンドド・サイテーションを生成するためのトレーニングフレームワークである。
これらの引用は、モデル出力をきめ細かな支持引用でグルーピングすることで、引用品質の向上だけでなく、きめ細かい検証を容易にするだけでなく、基底的で一貫した応答の生成を導く。
ALCEベンチマークの実験では、FRONTが優れた接地応答と高い支持的な励起を生成できることを示した。
LLaMA-2-7Bでは、このフレームワークは全てのベースラインを大きく上回り、ChatGPTを超え、すべてのデータセットで平均14.21%の引用品質の向上を実現している。
Despite the impressive performance on information-seeking tasks, large language models (LLMs) still struggle with hallucinations. Attributed LLMs, which augment generated text with in-line citations, have shown potential in mitigating hallucinations and improving verifiability. However, current approaches suffer from suboptimal citation quality due to their reliance on in-context learning. Furthermore, the practice of citing only coarse document identifiers makes it challenging for users to perform fine-grained verification. In this work, we introduce FRONT, a training framework designed to teach LLMs to generate Fine-Grained Grounded Citations. By grounding model outputs in fine-grained supporting quotes, these quotes guide the generation of grounded and consistent responses, not only improving citation quality but also facilitating fine-grained verification. Experiments on the ALCE benchmark demonstrate the efficacy of FRONT in generating superior grounded responses and highly supportive citations. With LLaMA-2-7B, the framework significantly outperforms all the baselines, achieving an average of 14.21% improvement in citation quality across all datasets, even surpassing ChatGPT. | 翻訳日:2024-08-09 15:08:24 公開日:2024-08-08 |
# 多項式ニューラルネットワークの活性化しきい値と表現性
Activation thresholds and expressiveness of polynomial neural networks ( http://arxiv.org/abs/2408.04569v1 ) ライセンス: Link先を確認 | Bella Finkel, Jose Israel Rodriguez, Chenxi Wu, Thomas Yahl, | (参考訳) 多項式ニューラルネットワークは様々なアプリケーションで実装されており、理論的機械学習に有利なフレームワークを提供する。
固定アーキテクチャとアクティベーション次数の多項式ニューラルネットワークは、ネットワークの重みから多項式の集合への代数写像を与える。
この写像の像は、ネットワークで表現できる関数の空間である。
ザリスキーの閉鎖は神経変種として知られるアフィン種である。
多項式ニューラルネットワークのニューロバリアリティの次元は、その表現力の尺度を提供する。
本稿では,ニューロバリアリティの次元がその理論的な最大値を達成したときに表現するネットワークアーキテクチャのアクティベーションしきい値の概念を紹介する。
さらに、等価幅〜構造を持つ多項式ニューラルネットワークの表現性を示す。
Polynomial neural networks have been implemented in a range of applications and present an advantageous framework for theoretical machine learning. A polynomial neural network of fixed architecture and activation degree gives an algebraic map from the network's weights to a set of polynomials. The image of this map is the space of functions representable by the network. Its Zariski closure is an affine variety known as a neurovariety. The dimension of a polynomial neural network's neurovariety provides a measure of its expressivity. In this work, we introduce the notion of the activation threshold of a network architecture which expresses when the dimension of a neurovariety achieves its theoretical maximum. In addition, we prove expressiveness results for polynomial neural networks with equi-width~architectures. | 翻訳日:2024-08-09 15:08:24 公開日:2024-08-08 |
# 適応実験のための数学的プログラミング
Mathematical Programming For Adaptive Experiments ( http://arxiv.org/abs/2408.04570v1 ) ライセンス: Link先を確認 | Ethan Che, Daniel R. Jiang, Hongseok Namkoong, Jimmy Wang, | (参考訳) 適応的な実験は統計的パワーを大幅に向上させるが、標準的なアルゴリズムはバッチ化や遅延したフィードバック、パーソナライゼーション、非定常性、複数の目的、制約といった重要な実用上の問題を見落としている。
これらの問題に対処するため、現在のアルゴリズム設計パラダイムでは、各問題インスタンス用に調整されたメソッドが作成されている。
現実のすべてのインスタンスに新しいアルゴリズムを考案することは不可能であるため、実践者は、全ての課題に対処しない最適以下の近似に頼らなければならないことが多い。
各設定に対するベスポークアルゴリズムの開発から離れ、幅広い目的、制約、統計的手順を柔軟に組み込むことができる適応実験の数学的プログラミングの視点を示す。
動的プログラムをバッチ制限で定式化することにより,拡張性のある最適化手法(例えば,SGD,自動微分)を処理割り当てに利用することができる。
我々は,非定常性,パーソナライゼーション,多目的性,制約といった実践的な課題に追随したベンチマークの枠組みを評価する。
トムソンサンプリングの修正版のようなベスポークアルゴリズムとは異なり、我々の数学的プログラミングアプローチはインスタンス間で非常に堅牢な性能を提供する。
Adaptive experimentation can significantly improve statistical power, but standard algorithms overlook important practical issues including batched and delayed feedback, personalization, non-stationarity, multiple objectives, and constraints. To address these issues, the current algorithm design paradigm crafts tailored methods for each problem instance. Since it is infeasible to devise novel algorithms for every real-world instance, practitioners often have to resort to suboptimal approximations that do not address all of their challenges. Moving away from developing bespoke algorithms for each setting, we present a mathematical programming view of adaptive experimentation that can flexibly incorporate a wide range of objectives, constraints, and statistical procedures. By formulating a dynamic program in the batched limit, our modeling framework enables the use of scalable optimization methods (e.g., SGD and auto-differentiation) to solve for treatment allocations. We evaluate our framework on benchmarks modeled after practical challenges such as non-stationarity, personalization, multi-objectives, and constraints. Unlike bespoke algorithms such as modified variants of Thomson sampling, our mathematical programming approach provides remarkably robust performance across instances. | 翻訳日:2024-08-09 15:08:24 公開日:2024-08-08 |
# SCENE: ソフトカウンタによる説明可能なAI技術の評価
SCENE: Evaluating Explainable AI Techniques Using Soft Counterfactuals ( http://arxiv.org/abs/2408.04575v1 ) ライセンス: Link先を確認 | Haoran Zheng, Utku Pamuksuz, | (参考訳) 説明可能な人工知能(XAI)は、特に自然言語処理(NLP)タスクにおいて、AIモデルの透明性と説明責任を高めるために不可欠である。
本稿では,SCENE(Soft Counterfactual Evaluation for Natural Language Explainability)について紹介する。
トークンベースの置換に焦点を当てることで、SCENEは文脈的に適切でセマンティックに意味のあるソフトカウンターファクトを広範囲の微調整なしで作成する。
SCENEは、テキスト分類タスクにおけるモデルに依存しないXAI手法の有効性を評価するために、ValiditysoftとCsoftメトリクスを採用している。
CNN、RNN、BERTアーキテクチャに適用されたSCENEは、様々なXAI技術の長所と短所に関する貴重な洞察を提供する。
Explainable Artificial Intelligence (XAI) is essential for enhancing the transparency and accountability of AI models, especially in natural language processing (NLP) tasks. This paper introduces SCENE (Soft Counterfactual Evaluation for Natural language Explainability), a novel evaluation method that leverages large language models (LLMs) to generate Soft Counterfactual explanations in a zero-shot manner. By focusing on token-based substitutions, SCENE creates contextually appropriate and seman-tically meaningful Soft Counterfactuals without extensive fine-tuning. SCENE adopts Validitysoft and Csoft metrics to evaluate the effectiveness of model-agnostic XAI methods in text classification tasks. Applied to CNN, RNN, and BERT architectures, SCENE provides valuable insights into the strengths and limitations of various XAI techniques. | 翻訳日:2024-08-09 14:58:04 公開日:2024-08-08 |
# 熱力学における時間-コスト・エラーのトレードオフ関係--第三法則とそれを超える
Time-cost-error trade-off relation in thermodynamics: The third law and beyond ( http://arxiv.org/abs/2408.04576v1 ) ライセンス: Link先を確認 | Tan Van Vu, Keiji Saito, | (参考訳) 物理系に固有の基本的な限界を解明することは物理学の中心的な主題である。
情報消去、冷却、複写などの重要な熱力学的操作には、所定の誤差範囲内で所望の結果を達成するために、時間やエネルギーコストなどの資源を精査する必要がある。
本研究では, 完全に占有状態と占領状態からなる「分離状態」の概念を紹介する。
この概念は、関連する熱力学操作に関わる多くの臨界状態を一般化する。
分離状態の生成を目的とした一般的な熱力学演算の3方向のトレードオフ関係を、単に$\tau{\cal C}\varepsilon_{\tau}\ge 1-\eta$として表す。
この基本的な関係は、情報消去、冷却、複写を含む様々な熱力学的操作に適用できる。
これは、一般的な形の熱力学の第3法則における不到達原理の深い定量化を与える。
この関係に基づいて、冷却操作の量的制限、分離状態の準備、そして正確な古典的複写のためのノーゴー定理について検討する。
さらに、これらの結果は、マルコフ力学と非マルコフ力学の両方を含む量子状態にまで拡張する。
具体的には、リンドブラッド力学において、与えられた誤差で純粋な状態を達成するコストを定量化する同様の3方向のトレードオフ関係を導出する。
有限浴に結合した系を含む一般的な量子力学への一般化は、量子系が完全に基底状態に冷却されたり、純粋状態に完全にリセットされたりすることによって、熱散逸が無限となることを意味する。
Elucidating the fundamental limitations inherent in physical systems is a central subject in physics. For important thermodynamic operations such as information erasure, cooling, and copying, resources like time and energetic cost must be expended to achieve the desired outcome within a predetermined error margin. In this study, we introduce the concept of {\it separated states}, which consist of fully unoccupied and occupied states. This concept generalizes many critical states involved in relevant thermodynamic operations. We uncover a three-way trade-off relation between {\it time}, {\it cost}, and {\it error} for a general class of thermodynamic operations aimed at creating separated states, simply expressed as $\tau{\cal C}\varepsilon_{\tau}\ge 1-\eta$. This fundamental relation is applicable to diverse thermodynamic operations, including information erasure, cooling, and copying. It provides a profound quantification of the unattainability principle in the third law of thermodynamics in a general form. Building upon this relation, we explore the quantitative limitations governing cooling operations, the preparation of separated states, and a no-go theorem for exact classical copying. Furthermore, we extend these findings to the quantum regime, encompassing both Markovian and non-Markovian dynamics. Specifically, within Lindblad dynamics, we derive a similar three-way trade-off relation that quantifies the cost of achieving a pure state with a given error. The generalization to general quantum dynamics involving a system coupled to a finite bath implies that heat dissipation becomes infinite as the quantum system is exactly cooled down to the ground state or perfectly reset to a pure state, thereby resolving an open question regarding the thermodynamic cost of information erasure. | 翻訳日:2024-08-09 14:58:04 公開日:2024-08-08 |
# SAM2-Adapter: 下流タスクにおけるセグメンテーションの評価と適応:カモフラージュ、シャドウ、医用画像セグメンテーションなど
SAM2-Adapter: Evaluating & Adapting Segment Anything 2 in Downstream Tasks: Camouflage, Shadow, Medical Image Segmentation, and More ( http://arxiv.org/abs/2408.04579v1 ) ライセンス: Link先を確認 | Tianrun Chen, Ankang Lu, Lanyun Zhu, Chaotao Ding, Chunan Yu, Deyi Ji, Zejian Li, Lingyun Sun, Papa Mao, Ying Zang, | (参考訳) ファンデーションモデルとしても知られる大規模なモデルの出現は、さまざまなイメージセグメンテーションシナリオで顕著な成功を収めたSegment Anything(SAM)のようなモデルによって、AI研究のランドスケープを大きく変えた。
その進歩にもかかわらず、SAMはカモフラージュされた物体や医療画像のような複雑な低レベルセグメンテーションタスクを扱う際の制限に直面した。
これに対して2023年にはSAM-Adapterを導入し,これらの課題に対する性能向上を実証した。
現在、拡張アーキテクチャとより大きなトレーニングコーパスを備えた後継であるSegment Anything 2 (SAM2)のリリースで、これらの課題を再評価しています。
本稿ではSAM2-Adapterについて紹介する。SAM2で観測される永続的制限を克服し、医療画像のセグメンテーション、カモフラージュされたオブジェクト検出、シャドー検出などの特定の下流タスクにおいて、新しいSOTA(State-of-the-art)を実現するために設計された最初のアダプタである。
SAM2-AdapterはSAM-Adapterの強みの上に構築されており、多様なアプリケーションに対する一般化性と構成性の向上を提供する。
SAM2-Adapterの有効性について検討した。
我々は,SAM2モデルとSAM2-Adapterを併用して,より優れたセグメンテーション結果が得られる可能性を示し,研究コミュニティがSAM2モデルを活用することを奨励する。
コード、事前訓練されたモデル、およびデータ処理プロトコルはhttp://tianrun-chen.github.io/SAM-Adaptor/で利用可能である。
The advent of large models, also known as foundation models, has significantly transformed the AI research landscape, with models like Segment Anything (SAM) achieving notable success in diverse image segmentation scenarios. Despite its advancements, SAM encountered limitations in handling some complex low-level segmentation tasks like camouflaged object and medical imaging. In response, in 2023, we introduced SAM-Adapter, which demonstrated improved performance on these challenging tasks. Now, with the release of Segment Anything 2 (SAM2), a successor with enhanced architecture and a larger training corpus, we reassess these challenges. This paper introduces SAM2-Adapter, the first adapter designed to overcome the persistent limitations observed in SAM2 and achieve new state-of-the-art (SOTA) results in specific downstream tasks including medical image segmentation, camouflaged (concealed) object detection, and shadow detection. SAM2-Adapter builds on the SAM-Adapter's strengths, offering enhanced generalizability and composability for diverse applications. We present extensive experimental results demonstrating SAM2-Adapter's effectiveness. We show the potential and encourage the research community to leverage the SAM2 model with our SAM2-Adapter for achieving superior segmentation outcomes. Code, pre-trained models, and data processing protocols are available at http://tianrun-chen.github.io/SAM-Adaptor/ | 翻訳日:2024-08-09 14:58:04 公開日:2024-08-08 |
# 量子鍵配電ネットワーク - 鍵管理-
Quantum Key Distribution Networks -- Key Management: A Survey ( http://arxiv.org/abs/2408.04580v1 ) ライセンス: Link先を確認 | Emir Dervisevic, Amina Tankovic, Ehsan Fazel, Ramana Kompella, Peppino Fazio, Miroslav Voznak, Miralem Mehic, | (参考訳) セキュアな通信により、通信ネットワークやサービスが広く利用できるようになる。
計算と数学の絶え間ない進歩により、新しい暗号法が熱心に開発されている。
量子鍵分配(QKD)は、2つのリモートパーティ間の秘密鍵合意問題に対する情報理論セキュア(ITS)ソリューションを提供する有望な技術である。
信頼されたリピータに基づくQKDネットワークは、任意の距離で多数のパーティにサービスを提供するために構築されている。
従来のネットワークへのアドオン技術として機能し、ITS暗号鍵の生成、管理、配布、供給を行う。
キーリソースは限られているため、QKDネットワークサービスを重要なインフラストラクチャに統合するには、効果的なキー管理が必要である。
そこで本研究では,QKDネットワークキー管理手法の総合的なレビューを行う。
潜在的な戦略の特定とQKDネットワークの今後の発展を促進するために分析される。
Secure communication makes the widespread use of telecommunication networks and services possible. With the constant progress of computing and mathematics, new cryptographic methods are being diligently developed. Quantum Key Distribution (QKD) is a promising technology that provides an Information-Theoretically Secure (ITS) solution to the secret-key agreement problem between two remote parties. QKD networks based on trusted repeaters are built to provide service to a larger number of parties at arbitrary distances. They function as an add-on technology to traditional networks, generating, managing, distributing, and supplying ITS cryptographic keys. Since key resources are limited, integrating QKD network services into critical infrastructures necessitates effective key management. As a result, this paper provides a comprehensive review of QKD network key management approaches. They are analyzed to facilitate the identification of potential strategies and accelerate the future development of QKD networks. | 翻訳日:2024-08-09 14:58:04 公開日:2024-08-08 |
# 特徴選択のためのスパースニューラルネットワークのパワーの解放
Unveiling the Power of Sparse Neural Networks for Feature Selection ( http://arxiv.org/abs/2408.04583v1 ) ライセンス: Link先を確認 | Zahra Atashgahi, Tennison Liu, Mykola Pechenizkiy, Raymond Veldhuis, Decebal Constantin Mocanu, Mihaela van der Schaar, | (参考訳) スパースニューラルネットワーク(SNN)は、効率的な特徴選択のための強力なツールとして登場した。
SNNにおける動的スパーストレーニング(DST)アルゴリズムの活用は、計算オーバーヘッドを大幅に削減しつつ、有望な機能選択能力を示している。
これらの進歩にもかかわらず、いくつかの重要な側面は、特徴選択のために不十分に調査されている。
ネットワークトレーニングのためのDSTアルゴリズムの選択、特徴/ニューロンのランク付けのためのメトリックの選択、および高密度ネットワークと比較して、これらの手法の比較パフォーマンスに関する質問が続いている。
本稿では,スパースニューラルネットワークを用いた特徴選択の包括的体系的解析により,これらのギャップに対処する。
さらに,SNNの文脈における特徴的重要性の定量化を目的とした,スパースニューラルネットワーク特性を考慮した新しい指標を提案する。
以上の結果から,DSTアルゴリズムで訓練したSNNによる特徴選択は,高密度ネットワークと比較して,平均50\%以上のメモリと5,5\%のFLOPを削減でき,しかも,選択した特徴の質という点では優れていた。
私たちのコードと補足資料はGitHubで入手できる(\url{https://github.com/zahraatashgahi/Neuron-Attribution})。
Sparse Neural Networks (SNNs) have emerged as powerful tools for efficient feature selection. Leveraging the dynamic sparse training (DST) algorithms within SNNs has demonstrated promising feature selection capabilities while drastically reducing computational overheads. Despite these advancements, several critical aspects remain insufficiently explored for feature selection. Questions persist regarding the choice of the DST algorithm for network training, the choice of metric for ranking features/neurons, and the comparative performance of these methods across diverse datasets when compared to dense networks. This paper addresses these gaps by presenting a comprehensive systematic analysis of feature selection with sparse neural networks. Moreover, we introduce a novel metric considering sparse neural network characteristics, which is designed to quantify feature importance within the context of SNNs. Our findings show that feature selection with SNNs trained with DST algorithms can achieve, on average, more than $50\%$ memory and $55\%$ FLOPs reduction compared to the dense networks, while outperforming them in terms of the quality of the selected features. Our code and the supplementary material are available on GitHub (\url{https://github.com/zahraatashgahi/Neuron-Attribution}). | 翻訳日:2024-08-09 14:58:04 公開日:2024-08-08 |
# レジリエントかつ効率的なLCMを目指して:効率性, 性能, 対向ロバスト性の比較研究
Towards Resilient and Efficient LLMs: A Comparative Study of Efficiency, Performance, and Adversarial Robustness ( http://arxiv.org/abs/2408.04585v1 ) ライセンス: Link先を確認 | Xiaojing Fan, Chunliang Tao, | (参考訳) LLM(Large Language Models)の実用的応用に対する需要が高まっているため、性能と計算コストのバランスをとるために多くの注意効率の高いモデルが開発されている。
しかし、これらのモデルの敵対的堅牢性はいまだ探索されていない。
本研究では,GLUEデータセットとAdvGLUEデータセットを用いて,Transformer++,Gated Linear Attention (GLA) Transformer,MatMul-Free LMという3つの著名なモデルと,複雑性と効率のレベルが異なる3つのモデルを比較することにより,LCMの効率性,性能,対向ロバスト性の間のトレードオフを検討するフレームワークを設計する。
AdvGLUEデータセットはGLUEデータセットを拡張し、モデルの堅牢性に挑戦するために設計された逆サンプルを使用する。
その結果,GLA Transformer と MatMul-Free LM は GLUE タスクではわずかに精度が低いが,AdvGLUE タスクでは,異なる攻撃レベルにおける Transformer++ と比較して高い効率と高いロバスト性を示した。
これらの発見は、効率性、パフォーマンス、および敵の堅牢性の間の説得力のあるバランスを達成するために単純化されたアーキテクチャの可能性を強調し、敵の攻撃に対するリソースの制約とレジリエンスが重要となるアプリケーションに貴重な洞察を提供する。
With the increasing demand for practical applications of Large Language Models (LLMs), many attention-efficient models have been developed to balance performance and computational cost. However, the adversarial robustness of these models remains under-explored. In this work, we design a framework to investigate the trade-off between efficiency, performance, and adversarial robustness of LLMs by comparing three prominent models with varying levels of complexity and efficiency -- Transformer++, Gated Linear Attention (GLA) Transformer, and MatMul-Free LM -- utilizing the GLUE and AdvGLUE datasets. The AdvGLUE dataset extends the GLUE dataset with adversarial samples designed to challenge model robustness. Our results show that while the GLA Transformer and MatMul-Free LM achieve slightly lower accuracy on GLUE tasks, they demonstrate higher efficiency and either superior or comparative robustness on AdvGLUE tasks compared to Transformer++ across different attack levels. These findings highlight the potential of simplified architectures to achieve a compelling balance between efficiency, performance, and adversarial robustness, offering valuable insights for applications where resource constraints and resilience to adversarial attacks are critical. | 翻訳日:2024-08-09 14:58:04 公開日:2024-08-08 |
# ビュー合成のためのサンプリング:局所光場融合からニューラルラジアンス場へ
Sampling for View Synthesis: From Local Light Field Fusion to Neural Radiance Fields and Beyond ( http://arxiv.org/abs/2408.04586v1 ) ライセンス: Link先を確認 | Ravi Ramamoorthi, | (参考訳) 複雑な現実世界のシーンの新たなビューのキャプチャとレンダリングは、拡張現実や仮想現実、没入感のある体験、3D写真など、コンピュータグラフィックスとビジョンの長年の問題である。
ディープラーニングの出現は、画像ベースのレンダリングとして知られるこの領域における革命的な進歩を可能にした。
しかし,従来のアプローチでは,高画質の新規ビューを確実にレンダリングするために,ユーザがシーンのビューをサンプリングする方法に関するガイダンスをほとんど,あるいはまったく提供していない。
局所光場融合は、サンプルビューの不規則なグリッドから、まず各サンプルビューを多平面画像シーン表現を介して局所光場に拡張し、隣接する局所光場をブレンドすることで、新しいビューを描画するアルゴリズムを提案する。
重要なことに、我々は従来の複視サンプリング理論を拡張して、アルゴリズムを使用する場合、ユーザがどれだけ密集したシーンのビューをサンプリングすべきかを正確に示す境界を導出する。
我々は、最大4000倍のビューを用いて、Nyquistレートビューサンプリングの知覚品質を実現する。
その後、ビュー合成による深層学習(特にニューラルラディアンス場)の新たなシーン表現がもたらされたが、少数の画像からのスパースビュー合成の問題の重要性は増している。
我々は,新しい画像ベースレンダリングアルゴリズムにおいて,規範的サンプリングガイドラインが実現可能かどうかという疑問を呈しながら,スパースやシングルイメージビューの合成に関する最近の結果を再提示する。
Capturing and rendering novel views of complex real-world scenes is a long-standing problem in computer graphics and vision, with applications in augmented and virtual reality, immersive experiences and 3D photography. The advent of deep learning has enabled revolutionary advances in this area, classically known as image-based rendering. However, previous approaches require intractably dense view sampling or provide little or no guidance for how users should sample views of a scene to reliably render high-quality novel views. Local light field fusion proposes an algorithm for practical view synthesis from an irregular grid of sampled views that first expands each sampled view into a local light field via a multiplane image scene representation, then renders novel views by blending adjacent local light fields. Crucially, we extend traditional plenoptic sampling theory to derive a bound that specifies precisely how densely users should sample views of a given scene when using our algorithm. We achieve the perceptual quality of Nyquist rate view sampling while using up to 4000x fewer views. Subsequent developments have led to new scene representations for deep learning with view synthesis, notably neural radiance fields, but the problem of sparse view synthesis from a small number of images has only grown in importance. We reprise some of the recent results on sparse and even single image view synthesis, while posing the question of whether prescriptive sampling guidelines are feasible for the new generation of image-based rendering algorithms. | 翻訳日:2024-08-09 14:58:04 公開日:2024-08-08 |
# より正確に学ぶことを学ぶ
Learn To Learn More Precisely ( http://arxiv.org/abs/2408.04590v1 ) ライセンス: Link先を確認 | Runxi Cheng, Yongxian Wei, Xianglong He, Wanyun Zhu, Songsong Huang, Fei Richard Yu, Fei Ma, Chun Yuan, | (参考訳) メタラーニングは、いくつかのショットラーニングと高速適応の領域で広く適用されており、優れたパフォーマンスを実現している。
Model-Agnostic Meta-Learning (MAML) のようなメタラーニング手法とその変種はモデルの初期パラメータセットとして優れたものであるが、モデルはまだショートカット機能を学ぶ傾向にあり、一般化が不十分である。
本稿では,モデルがデータから正確な対象知識を学習させ,背景や雑音といったノイズのある知識の効果を低減することを目的とした,より正確に学習するための学習の形式的概念を提案する。
この目的を達成するために,メタ自己蒸留(Meta Self-Distillation:MSD)というメタ学習フレームワークを提案し,学習知識の一貫性を最大化し,モデルが正確な目標知識を学習する能力を向上させる。
内部ループでは、MSDは同じサポートデータの異なる拡張ビューを使用してそれぞれモデルを更新する。
そして、外部ループにおいて、MSDは、同じクエリデータを使用して学習した知識の一貫性を最適化し、モデルがより正確に学習できる能力を向上する。
実験により,MSDは標準シナリオと拡張シナリオの両方において,数ショットの分類タスクにおいて顕著な性能を示し,モデルが学習した知識の精度と一貫性を効果的に向上させることを示した。
Meta-learning has been extensively applied in the domains of few-shot learning and fast adaptation, achieving remarkable performance. While Meta-learning methods like Model-Agnostic Meta-Learning (MAML) and its variants provide a good set of initial parameters for the model, the model still tends to learn shortcut features, which leads to poor generalization. In this paper, we propose the formal conception of "learn to learn more precisely", which aims to make the model learn precise target knowledge from data and reduce the effect of noisy knowledge, such as background and noise. To achieve this target, we proposed a simple and effective meta-learning framework named Meta Self-Distillation(MSD) to maximize the consistency of learned knowledge, enhancing the models' ability to learn precise target knowledge. In the inner loop, MSD uses different augmented views of the same support data to update the model respectively. Then in the outer loop, MSD utilizes the same query data to optimize the consistency of learned knowledge, enhancing the model's ability to learn more precisely. Our experiment demonstrates that MSD exhibits remarkable performance in few-shot classification tasks in both standard and augmented scenarios, effectively boosting the accuracy and consistency of knowledge learned by the model. | 翻訳日:2024-08-09 14:58:04 公開日:2024-08-08 |
# HiLo: 汎用カテゴリ発見ロバストからドメインシフトへの学習フレームワーク
HiLo: A Learning Framework for Generalized Category Discovery Robust to Domain Shifts ( http://arxiv.org/abs/2408.04591v1 ) ライセンス: Link先を確認 | Hongjun Wang, Sagar Vaze, Kai Han, | (参考訳) Generalized Category Discovery(GCD)は、部分的にラベル付けされたデータセットが与えられた場合、モデルがラベル付けされたカテゴリからか、あるいは新しいカテゴリからかに関わらず、すべての非ラベル付きインスタンスを分類しなければならない、困難なタスクである。
本稿では、全ての画像が同じ領域を共有しているという、この課題における残りの仮定に挑戦する。
具体的には、ラベル付き集合に対する異なる領域の画像も含んでいる場合、GCDを処理するための新しいタスクと方法を提案する。
提案するHiLoネットワークは,表現間の相互情報を最小化する前に,高レベルの意味的特徴と低レベルのドメイン特徴を抽出する。
私たちの直感は、ドメイン情報とセマンティック情報に基づくクラスタリングは独立しているべきです。
我々はさらに、GCDタスクに適した専門的なドメイン拡張とカリキュラム学習アプローチにより、この手法を拡張した。
最後に、破損したきめ細かいデータセットと、実際のドメインシフトを伴うDomainNetの大規模評価からベンチマークを構築し、この設定で多くのGCDベースラインを再実装する。
以上の結果から,HiLoはSoTAカテゴリ発見モデルよりも高い性能を示した。
Generalized Category Discovery (GCD) is a challenging task in which, given a partially labelled dataset, models must categorize all unlabelled instances, regardless of whether they come from labelled categories or from new ones. In this paper, we challenge a remaining assumption in this task: that all images share the same domain. Specifically, we introduce a new task and method to handle GCD when the unlabelled data also contains images from different domains to the labelled set. Our proposed `HiLo' networks extract High-level semantic and Low-level domain features, before minimizing the mutual information between the representations. Our intuition is that the clusterings based on domain information and semantic information should be independent. We further extend our method with a specialized domain augmentation tailored for the GCD task, as well as a curriculum learning approach. Finally, we construct a benchmark from corrupted fine-grained datasets as well as a large-scale evaluation on DomainNet with real-world domain shifts, reimplementing a number of GCD baselines in this setting. We demonstrate that HiLo outperforms SoTA category discovery models by a large margin on all evaluations. | 翻訳日:2024-08-09 14:58:04 公開日:2024-08-08 |
# 位相的絡み合いエントロピー不等式の物理的証明
A physical proof of the topological entanglement entropy inequality ( http://arxiv.org/abs/2408.04592v1 ) ライセンス: Link先を確認 | Michael Levin, | (参考訳) 最近、二次元ギャップ基底状態の位相的絡み合いエントロピー (TEE) は普遍不等式 $\gamma \geq \log \mathcal{D}$ に従うことが示され、$\gamma$ は TEE であり、$\mathcal{D}$ は全ての任意の励起の総量子次元 $\mathcal{D} = \sqrt{\sum_a d_a^2}$ である。
ここでは、この不等式のより直接的な証明を示す。
我々の証明は、基底状態密度作用素に関するいくつかの物理的仮定とともに、フォン・ノイマンエントロピーの強い部分加法的性質のみを用いる。
我々の導出は自然に、欠陥と境界を持つ空間的不均質系、高次元系、混合状態を含む様々な系に一般化される。
Recently it was shown that the topological entanglement entropy (TEE) of a two-dimensional gapped ground state obeys the universal inequality $\gamma \geq \log \mathcal{D}$, where $\gamma$ is the TEE and $\mathcal{D}$ is the total quantum dimension of all anyon excitations, $\mathcal{D} = \sqrt{\sum_a d_a^2}$. Here we present an alternative, more direct proof of this inequality. Our proof uses only the strong subadditivity property of the von Neumann entropy together with a few physical assumptions about the ground state density operator. Our derivation naturally generalizes to a variety of systems, including spatially inhomogeneous systems with defects and boundaries, higher dimensional systems, and mixed states. | 翻訳日:2024-08-09 14:58:04 公開日:2024-08-08 |
# ロボット外科におけるSAM 2 : 手術用ビデオセグメンテーションにおけるロバストネスと一般化の実証評価
SAM 2 in Robotic Surgery: An Empirical Evaluation for Robustness and Generalization in Surgical Video Segmentation ( http://arxiv.org/abs/2408.04593v1 ) ライセンス: Link先を確認 | Jieming Yu, An Wang, Wenzhen Dong, Mengya Xu, Mobarakol Islam, Jie Wang, Long Bai, Hongliang Ren, | (参考訳) 最近のSegment Anything Model (SAM) 2は、セマンティックセグメンテーションにおいて、そのメモリ機構とマスクデコーダにより、ビデオトラッキングとオブジェクトの隠蔽の課題に対処し、画像とビデオの対話的セグメンテーションにおいて、優れた結果が得られることを実証している。
これまでの実証研究に基づいて,ロボット支援手術におけるSAM 2のゼロショットセグメンテーション性能と,実際の腐敗に対する堅牢性について検討した。
静的画像では1点とバウンディングボックスの2種類のプロンプトを使用し、ビデオシーケンスでは1点のプロンプトを初期フレームに適用する。
MICCAI EndoVis 2017とEndoVis 2018ベンチマークの広範な実験を通じて、SAM 2はバウンディングボックスプロンプトを利用する場合、比較評価において最先端(SOTA)メソッドよりも優れている。
ポイントプロンプトによる結果はSAMの能力を大幅に向上させ、既存の未進展のSOTA手法に近づいたり、超えたりしている。
さらにSAM 2は、様々な画像の破損に対して、推論速度の改善と性能劣化の低減を実証している。
特定のエッジや領域にわずかに不満足な結果が残っているが、SAM 2の1ポイントプロンプトへの堅牢な適応性は、下流の外科的タスクにおいて、限られたプロンプト要求を満たす可能性を示している。
The recent Segment Anything Model (SAM) 2 has demonstrated remarkable foundational competence in semantic segmentation, with its memory mechanism and mask decoder further addressing challenges in video tracking and object occlusion, thereby achieving superior results in interactive segmentation for both images and videos. Building upon our previous empirical studies, we further explore the zero-shot segmentation performance of SAM 2 in robot-assisted surgery based on prompts, alongside its robustness against real-world corruption. For static images, we employ two forms of prompts: 1-point and bounding box, while for video sequences, the 1-point prompt is applied to the initial frame. Through extensive experimentation on the MICCAI EndoVis 2017 and EndoVis 2018 benchmarks, SAM 2, when utilizing bounding box prompts, outperforms state-of-the-art (SOTA) methods in comparative evaluations. The results with point prompts also exhibit a substantial enhancement over SAM's capabilities, nearing or even surpassing existing unprompted SOTA methodologies. Besides, SAM 2 demonstrates improved inference speed and less performance degradation against various image corruption. Although slightly unsatisfactory results remain in specific edges or regions, SAM 2's robust adaptability to 1-point prompts underscores its potential for downstream surgical tasks with limited prompt requirements. | 翻訳日:2024-08-09 14:58:04 公開日:2024-08-08 |
# Img-Diff:マルチモーダル大言語モデルのためのコントラストデータ合成
Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models ( http://arxiv.org/abs/2408.04594v1 ) ライセンス: Link先を確認 | Qirui Jiao, Daoyuan Chen, Yilun Huang, Yaliang Li, Ying Shen, | (参考訳) 高性能マルチモーダル大言語モデル(MLLM)はデータ品質に大きく依存している。
本研究は,コントラスト学習と画像差分キャプションからの洞察を活用することで,MLLMの微細な画像認識を向上させるための新しいデータセットImg-Diffを提案する。
類似画像間のオブジェクト差を解析することにより、マッチングと異なるコンポーネントの両方を識別するモデルに挑戦する。
我々は、安定拡散XLモデルと高度な画像編集技術を用いて、オブジェクト置換をハイライトする類似画像のペアを作成する。
本手法は,オブジェクトの差分識別のための差分領域生成器と,詳細な差分記述のための差分容量生成器を含む。
その結果、比較的小さいが高品質な"オブジェクト置換"サンプルデータセットが得られた。
提案したデータセットを用いて、MGM-7Bのような最先端(SOTA)MLLMを微調整し、大規模なデータセットでトレーニングされたSOTAモデルに対して、多数の画像差分と視覚質問応答タスクにおいて、パフォーマンススコアを総合的に改善する。
例えば、トレーニングされたモデルは、MMVPベンチマークで、特にSOTAモデル GPT-4V と Gemini を上回ります。
さらに,「オブジェクト除去」による画像差分データ生成の代替手法について検討し,データセットの多様性,品質,堅牢性を確認するための徹底的な評価を行い,このような対照的なデータセットの合成に関するいくつかの知見を提示する。
画像理解のためのマルチモーダルデータ合成とMLLMの基本的な機能強化のさらなる研究と推進のために、私たちはコードとデータセットをhttps://github.com/modelscope/data-juicer/tree/ImgDiffでリリースします。
High-performance Multimodal Large Language Models (MLLMs) rely heavily on data quality. This study introduces a novel dataset named Img-Diff, designed to enhance fine-grained image recognition in MLLMs by leveraging insights from contrastive learning and image difference captioning. By analyzing object differences between similar images, we challenge models to identify both matching and distinct components. We utilize the Stable-Diffusion-XL model and advanced image editing techniques to create pairs of similar images that highlight object replacements. Our methodology includes a Difference Area Generator for object differences identifying, followed by a Difference Captions Generator for detailed difference descriptions. The result is a relatively small but high-quality dataset of "object replacement" samples. We use the the proposed dataset to fine-tune state-of-the-art (SOTA) MLLMs such as MGM-7B, yielding comprehensive improvements of performance scores over SOTA models that trained with larger-scale datasets, in numerous image difference and Visual Question Answering tasks. For instance, our trained models notably surpass the SOTA models GPT-4V and Gemini on the MMVP benchmark. Besides, we investigate alternative methods for generating image difference data through "object removal" and conduct thorough evaluation to confirm the dataset's diversity, quality, and robustness, presenting several insights on synthesis of such contrastive dataset. To encourage further research and advance the field of multimodal data synthesis and enhancement of MLLMs' fundamental capabilities for image understanding, we release our codes and dataset at https://github.com/modelscope/data-juicer/tree/ImgDiff. | 翻訳日:2024-08-09 14:58:04 公開日:2024-08-08 |
# 上信頼境界アルゴリズムによる推論
Inference with the Upper Confidence Bound Algorithm ( http://arxiv.org/abs/2408.04595v1 ) ライセンス: Link先を確認 | Koulik Khamaru, Cun-Hui Zhang, | (参考訳) 本稿では,アッパー信頼境界(UCB)アルゴリズムのマルチアームバンディット問題における漸近挙動について論じ,下流推論タスクにおけるその影響について論じる。
データを逐次的に収集する場合、推論タスクは困難になるが、手元のシーケンシャルアルゴリズムが一定の安定性特性を満たす場合、この問題は軽減できると論じる。
この安定性の概念は、Lai and Wei (1982) の楽譜から動機づけられている。
本研究の第一報は, UCBアルゴリズムの安定性が常に満足していることを示し, 結果として各アームのサンプル手段は漸近的に正常であることを示す。
次に、UCBアルゴリズムの安定性について、腕数$K$が腕数$T$で増大することを許すときの安定性について検討する。
そのような場合、$\frac{\log K}{\log T} \rightarrow 0$, and the number of near-optimal arms is large。
In this paper, we discuss the asymptotic behavior of the Upper Confidence Bound (UCB) algorithm in the context of multiarmed bandit problems and discuss its implication in downstream inferential tasks. While inferential tasks become challenging when data is collected in a sequential manner, we argue that this problem can be alleviated when the sequential algorithm at hand satisfies certain stability property. This notion of stability is motivated from the seminal work of Lai and Wei (1982). Our first main result shows that such a stability property is always satisfied for the UCB algorithm, and as a result the sample means for each arm are asymptotically normal. Next, we examine the stability properties of the UCB algorithm when the number of arms $K$ is allowed to grow with the number of arm pulls $T$. We show that in such a case the arms are stable when $\frac{\log K}{\log T} \rightarrow 0$, and the number of near-optimal arms are large. | 翻訳日:2024-08-09 14:58:04 公開日:2024-08-08 |
# テキストと音声のコードスイッチングが情報理論のオーディエンスデザインを明らかに
Code-switching in text and speech reveals information-theoretic audience design ( http://arxiv.org/abs/2408.04596v1 ) ライセンス: Link先を確認 | Debasmita Bhattacharya, Marten van Schijndel, | (参考訳) 本研究では,言語モデルを用いて,コードスイッチングに影響を与える要因について検討する。
コードスイッチングは、話者が1つの言語(一次言語)と他の言語(二次言語)を交互に切り替えた時に起こり、多言語文脈で広く見られる。
近年の研究では、コードスイッチングが一次言語における高い情報負荷の領域とよく相関していることが示されているが、高いプライマリ言語負荷が、コードスイッチングポイント(話者主導のコードスイッチング)において、二次言語のみを比較的容易に生成するかどうか、あるいはリスナ(聴衆主導のコードスイッチング)に注意を向ける必要性を示すために、話者がコードスイッチングを付加するかどうかが不明である。
本稿では,バイリンガルな中国語-英語オンラインフォーラム投稿と自発な中国語-英語音声の書き起こしを用いて,ハイプライマリ言語(中国語)の情報負荷が第2言語(英語)への切り替えと相関しているという先行的な知見を再現する。
そこで、我々は、英語生産の情報負荷が、同等の中国の代替品よりもさらに高いことを示し、それゆえ、これらは、書面・言論ともに、社会言語レベルだけでなく、コミュニケーションチャネルのレベルでのコードスイッチングにおけるオーディエンス主導の影響の証拠となる、作成が容易でないことを証明した。
In this work, we use language modeling to investigate the factors that influence code-switching. Code-switching occurs when a speaker alternates between one language variety (the primary language) and another (the secondary language), and is widely observed in multilingual contexts. Recent work has shown that code-switching is often correlated with areas of high information load in the primary language, but it is unclear whether high primary language load only makes the secondary language relatively easier to produce at code-switching points (speaker-driven code-switching), or whether code-switching is additionally used by speakers to signal the need for greater attention on the part of listeners (audience-driven code-switching). In this paper, we use bilingual Chinese-English online forum posts and transcripts of spontaneous Chinese-English speech to replicate prior findings that high primary language (Chinese) information load is correlated with switches to the secondary language (English). We then demonstrate that the information load of the English productions is even higher than that of meaning equivalent Chinese alternatives, and these are therefore not easier to produce, providing evidence of audience-driven influences in code-switching at the level of the communication channel, not just at the sociolinguistic level, in both writing and speech. | 翻訳日:2024-08-09 14:58:04 公開日:2024-08-08 |
# 効率的なキー管理のための量子キーストレージ
Quantum Key Storage for Efficient Key Management ( http://arxiv.org/abs/2408.04598v1 ) ライセンス: Link先を確認 | Emir Dervisevic, Amina Tankovic, Enio Kaljic, Miroslav Voznak, Miralem Mehic, | (参考訳) 重要なインフラのサービスとしてのQKDネットワークの統合に関する議論の中で、鍵となるストレージ設計は、しばしば不十分な注目を集める。
にもかかわらず、QKDネットワークサービスの効率に大きな影響を与え、多様なアプリケーションに適合できるため、これは重要な意味を持つ。
本稿では,実践的なテストベッドを通じて開発されたキーストレージ設計の有効性を分析し,キー生成と供給の有効性を高めるための新しいキーストレージ設計を提案する。
キーストレージの設計はすべて,ネットワークシミュレーションツールを用いて解析され,新しいキーストレージ設計が既存の手法を上回る性能を示した。
In the ongoing discourse surrounding integrating QKD networks as a service for critical infrastructures, key storage design often receives insufficient attention. Nonetheless, it bears crucial significance as it profoundly impacts the efficiency of QKD network services, thereby shaping its suitability for diverse applications. In this article, we analyze the effectiveness of key storage designs developed through practical testbeds and propose a novel key storage design to increase the effectiveness of key creation and supply. All key storage designs underwent analysis using network simulation tools, and the findings demonstrate that the novel key storage design surpasses existing approaches in terms of performance. | 翻訳日:2024-08-09 14:58:04 公開日:2024-08-08 |
# 説明整合性評価によるネットワーク解釈可能性の向上
Improving Network Interpretability via Explanation Consistency Evaluation ( http://arxiv.org/abs/2408.04600v1 ) ライセンス: Link先を確認 | Hefeng Wu, Hao Jiang, Keze Wang, Ziyi Tang, Xianghuan He, Liang Lin, | (参考訳) ディープニューラルネットワークは目覚ましい性能を達成したが、予測に透明性が欠けている傾向にある。
ニューラルネットワークにおけるより大きな解釈可能性の追求は、しばしば元の性能を低下させる。
いくつかの研究は解釈可能性と性能の両方を改善しようとしているが、それらは主に慎重に課された条件に依存している。
本稿では、より説明可能なアクティベーションヒートマップを取得し、余分な監督を必要とせずにモデル性能を同時に向上する、シンプルで効果的なフレームワークを提案する。
具体的には、モデル学習において、トレーニングサンプルを適応的に重み付けする新しい指標、すなわち説明整合性を導入する。
説明整合度測定は, 画像対向攻撃手法を用いて背景領域を乱した, モデルによる原サンプルの視覚的説明と意味保存された対向サンプルの類似度を測定するために用いられる。
そして,本フレームワークは,従来のモデルでは堅牢な解釈が得られないような,説明の相違(低説明整合性)の高いトレーニングサンプルに注意を払って,モデル学習を促進する。
各種ベンチマークにおける総合的な実験結果から,認識精度の向上,データデバイアス能力の向上,ネットワークの堅牢性の向上,正規ネットワークと解釈可能なネットワーク上でのより正確なローカライゼーション能力など,さまざまな面でフレームワークの優位性を示す。
また, 各成分の詳細な寄与を明らかにするために, 広範囲にわたるアブレーション研究と定性的分析を行った。
While deep neural networks have achieved remarkable performance, they tend to lack transparency in prediction. The pursuit of greater interpretability in neural networks often results in a degradation of their original performance. Some works strive to improve both interpretability and performance, but they primarily depend on meticulously imposed conditions. In this paper, we propose a simple yet effective framework that acquires more explainable activation heatmaps and simultaneously increase the model performance, without the need for any extra supervision. Specifically, our concise framework introduces a new metric, i.e., explanation consistency, to reweight the training samples adaptively in model learning. The explanation consistency metric is utilized to measure the similarity between the model's visual explanations of the original samples and those of semantic-preserved adversarial samples, whose background regions are perturbed by using image adversarial attack techniques. Our framework then promotes the model learning by paying closer attention to those training samples with a high difference in explanations (i.e., low explanation consistency), for which the current model cannot provide robust interpretations. Comprehensive experimental results on various benchmarks demonstrate the superiority of our framework in multiple aspects, including higher recognition accuracy, greater data debiasing capability, stronger network robustness, and more precise localization ability on both regular networks and interpretable networks. We also provide extensive ablation studies and qualitative analyses to unveil the detailed contribution of each component. | 翻訳日:2024-08-09 14:48:21 公開日:2024-08-08 |
# グループレベル特徴量比較学習による高分解能3次元異常検出に向けて
Towards High-resolution 3D Anomaly Detection via Group-Level Feature Contrastive Learning ( http://arxiv.org/abs/2408.04604v1 ) ライセンス: Link先を確認 | Hongze Zhu, Guoyang Xie, Chengbin Hou, Tao Dai, Can Gao, Jinbao Wang, Linlin Shen, | (参考訳) 高分解能点雲~(HRPCD)異常検出〜(AD)は、精密加工およびハイエンド機器製造において重要な役割を果たす。
最近提案された多くの3D-ADメソッドにもかかわらず、HRPCD-ADタスクの要件を満たすことはできない。
課題はいくつかある。
一 サンプルレベルで大量の点があるため、直接HRPCD情報を取得することは困難である。
二 先進的なトランスフォーマーに基づく方法は、通常、異方性の特徴を得、表現の劣化につながる。
三 異常面積の割合が非常に小さく、特徴付けが困難である。
これらの課題に対処するために,グループレベルの特徴ベースネットワークであるGroup3ADを提案する。
まず、特徴空間内の異なるグループのマッピングを複数のクラスタとして示すために、クラスタ間均一性ネットワーク~(IUN)を設計し、特徴空間内の点雲の異なる部分を表すクラスタ間のより均一な分布を求める。
次に、クラスタ内アライメントネットワーク~(IAN)を設計し、クラスタ内のグループを特徴空間内で厳格に分散させる。
さらに,幾何情報に基づく適応型グループ中心選択(AGCS)を提案し,推定中の潜在的異常領域の画素密度を改善する。
実験の結果,Reg3D-ADを5倍のマージンで上回り,Real3D-ADのオブジェクトレベルAUROCにおいて,提案したGroup3ADの有効性が検証された。
https://github.com/M-3LAB/Group3AD.com/ のコードと補足情報を提供しています。
High-resolution point clouds~(HRPCD) anomaly detection~(AD) plays a critical role in precision machining and high-end equipment manufacturing. Despite considerable 3D-AD methods that have been proposed recently, they still cannot meet the requirements of the HRPCD-AD task. There are several challenges: i) It is difficult to directly capture HRPCD information due to large amounts of points at the sample level; ii) The advanced transformer-based methods usually obtain anisotropic features, leading to degradation of the representation; iii) The proportion of abnormal areas is very small, which makes it difficult to characterize. To address these challenges, we propose a novel group-level feature-based network, called Group3AD, which has a significantly efficient representation ability. First, we design an Intercluster Uniformity Network~(IUN) to present the mapping of different groups in the feature space as several clusters, and obtain a more uniform distribution between clusters representing different parts of the point clouds in the feature space. Then, an Intracluster Alignment Network~(IAN) is designed to encourage groups within the cluster to be distributed tightly in the feature space. In addition, we propose an Adaptive Group-Center Selection~(AGCS) based on geometric information to improve the pixel density of potential anomalous regions during inference. The experimental results verify the effectiveness of our proposed Group3AD, which surpasses Reg3D-AD by the margin of 5\% in terms of object-level AUROC on Real3D-AD. We provide the code and supplementary information on our website: https://github.com/M-3LAB/Group3AD. | 翻訳日:2024-08-09 14:48:21 公開日:2024-08-08 |
# YOLOv8バリアントを用いた産業設備の転倒検出
Fall Detection for Industrial Setups Using YOLOv8 Variants ( http://arxiv.org/abs/2408.04605v1 ) ライセンス: Link先を確認 | Gracile Astlin Pereira, | (参考訳) 本稿では, YOLOv8 変種を用いた産業用転倒検出システムの開発について述べる。
評価されたモデルのうち、25.9百万のパラメータと79.1のGFLOPからなるYOLOv8mモデルは、計算効率と検出性能のバランスをよく示し、「Fall Detected」と「Human in Motion」の2つのカテゴリにまたがる50%のIoUにおける平均平均精度(mAP)を0.971で達成した。
YOLOv8l と YOLOv8x モデルは、特に転倒検出において高い精度とリコールを示したが、その高い計算要求とモデルサイズにより、リソース制約のある環境には適さない。
This paper presents the development of an industrial fall detection system utilizing YOLOv8 variants, enhanced by our proposed augmentation pipeline to increase dataset variance and improve detection accuracy. Among the models evaluated, the YOLOv8m model, consisting of 25.9 million parameters and 79.1 GFLOPs, demonstrated a respectable balance between computational efficiency and detection performance, achieving a mean Average Precision (mAP) of 0.971 at 50% Intersection over Union (IoU) across both "Fall Detected" and "Human in Motion" categories. Although the YOLOv8l and YOLOv8x models presented higher precision and recall, particularly in fall detection, their higher computational demands and model size make them less suitable for resource-constrained environments. | 翻訳日:2024-08-09 14:48:21 公開日:2024-08-08 |
# プロトタイプによる説明可能な画像分類のためのEPPNetの拡張
Enhanced Prototypical Part Network (EPPNet) For Explainable Image Classification Via Prototypes ( http://arxiv.org/abs/2408.04606v1 ) ライセンス: Link先を確認 | Bhushan Atote, Victor Sanchez, | (参考訳) 説明可能な人工知能(xAI)は、AIベースのシステムの透明性と信頼性を高める可能性がある。
正確な予測はDeep Neural Networks (DNN) を使って行うことができるが、そのような予測に到達するためのプロセスは説明が難しい。
テキストのワードフレーズや画像のスーパーピクセルなど、人間に親しみやすい表現に関しては、プロトタイプベースの説明はモデルの判断を正当化することができる。
本研究では,画像分類のためのDNNアーキテクチャであるEPPNetを導入する。
これは、より人間に理解しやすいプロトタイプを見つけるのに役立つ、新しいクラスタロスを導入することで達成される。
また,実験結果の妥当性を評価するための忠実度スコアも導入した。
私たちのスコアは、学習したプロトタイプの妥当性だけでなく、モデルの性能も考慮しています。
CUB-200-2011データセットによる評価では、EPPNetは、分類精度と説明可能性の両方の観点から、最先端のxAIベースの手法より優れていることが示された。
Explainable Artificial Intelligence (xAI) has the potential to enhance the transparency and trust of AI-based systems. Although accurate predictions can be made using Deep Neural Networks (DNNs), the process used to arrive at such predictions is usually hard to explain. In terms of perceptibly human-friendly representations, such as word phrases in text or super-pixels in images, prototype-based explanations can justify a model's decision. In this work, we introduce a DNN architecture for image classification, the Enhanced Prototypical Part Network (EPPNet), which achieves strong performance while discovering relevant prototypes that can be used to explain the classification results. This is achieved by introducing a novel cluster loss that helps to discover more relevant human-understandable prototypes. We also introduce a faithfulness score to evaluate the explainability of the results based on the discovered prototypes. Our score not only accounts for the relevance of the learned prototypes but also the performance of a model. Our evaluations on the CUB-200-2011 dataset show that the EPPNet outperforms state-of-the-art xAI-based methods, in terms of both classification accuracy and explainability | 翻訳日:2024-08-09 14:48:21 公開日:2024-08-08 |
# 相関試料を用いた尾根回帰のリスクと交差検証
Risk and cross validation in ridge regression with correlated samples ( http://arxiv.org/abs/2408.04607v1 ) ライセンス: Link先を確認 | Alexander Atanasov, Jacob A. Zavatone-Veth, Cengiz Pehlevan, | (参考訳) 近年、高次元尾根回帰の理解が著しく進歩しているが、既存の理論では訓練例は独立していると考えられている。
確率行列理論と自由確率の最近の手法を活用することで、データポイントが任意の相関を持つ場合のリッジ回帰の内外リスクに対して鋭い漸近を与える。
この設定では、一般化されたクロスバリデーション推定器(GCV)がサンプル外リスクを正確に予測できないことを示す。
しかし、ノイズ残差がデータポイントと同じ相関を持つ場合、GCVを変更して高次元極限に集中する効率よく計算可能な非バイアス推定器が得られる。
さらに、テストポイントがトレーニングセットと非自明な相関を持つ場合、時系列予測でしばしば発生する設定にまで漸近解析を拡張します。
時系列の相関構造の知識を仮定すると、これは再びGCV推定器の拡張をもたらし、そのようなテストポイントが長期的リスクを過度に楽観的に予測する程度を鋭く特徴づける。
我々は多種多様な高次元データにまたがって理論の予測を検証した。
Recent years have seen substantial advances in our understanding of high-dimensional ridge regression, but existing theories assume that training examples are independent. By leveraging recent techniques from random matrix theory and free probability, we provide sharp asymptotics for the in- and out-of-sample risks of ridge regression when the data points have arbitrary correlations. We demonstrate that in this setting, the generalized cross validation estimator (GCV) fails to correctly predict the out-of-sample risk. However, in the case where the noise residuals have the same correlations as the data points, one can modify the GCV to yield an efficiently-computable unbiased estimator that concentrates in the high-dimensional limit, which we dub CorrGCV. We further extend our asymptotic analysis to the case where the test point has nontrivial correlations with the training set, a setting often encountered in time series forecasting. Assuming knowledge of the correlation structure of the time series, this again yields an extension of the GCV estimator, and sharply characterizes the degree to which such test points yield an overly optimistic prediction of long-time risk. We validate the predictions of our theory across a variety of high dimensional data. | 翻訳日:2024-08-09 14:48:21 公開日:2024-08-08 |
# 人工知能による倫理の批判
Criticizing Ethics According to Artificial Intelligence ( http://arxiv.org/abs/2408.04609v1 ) ライセンス: Link先を確認 | Irina Spiegel, | (参考訳) 本稿では,人工知能(AI)の文脈における倫理的批判について述べる。
それは、自律性、道徳性、倫理といった中核的な概念を含む、思想と伝統的な権威の確立したパターンに疑問を呈する必要性を主張している。
これらの概念は、新興のAIや自律エージェントによってもたらされる複雑さに対処するには、ますます不十分である。
この批判にはいくつかの重要な要素がある:概念的曖昧さを明確にし、誠実にててんかんの問題に対処し、基本的な規範的問題を徹底的に探求すること。
最終的な目標は、AIがもたらす課題に対処するために、従来の倫理的概念を再評価し、再定義することである。
This article presents a critique of ethics in the context of artificial intelligence (AI). It argues for the need to question established patterns of thought and traditional authorities, including core concepts such as autonomy, morality, and ethics. These concepts are increasingly inadequate to deal with the complexities introduced by emerging AI and autonomous agents. This critique has several key components: clarifying conceptual ambiguities, honestly addressing epistemic issues, and thoroughly exploring fundamental normative problems. The ultimate goal is to reevaluate and possibly redefine some traditional ethical concepts to better address the challenges posed by AI. | 翻訳日:2024-08-09 14:48:21 公開日:2024-08-08 |
# 腹部臓器切開術における年齢・性別間の集団移動の影響の定量化
Quantifying the Impact of Population Shift Across Age and Sex for Abdominal Organ Segmentation ( http://arxiv.org/abs/2408.04610v1 ) ライセンス: Link先を確認 | Kate Čevora, Ben Glocker, Wenjia Bai, | (参考訳) 深層学習に基づく医療画像のセグメンテーションは、過去10年間で飛躍的な進歩を遂げてきたが、臨床実践への移行は比較的少ない。
主な障壁の1つは、領域一般化の課題であり、画像データの広範囲にわたるハイパフォーマンスを維持するためにセグメンテーションモデルが必要である。
この課題は、取得条件や患者の特徴など、様々な医療画像の出現に寄与する多くの要因によって増幅される。
年齢や性別などの患者特性の変化がセグメンテーションのパフォーマンスに与える影響は,特に腹部臓器では比較的研究されていないが,これはセグメンテーションモデルの公平性を確保する上で重要である。
本研究は, 年齢, 性別による人口移動が腹部CT画像のセグメンテーションに与える影響を, 2つの大きな公開データセットを用いて調査し, その影響を定量化するための新しい指標を提案する。
腹部臓器の分節化において, 人口移動は, クロスデータセットシフトと同様の課題であり, その効果は非対称であり, データセット依存であることがわかった。
以上の結果から,既知の患者特性の点におけるデータセットの多様性は,画像の特徴の点におけるデータセットの多様性と必ずしも同等ではない,という結論が得られた。
このことは, 適切な一般化と公平性を確保するための単純な集団マッチングが不十分である可能性を示唆し, 臓器形態学などのパフォーマンス関連特性の観点から, 医療画像データセットの多様性をよりよく理解し定量化するための公正性研究を推奨する。
Deep learning-based medical image segmentation has seen tremendous progress over the last decade, but there is still relatively little transfer into clinical practice. One of the main barriers is the challenge of domain generalisation, which requires segmentation models to maintain high performance across a wide distribution of image data. This challenge is amplified by the many factors that contribute to the diverse appearance of medical images, such as acquisition conditions and patient characteristics. The impact of shifting patient characteristics such as age and sex on segmentation performance remains relatively under-studied, especially for abdominal organs, despite that this is crucial for ensuring the fairness of the segmentation model. We perform the first study to determine the impact of population shift with respect to age and sex on abdominal CT image segmentation, by leveraging two large public datasets, and introduce a novel metric to quantify the impact. We find that population shift is a challenge similar in magnitude to cross-dataset shift for abdominal organ segmentation, and that the effect is asymmetric and dataset-dependent. We conclude that dataset diversity in terms of known patient characteristics is not necessarily equivalent to dataset diversity in terms of image features. This implies that simple population matching to ensure good generalisation and fairness may be insufficient, and we recommend that fairness research should be directed towards better understanding and quantifying medical image dataset diversity in terms of performance-relevant characteristics such as organ morphology. | 翻訳日:2024-08-09 14:48:21 公開日:2024-08-08 |
# 前後訳によるより良いアライメント
Better Alignment with Instruction Back-and-Forth Translation ( http://arxiv.org/abs/2408.04614v1 ) ライセンス: Link先を確認 | Thao Nguyen, Jeffrey Li, Sewoong Oh, Ludwig Schmidt, Jason Weston, Luke Zettlemoyer, Xian Li, | (参考訳) 本研究では,大言語モデル(LLM)の整合性を実現するために,世界知識を基盤とした高品質な合成データを構築するための,バック・アンド・フォース変換法を提案する。
ウェブコーパスから文書が与えられた場合、我々はLi et al (2023a) の提案した逆翻訳手法を用いて合成命令を生成してキュレートし、応答を書き直して、初期文書に基づいてその品質をさらに向上させる。
結果として得られた(書き直された命令、書き直された応答)ペアによる微調整は、Humpback、ShareGPT、Open Orca、Alpaca-GPT4、Self-instructといった一般的な命令データセットよりもAlpacaEvalの方が高い利得率が得られる。
また, LLMによる反応の書き直しは直接蒸留よりも優れており, 2つの生成したテキスト分布は埋め込み空間において顕著な差異を示した。
さらに分析したところ, 逆転写命令は他の合成指示源よりも高品質であり, 反応は蒸留法よりも多種多様で複雑であることがわかった。
全体として、バック・アンド・フォース・トランスフォーメーションは、Webで見いだされる情報の多様性と量を活用しながら、効果的なアライメントに必要なレスポンスの品質を確保しながら、両方の世界のベストを兼ね備えていることが分かります。
We propose a new method, instruction back-and-forth translation, to construct high-quality synthetic data grounded in world knowledge for aligning large language models (LLMs). Given documents from a web corpus, we generate and curate synthetic instructions using the backtranslation approach proposed by Li et al.(2023a), and rewrite the responses to improve their quality further based on the initial documents. Fine-tuning with the resulting (backtranslated instruction, rewritten response) pairs yields higher win rates on AlpacaEval than using other common instruction datasets such as Humpback, ShareGPT, Open Orca, Alpaca-GPT4 and Self-instruct. We also demonstrate that rewriting the responses with an LLM outperforms direct distillation, and the two generated text distributions exhibit significant distinction in embedding space. Further analysis shows that our backtranslated instructions are of higher quality than other sources of synthetic instructions, while our responses are more diverse and complex than those obtained from distillation. Overall we find that instruction back-and-forth translation combines the best of both worlds -- making use of the information diversity and quantity found on the web, while ensuring the quality of the responses which is necessary for effective alignment. | 翻訳日:2024-08-09 14:48:21 公開日:2024-08-08 |
# Transformer Explainer:テキスト生成モデルの対話型学習
Transformer Explainer: Interactive Learning of Text-Generative Models ( http://arxiv.org/abs/2408.04619v1 ) ライセンス: Link先を確認 | Aeree Cho, Grace C. Kim, Alexander Karpekov, Alec Helbling, Zijie J. Wang, Seongmin Lee, Benjamin Hoover, Duen Horng Chau, | (参考訳) トランスフォーマーは機械学習に革命をもたらしたが、内部の動作は多くの人にとって不透明だ。
GPT-2モデルを用いてトランスフォーマーについて学習するために,非エキスパート向けに設計されたインタラクティブな可視化ツールであるTransformer Explainerを提案する。
本ツールは,モデル概要を統合し,数学的操作やモデル構造を抽象化したスムーズな遷移を可能にすることで,複雑なトランスフォーマー概念の理解を支援する。
ライブのGPT-2インスタンスをユーザーのブラウザでローカルに実行し、ユーザが自身の入力を実験し、Transformerの内部コンポーネントとパラメータがどのように連携して次のトークンを予測するかをリアルタイムで観察できるようにする。
私たちのツールはインストールも特別なハードウェアも必要とせず、現代的な生成AI技術への一般大衆の教育アクセスを拡大します。
当社のオープンソースツールはhttps://poloclub.github.io/transformer-explainer/で公開しています。
ビデオデモはhttps://youtu.be/ECR4oAwocjs.comで公開されている。
Transformers have revolutionized machine learning, yet their inner workings remain opaque to many. We present Transformer Explainer, an interactive visualization tool designed for non-experts to learn about Transformers through the GPT-2 model. Our tool helps users understand complex Transformer concepts by integrating a model overview and enabling smooth transitions across abstraction levels of mathematical operations and model structures. It runs a live GPT-2 instance locally in the user's browser, empowering users to experiment with their own input and observe in real-time how the internal components and parameters of the Transformer work together to predict the next tokens. Our tool requires no installation or special hardware, broadening the public's education access to modern generative AI techniques. Our open-sourced tool is available at https://poloclub.github.io/transformer-explainer/. A video demo is available at https://youtu.be/ECR4oAwocjs. | 翻訳日:2024-08-09 14:48:21 公開日:2024-08-08 |
# 光量子ビットを用いたリコイルフリー量子ゲート
Recoil-free Quantum Gates with Optical Qubits ( http://arxiv.org/abs/2408.04622v1 ) ライセンス: Link先を確認 | Zhao Zhang, Léo Van Damme, Marco Rossignolo, Lorenzo Festa, Max Melchner, Robin Eberhard, Dimitrios Tsevas, Kevin Mours, Eran Reches, Johannes Zeiher, Sebastian Blatt, Immanuel Bloch, Steffen J. Glaser, Andrea Alberti, | (参考訳) 本研究では,ラムディッケ法における通常のパルスと比較して,光子リコイルの効果を3桁に抑えるための光パルス方式を提案する。
我々は、閉じ込められた原子やイオンに対する光学量子ビットの忠実性に対する基本的な限界に関する分析的な知見を導き出す。
これにより、量子コンピューティングの応用に向けて、全体の忠実度が99\%を超える1000ドル以上のゲートを実現することができる。
We propose a scheme to perform optical pulses that suppress the effect of photon recoil by three orders of magnitude compared to ordinary pulses in the Lamb-Dicke regime. We derive analytical insight about the fundamental limits to the fidelity of optical qubits for trapped atoms and ions. This paves the way towards applications in quantum computing for realizing $>1000$ of gates with an overall fidelity above 99\%. | 翻訳日:2024-08-09 14:48:21 公開日:2024-08-08 |
# LogogramNLP:NLPのための古記録書記システムの視覚的表現とテクスチャ的表現の比較
LogogramNLP: Comparing Visual and Textual Representations of Ancient Logographic Writing Systems for NLP ( http://arxiv.org/abs/2408.04628v1 ) ライセンス: Link先を確認 | Danlu Chen, Freda Shi, Aditi Agarwal, Jacobo Myerston, Taylor Berg-Kirkpatrick, | (参考訳) 標準自然言語処理(NLP)パイプラインは、典型的には離散トークンのシーケンスで構成される言語を象徴的に表現する。
しかし、古代の書記システムに類似した表現を作ることは、専門家の知識を必要とする非常に労働集約的なプロセスである。
現在、記録データの大部分は、転写がないために純粋に視覚的に保たれており、この問題は、古代のログラフ言語の研究にNLPツールキットを適用しようとする研究者にとってボトルネックとなっている。
本稿では,視覚表現の直接処理が潜在的な解決策となるかどうかを考察する。
筆者らは,4つの記述システムのための転写データセットと視覚データセットと,分類,翻訳,構文解析などのタスクのためのアノテーションを特徴とする,古代のロググラフィ言語のNLP解析を可能にする最初のベンチマークであるLogogramNLPを紹介した。
我々の実験は、最近の視覚とテキストのエンコーディング戦略をバックボーンとして利用するシステムと比較した。
その結果,視覚的表現はテキスト表現よりも優れており,視覚処理パイプラインは,NLPに基づく解析のために,大量の文化遺産データをアンロックできる可能性が示唆された。
Standard natural language processing (NLP) pipelines operate on symbolic representations of language, which typically consist of sequences of discrete tokens. However, creating an analogous representation for ancient logographic writing systems is an extremely labor intensive process that requires expert knowledge. At present, a large portion of logographic data persists in a purely visual form due to the absence of transcription -- this issue poses a bottleneck for researchers seeking to apply NLP toolkits to study ancient logographic languages: most of the relevant data are images of writing. This paper investigates whether direct processing of visual representations of language offers a potential solution. We introduce LogogramNLP, the first benchmark enabling NLP analysis of ancient logographic languages, featuring both transcribed and visual datasets for four writing systems along with annotations for tasks like classification, translation, and parsing. Our experiments compare systems that employ recent visual and text encoding strategies as backbones. The results demonstrate that visual representations outperform textual representations for some investigated tasks, suggesting that visual processing pipelines may unlock a large amount of cultural heritage data of logographic languages for NLP-based analyses. | 翻訳日:2024-08-09 14:48:21 公開日:2024-08-08 |
# 量子計測のための非エルミートループ
A non-Hermitian loop for a quantum measurement ( http://arxiv.org/abs/2408.04629v1 ) ライセンス: Link先を確認 | Luis E. F. Foa Torres, Stephan Roche, | (参考訳) 我々は、Schr\"odinger's equationで説明されるように、時間進化を通じて状態ベクトル崩壊を操る機構の枠組みを確立する。
非エルミート・ハミルトニアン力学の前提の下では、主な結果は、ハミルトニアンがメーターとの相互作用を符号化するパラメータ空間の閉ループを完備するときに崩壊が起こることである。
2レベルシステムでは,重畳を効果的に除去する機構として,キラル状態変換現象を提唱した。
我々の結果は、量子力学のSchr\odinger部分に制限された古典力学系における量子測定をシミュレートする方法を開く。
We establish a framework for a mechanism steering state vector collapse through time evolution as described by the Schr\"odinger's equation. Under the premise of a non-Hermitian Hamiltonian dynamics, a main outcome is that collapse has to occur when the Hamiltonian completes a closed loop in the parameter space encoding the interaction with the meter. For two-level systems, we put forward the phenomenon of chiral state conversion as a mechanism effectively eliminating superpositions. Our results open a way to simulate quantum measurements in classical systems that up to now were restricted to the Schr\"odinger part of the quantum dynamics. | 翻訳日:2024-08-09 14:48:21 公開日:2024-08-08 |
# Puppet-Master: パートレベルダイナミクスに先立つ動きとしてインタラクティブなビデオ生成をスケールする
Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics ( http://arxiv.org/abs/2408.04631v1 ) ライセンス: Link先を確認 | Ruining Li, Chuanxia Zheng, Christian Rupprecht, Andrea Vedaldi, | (参考訳) 本稿では,対話型ビデオ生成モデルであるPuppet-Masterについて紹介する。
テスト時には、1つのイメージとスパースな動き軌跡(すなわちドラッグ)が与えられた場合、Puppet-Masterは、与えられたドラッグの相互作用に忠実な現実的な部分レベルの動きを描写したビデオを合成することができる。
これは、ドラッグング制御を効果的に注入する新しい条件付けアーキテクチャを提案する大規模な事前学習ビデオ拡散モデルを微調整することで実現される。
より重要なことは、広く採用されている空間的注意モジュールのドロップイン置換であるオール・ツー・ファースト・アテンション機構を導入し、既存のモデルにおける外観や背景問題に対処することで、生成品質を著しく向上させることである。
他のモーションコンディション付きビデオジェネレータとは異なり、Puppet-MasterはObjaverse-Animation-HQから学習されている。
そこで本研究では,最適なアニメーションを自動的にフィルタリングし,意味のある動き軌跡を持つ合成レンダリングを増強する手法を提案する。
Puppet-Masterは、さまざまなカテゴリにわたる実際のイメージを一般化し、実世界のベンチマークでゼロショットで既存のメソッドを上回ります。
vgg-puppetmaster.github.io
We present Puppet-Master, an interactive video generative model that can serve as a motion prior for part-level dynamics. At test time, given a single image and a sparse set of motion trajectories (i.e., drags), Puppet-Master can synthesize a video depicting realistic part-level motion faithful to the given drag interactions. This is achieved by fine-tuning a large-scale pre-trained video diffusion model, for which we propose a new conditioning architecture to inject the dragging control effectively. More importantly, we introduce the all-to-first attention mechanism, a drop-in replacement for the widely adopted spatial attention modules, which significantly improves generation quality by addressing the appearance and background issues in existing models. Unlike other motion-conditioned video generators that are trained on in-the-wild videos and mostly move an entire object, Puppet-Master is learned from Objaverse-Animation-HQ, a new dataset of curated part-level motion clips. We propose a strategy to automatically filter out sub-optimal animations and augment the synthetic renderings with meaningful motion trajectories. Puppet-Master generalizes well to real images across various categories and outperforms existing methods in a zero-shot manner on a real-world benchmark. See our project page for more results: vgg-puppetmaster.github.io. | 翻訳日:2024-08-09 14:48:21 公開日:2024-08-08 |
# サブビリオンスケールでの企業文書の理解
Arctic-TILT. Business Document Understanding at Sub-Billion Scale ( http://arxiv.org/abs/2408.04632v1 ) ライセンス: Link先を確認 | Łukasz Borchmann, Michał Pietruszka, Wojciech Jaśkowski, Dawid Jurkiewicz, Piotr Halama, Paweł Józiak, Łukasz Garncarek, Paweł Liskowski, Karolina Szyndler, Andrzej Gretkowski, Julita Ołtusek, Gabriela Nowakowska, Artur Zawłocki, Łukasz Duhr, Paweł Dyda, Michał Turski, | (参考訳) LLMを使用するワークロードの大部分は、PDFに基づく質問に答えたり、コンテンツをスキャンする作業である。
これらのユースケースで1000$\times=そのサイズに匹敵する精度を実現したArctic-TILTを導入する。
単一の24GB GPU上で微調整およびデプロイが可能で、最大400kのトークンでVisually Rich Documentsを処理しながら、運用コストを削減できる。
このモデルは、7つの多様なドキュメント理解ベンチマークの最先端結果を確立し、大規模または時間に敏感なエンタープライズ環境でファイルを処理するのに不可欠な信頼性スコアと迅速な推論を提供する。
The vast portion of workloads employing LLMs involves answering questions grounded on PDF or scan content. We introduce the Arctic-TILT achieving accuracy on par with models 1000$\times$ its size on these use cases. It can be fine-tuned and deployed on a single 24GB GPU, lowering operational costs while processing Visually Rich Documents with up to 400k tokens. The model establishes state-of-the-art results on seven diverse Document Understanding benchmarks, as well as provides reliable confidence scores and quick inference, which are essential for processing files in large-scale or time-sensitive enterprise environments. | 翻訳日:2024-08-09 14:48:21 公開日:2024-08-08 |
# 幻覚を伴うLiDARイベントステレオフュージョン
LiDAR-Event Stereo Fusion with Hallucinations ( http://arxiv.org/abs/2408.04633v1 ) ライセンス: Link先を確認 | Luca Bartolomei, Matteo Poggi, Andrea Conti, Stefano Mattoccia, | (参考訳) イベントステレオマッチングは、ニューロモルフィックカメラから深度を推定する新たな手法である。しかし、動きの欠如や大きな非テクスチャ領域の存在によってイベントが引き起こされる可能性は低いため、対応問題は極めて困難である。
目的,ステレオ・イベント・カメラと固定周波数アクティブ・センサ(例えばLiDAR)を統合することを提案する。
このような奥行きヒントは幻覚 -- すなわち架空のイベントを挿入する -- スタックや生の入力ストリーム -- によって使用され、明るさの変化がない場合の情報不足を補う。
提案手法は汎用的であり,任意の構造化表現をスタックイベントに適用し,イベントベースステレオに適用した最先端の融合手法より優れる。
Event stereo matching is an emerging technique to estimate depth from neuromorphic cameras; however, events are unlikely to trigger in the absence of motion or the presence of large, untextured regions, making the correspondence problem extremely challenging. Purposely, we propose integrating a stereo event camera with a fixed-frequency active sensor -- e.g., a LiDAR -- collecting sparse depth measurements, overcoming the aforementioned limitations. Such depth hints are used by hallucinating -- i.e., inserting fictitious events -- the stacks or raw input streams, compensating for the lack of information in the absence of brightness changes. Our techniques are general, can be adapted to any structured representation to stack events and outperform state-of-the-art fusion methods applied to event-based stereo. | 翻訳日:2024-08-09 14:48:21 公開日:2024-08-08 |
# 古典的な量子非シグナリングボックス
Classical-to-quantum non-signalling boxes ( http://arxiv.org/abs/2303.17268v5 ) ライセンス: Link先を確認 | Carolina Moreira Ferrera, Robin Simmons, James Purcell, Daniel Collins, Sandu Popescu, | (参考訳) ここでは、古典的入力-量子出力(C-Q)非シグナリングボックスの概念、古典的入力-古典的出力(C-C)非シグナリングボックスの一般化を紹介する。
このような対象を研究することで、量子力学を超えた量子非局所性と非局所性との関係をよりよく理解できるようになると論じる。
論文で論じられている主な問題は、既に知られている物体、すなわち、事前に共有された量子粒子に作用するC-Cボックスから、C-Qボックスまたは全てのC-Qボックスを構築することができるかどうかである。
C-Q ボックスの大規模なクラスは非遺伝的であることを示す。
特に、純状態の出力を持つ全ての二部C-Qボックスが非GAであることを示す。
また,解答がまだオープンな混合状態を出力するマルチパーティC-Qボックスなど,一般問題に対処するための様々な戦略も提示する。
最後に、非常に単純なC-Qボックスでさえ、それらをシミュレートするために大量のC-C非局所相関を必要とすることを示す。
Here we introduce the concept of classical input - quantum output (C-Q) non-signalling boxes, a generalisation of the classical input - classical output (C-C) non-signalling boxes. We argue that studying such objects leads to a better understanding of the relation between quantum nonlocality and non-locality beyond quantum mechanics. The main issue discussed in the paper is whether there exist 'genuine' C-Q boxes or all C-Q boxes can be built from objects already known, namely C-C boxes acting on pre-shared entangled quantum particles. We show that large classes of C-Q boxes are non-genuine. In particular, we show that all bi-partite C-Q boxes with outputs that are pure states are non-genuine. We also present various strategies for addressing the general problem, i.e. for multi-partite C-Q boxes which output mixed states, whose answer is still open. Finally, we show that even some very simple non-genuine C-Q boxes require large amounts of C-C nonlocal correlations in order to simulate them. | 翻訳日:2024-08-09 12:50:25 公開日:2024-08-08 |
# EMO:Emote Portrait Alive -- 弱弱条件下でのAudio2 Video Diffusionモデルによる表現的ポートレート映像の生成
EMO: Emote Portrait Alive -- Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions ( http://arxiv.org/abs/2402.17485v3 ) ライセンス: Link先を確認 | Linrui Tian, Qi Wang, Bang Zhang, Liefeng Bo, | (参考訳) 本研究では,音声キューと顔の動きの動的・ニュアンスな関係に着目し,対話型ヘッドビデオ生成におけるリアリズムと表現力の向上に挑戦する。
人間の表情の完全なスペクトルを捉えるのに失敗する伝統的な技法の限界と、個々の顔のスタイルのユニークさを識別する。
これらの課題に対処するために,中間的な3Dモデルや顔のランドマークの必要性を回避し,直接音声とビデオの合成アプローチを利用する新しいフレームワークであるEMOを提案する。
本手法は,映像全体のフレームのシームレスな遷移と一貫したアイデンティティ保存を保証し,高い表現力とライフスタイルのアニメーションを実現する。
実験結果から,EMOは説得力のあるビデオだけでなく,様々なスタイルの歌唱ビデオを生成することが可能であり,表現性やリアリズムの点で既存の最先端の方法論を著しく上回っていることがわかった。
In this work, we tackle the challenge of enhancing the realism and expressiveness in talking head video generation by focusing on the dynamic and nuanced relationship between audio cues and facial movements. We identify the limitations of traditional techniques that often fail to capture the full spectrum of human expressions and the uniqueness of individual facial styles. To address these issues, we propose EMO, a novel framework that utilizes a direct audio-to-video synthesis approach, bypassing the need for intermediate 3D models or facial landmarks. Our method ensures seamless frame transitions and consistent identity preservation throughout the video, resulting in highly expressive and lifelike animations. Experimental results demonsrate that EMO is able to produce not only convincing speaking videos but also singing videos in various styles, significantly outperforming existing state-of-the-art methodologies in terms of expressiveness and realism. | 翻訳日:2024-08-09 12:50:25 公開日:2024-08-08 |
# 2次元超伝導量子ビットアレイにおける合成磁気ベクトルポテンシャルの実装
Implementing a synthetic magnetic vector potential in a 2D superconducting qubit array ( http://arxiv.org/abs/2405.00873v4 ) ライセンス: Link先を確認 | Ilan T. Rosen, Sarah Muschinske, Cora N. Barrett, Arkya Chatterjee, Max Hays, Michael DeMarco, Amir Karamlou, David Rower, Rabindra Das, David K. Kim, Bethany M. Niedzielski, Meghan Schuldt, Kyle Serniak, Mollie E. Schwartz, Jonilyn L. Yoder, Jeffrey A. Grover, William D. Oliver, | (参考訳) 超伝導量子プロセッサは、ハードウェア固有の精度制御、高速動作、サイトの解決された読み出しにより、アナログ量子シミュレーションの魅力的なプラットフォームである。
結合した超伝導量子ビットの配列は、Bose-Hubbardモデルに従って相互作用する粒子の力学を自然にエミュレートする。
しかし、多くの興味深い凝縮マター現象は電磁場の存在によってのみ現れる。
ここでは超伝導量子シミュレータを用いて電磁場における荷電粒子の動力学をエミュレートする。
すべての量子ビットに連続変調音を印加することにより、広範に調整可能な合成磁気ベクトルポテンシャルを実現する。
空間変化ベクトルポテンシャルは時間反転対称性を破り、ゲージ不変の合成磁場を生成し、時間変化ベクトルポテンシャルは合成電場を生成する。
電界中を伝播する荷電粒子の逆偏向であるホール効果が, 合成電磁場の存在下では存在することを実証する。
Superconducting quantum processors are a compelling platform for analog quantum simulation due to the precision control, fast operation, and site-resolved readout inherent to the hardware. Arrays of coupled superconducting qubits natively emulate the dynamics of interacting particles according to the Bose-Hubbard model. However, many interesting condensed-matter phenomena emerge only in the presence of electromagnetic fields. Here, we emulate the dynamics of charged particles in an electromagnetic field using a superconducting quantum simulator. We realize a broadly adjustable synthetic magnetic vector potential by applying continuous modulation tones to all qubits. We verify that the synthetic vector potential obeys requisite properties of electromagnetism: a spatially-varying vector potential breaks time-reversal symmetry and generates a gauge-invariant synthetic magnetic field, and a temporally-varying vector potential produces a synthetic electric field. We demonstrate that the Hall effect--the transverse deflection of a charged particle propagating in an electromagnetic field--exists in the presence of the synthetic electromagnetic field. | 翻訳日:2024-08-09 12:50:25 公開日:2024-08-08 |
# 修正推定誤差に対するユーザレベルDP構成によるプライバシ損失の改善
Improving the Privacy Loss Under User-Level DP Composition for Fixed Estimation Error ( http://arxiv.org/abs/2405.06261v3 ) ライセンス: Link先を確認 | V. Arvind Rameshwar, Anshoo Tandon, | (参考訳) 本稿では、データセットのいくつかの不整合部分集合の統計のプライベートリリースについて考察する。
特に、サンプル平均の$\epsilon$-user-level差分的リリースとデータセットの非結合部分集合におけるサンプル値のばらつきを、潜在的に逐次的に検討する。
ユーザレベルのプライバシの下でのプライバシ損失の従来の分析では、非結合サブセットへのクエリの構成は、非結合サブセットの総数によるプライバシー損失の減少を必要とする。
我々の主な貢献は、ユーザのコントリビューションの抑制に基づく反復的アルゴリズムであり、これは、標準ラプラス機構の下での全体的なプライバシー損失の減少を減らし、サブセット間で最悪の推定誤差を増大させないことを目的としている。
本分析の重要要素は, サンプル平均および分散量の推定器の感度の正確な, 分析的特性, 最悪の偏差誤差であり, ユーザの貢献をクリップしたり抑制したりすることで得られる。
実世界および合成データセット上でのアルゴリズムの性能を検証し、固定推定誤差に対するプライバシー損失劣化係数の改善を実証する。
また、各サブセットに寄与する固定数のユーザに対して、自然な最適化手順を通じて、サブセット間の最悪のエラーの改善を示す。
This paper considers the private release of statistics of several disjoint subsets of a datasets. In particular, we consider the $\epsilon$-user-level differentially private release of sample means and variances of sample values in disjoint subsets of a dataset, in a potentially sequential manner. Traditional analysis of the privacy loss under user-level privacy due to the composition of queries to the disjoint subsets necessitates a privacy loss degradation by the total number of disjoint subsets. Our main contribution is an iterative algorithm, based on suppressing user contributions, which seeks to reduce the overall privacy loss degradation under a canonical Laplace mechanism, while not increasing the worst estimation error among the subsets. Important components of this analysis are our exact, analytical characterizations of the sensitivities and the worst-case bias errors of estimators of the sample mean and variance, which are obtained by clipping or suppressing user contributions. We test the performance of our algorithm on real-world and synthetic datasets and demonstrate improvements in the privacy loss degradation factor, for fixed estimation error. We also show improvements in the worst-case error across subsets, via a natural optimization procedure, for fixed numbers of users contributing to each subset. | 翻訳日:2024-08-09 12:50:25 公開日:2024-08-08 |
# 映像品質向上のための圧縮強化深部構造ネットワーク
Compression-Realized Deep Structural Network for Video Quality Enhancement ( http://arxiv.org/abs/2405.06342v3 ) ライセンス: Link先を確認 | Hanchi Sun, Xiaohong Liu, Xinyang Jiang, Yifei Shen, Dongsheng Li, Xiongkuo Min, Guangtao Zhai, | (参考訳) 本稿では,圧縮ビデオの品質向上の課題に焦点をあてる。
ディープネットワークベースのビデオレコーダは目覚ましい進歩を遂げるが、既存の手法の多くは圧縮コーデックの事前処理を最適に活用するための構造化設計を欠いている。
ビデオの品質劣化は主に圧縮アルゴリズムによって引き起こされるため、より「意識的」な品質向上プロセスのためには、新しいパラダイムが緊急に必要となる。
その結果,従来の圧縮コーデックの3つの主要なプロセスに整合した3つの帰納的バイアスを導入し,従来のエンコーダアーキテクチャの強みと深いネットワーク機能とを融合するCRDS(Compression-Realized Deep Structure Network)を提案する。
コーデック内の残差抽出およびドメイン変換プロセスにインスパイアされ、ビデオフレームを潜在特徴空間に変換するために事前訓練された遅延分解残差自動エンコーダが提案され、各近傍の注意機構が正確な動き推定と残差抽出のために統合される。
さらに、コーデックの量子化雑音分布からインスピレーションを得たCRDSは、品質向上を一連の簡易な減音サブタスクに分解する中間監督型プログレッシブ・デノナイジング・フレームワークを提案する。
LDV 2.0やMFQE 2.0のようなデータセットの実験結果は、我々のアプローチが最先端のモデルを上回ることを示している。
This paper focuses on the task of quality enhancement for compressed videos. Although deep network-based video restorers achieve impressive progress, most of the existing methods lack a structured design to optimally leverage the priors within compression codecs. Since the quality degradation of the video is primarily induced by the compression algorithm, a new paradigm is urgently needed for a more ``conscious'' process of quality enhancement. As a result, we propose the Compression-Realized Deep Structural Network (CRDS), introducing three inductive biases aligned with the three primary processes in the classic compression codec, merging the strengths of classical encoder architecture with deep network capabilities. Inspired by the residual extraction and domain transformation process in the codec, a pre-trained Latent Degradation Residual Auto-Encoder is proposed to transform video frames into a latent feature space, and the mutual neighborhood attention mechanism is integrated for precise motion estimation and residual extraction. Furthermore, drawing inspiration from the quantization noise distribution of the codec, CRDS proposes a novel Progressive Denoising framework with intermediate supervision that decomposes the quality enhancement into a series of simpler denoising sub-tasks. Experimental results on datasets like LDV 2.0 and MFQE 2.0 indicate our approach surpasses state-of-the-art models. | 翻訳日:2024-08-09 12:50:25 公開日:2024-08-08 |
# CCVA-FL:医療画像のための適応的フェデレーション学習
CCVA-FL: Cross-Client Variations Adaptive Federated Learning for Medical Imaging ( http://arxiv.org/abs/2407.11652v6 ) ライセンス: Link先を確認 | Sunny Gupta, Amit Sethi, | (参考訳) Federated Learning(FL)は、分散データ上でモデルをトレーニングするためのプライバシ保護アプローチを提供する。
医療におけるそのポテンシャルは重要であるが、制限されたアノテーションによって悪化する医療画像データの横断的変動によって、課題が生じる。
本稿では,これらの問題に対処するため,CCVA-FL(Cross-Client Variations Adaptive Federated Learning)を提案する。
CCVA-FLは、画像を共通の特徴空間に変換することで、クロスクライアントの変動を最小限にすることを目的としている。
各クライアントからのイメージのサブセットを専門的にアノテーションし、続いてターゲットとして最もデータ複雑性の低いクライアントを選択する。
次に、ターゲットクライアントの注釈付き画像に基づいて、変換器付きスケーラブル拡散モデル(DiT)を用いて合成医療画像を生成する。
これらの合成画像は多様性を捉え、元のデータを表現し、他のクライアントと共有する。
各クライアントは、画像から画像への変換を使用して、そのローカル画像を対象のイメージ空間に変換する。
翻訳された画像は、その後、サーバモデルを開発するための連合学習設定で使用される。
その結果、CCVA-FLはプライバシーを損なうことなく、クライアント間でのデータ分散の違いを効果的に解決することで、Vanilla Federated Averagingよりも優れていることが示された。
Federated Learning (FL) offers a privacy-preserving approach to train models on decentralized data. Its potential in healthcare is significant, but challenges arise due to cross-client variations in medical image data, exacerbated by limited annotations. This paper introduces Cross-Client Variations Adaptive Federated Learning (CCVA-FL) to address these issues. CCVA-FL aims to minimize cross-client variations by transforming images into a common feature space. It involves expert annotation of a subset of images from each client, followed by the selection of a client with the least data complexity as the target. Synthetic medical images are then generated using Scalable Diffusion Models with Transformers (DiT) based on the target client's annotated images. These synthetic images, capturing diversity and representing the original data, are shared with other clients. Each client then translates its local images into the target image space using image-to-image translation. The translated images are subsequently used in a federated learning setting to develop a server model. Our results demonstrate that CCVA-FL outperforms Vanilla Federated Averaging by effectively addressing data distribution differences across clients without compromising privacy. | 翻訳日:2024-08-09 12:50:25 公開日:2024-08-08 |
# ESP-MedSAM:Universal Domain-Generalized Image Segmentationのための効率的なセルフプロンピングSAM
ESP-MedSAM: Efficient Self-Prompting SAM for Universal Domain-Generalized Image Segmentation ( http://arxiv.org/abs/2407.14153v3 ) ライセンス: Link先を確認 | Qing Xu, Jiaxuan Li, Xiangjian He, Ziyu Liu, Zhen Chen, Wenting Duan, Chenxin Li, Maggie M. He, Fiseha B. Tesema, Wooi P. Cheah, Yi Wang, Rong Qu, Jonathan M. Garibaldi, | (参考訳) 異なるモダリティにまたがるディープニューラルネットワークの普遍性と、未確認領域への一般化能力は、医療画像セグメンテーションにおいて重要な役割を果たす。
最近のSegment Anything Model (SAM)は、両方の設定でその可能性を実証している。
しかし、膨大な計算コスト、プロンプトとしての手動アノテーションの要求、SAMの競合を起こしやすいデコードプロセスは、臨床シナリオにおけるその一般化性と適用性を低下させる。
これらの課題に対処するために,ESP-MedSAM という汎用医療画像分割のための効率的なセルフプロンプトSAMを提案する。
具体的には、まずMMDKD(Multi-Modal Decoupled Knowledge Distillation)戦略を考案し、多様なモダリティのための識別視覚特徴を生成する軽量なセミパラメータ共有画像エンコーダを構築する。
さらに、セグメント化復号を導くための高品質な高密度プロンプト埋め込みを自動生成するセルフパッチ・プロンプト・ジェネレータ(SPPG)を導入する。
最後に,QDMD(Query-Decoupled Modality Decoder)の設計を行った。
ESP-MedSAMは様々な医用画像のセグメンテーションタスクにおいて最先端の成果を上げ、優れたモダリティの普遍性と一般化能力を示す。
特に ESP-MedSAM では SAM-H と比較して 4.5 % のパラメータしか使用していない。
ソースコードはhttps://github.com/xq141839/ESP-MedSAMで入手できる。
The universality of deep neural networks across different modalities and their generalization capabilities to unseen domains play an essential role in medical image segmentation. The recent Segment Anything Model (SAM) has demonstrated its potential in both settings. However, the huge computational costs, demand for manual annotations as prompts and conflict-prone decoding process of SAM degrade its generalizability and applicability in clinical scenarios. To address these issues, we propose an efficient self-prompting SAM for universal domain-generalized medical image segmentation, named ESP-MedSAM. Specifically, we first devise the Multi-Modal Decoupled Knowledge Distillation (MMDKD) strategy to construct a lightweight semi-parameter sharing image encoder that produces discriminative visual features for diverse modalities. Further, we introduce the Self-Patch Prompt Generator (SPPG) to automatically generate high-quality dense prompt embeddings for guiding segmentation decoding. Finally, we design the Query-Decoupled Modality Decoder (QDMD) that leverages a one-to-one strategy to provide an independent decoding channel for every modality. Extensive experiments indicate that ESP-MedSAM outperforms state-of-the-arts in diverse medical imaging segmentation tasks, displaying superior modality universality and generalization capabilities. Especially, ESP-MedSAM uses only 4.5\% parameters compared to SAM-H. The source code is available at https://github.com/xq141839/ESP-MedSAM. | 翻訳日:2024-08-09 12:50:25 公開日:2024-08-08 |
# 外部層によるプロンプト学習の促進
Advancing Prompt Learning through an External Layer ( http://arxiv.org/abs/2407.19674v4 ) ライセンス: Link先を確認 | Fangming Cui, Xun Yang, Chao Wu, Liang Xiao, Xinmei Tian, | (参考訳) Prompt Learningは、事前学習された視覚言語モデル(VLM)を、テキスト埋め込みの集合を学習することで、様々な下流タスクに適応するための有望な方法である。
これらの手法に固有の課題の1つは、未知のタスクに対する学習されたテキスト埋め込みの無効性による一般化性能の低下である。
このギャップを埋めるための直接的なアプローチは、プロンプトにテキストの埋め込みを凍結することであり、結果として、下流タスクにVLMを適用する能力が欠如している。
このジレンマに対処するために,新規な外部層(EnLa)を備えたEnPromptというパラダイムを提案する。
具体的には,VLMを下流タスクに適用するためのテキスト外部層と学習可能な視覚埋め込みを提案する。
学習可能な外部レイヤは、トレーニング済みのCLIPの有効な埋め込みに基づいて構築される。
この設計は2つのブランチ間の学習能力のバランスを考慮する。
テキスト的特徴と視覚的特徴を整合させるために,我々は新しい2段階のアプローチを提案する。
一 視覚とテキストのモダリティを整合させるための相違指標として最適輸送を導入すること。
ii) この2つのモード間の相互作用を強化するために, 新たな強化機能を導入する。
15データセットにわたる4つの代表的な実験(ベース・ツー・ノーベルの一般化、少数ショットの学習、クロスデータセットの一般化、ドメインシフトの一般化)は、我々の手法が既存の素早い学習法より優れていることを示す。
Prompt learning represents a promising method for adapting pre-trained vision-language models (VLMs) to various downstream tasks by learning a set of text embeddings. One challenge inherent to these methods is the poor generalization performance due to the invalidity of the learned text embeddings for unseen tasks. A straightforward approach to bridge this gap is to freeze the text embeddings in prompts, which results in a lack of capacity to adapt VLMs for downstream tasks. To address this dilemma, we propose a paradigm called EnPrompt with a novel External Layer (EnLa). Specifically, we propose a textual external layer and learnable visual embeddings for adapting VLMs to downstream tasks. The learnable external layer is built upon valid embeddings of pre-trained CLIP. This design considers the balance of learning capabilities between the two branches. To align the textual and visual features, we propose a novel two-pronged approach: i) we introduce the optimal transport as the discrepancy metric to align the vision and text modalities, and ii) we introduce a novel strengthening feature to enhance the interaction between these two modalities. Four representative experiments (i.e., base-to-novel generalization, few-shot learning, cross-dataset generalization, domain shifts generalization) across 15 datasets demonstrate that our method outperforms the existing prompt learning method. | 翻訳日:2024-08-09 12:50:25 公開日:2024-08-08 |
# 3時間における大規模言語モデルの公平性
Fairness in Large Language Models in Three Hours ( http://arxiv.org/abs/2408.00992v3 ) ライセンス: Link先を確認 | Thang Doan Viet, Zichong Wang, Minh Nhat Nguyen, Wenbin Zhang, | (参考訳) 大規模言語モデル (LLMs) は、様々な領域で顕著な成功を収めてきたが、フェアネスの考慮が欠如していることが多い。
従来の機械学習の公平さとは異なり、LLMの公正さには独自の背景、分類学、実現技術が含まれる。
本チュートリアルは,LLMを紹介する実世界のケーススタディから始まり,それに続くバイアスの原因の分析を通じて,フェアLLMに関する文献の最近の進歩を体系的に概説する。
LLMにおける公平性の概念を考察し、バイアスを評価するための戦略と公正性を促進するために設計されたアルゴリズムを要約する。
さらに、ツールキットやデータセットを含むLCMのバイアスを評価するためのリソースがコンパイルされ、この分野における現在の研究課題とオープンな疑問が議論される。
リポジトリは \url{https://github.com/LavinWong/Fairness-in-Large-Language-Models} で公開されている。
Large Language Models (LLMs) have demonstrated remarkable success across various domains but often lack fairness considerations, potentially leading to discriminatory outcomes against marginalized populations. Unlike fairness in traditional machine learning, fairness in LLMs involves unique backgrounds, taxonomies, and fulfillment techniques. This tutorial provides a systematic overview of recent advances in the literature concerning fair LLMs, beginning with real-world case studies to introduce LLMs, followed by an analysis of bias causes therein. The concept of fairness in LLMs is then explored, summarizing the strategies for evaluating bias and the algorithms designed to promote fairness. Additionally, resources for assessing bias in LLMs, including toolkits and datasets, are compiled, and current research challenges and open questions in the field are discussed. The repository is available at \url{https://github.com/LavinWong/Fairness-in-Large-Language-Models}. | 翻訳日:2024-08-09 12:50:25 公開日:2024-08-08 |
# SynopGround:テレビドラマとSynopsのマルチパラグラフビデオグラウンドのための大規模データセット
SynopGround: A Large-Scale Dataset for Multi-Paragraph Video Grounding from TV Dramas and Synopses ( http://arxiv.org/abs/2408.01669v3 ) ライセンス: Link先を確認 | Chaolei Tan, Zihang Lin, Junfu Pu, Zhongang Qi, Wei-Yi Pei, Zhi Qu, Yexin Wang, Ying Shan, Wei-Shi Zheng, Jian-Fang Hu, | (参考訳) ビデオグラウンディングはマルチモーダルなコンテンツ理解における基本的な問題であり、特定の自然言語クエリを、トリミングされていないビデオにローカライズすることを目的としている。
しかし、現在のビデオグラウンドデータセットは単に単純なイベントのみに焦点を当てており、短いビデオや短い文に制限されているため、モデルがより強力なマルチモーダル理解能力へと進化するのを妨げている。
この制限に対処するために、SynopGroundという大規模なビデオグラウンドデータセットを紹介します。
シナプスの各段落は言語クエリとして機能し、長いビデオの正確な時間境界で手動で注釈付けされる。
これらの段落クエリは相互に密接な相関関係があり、ビデオストーリーラインを要約する豊富な抽象表現と、イベントの詳細を描写する特定の記述が含まれており、より長いコンテキスト依存よりも複雑な概念についてマルチモーダルな認識を学習することができる。
このデータセットに基づいて,MPVG(Multi-Paragraph Video Grounding)と呼ばれる,より複雑なビデオグラウンドの設定を導入する。
さらに,MPVGの長期マルチモーダル入力の局所的グローバル構造を明示的にモデル化するための,LGMR(Local-Global Multimodal Reasoner)を提案する。
提案手法は,マルチパラグラフビデオグラウンド問題に対する効果的なベースラインソリューションを提供する。
先行技術に対する長期マルチパラグラフビデオグラウンドにおけるモデルの有効性と,その優位性を検証する。
データセットとコードは公開されています。
プロジェクトページ: https://synopground.github.io/.com
Video grounding is a fundamental problem in multimodal content understanding, aiming to localize specific natural language queries in an untrimmed video. However, current video grounding datasets merely focus on simple events and are either limited to shorter videos or brief sentences, which hinders the model from evolving toward stronger multimodal understanding capabilities. To address these limitations, we present a large-scale video grounding dataset named SynopGround, in which more than 2800 hours of videos are sourced from popular TV dramas and are paired with accurately localized human-written synopses. Each paragraph in the synopsis serves as a language query and is manually annotated with precise temporal boundaries in the long video. These paragraph queries are tightly correlated to each other and contain a wealth of abstract expressions summarizing video storylines and specific descriptions portraying event details, which enables the model to learn multimodal perception on more intricate concepts over longer context dependencies. Based on the dataset, we further introduce a more complex setting of video grounding dubbed Multi-Paragraph Video Grounding (MPVG), which takes as input multiple paragraphs and a long video for grounding each paragraph query to its temporal interval. In addition, we propose a novel Local-Global Multimodal Reasoner (LGMR) to explicitly model the local-global structures of long-term multimodal inputs for MPVG. Our method provides an effective baseline solution to the multi-paragraph video grounding problem. Extensive experiments verify the proposed model's effectiveness as well as its superiority in long-term multi-paragraph video grounding over prior state-of-the-arts. Dataset and code are publicly available. Project page: https://synopground.github.io/. | 翻訳日:2024-08-09 12:50:25 公開日:2024-08-08 |
# 赤外線小ターゲット検出のための単一点監視高分解能ダイナミックネットワーク
Single-Point Supervised High-Resolution Dynamic Network for Infrared Small Target Detection ( http://arxiv.org/abs/2408.01976v2 ) ライセンス: Link先を確認 | Jing Wu, Rixiang Ni, Feng Huang, Zhaobing Qiu, Liqiong Chen, Changhai Luo, Yunxiang Li, Youli Li, | (参考訳) 赤外線小目標検出(IRSTD)タスクは2つの主な理由から非常に難しい。
1)既存の手法に不可欠な正確なラベル情報を得ることは困難であり、
2)赤外線(IR)小ターゲット情報はディープネットワークで簡単に失われる。
これらの問題に対処するために,シングルポイント教師付き高分解能動的ネットワーク(SSHD-Net)を提案する。
既存の手法とは対照的に,単一点監視のみを用いて最先端(SOTA)検出性能を実現する。
具体的には、まず、ステップ機能カスケードチャネル(SFCC)を介して双方向の特徴相互作用を実現する高分解能クロスフィーチャー抽出モジュール(HCEM)を設計する。
ネットワーク深度と特徴分解能のバランスをとり、深いIR小ターゲット情報を維持する。
第二に、グローバルな特徴と局所的な特徴の効果的な統合は、動的座標融合モジュール(DCFM)によって達成され、複雑な背景における対干渉能力を高める。
さらに,意味情報抽出能力を高めるために,高分解能多レベル残基 (HMRM) を導入する。
最後に、アダプティブターゲット位置検出ヘッド(ATLDH)を設計し、検出精度を向上させる。
公開データセット NUDT-SIRST と IRSTD-1k の実験により,本手法の有効性が示された。
他のSOTA法と比較して,本手法は1点の監視しか行わず,より優れた検出性能を実現することができる。
Infrared small target detection (IRSTD) tasks are extremely challenging for two main reasons: 1) it is difficult to obtain accurate labelling information that is critical to existing methods, and 2) infrared (IR) small target information is easily lost in deep networks. To address these issues, we propose a single-point supervised high-resolution dynamic network (SSHD-Net). In contrast to existing methods, we achieve state-of-the-art (SOTA) detection performance using only single-point supervision. Specifically, we first design a high-resolution cross-feature extraction module (HCEM), that achieves bi-directional feature interaction through stepped feature cascade channels (SFCC). It balances network depth and feature resolution to maintain deep IR small-target information. Secondly, the effective integration of global and local features is achieved through the dynamic coordinate fusion module (DCFM), which enhances the anti-interference ability in complex backgrounds. In addition, we introduce the high-resolution multilevel residual module (HMRM) to enhance the semantic information extraction capability. Finally, we design the adaptive target localization detection head (ATLDH) to improve detection accuracy. Experiments on the publicly available datasets NUDT-SIRST and IRSTD-1k demonstrate the effectiveness of our method. Compared to other SOTA methods, our method can achieve better detection performance with only a single point of supervision. | 翻訳日:2024-08-09 12:50:25 公開日:2024-08-08 |
# 逐次社会的ジレンマにおける環境複雑性とナッシュ均衡
Environment Complexity and Nash Equilibria in a Sequential Social Dilemma ( http://arxiv.org/abs/2408.02148v2 ) ライセンス: Link先を確認 | Mustafa Yasir, Andrew Howes, Vasilios Mavroudis, Chris Hicks, | (参考訳) マルチエージェント強化学習(MARL)法は、ゼロサムゲームや正サムゲームでは有効であるが、大域的に最適な結果を達成するために協力が不可欠である一般サムゲームでは、しばしば準最適結果が得られる。
マトリックスゲーム社会ジレンマ(英: Matrix game social dilemmas)は、協調、リスク、信頼などの一般の相互作用の主要な側面を抽象化し、現実世界のシナリオの特徴である時間的・空間的ダイナミクスをモデル化することができない。
本研究は,行列ゲーム社会ジレンマを,より複雑で高次元のMARL環境に拡張する。
本研究では,一発マトリクスゲームにおける決定空間とより密に一致し,変動環境の複雑さももたらしたStag Huntジレンマのグリッドワールド実装を適用する。
以上の結果から,これらの環境下で訓練されたMARLエージェントは,複雑性が増大するにつれて,マトリックスゲームにおけるリスク支配的ナッシュ均衡戦略と整合して,最適以下の戦略に収束することが示唆された。
我々の研究は、高次元ゲーム理論MARL環境における最適な結果を達成するための環境複雑さの影響を強調した。
Multi-agent reinforcement learning (MARL) methods, while effective in zero-sum or positive-sum games, often yield suboptimal outcomes in general-sum games where cooperation is essential for achieving globally optimal outcomes. Matrix game social dilemmas, which abstract key aspects of general-sum interactions, such as cooperation, risk, and trust, fail to model the temporal and spatial dynamics characteristic of real-world scenarios. In response, our study extends matrix game social dilemmas into more complex, higher-dimensional MARL environments. We adapt a gridworld implementation of the Stag Hunt dilemma to more closely match the decision-space of a one-shot matrix game while also introducing variable environment complexity. Our findings indicate that as complexity increases, MARL agents trained in these environments converge to suboptimal strategies, consistent with the risk-dominant Nash equilibria strategies found in matrix games. Our work highlights the impact of environment complexity on achieving optimal outcomes in higher-dimensional game-theoretic MARL environments. | 翻訳日:2024-08-09 12:50:25 公開日:2024-08-08 |
# CNVSRC 2024における視覚音声認識のためのNPU-ASLPシステム記述
The NPU-ASLP System Description for Visual Speech Recognition in CNVSRC 2024 ( http://arxiv.org/abs/2408.02369v2 ) ライセンス: Link先を確認 | He Wang, Lei Xie, | (参考訳) 本稿では,NPU-ASLP (Team 237) が導入した2回目の中国連続視覚音声認識チャレンジ (CNVSRC 2024) について述べる。
データ処理に関しては,ベースライン1からリップモーション抽出器を利用してマルチスケール映像データを生成する。
さらに、トレーニング中に、速度摂動、ランダム回転、水平反転、色変換を含む様々な拡張技術が適用されている。
VSRモデルは、統合CTC/アテンション損失を伴うエンドツーエンドアーキテクチャを採用し、拡張ResNet3Dビジュアルフロントエンド、E-Branchformerエンコーダ、双方向トランスフォーマーデコーダを導入している。
提案手法では, シングルスピーカタスクが30.47%, マルチスピーカタスクが34.30%, シングルスピーカタスクが2位, その他の3トラックが1位となっている。
This paper delineates the visual speech recognition (VSR) system introduced by the NPU-ASLP (Team 237) in the second Chinese Continuous Visual Speech Recognition Challenge (CNVSRC 2024), engaging in all four tracks, including the fixed and open tracks of Single-Speaker VSR Task and Multi-Speaker VSR Task. In terms of data processing, we leverage the lip motion extractor from the baseline1 to produce multiscale video data. Besides, various augmentation techniques are applied during training, encompassing speed perturbation, random rotation, horizontal flipping, and color transformation. The VSR model adopts an end-to-end architecture with joint CTC/attention loss, introducing Enhanced ResNet3D visual frontend, E-Branchformer encoder, and Bi-directional Transformer decoder. Our approach yields a 30.47% CER for the Single-Speaker Task and 34.30% CER for the Multi-Speaker Task, securing second place in the open track of the Single-Speaker Task and first place in the other three tracks. | 翻訳日:2024-08-09 12:50:25 公開日:2024-08-08 |
# Terracorder: Sense Long and Prosper
Terracorder: Sense Long and Prosper ( http://arxiv.org/abs/2408.02407v2 ) ライセンス: Link先を確認 | Josh Millar, Sarab Sethi, Hamed Haddadi, Anil Madhavapeddy, | (参考訳) インサイトセンシングデバイスは、長期にわたってリモート環境にデプロイする必要がある。その運用寿命とカバレッジの両方を最大化する上で、消費電力を最小限に抑えることが不可欠である。
多様なマルチセンサーデバイスであるTerracorderを導入し、デバイス上の強化学習スケジューラを用いて、非常に低消費電力の電力を実演する。
我々は,生物多様性監視のためのユニークな装置を試作し,スケジューラを用いたバッテリ寿命を,いくつかの固定スケジュールと比較した。
次に、協調スケジューラがデバイスのネットワークの有用な操作を最大化し、ネットワークの電力消費とロバスト性を改善する方法について検討する。
In-situ sensing devices need to be deployed in remote environments for long periods of time; minimizing their power consumption is vital for maximising both their operational lifetime and coverage. We introduce Terracorder -- a versatile multi-sensor device -- and showcase its exceptionally low power consumption using an on-device reinforcement learning scheduler. We prototype a unique device setup for biodiversity monitoring and compare its battery life using our scheduler against a number of fixed schedules; the scheduler captures more than 80% of events at less than 50% of the number of activations of the best-performing fixed schedule. We then explore how a collaborative scheduler can maximise the useful operation of a network of devices, improving overall network power consumption and robustness. | 翻訳日:2024-08-09 12:50:25 公開日:2024-08-08 |
# 自己学習評価装置
Self-Taught Evaluators ( http://arxiv.org/abs/2408.02666v2 ) ライセンス: Link先を確認 | Tianlu Wang, Ilia Kulikov, Olga Golovneva, Ping Yu, Weizhe Yuan, Jane Dwivedi-Yu, Richard Yuanzhe Pang, Maryam Fazel-Zarandi, Jason Weston, Xian Li, | (参考訳) モデルに基づく評価は、モデル開発の成功の中心であり、トレーニングの報酬モデルとして、そして人間の評価の代替としてである。
このような評価器を訓練するには、モデル応答に対する人間の嗜好判断を大量に集めることが標準的手法であり、コストがかかり、モデルの改善に伴ってデータが不安定になる。
本研究では,人間のアノテーションを使わずに,合成学習データのみを用いて評価者を即時評価する手法を提案する。
ラベル付けされていない命令から、反復的自己改善スキームは対照的なモデル出力を生成し、LLM-as-a-Judgeを訓練し、推論トレースと最終判断を生成し、改良された予測を用いて各新しいイテレーションでこのトレーニングを繰り返す。
ラベル付き選好データがないと、RewardBench上で強力なLLM(Llama3-70B-Instruct)を75.4から88.3(多数決で88.7)に改善できます。
これは GPT-4 などの LLM の審査員よりも優れており、ラベル付き例で訓練された最高の報酬モデルの性能と一致している。
Model-based evaluation is at the heart of successful model development -- as a reward model for training, and as a replacement for human evaluation. To train such evaluators, the standard approach is to collect a large amount of human preference judgments over model responses, which is costly and the data becomes stale as models improve. In this work, we present an approach that aims to im-prove evaluators without human annotations, using synthetic training data only. Starting from unlabeled instructions, our iterative self-improvement scheme generates contrasting model outputs and trains an LLM-as-a-Judge to produce reasoning traces and final judgments, repeating this training at each new iteration using the improved predictions. Without any labeled preference data, our Self-Taught Evaluator can improve a strong LLM (Llama3-70B-Instruct) from 75.4 to 88.3 (88.7 with majority vote) on RewardBench. This outperforms commonly used LLM judges such as GPT-4 and matches the performance of the top-performing reward models trained with labeled examples. | 翻訳日:2024-08-09 12:41:05 公開日:2024-08-08 |
# KOI: ハイブリッドキーステートガイダンスによるオンライン模倣学習の高速化
KOI: Accelerating Online Imitation Learning via Hybrid Key-state Guidance ( http://arxiv.org/abs/2408.02912v2 ) ライセンス: Link先を確認 | Jingxian Lu, Wenke Xia, Dong Wang, Zhigang Wang, Bin Zhao, Di Hu, Xuelong Li, | (参考訳) オンライン・イミテーション・ラーニング手法は、広範囲のオンライン探索空間と限られた専門家軌道とのギャップに苦慮し、不正確なタスク認識報酬推定のために効率的な探索を妨げている。
課題分解が効率的な学習のための認知処理を促進するという認知神経科学の知見に触発されて,ターゲットタスクを「すべきこと」の目的と「すべきこと」のメカニズムに分解することで,エージェントが効率的なオンライン探索のための正確なタスク認識模倣報酬を推定できるのではないか,という仮説を立てた。
本研究では,タスク認識型報酬推定のためのガイダンスとして,意味と動きのキー状態の統合を活用するハイブリッドなキーステートガイド型オンライン模倣(KOI)学習手法を提案する。
まず、視覚言語モデルを用いて、専門家の軌跡を意味的なキー状態に分割し、「何をすべきか」の目的を示す。
セマンティックキー状態間の間隔内では、動作キー状態のキャプチャに光学的フローが使用され、「どのように行うか」のプロセスが理解される。
セマンティックキー状態と動作キー状態の両方を徹底的に把握することにより、軌道整合報酬計算を洗練し、効率的なオンライン模倣学習のためのタスク認識探索を奨励する。
実験の結果,メタワールド環境とLIBERO環境において,本手法がより効率的であることが確認された。
また,本手法の有効性を検証するために実世界のロボット操作実験を行い,本手法の有効性を実証した。
Online Imitation Learning methods struggle with the gap between extensive online exploration space and limited expert trajectories, which hinder efficient exploration due to inaccurate task-aware reward estimation. Inspired by the findings from cognitive neuroscience that task decomposition could facilitate cognitive processing for efficient learning, we hypothesize that an agent could estimate precise task-aware imitation rewards for efficient online exploration by decomposing the target task into the objectives of "what to do" and the mechanisms of "how to do". In this work, we introduce the hybrid Key-state guided Online Imitation (KOI) learning approach, which leverages the integration of semantic and motion key states as guidance for task-aware reward estimation. Initially, we utilize the visual-language models to segment the expert trajectory into semantic key states, indicating the objectives of "what to do". Within the intervals between semantic key states, optical flow is employed to capture motion key states to understand the process of "how to do". By integrating a thorough grasp of both semantic and motion key states, we refine the trajectory-matching reward computation, encouraging task-aware exploration for efficient online imitation learning. Our experiment results prove that our method is more sample efficient in the Meta-World and LIBERO environments. We also conduct real-world robotic manipulation experiments to validate the efficacy of our method, demonstrating the practical applicability of our KOI method. | 翻訳日:2024-08-09 12:41:05 公開日:2024-08-08 |
# 前景コントラスト学習に基づく夜間歩行者検出
Nighttime Pedestrian Detection Based on Fore-Background Contrast Learning ( http://arxiv.org/abs/2408.03030v2 ) ライセンス: Link先を確認 | He Yao, Yongjun Zhang, Huachun Jian, Li Zhang, Ruzhong Cheng, | (参考訳) チャネルアテンション機構に関する現代の研究では、背景情報の重要性がしばしば見過ごされている。
本研究では,チャネルアテンション機構に背景情報を組み込むことで,低照度環境下での単一スペクトル夜間歩行者検出性能の課題に対処する。
効率的なチャネルアテンション機構の開発に焦点をあてた多くの研究にもかかわらず、背景情報の関連性はほとんど無視されている。
コントラスト学習アプローチを採用することで、夜間歩行者検出のための歩行者対象と背景情報について、チャンネルの注意を再検討し、提案したFBCA(Fore-Background Contrast Attention)を提案する。
FBCA には,(1) チャネル記述子とグローバル空間の特徴情報とのリモート依存関係,(2) 背景情報の統合により,低照度歩行者の特徴に焦点を絞ったチャネルと背景情報に焦点を絞ったチャネルの区別が促進される,という2つの主要な属性がある。
その結果、取得したチャネル記述子は、高い意味レベルと空間的精度を示す。
実験結果から、FBCAは単一スペクトル夜間歩行者検出において既存の手法よりも大幅に優れており、NightOwlsとTJU-DHD-pedestrianデータセットの最先端結果が得られた。
さらに,マルチスペクトルLLVIPデータセットの性能も向上する。
これらの結果から,チャネルアテンション機構に背景情報を組み込むことで,夜間シナリオにおける照明要因による検出性能劣化を効果的に軽減できることが示唆された。
The significance of background information is frequently overlooked in contemporary research concerning channel attention mechanisms. This study addresses the issue of suboptimal single-spectral nighttime pedestrian detection performance under low-light conditions by incorporating background information into the channel attention mechanism. Despite numerous studies focusing on the development of efficient channel attention mechanisms, the relevance of background information has been largely disregarded. By adopting a contrast learning approach, we reexamine channel attention with regard to pedestrian objects and background information for nighttime pedestrian detection, resulting in the proposed Fore-Background Contrast Attention (FBCA). FBCA possesses two primary attributes: (1) channel descriptors form remote dependencies with global spatial feature information; (2) the integration of background information enhances the distinction between channels concentrating on low-light pedestrian features and those focusing on background information. Consequently, the acquired channel descriptors exhibit a higher semantic level and spatial accuracy. Experimental outcomes demonstrate that FBCA significantly outperforms existing methods in single-spectral nighttime pedestrian detection, achieving state-of-the-art results on the NightOwls and TJU-DHD-pedestrian datasets. Furthermore, this methodology also yields performance improvements for the multispectral LLVIP dataset. These findings indicate that integrating background information into the channel attention mechanism effectively mitigates detector performance degradation caused by illumination factors in nighttime scenarios. | 翻訳日:2024-08-09 12:41:05 公開日:2024-08-08 |
# サイバー犯罪フォーラムにおける大規模言語モデル(LLM)のサイバー脅威インテリジェンス(CTI)への応用
The Use of Large Language Models (LLM) for Cyber Threat Intelligence (CTI) in Cybercrime Forums ( http://arxiv.org/abs/2408.03354v2 ) ライセンス: Link先を確認 | Vanessa Clairoux-Trepanier, Isa-May Beauchamp, Estelle Ruellan, Masarah Paquet-Clouston, Serge-Olivier Paquette, Eric Clay, | (参考訳) 大規模言語モデル(LLM)は、サイバー犯罪フォーラムからサイバー脅威インテリジェンス(CTI)データを分析するために使用することができる。
しかし,これらの重要なタスクに対するLCMの精度と効率のレベルはまだ十分に評価されていない。
そこで本研究では,OpenAI GPT-3.5-turboモデル[7]上に構築したLCMシステムの精度を評価し,CTI情報を抽出する。
そこで,3つのサイバー犯罪フォーラム (XSS, Exploit_in, RAMP) から毎日500件の会話のランダムなサンプルを抽出し,LLMシステムを用いて,大規模組織や重要なインフラが対象であるかどうかなど,会話とコード10のCTI変数を要約するように指示した。
そして、2人のプログラマが会話をレビューし、LLMが抽出した情報が正確かどうかを評価した。
平均精度は98%であった。
LLMが物語と過去の出来事を区別するのを助けることや、プロンプトにおける動詞の時制に注意することなど、モデルを強化する様々な方法が明らかにされた。
それにもかかわらず、この研究の結果は、サイバー脅威インテリジェンスにLLMを使用することの効率性と妥当性を強調した。
Large language models (LLMs) can be used to analyze cyber threat intelligence (CTI) data from cybercrime forums, which contain extensive information and key discussions about emerging cyber threats. However, to date, the level of accuracy and efficiency of LLMs for such critical tasks has yet to be thoroughly evaluated. Hence, this study assesses the accuracy of an LLM system built on the OpenAI GPT-3.5-turbo model [7] to extract CTI information. To do so, a random sample of 500 daily conversations from three cybercrime forums, XSS, Exploit_in, and RAMP, was extracted, and the LLM system was instructed to summarize the conversations and code 10 key CTI variables, such as whether a large organization and/or a critical infrastructure is being targeted. Then, two coders reviewed each conversation and evaluated whether the information extracted by the LLM was accurate. The LLM system performed strikingly well, with an average accuracy score of 98%. Various ways to enhance the model were uncovered, such as the need to help the LLM distinguish between stories and past events, as well as being careful with verb tenses in prompts. Nevertheless, the results of this study highlight the efficiency and relevance of using LLMs for cyber threat intelligence. | 翻訳日:2024-08-09 12:41:05 公開日:2024-08-08 |
# GMAI-MMBench:汎用医療AIに向けた総合的マルチモーダル評価ベンチマーク
GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI ( http://arxiv.org/abs/2408.03361v2 ) ライセンス: Link先を確認 | Pengcheng Chen, Jin Ye, Guoan Wang, Yanjun Li, Zhongying Deng, Wei Li, Tianbin Li, Haodong Duan, Ziyan Huang, Yanzhou Su, Benyou Wang, Shaoting Zhang, Bin Fu, Jianfei Cai, Bohan Zhuang, Eric J Seibel, Junjun He, Yu Qiao, | (参考訳) LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができ、様々な分野に適用できる。
医学分野では、LVLMは診断と治療に相当な補助を提供する可能性がある。
それ以前には、様々な医療応用においてLVLMの有効性を評価するためのベンチマークを開発することが不可欠である。
現在のベンチマークは、主に単一のドメインに焦点を当てた特定の学術文献に基づいて構築されることが多く、知覚の粒度が異なる。
そのため、臨床関係の限定、不完全評価、インタラクティブなLVLMのガイダンス不足など、特定の課題に直面している。
これらの制約に対処するため,GMAI-MMBenchを開発した。
39の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの知覚的粒度の285のデータセットから構築されている。
さらに、ユーザーが評価タスクをカスタマイズし、様々な評価ニーズを調整し、医療AIの研究や応用を効果的に支援できる語彙木構造を実装した。
その結果, GPT-4o は 52% の精度しか得られず, 改善の余地があることが示唆された。
さらに,医療応用の進展に対処する必要のある,現在最先端のLVLMにおいて,5つの重要な欠陥を同定した。
GMAI-MMBenchは,次世代のLVLMをGMAIに向けて構築するよう,コミュニティに刺激を与えるものと信じている。
Project Page: https://uni-medical.github.io/GMAI-MMBench.github.io/
Large Vision-Language Models (LVLMs) are capable of handling diverse data types such as imaging, text, and physiological signals, and can be applied in various fields. In the medical field, LVLMs have a high potential to offer substantial assistance for diagnosis and treatment. Before that, it is crucial to develop benchmarks to evaluate LVLMs' effectiveness in various medical applications. Current benchmarks are often built upon specific academic literature, mainly focusing on a single domain, and lacking varying perceptual granularities. Thus, they face specific challenges, including limited clinical relevance, incomplete evaluations, and insufficient guidance for interactive LVLMs. To address these limitations, we developed the GMAI-MMBench, the most comprehensive general medical AI benchmark with well-categorized data structure and multi-perceptual granularity to date. It is constructed from 285 datasets across 39 medical image modalities, 18 clinical-related tasks, 18 departments, and 4 perceptual granularities in a Visual Question Answering (VQA) format. Additionally, we implemented a lexical tree structure that allows users to customize evaluation tasks, accommodating various assessment needs and substantially supporting medical AI research and applications. We evaluated 50 LVLMs, and the results show that even the advanced GPT-4o only achieves an accuracy of 52%, indicating significant room for improvement. Moreover, we identified five key insufficiencies in current cutting-edge LVLMs that need to be addressed to advance the development of better medical applications. We believe that GMAI-MMBench will stimulate the community to build the next generation of LVLMs toward GMAI. Project Page: https://uni-medical.github.io/GMAI-MMBench.github.io/ | 翻訳日:2024-08-09 12:41:05 公開日:2024-08-08 |
# 機械学習による半導体ヘテロ構造の自律的・自律的マルチステップ成長
Autonomous, Self-driving Multi-Step Growth of Semiconductor Heterostructures Guided by Machine Learning ( http://arxiv.org/abs/2408.03508v2 ) ライセンス: Link先を確認 | Chao Shen, Wenkang Zhan, Hongyu Sun, Kaiyao Xin, Bo Xu, Zhanguo Wang, Chao Zhao, | (参考訳) 半導体産業は、複雑な多段階プロセスの高速化を可能にするクローズドループ、自律的な実験によって繰り返しタスクの自動化を優先している。
機械学習(ML)の出現は、人間の介入を最小限に抑えて自動化プロセスに定着した。
本研究では,マルチステップで分子線エピタキシー(MBE)成長を実行し,連続的なその場監視とオンザフライフィードバック制御が可能な自動運転自動化プラットフォームであるSemiEpiを開発した。
標準的なハードウェア、自家製ソフトウェア、カーブフィッティング、および複数のMLモデルを統合することで、SemiEpiは自律的に動作し、最適な結果を達成するためにMBEプロセスの広範な専門知識を不要にする。
プラットフォームは以前の実験結果から積極的に学び、望ましい条件を特定し、望ましい結果を達成するために新しい実験を提案する。
InAs/GaAs量子ドット(QD)ヘテロ構造の成長を標準化し、最適化し、ML誘導マルチステップ成長のパワーを示す。
初期成長条件を得るために温度校正を行い, MLを用いてプロセスの微粒化制御を行った。
成長中に得られたRHEED映画を活用して、SemiEpiはマルチステップヘテロ構造成長のための新しい経路を特定し、最適化した。
この研究は、任意のデバイスにおけるマルチステップ成長における課題に対処する、クローズドループ、ML誘導システムの能力を示す。
本手法は, 商業的にスケーラブルなツールを用いて, 繰り返し可能な材料成長を実現するために重要である。
当社の戦略は,成長パラメータの徹底的な知識がなくても,ハードウェアに依存しないプロセスの開発を促進し,プロセスの再現性と安定性を向上させる。
The semiconductor industry has prioritized automating repetitive tasks by closed-loop, autonomous experimentation which enables accelerated optimization of complex multi-step processes. The emergence of machine learning (ML) has ushered in automated process with minimal human intervention. In this work, we develop SemiEpi, a self-driving automation platform capable of executing molecular beam epitaxy (MBE) growth with multi-steps, continuous in-situ monitoring, and on-the-fly feedback control. By integrating standard hardware, homemade software, curve fitting, and multiple ML models, SemiEpi operates autonomously, eliminating the need for extensive expertise in MBE processes to achieve optimal outcomes. The platform actively learns from previous experimental results, identifying favorable conditions and proposing new experiments to achieve the desired results. We standardize and optimize growth for InAs/GaAs quantum dots (QDs) heterostructures to showcase the power of ML-guided multi-step growth. A temperature calibration was implemented to get the initial growth condition, and fine control of the process was executed using ML. Leveraging RHEED movies acquired during the growth, SemiEpi successfully identified and optimized a novel route for multi-step heterostructure growth. This work demonstrates the capabilities of closed-loop, ML-guided systems in addressing challenges in multi-step growth for any device. Our method is critical to achieve repeatable materials growth using commercially scalable tools. Our strategy facilitates the development of a hardware-independent process and enhancing process repeatability and stability, even without exhaustive knowledge of growth parameters. | 翻訳日:2024-08-09 12:41:05 公開日:2024-08-08 |
# ソフトモードのギャラリー:強磁性量子相転移の理論と実験
A Gallery of Soft Modes: Theory and Experiment at a Ferromagnetic Quantum Phase Transition ( http://arxiv.org/abs/2408.03510v2 ) ライセンス: Link先を確認 | P. C. E. Stamp, D. M. Silevitch, M. Libersky, Ryan McKenzie, A. A. Geim, T. F. Rosenbaum, | (参考訳) 我々は、強磁性量子相転移においてゼロエネルギーに軟化する長距離変動に着目し、逆場等化モデルの物理的実現であるLiHoF$_4$における量子臨界点近傍の低エネルギー励起について検討する。
チューナブルループギャップ共振器構造におけるマイクロ波分光は、ソフトモードと高エネルギーの電子核状態を特定し、特徴づける。
本研究では,これらのモードを,Ising軸に平行に横に印加した周波数と磁場の関数として検討する。
これらは、ソフトフォノンやソフトフォノンと相互作用するソフトエレクトロ核モードの理論モデルとして理解されている。
量子臨界点における競合する赤外線の発散を、光子と電子核ソフトモードから同定する。
これはこれらの発散を不完全にキャンセルし、実験で観察されたミュートだが異なる署名につながる。
縦磁場の応用はソフトモードのギャップを埋める。
量子臨界点からかなり離れた距離で測定すると、強磁性領域のダイナミクスに関連する `Walker'' モードの集合が明らかになる。
We examine the low-energy excitations in the vicinity of the quantum critical point in LiHoF$_4$, a physical realization of the Transverse Field Ising Model, focusing on the long-range fluctuations which soften to zero energy at the ferromagnetic quantum phase transition. Microwave spectroscopy in tunable loop-gap resonator structures identifies and characterizes the soft mode and higher-energy electronuclear states. We study these modes as a function of frequency and magnetic fields applied transverse and parallel to the Ising axis. These are understood in the context of a theoretical model of a soft electronuclear mode that interacts with soft photons as well as soft phonons. We identify competing infrared divergences at the quantum critical point, coming from the photons and the electronuclear soft mode. It is an incomplete cancellation of these divergences that leads to the muted but distinct signatures observed in the experiments. The application of a longitudinal magnetic field gaps the soft mode. Measurements well away from the quantum critical point reveal a set of ``Walker'' modes associated with ferromagnetic domain dynamics. | 翻訳日:2024-08-09 12:41:05 公開日:2024-08-08 |
# LLMを用いた業界全体でのソフトウェア障害の類似度の調査
Exploring the extent of similarities in software failures across industries using LLMs ( http://arxiv.org/abs/2408.03528v2 ) ライセンス: Link先を確認 | Martin Detloff, | (参考訳) ソフトウェア開発の急速な進化は、高度な安全対策を必要とする。
企業からのソフトウェア障害に関する情報の抽出は、ニュース記事を通じてますます可能になっている。
本研究は, LLM(Failure Analysis Investigation with LLMs)モデルを用いて, 業界固有情報を抽出する。
FAILモデルのデータベースは情報に富んでいるが、さらなる分類と業界固有の洞察の恩恵を受けることができる。
以前の作業では、ニュース記事は信頼できる情報源から収集され、データベース内のインシデントによって分類された。
その後、プロンプトエンジニアリングとLarge Language Models (LLM) が適用され、ソフトウェア障害に関する関連情報を抽出した。
本研究は,これらの手法を,特定のドメインとソフトウェア障害の種類に分類することによって拡張する。
結果はグラフを通して視覚的に表現されます。
この分析は、特定の産業において、データベース全体を通して、いくつかのソフトウェア障害が著しく頻繁に発生することを示している。
この分類は、ソフトウェアエンジニアや企業が共通の失敗を特定し、対処するための貴重なリソースを提供する。
本研究は,ソフトウェア故障解析の自動化と強化を目的として,ソフトウェア工学と大規模言語モデル(LLM)の相乗効果を強調した。
データベースから業界固有のモデルにデータを変換することで、一般的な脆弱性を特定し、潜在的なリスクを予測し、ソフトウェア障害を防止するための積極的な対策を実施するために使用できる貴重なリソースを提供します。
現在のFAILデータベースのパワーとデータの視覚化を活用して、私たちは、より安全でよりセキュアなソフトウェアのための道を提供することを目標にしています。
The rapid evolution of software development necessitates enhanced safety measures. Extracting information about software failures from companies is becoming increasingly more available through news articles. This research utilizes the Failure Analysis Investigation with LLMs (FAIL) model to extract industry-specific information. Although the FAIL model's database is rich in information, it could benefit from further categorization and industry-specific insights to further assist software engineers. In previous work news articles were collected from reputable sources and categorized by incidents inside a database. Prompt engineering and Large Language Models (LLMs) were then applied to extract relevant information regarding the software failure. This research extends these methods by categorizing articles into specific domains and types of software failures. The results are visually represented through graphs. The analysis shows that throughout the database some software failures occur significantly more often in specific industries. This categorization provides a valuable resource for software engineers and companies to identify and address common failures. This research highlights the synergy between software engineering and Large Language Models (LLMs) to automate and enhance the analysis of software failures. By transforming data from the database into an industry specific model, we provide a valuable resource that can be used to identify common vulnerabilities, predict potential risks, and implement proactive measures for preventing software failures. Leveraging the power of the current FAIL database and data visualization, we aim to provide an avenue for safer and more secure software in the future. | 翻訳日:2024-08-09 12:41:05 公開日:2024-08-08 |
# EXAONE 3.0 7.8Bインストラクションチューニング言語モデル
EXAONE 3.0 7.8B Instruction Tuned Language Model ( http://arxiv.org/abs/2408.03541v2 ) ライセンス: Link先を確認 | LG AI Research, :, Soyoung An, Kyunghoon Bae, Eunbi Choi, Stanley Jungkyu Choi, Yemuk Choi, Seokhee Hong, Yeonjung Hong, Junwon Hwang, Hyojin Jeon, Gerrard Jeongwon Jo, Hyunjik Jo, Jiyeon Jung, Yountae Jung, Euisoon Kim, Hyosang Kim, Joonkee Kim, Seonghwan Kim, Soyeon Kim, Sunkyoung Kim, Yireun Kim, Youchul Kim, Edward Hwayoung Lee, Haeju Lee, Honglak Lee, Jinsik Lee, Kyungmin Lee, Moontae Lee, Seungjun Lee, Woohyung Lim, Sangha Park, Sooyoun Park, Yongmin Park, Boseong Seo, Sihoon Yang, Heuiyeen Yeen, Kyungjae Yoo, Hyeongu Yun, | (参考訳) 本稿では,LG AI Research が開発したLarge Language Models (LLM) シリーズの最初のオープンモデルである EXAONE 3.0 命令調整言語モデルを紹介する。
様々なモデルサイズの中で、オープンな研究とイノベーションを促進するために、7.8Bの命令調整モデルを公開する。
EXAONE 3.0は、様々な公開および社内ベンチマークの広範な評価を通じて、同様の大きさの他の最先端のオープンモデルに対して、命令追従機能を備えた非常に競争力のある実世界のパフォーマンスを示す。
比較分析の結果,EXAONE 3.0は韓国では特に優れており,一般タスクや複雑な推論において魅力的な性能を実現していることがわかった。
強力な実世界の有効性とバイリンガル能力によって、EXAONEがExpert AIの進歩に寄与し続けることを願っています。
私たちのEXAONE 3.0命令チューニングモデルはhttps://huggingface.co/LGAI-EXAONE/EXAONE-3.0-7.8B-Instructで利用可能です。
We introduce EXAONE 3.0 instruction-tuned language model, the first open model in the family of Large Language Models (LLMs) developed by LG AI Research. Among different model sizes, we publicly release the 7.8B instruction-tuned model to promote open research and innovations. Through extensive evaluations across a wide range of public and in-house benchmarks, EXAONE 3.0 demonstrates highly competitive real-world performance with instruction-following capability against other state-of-the-art open models of similar size. Our comparative analysis shows that EXAONE 3.0 excels particularly in Korean, while achieving compelling performance across general tasks and complex reasoning. With its strong real-world effectiveness and bilingual proficiency, we hope that EXAONE keeps contributing to advancements in Expert AI. Our EXAONE 3.0 instruction-tuned model is available at https://huggingface.co/LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct | 翻訳日:2024-08-09 12:41:05 公開日:2024-08-08 |
# Atom-Field-Medium相互作用 I:誘電体量子場における$N$高調波原子の傾斜効果
Atom-Field-Medium Interactions I: Graded Influence Actions for $N$ Harmonic Atoms in a Dielectric-Altered Quantum Field ( http://arxiv.org/abs/2408.03580v2 ) ライセンス: Link先を確認 | Jen-Tsung Hsiang, Bei-Lok Hu, | (参考訳) この一連の論文には2つの大きな目的がある。
1) 自己整合なバックアクションを持つ複数の構造の層からなる多部開量子系の理論を構築する。
次数的影響作用形式論 ( graded influence action formalism) \cite{BehHu10,BH11} を開発し、連続的なサブ層が興味のある変数の力学に与える影響を考慮に入れた。
2) これらの手法を原子-フィールド-ナトリウム相互作用の研究に適用し, 従来の方法に対するメリットを強調した。
我々は、$N$調和振動子の系を考え、$N$中性原子(A)の内部自由度(idf)をモデル化し、量子場(F)と相互作用し、単純のため、誘電体媒体(M)の存在によって変化する。
本稿では, 連続する構造層における動的変数の密度行列の減少に対する確率方程式を導出するために, 影響関数形式論における粗粒度および確率的有効作用を用いる。
グレード(graded)とは、粗いグレーニング手順の特定の順序をいう。
まず、誘電体発振器の共沸浴に結合する3つの粗粒化処理を行い、誘電体の放散特性だけでなく、誘電体の非マルコフ的空間相関のような必須なニュアンス的特徴を出現させる。
第二に、媒質変数を全体として統合することにより、誘電体修飾量子場、すなわち周波数依存の誘電関数を通して現れる量子場に対する媒質の影響が生じる。
最後に、原子のidfと相互作用するこの誘電体の量子場を積分すると、影響作用が生じる。
そこから、誘電体中変調量子場と相互作用する原子のidfの非平衡確率力学を記述する確率方程式を得る。
This series of papers has two broader aims: 1) Construct a theory for multi-partite open quantum systems comprising several layers of structure with self-consistent back-actions. Develop the graded influence action formalism \cite{BehHu10,BH11} to account for the influences of successive sub-layers on the dynamics of the variables of interest. 2) Apply these methods to the study of atom-field-medium interactions and highlight their merits over conventional methods. We consider a system of $N$ harmonic oscillators, modeling the internal degrees of freedom (idf) of $N$ neutral atoms (A), interacting with a quantum field (F), scalar here, for simplicity, altered by the presence of a dielectric medium (M). In this paper we use the coarse-grained and stochastic effective actions in the influence functional formalism to derive the stochastic equations for the reduced density matrices of the dynamical variables in the successive layers of structure. The word `graded' refers to the specific ordering of the coarse-graining procedures. Three layers of coarse-graining are performed, firstly, integrating over the common bath of the dielectric oscillators results not only in the appearance of necessary dissipative properties of the dielectric but also essential nuanced features such as nonMarkovian spatial correlations in the dielectric. Secondly, integrating over the medium variables as a whole results in a dielectric-modified quantum field, the influence of the medium on the quantum field manifesting through a frequency-dependent permittivity function. Finally, integrating over this dielectric-altered quantum field which interacts with the idfs of the atoms yields an influence action. From it we obtain the stochastic equation of motion which describes the nonequilibrium stochastic dynamics of the idf of the atoms interacting with a dielectric medium-modified quantum field. | 翻訳日:2024-08-09 12:41:05 公開日:2024-08-08 |
# PAGED: ドキュメントから手続きグラフを抽出するためのベンチマーク
PAGED: A Benchmark for Procedural Graphs Extraction from Documents ( http://arxiv.org/abs/2408.03630v2 ) ライセンス: Link先を確認 | Weihong Du, Wenrui Liao, Hongru Liang, Wenqiang Lei, | (参考訳) 文書からの手続きグラフの自動抽出は,視覚グラフをスキップすることで複雑な手順を簡単に理解するための低コストな方法である。
最近の研究の進展にもかかわらず、既存の研究がこの課題をうまく解決したかどうか(Q1)と、新たな大規模言語モデル(LLM)がこの課題に新たな機会をもたらすかどうか(Q2)は未解決である。
そこで本研究では,高品質なデータセットと標準評価を備えた新しいベンチマークPAGEDを提案する。
5つの最先端のベースラインを調査し、手書きのルールと限られた利用可能なデータに依存するため、最適な手続きグラフをうまく抽出できないことを明らかにした。
さらに,PAGEDの3つの先進LLMを包含し,新たな自己定義戦略により強化する。
その結果,文章要素の同定におけるLLMの利点と論理構造構築におけるそのギャップが指摘された。
我々は、PAGEDが自動手続きグラフ抽出の主要なランドマークとなり、PAGEDの調査によって、非順序要素間の論理的推論の研究に関する洞察が得られることを願っている。
Automatic extraction of procedural graphs from documents creates a low-cost way for users to easily understand a complex procedure by skimming visual graphs. Despite the progress in recent studies, it remains unanswered: whether the existing studies have well solved this task (Q1) and whether the emerging large language models (LLMs) can bring new opportunities to this task (Q2). To this end, we propose a new benchmark PAGED, equipped with a large high-quality dataset and standard evaluations. It investigates five state-of-the-art baselines, revealing that they fail to extract optimal procedural graphs well because of their heavy reliance on hand-written rules and limited available data. We further involve three advanced LLMs in PAGED and enhance them with a novel self-refine strategy. The results point out the advantages of LLMs in identifying textual elements and their gaps in building logical structures. We hope PAGED can serve as a major landmark for automatic procedural graph extraction and the investigations in PAGED can offer insights into the research on logic reasoning among non-sequential elements. | 翻訳日:2024-08-09 12:41:05 公開日:2024-08-08 |
# CARE: ユーザマニュアルを読むためのCSRのためのクローズガイドアシスタント
CARE: A Clue-guided Assistant for CSRs to Read User Manuals ( http://arxiv.org/abs/2408.03633v2 ) ライセンス: Link先を確認 | Weihong Du, Jia Liu, Zujie Wen, Dingnan Jin, Hongru Liang, Wenqiang Lei, | (参考訳) ユーザマニュアル、特に情報豊富なものを読む際に、顧客サービス表現(CSR)のための読書アシスタントを構築するのに時間がかかります。
現在のソリューションは、ユーザの質問への注意の欠如やレスポンスの可能性のため、オンラインカスタムサービスのシナリオに適していません。
そこで我々は,CARE という,CSR のための時間節約かつ注意深い読解アシスタントを開発することを提案する。
これにより、CSRは明示的な手がかりチェーンを通じて、ユーザマニュアルから適切なレスポンスを素早く見つけることができる。
具体的には、各手がかり連鎖は、ユーザマニュアルを推測して形成され、ユーザ質問に一致した質問ヒントから始まり、可能な応答で終了する。
教師付きデータの不足を克服するために,モデル学習のための自己教師型戦略を採用する。
オフライン実験は、CAREがユーザマニュアルから正確なレスポンスを自動的に推測するのに効率的であることを示している。
オンライン実験は、CAREがCSRの読み込み負担を減らし、高いサービス品質を維持するために、特に35%の時間を消費し、0.75 ICCスコアを維持するために優れていることをさらに示している。
It is time-saving to build a reading assistant for customer service representations (CSRs) when reading user manuals, especially information-rich ones. Current solutions don't fit the online custom service scenarios well due to the lack of attention to user questions and possible responses. Hence, we propose to develop a time-saving and careful reading assistant for CSRs, named CARE. It can help the CSRs quickly find proper responses from the user manuals via explicit clue chains. Specifically, each of the clue chains is formed by inferring over the user manuals, starting from the question clue aligned with the user question and ending at a possible response. To overcome the shortage of supervised data, we adopt the self-supervised strategy for model learning. The offline experiment shows that CARE is efficient in automatically inferring accurate responses from the user manual. The online experiment further demonstrates the superiority of CARE to reduce CSRs' reading burden and keep high service quality, in particular with >35% decrease in time spent and keeping a >0.75 ICC score. | 翻訳日:2024-08-09 12:41:05 公開日:2024-08-08 |
# NACL: 推論時のLLMのための汎用的で効果的なKVキャッシュ検証フレームワーク
NACL: A General and Effective KV Cache Eviction Framework for LLMs at Inference Time ( http://arxiv.org/abs/2408.03675v2 ) ライセンス: Link先を確認 | Yilong Chen, Guoxia Wang, Junyuan Shang, Shiyao Cui, Zhenyu Zhang, Tingwen Liu, Shuohuan Wang, Yu Sun, Dianhai Yu, Hua Wu, | (参考訳) 大規模言語モデル(LLM)は、AIアプリケーションの革新的な急増に火をつけ、拡張されたコンテキストウィンドウを備えたエキサイティングな可能性の新たな時代を告げた。
しかし、これらのモデルのホスティングは、主に長期のコンテキストモデリングを含むKVキャッシュの広範なメモリ消費のため、コストを抑えることができる。
KVキャッシュから不要なトークンを取り除こうとする研究はいくつかあるが、そのほとんどは、蓄積された注目スコアの偏りのある局所統計と、不適切な短文評価における難易度のような未解決の指標を用いた報告性能に依存している。
本稿では,符号化フェーズにおける単一操作において,より最適かつ効率的な消去を実現する,長文KVキャッシュ消去のための汎用フレームワークであるNACLを提案する。
NACLの効率性から,PROXY TOKENS EVICTIONにおけるより正確なアテンションスコア統計とRANDOM EVICTIONの多角化ランダム消去戦略を組み合わせ,アテンションバイアスの問題を緩和し,長文モデリングタスクにおける重要なトークンの維持におけるロバスト性を高めることを目的とした。
特に,本手法では,短文タスクと長文タスクのパフォーマンスをそれぞれ80%,短文タスクを76%向上させ,KVキャッシュを最大50%削減し,95%以上の性能維持を実現した。
コードはhttps://github.com/PaddlePaddle/Research/tree/master/NLP/ACL2024-NACLで公開されている。
Large Language Models (LLMs) have ignited an innovative surge of AI applications, marking a new era of exciting possibilities equipped with extended context windows. However, hosting these models is cost-prohibitive mainly due to the extensive memory consumption of KV Cache involving long-context modeling. Despite several works proposing to evict unnecessary tokens from the KV Cache, most of them rely on the biased local statistics of accumulated attention scores and report performance using unconvincing metric like perplexity on inadequate short-text evaluation. In this paper, we propose NACL, a general framework for long-context KV cache eviction that achieves more optimal and efficient eviction in a single operation during the encoding phase. Due to NACL's efficiency, we combine more accurate attention score statistics in PROXY TOKENS EVICTION with the diversified random eviction strategy of RANDOM EVICTION, aiming to alleviate the issue of attention bias and enhance the robustness in maintaining pivotal tokens for long-context modeling tasks. Notably, our method significantly improves the performance on short- and long-text tasks by 80% and 76% respectively, reducing KV Cache by up to 50% with over 95% performance maintenance. The code is available at https://github.com/PaddlePaddle/Research/tree/master/NLP/ACL2024-NACL. | 翻訳日:2024-08-09 12:41:05 公開日:2024-08-08 |
# RL-ADN: アクティブ配電網における最適エネルギー貯蔵システム分散のための高性能深部強化学習環境
RL-ADN: A High-Performance Deep Reinforcement Learning Environment for Optimal Energy Storage Systems Dispatch in Active Distribution Networks ( http://arxiv.org/abs/2408.03685v2 ) ライセンス: Link先を確認 | Shengren Hou, Shuyi Gao, Weijie Xia, Edgar Mauricio Salazar Duque, Peter Palensky, Pedro P. Vergara, | (参考訳) Deep Reinforcement Learning (DRL) は、分散ネットワークにおけるエネルギー貯蔵システム(ESS)のディスパッチを最適化するための有望な道を示す。
本稿では,アクティブな分散ネットワークにおける最適なESSのディスパッチを解決するために設計された,革新的なオープンソースライブラリであるRL-ADNを紹介する。
RL-ADNは、分散ネットワークのモデリングにおける非並列的な柔軟性と、幅広い研究目標を収容するESSを提供する。
RL-ADNの特長は、データ拡張モジュールで、Gaussian Mixture ModelとCopula(GMC)関数に基づいており、DRLエージェントのパフォーマンス天井を高める。
さらに、RL-ADNはローラン電力フローソルバを内蔵し、精度を犠牲にすることなくトレーニング中の電力フロー計算の計算負担を大幅に削減する。
RL-ADNの有効性は分散ネットワークの異なるサイズで示され、ESSディスパッチタスクに対するDRLアルゴリズムの適応性において顕著な性能向上を示す。
この強化は、トレーニングシナリオの多様化によって特に有益である。
さらに、RL-ADNはトレーニング中の計算効率を10倍に向上させ、大規模ネットワークアプリケーションに非常に適している。
このライブラリは、分散ネットワークにおけるDRLベースのESSsディスパッチにおいて、新しいベンチマークを設定し、分散ネットワークオペレーションにおけるDRLアプリケーションの進歩を著しく推し進める。
RL-ADNは、https://github.com/ShengrenHou/RL-ADNとhttps://github.com/distributionnetworksTUDelft/RL-ADNで利用可能である。
Deep Reinforcement Learning (DRL) presents a promising avenue for optimizing Energy Storage Systems (ESSs) dispatch in distribution networks. This paper introduces RL-ADN, an innovative open-source library specifically designed for solving the optimal ESSs dispatch in active distribution networks. RL-ADN offers unparalleled flexibility in modeling distribution networks, and ESSs, accommodating a wide range of research goals. A standout feature of RL-ADN is its data augmentation module, based on Gaussian Mixture Model and Copula (GMC) functions, which elevates the performance ceiling of DRL agents. Additionally, RL-ADN incorporates the Laurent power flow solver, significantly reducing the computational burden of power flow calculations during training without sacrificing accuracy. The effectiveness of RL-ADN is demonstrated using in different sizes of distribution networks, showing marked performance improvements in the adaptability of DRL algorithms for ESS dispatch tasks. This enhancement is particularly beneficial from the increased diversity of training scenarios. Furthermore, RL-ADN achieves a tenfold increase in computational efficiency during training, making it highly suitable for large-scale network applications. The library sets a new benchmark in DRL-based ESSs dispatch in distribution networks and it is poised to advance DRL applications in distribution network operations significantly. RL-ADN is available at: https://github.com/ShengrenHou/RL-ADN and https://github.com/distributionnetworksTUDelft/RL-ADN. | 翻訳日:2024-08-09 12:41:05 公開日:2024-08-08 |