このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240817となっている論文です。

PDF登録状況(公開日: 20240817)

TitleAuthorsAbstract論文公表日・翻訳日
# Coherent Depth-of-Fieldを超える3Dホログラフィー

Pupil-Adaptive 3D Holography Beyond Coherent Depth-of-Field ( http://arxiv.org/abs/2409.00028v1 )

ライセンス: Link先を確認
Yujie Wang, Baoquan Chen, Praneeth Chakravarthula, (参考訳) 近年,ディープラーニングによるホログラム表示手法は,高忠実度ホログラム投影の実現に顕著な成功を収めている。 しかし、これらのディスプレイはまだ現実的な焦点の手がかりを示せず、コヒーレントな光ベースのホログラフィックディスプレイで可能なデフォーカス効果と、現実世界の非コヒーレントな光で示されるデフォーカス効果との間には大きなギャップが残っている。 また,眼球径の変化が3次元投影の知覚的品質,特に眼の深度の変化によるデフォーカスのぼけに及ぼす影響も検討されていない。 そこで本研究では,ホログラフィックディスプレイのコヒーレント深度と,非コヒーレント光による現実世界の視界とのギャップを埋める枠組みを提案する。 そこで本研究では,瞳孔の形状や動きの変化がホログラム投影の質に及ぼす影響について検討し,ホログラム投影の深度を瞳孔適応的に動的に変化させる方法を提案する。 具体的には、観測者の瞳孔の現在の状態に基づいて、現在のコンピュータ生成ホログラフィーでは不可能な画像効果を生成する学習フレームワークを提案する。 提案手法をシミュレーションおよび試作ホログラフィックディスプレイで検証し,フィールド効果の深度描写において,ピーク信号-雑音比において,少なくとも5dBで定性的かつ定量的に既存手法よりも優れた性能を示した。

Recent holographic display approaches propelled by deep learning have shown remarkable success in enabling high-fidelity holographic projections. However, these displays have still not been able to demonstrate realistic focus cues, and a major gap still remains between the defocus effects possible with a coherent light-based holographic display and those exhibited by incoherent light in the real world. Moreover, existing methods have not considered the effects of the observer's eye pupil size variations on the perceived quality of 3D projections, especially on the defocus blur due to varying depth-of-field of the eye. In this work, we propose a framework that bridges the gap between the coherent depth-of-field of holographic displays and what is seen in the real world due to incoherent light. To this end, we investigate the effect of varying shape and motion of the eye pupil on the quality of holographic projections, and devise a method that changes the depth-of-the-field of holographic projections dynamically in a pupil-adaptive manner. Specifically, we introduce a learning framework that adjusts the receptive fields on-the-go based on the current state of the observer's eye pupil to produce image effects that otherwise are not possible in current computer-generated holography approaches. We validate the proposed method both in simulations and on an experimental prototype holographic display, and demonstrate significant improvements in the depiction of depth-of-field effects, outperforming existing approaches both qualitatively and quantitatively by at least 5 dB in peak signal-to-noise ratio.
翻訳日:2024-09-08 15:40:57 公開日:2024-08-17
# アタック・アタック:Blind DNNsとUniversal background Adversarial Attack

Attack Anything: Blind DNNs via Universal Background Adversarial Attack ( http://arxiv.org/abs/2409.00029v1 )

ライセンス: Link先を確認
Jiawei Lian, Shaohui Mei, Xiaofei Wang, Yi Wang, Lefan Wang, Yingjie Lu, Mingyang Ma, Lap-Pui Chau, (参考訳) ディープニューラルネットワーク(DNN)は、敵の摂動に感受性があり、弱いことが広く実証されている。 既存の研究は主に、標的物(物理的攻撃)や画像(デジタル攻撃)を破損させることによる攻撃の実行に焦点を当てており、攻撃の有効性という点では直感的に受け入れられ、理解可能である。 対照的に、我々の焦点はデジタルドメインと物理ドメインの両方でバックグラウンドの敵攻撃を行うことであり、ターゲットオブジェクト自体に障害を生じさせることはない。 具体的には,攻撃効果を多種多様な対象,モデル,タスク間でよく一般化する,効果的なバックグラウンド敵攻撃フレームワークを提案する。 技術的には、DNN学習のプロセスに類似した反復最適化問題として、背景対立攻撃にアプローチする。 さらに、穏やかだが十分な条件の集合の下で、その収束の理論的実証を提供する。 本研究では, 対角的摂動に適した新たなアンサンブル戦略を提案し, 統合摂動のシームレス接続のためのスムーズな制約を改良した。 我々は,様々な対象,モデル,タスクにまたがるデジタルドメインと物理ドメインの両方において,包括的かつ厳密な実験を行い,提案手法のあらゆる攻撃の有効性を実証した。 本研究は,DNNのロバスト性や信頼性を再評価する上で,従来の認識よりもはるかに重要な役割を担っている背景変動に対する人間と機械の視界の重大な相違を裏付けるものである。 コードはhttps://github.com/JiaweiLian/Attack_Anythingで公開される。

It has been widely substantiated that deep neural networks (DNNs) are susceptible and vulnerable to adversarial perturbations. Existing studies mainly focus on performing attacks by corrupting targeted objects (physical attack) or images (digital attack), which is intuitively acceptable and understandable in terms of the attack's effectiveness. In contrast, our focus lies in conducting background adversarial attacks in both digital and physical domains, without causing any disruptions to the targeted objects themselves. Specifically, an effective background adversarial attack framework is proposed to attack anything, by which the attack efficacy generalizes well between diverse objects, models, and tasks. Technically, we approach the background adversarial attack as an iterative optimization problem, analogous to the process of DNN learning. Besides, we offer a theoretical demonstration of its convergence under a set of mild but sufficient conditions. To strengthen the attack efficacy and transferability, we propose a new ensemble strategy tailored for adversarial perturbations and introduce an improved smooth constraint for the seamless connection of integrated perturbations. We conduct comprehensive and rigorous experiments in both digital and physical domains across various objects, models, and tasks, demonstrating the effectiveness of attacking anything of the proposed method. The findings of this research substantiate the significant discrepancy between human and machine vision on the value of background variations, which play a far more critical role than previously recognized, necessitating a reevaluation of the robustness and reliability of DNNs. The code will be publicly available at https://github.com/JiaweiLian/Attack_Anything
翻訳日:2024-09-08 15:40:57 公開日:2024-08-17
# TimeSense:RTTによるマルチパーソンデバイスフリー屋内ローカライゼーション

TimeSense: Multi-Person Device-free Indoor Localization via RTT ( http://arxiv.org/abs/2409.00030v1 )

ライセンス: Link先を確認
Mohamed Mohsen, Hamada Rizk, Hirozumi Yamaguch, Moustafa Youssef, (参考訳) 特別なデバイスを備えた必要なく、環境を移動する人々を配置することは、セキュリティ、IoT、ヘルスケアなど、多くのアプリケーションにとって不可欠である。 既存のデバイスレス屋内ローカライゼーションシステムは、受信信号強度指標(RSSI)とWiFiチャネル状態情報(CSI)技術を利用するのが一般的である。 しかし、RSSIの精度は、マルチパス干渉やフェードといった環境要因に悪影響を及ぼす。 さらに、CSIにおける標準化の欠如は、特別なハードウェアとソフトウェアの使用を必要とする。 本稿では,これらの課題に対処する,深層学習に基づく多人数デバイスレス屋内ローカライズシステムTimeSenseを提案する。 TimeSenseはIEEE 802.11-2016標準の微細な測定プロトコルによって取得されたTime of Flight情報を活用する。 具体的には, 送信機と受信機との往復時間の測定は, 人的存在によって引き起こされる環境の動的変化に影響される。 TimeSenseは、スタック化されたデノナイジングオートエンコーダモデルを用いて、この異常な振る舞いを効果的に検出し、ユーザの位置を推定する。 このシステムは、ディープラーニングモデルの上に確率論的アプローチを導入し、ユーザのシームレスな追跡を保証する。 2つの現実的な環境におけるTimeSeneの評価は、その有効性を示し、中央値のローカライゼーション精度は1.57mと2.65mである。 これは2つのテストベッドで、最先端のテクニックのパフォーマンスを49%、そして103%上回る。

Locating the persons moving through an environment without the necessity of them being equipped with special devices has become vital for many applications including security, IoT, healthcare, etc. Existing device-free indoor localization systems commonly rely on the utilization of Received Signal Strength Indicator (RSSI) and WiFi Channel State Information (CSI) techniques. However, the accuracy of RSSI is adversely affected by environmental factors like multi-path interference and fading. Additionally, the lack of standardization in CSI necessitates the use of specialized hardware and software. In this paper, we present TimeSense, a deep learning-based multi-person device-free indoor localization system that addresses these challenges. TimeSense leverages Time of Flight information acquired by the fine-time measurement protocol of IEEE 802.11-2016 standard. Specifically, the measured round trip time between the transmitter and receiver is influenced by the dynamic changes in the environment induced by human presence. TimeSense effectively detects this anomalous behavior using a stacked denoising auto-encoder model, thereby estimating the user's location. The system incorporates a probabilistic approach on top of the deep learning model to ensure seamless tracking of the users. The evaluation of TimeSene in two realistic environments demonstrates its efficacy, achieving a median localization accuracy of 1.57 and 2.65 meters. This surpasses the performance of state-of-the-art techniques by 49% and 103% in the two testbeds.
翻訳日:2024-09-08 15:40:57 公開日:2024-08-17
# 大規模モデル時代の品質評価:調査

Quality Assessment in the Era of Large Models: A Survey ( http://arxiv.org/abs/2409.00031v1 )

ライセンス: Link先を確認
Zicheng Zhang, Yingjie Zhou, Chunyi Li, Baixuan Zhao, Xiaohong Liu, Guangtao Zhai, (参考訳) マルチメディア体験の視覚的品質レベルを評価する品質アセスメントは、研究者から大きな注目を集め、献身的な努力を通じて大きく発展してきた。 大規模なモデルが登場する前は、品質評価は通常、特定のタスクに適した小さなエキスパートモデルに依存していました。 これらの小さなモデルは、指定されたタスクを処理し、品質レベルを予測するのに効果的だが、説明可能性や堅牢性に欠けることが多い。 人間の認知と知覚のプロセスとより密に連携する大規模モデルの進歩により、多くの研究者は、これらの大規模モデルに埋め込まれた以前の知識を品質評価タスクに活用している。 大規模モデルのコンテキストにおける品質評価の出現は、2つの重要な側面に焦点を当てた包括的なレビューを提供する動機となります。 1)大型模型の評価、及び 2)評価作業における大規模モデルの役割 まず,品質評価の歴史的発展を振り返ってみる。 その後、大型モデルの時代における品質評価に関する関連研究の詳細な議論に移行した。 最後に、我々は、この新時代の品質評価の今後の進展と潜在的な経路についての洞察を提供する。 この調査は、大規模モデルの時代における品質評価の進展を迅速に把握し、この分野のさらなる進歩を促すことを願っている。

Quality assessment, which evaluates the visual quality level of multimedia experiences, has garnered significant attention from researchers and has evolved substantially through dedicated efforts. Before the advent of large models, quality assessment typically relied on small expert models tailored for specific tasks. While these smaller models are effective at handling their designated tasks and predicting quality levels, they often lack explainability and robustness. With the advancement of large models, which align more closely with human cognitive and perceptual processes, many researchers are now leveraging the prior knowledge embedded in these large models for quality assessment tasks. This emergence of quality assessment within the context of large models motivates us to provide a comprehensive review focusing on two key aspects: 1) the assessment of large models, and 2) the role of large models in assessment tasks. We begin by reflecting on the historical development of quality assessment. Subsequently, we move to detailed discussions of related works concerning quality assessment in the era of large models. Finally, we offer insights into the future progression and potential pathways for quality assessment in this new era. We hope this survey will enable a rapid understanding of the development of quality assessment in the era of large models and inspire further advancements in the field.
翻訳日:2024-09-08 15:40:57 公開日:2024-08-17
# ADformer:脳波に基づくアルツハイマー病評価のための多粒度トランスフォーマー

ADformer: A Multi-Granularity Transformer for EEG-Based Alzheimer's Disease Assessment ( http://arxiv.org/abs/2409.00032v1 )

ライセンス: Link先を確認
Yihe Wang, Nadia Mammone, Darina Petrovsky, Alexandros T. Tzallas, Francesco C. Morabito, Xiang Zhang, (参考訳) 脳波(EEG)は、アルツハイマー病(AD)の評価において神経科医を支援するための費用効率が高く効率的な方法として登場した。 既存のアプローチは主に手工芸品や畳み込みニューラルネットワーク(CNN)ベースの手法を利用している。 しかし、様々な時系列分析タスクにおいて有望な結果を示したトランスフォーマーアーキテクチャの可能性は、ADアセスメントのためのEEGの解釈において未解明のままである。 さらに、ほとんどの研究は対象に依存しない設定で評価されるが、しばしば対象に依存しない設定の重要性を見落としている。 これらのギャップに対処するために,時間的・空間的特徴を捉え,効果的な脳波表現を学習するために設計された新しい多粒度トランスフォーマであるADformerを提案する。 両次元に埋め込まれた多粒度データを用いて,各粒度内の局所的特徴と粒度間のグローバルな特徴を学習する。 被験者依存,主観非依存,離脱対象外を含む5つのデータセットを対象に,合計525人の被験者を対象に実験を行った。 その結果,ADformer は既存手法よりも優れており,F1 スコアが75.19%,93.58%,65 名,126 名の2大データセットが93.58%であった。

Electroencephalogram (EEG) has emerged as a cost-effective and efficient method for supporting neurologists in assessing Alzheimer's disease (AD). Existing approaches predominantly utilize handcrafted features or Convolutional Neural Network (CNN)-based methods. However, the potential of the transformer architecture, which has shown promising results in various time series analysis tasks, remains underexplored in interpreting EEG for AD assessment. Furthermore, most studies are evaluated on the subject-dependent setup but often overlook the significance of the subject-independent setup. To address these gaps, we present ADformer, a novel multi-granularity transformer designed to capture temporal and spatial features to learn effective EEG representations. We employ multi-granularity data embedding across both dimensions and utilize self-attention to learn local features within each granularity and global features among different granularities. We conduct experiments across 5 datasets with a total of 525 subjects in setups including subject-dependent, subject-independent, and leave-subjects-out. Our results show that ADformer outperforms existing methods in most evaluations, achieving F1 scores of 75.19% and 93.58% on two large datasets with 65 subjects and 126 subjects, respectively, in distinguishing AD and healthy control (HC) subjects under the challenging subject-independent setup.
翻訳日:2024-09-08 15:40:57 公開日:2024-08-17
# スパースサブアレイによる位置推定の方向

Direction of Arrival Estimation with Sparse Subarrays ( http://arxiv.org/abs/2409.00033v1 )

ライセンス: Link先を確認
W. Leite, R. C. de Lamare, Y. Zakharov, W. Liu, M. Haardt, (参考訳) 本稿では,部分キャリブレーションされたスパース線形サブアレイの設計手法と,方向推定(DOA)を行うアルゴリズムを提案する。 まず、タイプIとタイプIIの2つの異なる配列カテゴリを含む配列アーキテクチャを導入する。 前者は既知のスパース線型幾何を必要なだけ多くのピースに分解し、後者は事前に計画されたスパース線型幾何に適合するように各サブアレイを使用する。 さらに、コアレー領域内の部分校正配列シナリオに適した2つのDOA推定アルゴリズムを考案した。 アルゴリズムは、利用可能な物理センサーの数よりも多くのソースを推定できると同時に、ハードウェアと計算の複雑さを実時間実装の限界内で維持することができる。 この目的のために、GCAルート-MUSICアルゴリズムで提案されるように、ノイズ部分空間に関連する洗練されたプロジェクション行列の推定と合わせて、一般化されたコアレー多重信号分類(GCA-MUSIC)を考案することにより、アフィン空間へのプロジェクションの交叉を利用する。 提案手法の優れた性能を示すために,設計したサブアレイ構成の自由度および利用データモデルに対するCram\`er-Raolow界の計算について解析を行った。 シミュレーションは既存の手法に対して提案した設計手法とアルゴリズムの性能を評価する。

This paper proposes design techniques for partially-calibrated sparse linear subarrays and algorithms to perform direction-of-arrival (DOA) estimation. First, we introduce array architectures that incorporate two distinct array categories, namely type-I and type-II arrays. The former breaks down a known sparse linear geometry into as many pieces as we need, and the latter employs each subarray such as it fits a preplanned sparse linear geometry. Moreover, we devise two Direction of Arrival (DOA) estimation algorithms that are suitable for partially-calibrated array scenarios within the coarray domain. The algorithms are capable of estimating a greater number of sources than the number of available physical sensors, while maintaining the hardware and computational complexity within practical limits for real-time implementation. To this end, we exploit the intersection of projections onto affine spaces by devising the Generalized Coarray Multiple Signal Classification (GCA-MUSIC) in conjunction with the estimation of a refined projection matrix related to the noise subspace, as proposed in the GCA root-MUSIC algorithm. An analysis is performed for the devised subarray configurations in terms of degrees of freedom, as well as the computation of the Cram\`er-Rao Lower Bound for the utilized data model, in order to demonstrate the good performance of the proposed methods. Simulations assess the performance of the proposed design methods and algorithms against existing approaches.
翻訳日:2024-09-08 15:40:57 公開日:2024-08-17
# 機械学習の可能性:次世代生体分子シミュレーションへの道のり

Machine Learning Potentials: A Roadmap Toward Next-Generation Biomolecular Simulations ( http://arxiv.org/abs/2408.12625v1 )

ライセンス: Link先を確認
Gianni De Fabritiis, (参考訳) 機械学習のポテンシャルは、量子化学から粗い粒度のモデルまで、スケールにわたる分子シミュレーションのための革命的で統一的なフレームワークを提供する。 本稿では, 複雑な分子系のシミュレーションにおいて, 精度とスケーラビリティを劇的に向上させる可能性について検討する。 化学生物学および関連分野におけるその変革の可能性を完全に実現するために対処しなければならない重要な課題について論じる。

Machine learning potentials offer a revolutionary, unifying framework for molecular simulations across scales, from quantum chemistry to coarse-grained models. Here, I explore their potential to dramatically improve accuracy and scalability in simulating complex molecular systems. I discuss key challenges that must be addressed to fully realize their transformative potential in chemical biology and related fields.
翻訳日:2024-09-01 17:02:13 公開日:2024-08-17
# 因果グラフを用いた公平なストリーミング特徴選択

Fairness-Aware Streaming Feature Selection with Causal Graphs ( http://arxiv.org/abs/2408.12665v1 )

ライセンス: Link先を確認
Leizhen Zhang, Lusi Li, Di Wu, Sheng Chen, Yi He, (参考訳) その欠点は、選択された特徴部分集合上の結果モデルの正確性と公平性の間のトレードオフの最適化にある。 私たちの設定の技術的な課題は2つあります。 1)報知的特徴が先行する他の類似特徴によってその情報がカバーされた場合、予測のために陳腐化したり冗長になったりするようなストリーミング特徴入力 2)非連想的特徴相関は,非保護的と思われる特徴からバイアスが漏れる可能性がある。 そこで本稿では,予測ラベルと保護特徴に自覚的な2つの因果グラフを構築し,ストリーミング特徴,ラベル,保護情報間の複雑な相関構造をモデル化することを目的とした,因果フェアネス付きストリーミング特徴選択(SFCF)を提案する。 そのため、ラベルに依存しない保護された特徴と因果関係にある特徴を除去することにより、予測モデルからバイアスを除去することができる。 学習精度が多数の削除された特徴(非保護だがバイアス情報の再構成に使用できる)によって損なわれる場合、予測のための元の冗長な特徴が後に許容可能であることを理論化する。 ストリーミング機能研究で広く使われている5つのデータセットに対してSFCF\をベンチマークし、その結果、特徴選択の効率性や空間性、結果の予測モデルに等しい確率で、6つの競合モデルよりも性能上の優位性を実証した。

Its crux lies in the optimization of a tradeoff between accuracy and fairness of resultant models on the selected feature subset. The technical challenge of our setting is twofold: 1) streaming feature inputs, such that an informative feature may become obsolete or redundant for prediction if its information has been covered by other similar features that arrived prior to it, and 2) non-associational feature correlation, such that bias may be leaked from those seemingly admissible, non-protected features. To overcome this, we propose Streaming Feature Selection with Causal Fairness (SFCF) that builds two causal graphs egocentric to prediction label and protected feature, respectively, striving to model the complex correlation structure among streaming features, labels, and protected information. As such, bias can be eradicated from predictive modeling by removing those features being causally correlated with the protected feature yet independent to the labels. We theorize that the originally redundant features for prediction can later become admissible, when the learning accuracy is compromised by the large number of removed features (non-protected but can be used to reconstruct bias information). We benchmark SFCF\ on five datasets widely used in streaming feature research, and the results substantiate its performance superiority over six rival models in terms of efficiency and sparsity of feature selection and equalized odds of the resultant predictive models.
翻訳日:2024-09-01 17:02:13 公開日:2024-08-17
# 大規模言語モデルを用いた教員のリフレクションの感性分析

Sentiment analysis of preservice teachers' reflections using a large language model ( http://arxiv.org/abs/2408.11862v1 )

ライセンス: Link先を確認
Yunsoo Park, Younkyung Hong, (参考訳) GPT-4, Gemini, BERTの感情分析により, 教員の反射の感情とトーンを分析した。 それぞれのツールが個々のリフレクションをどのように分類し、複数のリフレクション全体を記述しているかを理解するために、結果を比較した。 本研究の目的は,教師教育におけるリフレクティブ・プラクティスの質的,定量的,計算的分析のギャップを埋める方法を探ることである。 本研究は,LLM分析を教員教育に効果的に統合するためには,教員と教員教育者の両方にとって包括的かつ関連性の高い分析方法と結果形式を開発することが重要であることを明らかにする。

In this study, the emotion and tone of preservice teachers' reflections were analyzed using sentiment analysis with LLMs: GPT-4, Gemini, and BERT. We compared the results to understand how each tool categorizes and describes individual reflections and multiple reflections as a whole. This study aims to explore ways to bridge the gaps between qualitative, quantitative, and computational analyses of reflective practices in teacher education. This study finds that to effectively integrate LLM analysis into teacher education, developing an analysis method and result format that are both comprehensive and relevant for preservice teachers and teacher educators is crucial.
翻訳日:2024-08-23 18:26:17 公開日:2024-08-17
# LLMにおけるアンラベリングテキスト生成:確率微分方程式のアプローチ

Unraveling Text Generation in LLMs: A Stochastic Differential Equation Approach ( http://arxiv.org/abs/2408.11863v1 )

ライセンス: Link先を確認
Yukun Zhang, (参考訳) 本稿では,GPT-4 のような大規模言語モデル (LLM) のテキスト生成過程を解釈するための確率微分方程式 (SDE) の適用について検討する。 LLMにおけるテキスト生成は、各ステップが以前に生成されたコンテンツとモデルパラメータに依存し、語彙分布から次の単語をサンプリングする確率的プロセスとしてモデル化される。 我々は、SDEを用いて、決定論的傾向と確率的摂動の両方を捉えることによって、この生成過程を表現する。 ドリフト項は生成過程における決定論的傾向を記述し、拡散項は確率的変動をキャプチャする。 ニューラルネットワークを用いてこれらの関数を適合させ、実世界のテキストコーパス上でモデルを検証する。 ドリフト・拡散解析,確率過程特性評価,位相空間探索などの数値シミュレーションおよび包括的解析により,テキスト生成のダイナミクスに関する深い知見を提供する。 このアプローチは、LLMの内部動作の理解を深めるだけでなく、生成したテキストの診断、最適化、制御に不可欠である言語生成に関する新しい数学的視点を提供する。

This paper explores the application of Stochastic Differential Equations (SDE) to interpret the text generation process of Large Language Models (LLMs) such as GPT-4. Text generation in LLMs is modeled as a stochastic process where each step depends on previously generated content and model parameters, sampling the next word from a vocabulary distribution. We represent this generation process using SDE to capture both deterministic trends and stochastic perturbations. The drift term describes the deterministic trends in the generation process, while the diffusion term captures the stochastic variations. We fit these functions using neural networks and validate the model on real-world text corpora. Through numerical simulations and comprehensive analyses, including drift and diffusion analysis, stochastic process property evaluation, and phase space exploration, we provide deep insights into the dynamics of text generation. This approach not only enhances the understanding of the inner workings of LLMs but also offers a novel mathematical perspective on language generation, which is crucial for diagnosing, optimizing, and controlling the quality of generated text.
翻訳日:2024-08-23 18:26:17 公開日:2024-08-17
# LLMはプロンプトにどんな影響を及ぼすか?

How Susceptible are LLMs to Influence in Prompts? ( http://arxiv.org/abs/2408.11865v1 )

ライセンス: Link先を確認
Sotiris Anagnostidis, Jannis Bulian, (参考訳) 大規模言語モデル(LLM)は、追加のコンテキストを含むプロンプトに非常に敏感である。 LLMの能力が向上するにつれて、信頼性と堅牢性を確保するために、特にこれらのモデルを評価することが困難になるため、その迅速な感度を理解することがますます重要になる。 本研究では、現在のモデル(Llama、Mixtral、Falcon)が、他のモデルから追加入力を提示する際にどのように反応するかを調査し、より有能なモデル、またはより外部情報にアクセス可能なシステムがターゲットモデルに補助情報を提供するシナリオを模倣する。 多様な質問応答タスクにおいて,複数の質問に対するLLMの応答が,他のモデルからの予測と説明を含む場合,どのように変化するかを検討する。 具体的には,説明の存在,情報源の信頼度,補足入力の信頼度の影響について検討する。 本研究は, モデルが強い影響を受けており, 説明が提供されると, 説明の質に関わらず, ゆがみが生じることを示した。 入力が権威的あるいは自信的であると示される場合、モデルは揺らぐ傾向にあるが、その効果は小さい。 本研究は, LLMの顕著な迅速性を強調し, 徹底的な精査とさらなる検証を行なわずに外部からの出力を取り入れることの潜在的なリスクを強調した。 LLMが進歩を続けるにつれて、信頼性と信頼性の高いデプロイメントにおいて、そのような感受性の理解と緩和が不可欠になります。

Large Language Models (LLMs) are highly sensitive to prompts, including additional context provided therein. As LLMs grow in capability, understanding their prompt-sensitivity becomes increasingly crucial for ensuring reliable and robust performance, particularly since evaluating these models becomes more challenging. In this work, we investigate how current models (Llama, Mixtral, Falcon) respond when presented with additional input from another model, mimicking a scenario where a more capable model -- or a system with access to more external information -- provides supplementary information to the target model. Across a diverse spectrum of question-answering tasks, we study how an LLM's response to multiple-choice questions changes when the prompt includes a prediction and explanation from another model. Specifically, we explore the influence of the presence of an explanation, the stated authoritativeness of the source, and the stated confidence of the supplementary input. Our findings reveal that models are strongly influenced, and when explanations are provided they are swayed irrespective of the quality of the explanation. The models are more likely to be swayed if the input is presented as being authoritative or confident, but the effect is small in size. This study underscores the significant prompt-sensitivity of LLMs and highlights the potential risks of incorporating outputs from external sources without thorough scrutiny and further validation. As LLMs continue to advance, understanding and mitigating such sensitivities will be crucial for their reliable and trustworthy deployment.
翻訳日:2024-08-23 18:26:17 公開日:2024-08-17
# スパイクニューラルネットワークを用いた産業シナリオの終端軸受異常診断に向けて

Toward End-to-End Bearing Fault Diagnosis for Industrial Scenarios with Spiking Neural Networks ( http://arxiv.org/abs/2408.11067v1 )

ライセンス: Link先を確認
Yongqi Ding, Lin Zuo, Mengmeng Jing, Kunshan Yang, Biao Chen, Yunqian Yu, (参考訳) スパイキングニューラルネットワーク(SNN)は、低消費電力のバイナリスパイクを介して情報を伝達し、コンピュータビジョンや強化学習などの分野で広く注目を集めている。 しかし、より実用的な産業シナリオにおけるSNNの探索はほとんど行われていない。 本稿では,高性能AIアルゴリズムと実世界の産業の統合を促進するために,障害診断へのSNNの適用に焦点をあてる。 特に,既存のSNN故障診断手法の2つの重要な限界を同定する。不適切な符号化能力が不適切なデータ前処理を必要とすることと,SNNの性能を制約する非スパイク指向アーキテクチャである。 これらの問題を緩和するために,SNN手法の効率,性能,堅牢性を同時に改善するマルチスケール残留注意SNN(MRA-SNN)を提案する。 軽量なアテンション機構を組み込んだマルチスケールアテンション符号化モジュールを設計し、振動信号からマルチスケールの障害特徴を抽出し、時空間スパイクとして符号化し、複雑な前処理の必要性を排除した。 そして、スパイク残差注意ブロックは、高次元断層特徴を抽出し、終末診断のための注目機構を用いてスパーススパイクの表現性を高める。 さらに, スパイキングニューロン内に軽微な注意機構を導入し, 生物学的樹状突起濾過効果をシミュレートすることにより, MRA-SNNの性能と堅牢性をさらに向上させる。 MFPTおよびJNUベンチマークデータセットの大規模な実験により、MRA-SNNは、精度、エネルギー消費、騒音の堅牢性において既存の手法よりも大幅に優れており、実際の産業シナリオへの展開がより容易であることが示された。

Spiking neural networks (SNNs) transmit information via low-power binary spikes and have received widespread attention in areas such as computer vision and reinforcement learning. However, there have been very few explorations of SNNs in more practical industrial scenarios. In this paper, we focus on the application of SNNs in bearing fault diagnosis to facilitate the integration of high-performance AI algorithms and real-world industries. In particular, we identify two key limitations of existing SNN fault diagnosis methods: inadequate encoding capacity that necessitates cumbersome data preprocessing, and non-spike-oriented architectures that constrain the performance of SNNs. To alleviate these problems, we propose a Multi-scale Residual Attention SNN (MRA-SNN) to simultaneously improve the efficiency, performance, and robustness of SNN methods. By incorporating a lightweight attention mechanism, we have designed a multi-scale attention encoding module to extract multiscale fault features from vibration signals and encode them as spatio-temporal spikes, eliminating the need for complicated preprocessing. Then, the spike residual attention block extracts high-dimensional fault features and enhances the expressiveness of sparse spikes with the attention mechanism for end-to-end diagnosis. In addition, the performance and robustness of MRA-SNN is further enhanced by introducing the lightweight attention mechanism within the spiking neurons to simulate the biological dendritic filtering effect. Extensive experiments on MFPT and JNU benchmark datasets demonstrate that MRA-SNN significantly outperforms existing methods in terms of accuracy, energy consumption and noise robustness, and is more feasible for deployment in real-world industrial scenarios.
翻訳日:2024-08-22 21:36:42 公開日:2024-08-17
# NVマグネトメトリーにおける磁場の迅速構築のための位相ベースアプローチ

Phase-Based Approaches for Rapid Construction of Magnetic Fields in NV Magnetometry ( http://arxiv.org/abs/2408.11069v1 )

ライセンス: Link先を確認
Prabhat Anand, Ankit Khandelwal, Achanna Anil Kumar, M Girish Chandra, Pavan K Reddy, Anuj Bathla, Dasika Shishir, Kasturi Saha, (参考訳) 第2の量子革命が進行中の量子センサーは、実験室のデモから現場への展開へと移行し、拡張され、さらに新しい機能も提供している。 信号処理と運用ソフトウェアは、この進歩の恩恵を享受するために、これらの新興センサーシステムにとって不可欠な部分になりつつある。 本稿では,光磁気共鳴(ODMR)信号から磁場を推定することに焦点を当て,広帯域窒素空洞磁力計を応用するための重要な出力である。 ODMR信号のシフトを位相推定にマッピングし、線形曲線整合と回転不変技術(ESPRIT)による信号パラメータの推定を付加ステップとして含む計算効率のよいフーリエ変換に基づくアプローチを提案する。 量子センシング文献の既存の方法は、磁場マップを決定するために異なる経路を取る。 提案手法の機能と有効性を示すため,実験データに基づく関連する結果が提供され,提案手法による計算時間を既存手法よりも大幅に短縮することを示す。

With the second quantum revolution underway, quantum-enhanced sensors are moving from laboratory demonstrations to field deployments, providing enhanced and even new capabilities. Signal processing and operational software are becoming integral parts of these emerging sensing systems to reap the benefits of this progress. This paper looks into widefield Nitrogen Vacancy Center-based magnetometry and focuses on estimating the magnetic field from the Optically Detected Magnetic Resonances (ODMR) signal, a crucial output for various applications. Mapping the shifts of ODMR signals to phase estimation, a computationally efficient Fourier Transform-based approach is proposed, which also involves linear curve fit and Estimation of Signal Parameters via Rotational Invariant Techniques (ESPRIT) as additional steps. The existing methods in the quantum sensing literature take different routes for determining magnetic field maps. To showcase the functionality and effectiveness of the suggested technique, relevant results, based on experimental data are provided, which shows a significant reduction in computational time with the proposed method over existing method.
翻訳日:2024-08-22 21:36:42 公開日:2024-08-17
# 絡み合った系における量子数とCKW不等式の関係の探索

Exploring the relation between qubit count in entangled systems and the CKW inequality ( http://arxiv.org/abs/2408.10272v1 )

ライセンス: Link先を確認
Reza Hamzehofi, (参考訳) 本研究では,2つの絡み合ったn-量子系内の絡み合いを,$\pi$-tangle,subsystemsの負の和,および1-tanglesの平方の和を用いて検討する。 一般化されたW状態のように、確率係数が量子ビット数に依存する状態においては、粒子の数が増加すると、$\pi$-tangle がゼロに近づき、CKWの不等式は等しく収束する。 そのような場合、システムの絡み合いを評価することは、二分法の否定性を和らげたり、一本の三角形の正方形を和らげることで効果的に達成できる。 逆に、GHZ状態のような量子ビット数に依存しない確率係数を持つ絡み合い状態において、$\pi$-tangle はシステムの絡み合いを研究するための適切な尺度として機能する。

In this research, we examine the entanglement within two entangled n-qubit systems using the $\pi$-tangle, the sum of the negativities of subsystems, and the sum of the squares of one-tangles. Our findings reveal that in certain states, such as the generalized W state, where probability coefficients depend on the number of qubits, an increase in the number of particles causes the $\pi$-tangle to approach zero, while the CKW inequality converges to equality. In such cases, assessing the system's entanglement can be effectively achieved by summing the negativities of bipartitions or summing the squares of one-tangles. Conversely, in entangled states with probability coefficients independent of the number of qubits, such as the GHZ state, the $\pi$-tangle serves as an appropriate measure for studying the system's entanglement.
翻訳日:2024-08-21 18:28:07 公開日:2024-08-17
# 分類タスクのための量子機械学習カーネルトレーニングのベンチマーク

Benchmarking quantum machine learning kernel training for classification tasks ( http://arxiv.org/abs/2408.10274v1 )

ライセンス: Link先を確認
Diego Alvarez-Estevez, (参考訳) 量子強化機械学習(quantum-enhanced machine learning)は、量子力学のユニークな性質を活用し、古典的な機械学習を強化することを目的とした、急速に進化する分野である。 しかし、これらの手法の実用性は、特に実世界のデータセットの文脈と現在の量子ハードウェアの限界において、未解決の問題である。 本研究は、分類タスクに焦点を当てた量子カーネル推定(QKE)と量子カーネルトレーニング(QKT)のベンチマーク研究を行う。 一連の実験を通して、2つの量子特徴写像、すなわちZZFeatureMapとCovariantFeatureMapの汎用性と一般化能力をこの文脈で分析する。 注目すべきは、これらの特徴写像は、近い将来の量子優位性の可能性の予想の下で文献で提案され、アドホックデータセットで有望な性能を示したことである。 本研究では,従来の機械学習手法,特にSVM(Support Vector Machines)とロジスティック回帰をベースライン比較として,人工的および確立された参照データセットの両方を調査した。 実験結果から、量子法は異なるデータセット間で様々な性能を示すことが明らかとなった。 アドホックなデータセットでは古典的手法よりも優れていますが、トレーニングデータに対して高い分類精度を達成しても、参照された古典的データセットを扱う際に、テストデータの見当たらないように一般化するのは難しいことがしばしばあります。 量子法の有効性を最大化するためには,特徴写像の選択とQKTによるカーネルパラメータの最適化が重要であることが示唆された。

Quantum-enhanced machine learning is a rapidly evolving field that aims to leverage the unique properties of quantum mechanics to enhance classical machine learning. However, the practical applicability of these methods remains an open question, particularly in the context of real-world datasets and the limitations of current quantum hardware. This work performs a benchmark study of Quantum Kernel Estimation (QKE) and Quantum Kernel Training (QKT) with a focus on classification tasks. Through a series of experiments, the versatility and generalization capabilities of two quantum feature mappings, namely ZZFeatureMap and CovariantFeatureMap, are analyzed in this context. Remarkably, these feature maps have been proposed in the literature under the conjecture of possible near-term quantum advantage and have shown promising performance in ad-hoc datasets. This study explores both artificial and established reference datasets and incorporates classical machine learning methods, specifically Support Vector Machines (SVMs) and logistic regression, as baseline comparisons. Experimental results indicate that quantum methods exhibit varying performance across different datasets. While they outperform classical methods in ad-hoc datasets, they frequently encounter difficulties in generalizing to unseen test data when dealing with reference classical datasets, even if achieving high classification accuracy on the training data. It is suggested that the choice of the feature mapping and the optimization of kernel parameters through QKT are critical for maximizing the effectiveness of quantum methods.
翻訳日:2024-08-21 18:28:07 公開日:2024-08-17
# FedKBP:放射線治療における知識ベース計画のためのフェデレート線量予測フレームワーク

FedKBP: Federated dose prediction framework for knowledge-based planning in radiation therapy ( http://arxiv.org/abs/2408.10275v1 )

ライセンス: Link先を確認
Jingyun Chen, Martin King, Yading Yuan, (参考訳) ドーズ予測は、患者固有の線量分布を自動的に生成することにより、知識ベース計画(KBP)において重要な役割を果たす。 深層学習に基づく線量予測手法の最近の進歩は、データコントリビュータ間の協調が必要である。 フェデレートラーニング(FL)がソリューションとして登場し、患者データのプライバシーを損なうことなく、医療センターが共同でディープラーニングモデルをトレーニングできるようになった。 We developed the FedKBP framework to evaluate the performances of central, federated, and individual (i.e.) training of dose prediction model on the 340 plans from the OpenKBP dataset。 FLと個別トレーニングをシミュレートするため,データを8つのトレーニングサイトに分割した。 モデル学習におけるサイト間データ変動の影響を評価するために,2種類のケース分布を実装した。 1)独立・同一分散(IID)では、訓練・検証事例を8箇所に均等に分けて行う。 2)IID以外のサイトでは,他のサイトよりも多くのケースがある。 その結果、FLはモデルの最適化速度とサンプル外テストスコアの両方で個別のトレーニングを一貫して上回り、個別のトレーニングよりもFLの利点を強調した。 IIDデータディビジョンの下では、FLは集中型トレーニングに匹敵するパフォーマンスを示し、従来のプールデータトレーニングの代替としてFLを推奨している。 非IID部門では、より大きなサイトがテストスコアを最大19%向上させ、より良い予測精度を達成するためにデータ所有者間のコラボレーションの必要性を確認した。 一方,非IID FLはIDD FLに比べて性能が低下し,参加サイト間のデータ変動を処理するために,単なるモデル平均を超える高度なFL法が必要となった。

Dose prediction plays a key role in knowledge-based planning (KBP) by automatically generating patient-specific dose distribution. Recent advances in deep learning-based dose prediction methods necessitates collaboration among data contributors for improved performance. Federated learning (FL) has emerged as a solution, enabling medical centers to jointly train deep-learning models without compromising patient data privacy. We developed the FedKBP framework to evaluate the performances of centralized, federated, and individual (i.e. separated) training of dose prediction model on the 340 plans from OpenKBP dataset. To simulate FL and individual training, we divided the data into 8 training sites. To evaluate the effect of inter-site data variation on model training, we implemented two types of case distributions: 1) Independent and identically distributed (IID), where the training and validating cases were evenly divided among the 8 sites, and 2) non-IID, where some sites have more cases than others. The results show FL consistently outperforms individual training on both model optimization speed and out-of-sample testing scores, highlighting the advantage of FL over individual training. Under IID data division, FL shows comparable performance to centralized training, underscoring FL as a promising alternative to traditional pooled-data training. Under non-IID division, larger sites outperformed smaller sites by up to 19% on testing scores, confirming the need of collaboration among data owners to achieve better prediction accuracy. Meanwhile, non-IID FL showed reduced performance as compared to IID FL, posing the need for more sophisticated FL method beyond mere model averaging to handle data variation among participating sites.
翻訳日:2024-08-21 18:14:26 公開日:2024-08-17
# FEDKIM:医療ファウンデーションモデルへの適応的フェデレーション知識注入

FEDKIM: Adaptive Federated Knowledge Injection into Medical Foundation Models ( http://arxiv.org/abs/2408.10276v1 )

ライセンス: Link先を確認
Xiaochen Wang, Jiaqi Wang, Houping Xiao, Jinghui Chen, Fenglong Ma, (参考訳) ファウンデーションモデルは、多種多様なモダリティやタスクを扱う際、タスクに特有でモダリティに敏感な従来の人工知能(AI)アプローチよりも優れた能力を示してきた。 しかし、医療分野では、多様なモダリティや厳格なプライバシー規制への限定的なアクセスによって、包括的基盤モデルの開発が制限されている。 これらの制約に対処するため,本研究では,フェデレートラーニングフレームワーク内で医療基盤モデルを拡張するための新しい知識注入手法であるFedKIMを導入する。 FedKIMは、軽量なローカルモデルを活用して、プライベートデータから医療知識を抽出し、設計されたマルチタスク・マルチモーダル・ミックス・オブ・エキスパート(M3OE)モジュールを使用して、この知識を集中基盤モデルに統合する。 この方法は、プライバシを保存するだけでなく、複数のモダリティを含む複雑な医療タスクを扱うモデルの能力を向上する。 7つのモードで12のタスクにまたがる広範な実験は、さまざまな環境でFedKIMの有効性を示し、機密データに直接アクセスすることなく医療基盤モデルをスケールする可能性を強調した。

Foundation models have demonstrated remarkable capabilities in handling diverse modalities and tasks, outperforming conventional artificial intelligence (AI) approaches that are highly task-specific and modality-reliant. In the medical domain, however, the development of comprehensive foundation models is constrained by limited access to diverse modalities and stringent privacy regulations. To address these constraints, this study introduces a novel knowledge injection approach, FedKIM, designed to scale the medical foundation model within a federated learning framework. FedKIM leverages lightweight local models to extract healthcare knowledge from private data and integrates this knowledge into a centralized foundation model using a designed adaptive Multitask Multimodal Mixture Of Experts (M3OE) module. This method not only preserves privacy but also enhances the model's ability to handle complex medical tasks involving multiple modalities. Our extensive experiments across twelve tasks in seven modalities demonstrate the effectiveness of FedKIM in various settings, highlighting its potential to scale medical foundation models without direct access to sensitive data.
翻訳日:2024-08-21 18:14:26 公開日:2024-08-17
# 最大エントロピー原理法による変圧器トークン長の増大

Increasing transformer token length with a Maximum Entropy Principle Method ( http://arxiv.org/abs/2408.10277v1 )

ライセンス: Link先を確認
R. I. Cukier, (参考訳) トランスフォーマーは、処理されたシーケンスの長さに対する二次的依存の計算オーバーヘッドに悩まされる。 本稿では, 変圧器の自己回帰長を延ばすトレーニングと推論/生成の中間段階を付加する3つの手法を提案する。 全ては最大エントロピー原理 (MEP) に依存しており、エントロピーはラグランジュ乗算器を用いて説明される適切な制約の存在下で最大化される。 これらの制約法は、自己回帰文字をTから2Tトークンに線形に拡張する。 この追加ステップにはオーバーヘッドがあるが、標準メソッドよりも高速である必要がある。

Transformers suffer from the computational overhead of their quadratic dependence on the length of sequences processed. We present three methods, all adding an intermediate step between training and inference/generation, which extend the autoregressive length of transformers. All rely on a Maximum Entropy Principle (MEP) whereby entropy is maximized in the presence of suitable constraints, accounted for by use of Lagrange Multipliers. These constraint methods extend the autoregressive character from T to 2T tokens in a linear-with-T fashion. There is overhead associated with this added step, but they should still be faster than the standard methods.
翻訳日:2024-08-21 18:14:26 公開日:2024-08-17
# 小型試料から大根多樹を推定する

Estimating large causal polytrees from small samples ( http://arxiv.org/abs/2209.07028v4 )

ライセンス: Link先を確認
Sourav Chatterjee, Mathukumalli Vidyasagar, (参考訳) 比較的小さなi.d.サンプルから大きな因果ポリツリーを推定する問題を考察する。 これは、遺伝子制御ネットワークのようなサンプルサイズに比べて変数の数が非常に大きい場合、因果構造を決定するという問題によって動機づけられる。 このような設定で高い精度で木を復元するアルゴリズムを提案する。 このアルゴリズムは、いくつかの軽度の非退化条件以外は、本質的に分布性やモデリングの仮定では機能しない。

We consider the problem of estimating a large causal polytree from a relatively small i.i.d. sample. This is motivated by the problem of determining causal structure when the number of variables is very large compared to the sample size, such as in gene regulatory networks. We give an algorithm that recovers the tree with high accuracy in such settings. The algorithm works under essentially no distributional or modeling assumptions other than some mild non-degeneracy conditions.
翻訳日:2024-08-21 06:43:37 公開日:2024-08-17
# RGMIM:X線画像から意味のある表現を学習するための領域誘導型マスク画像モデリング

RGMIM: Region-Guided Masked Image Modeling for Learning Meaningful Representations from X-Ray Images ( http://arxiv.org/abs/2211.00313v5 )

ライセンス: Link先を確認
Guang Li, Ren Togo, Takahiro Ogawa, Miki Haseyama, (参考訳) 本研究では,X線画像から意味のある表現を学習するための領域誘導マスク画像モデリング(RGMIM)を提案する。 提案手法では,臓器マスク情報を用いて有効な領域を同定し,より意味のある表現を学習する。 オープン肺X線画像データセットとマスキング比ハイパーパラメーターによる定量的評価を行った。 トレーニングセット全体を使用する場合、RGMIMは他の同等の方法よりも優れ、0.962肺疾患検出精度が達成された。 具体的には、RGMIMは、トレーニングセットの5%や10%など、他の方法と比較して、小さなデータボリュームのパフォーマンスを著しく改善した。 RGMIMはより有効な領域を隠蔽し、識別的表現の学習とそれに続く高精度な肺疾患の検出を容易にする。 RGMIMは、特に限られたトレーニングデータを使用する場合、実験において、最先端の自己教師付き学習方法よりも優れている。

In this study, we propose a novel method called region-guided masked image modeling (RGMIM) for learning meaningful representations from X-ray images. Our method adopts a new masking strategy that utilizes organ mask information to identify valid regions for learning more meaningful representations. We conduct quantitative evaluations on an open lung X-ray image dataset as well as masking ratio hyperparameter studies. When using the entire training set, RGMIM outperformed other comparable methods, achieving a 0.962 lung disease detection accuracy. Specifically, RGMIM significantly improved performance in small data volumes, such as 5% and 10% of the training set compared to other methods. RGMIM can mask more valid regions, facilitating the learning of discriminative representations and the subsequent high-accuracy lung disease detection. RGMIM outperforms other state-of-the-art self-supervised learning methods in experiments, particularly when limited training data is used.
翻訳日:2024-08-21 06:43:37 公開日:2024-08-17
# GCondNet: 小型高次元タブラルデータを用いたニューラルネットワークの改良手法

GCondNet: A Novel Method for Improving Neural Networks on Small High-Dimensional Tabular Data ( http://arxiv.org/abs/2211.06302v4 )

ライセンス: Link先を確認
Andrei Margeloiu, Nikola Simidjievski, Pietro Lio, Mateja Jamnik, (参考訳) ニューラルネットワークは、高次元だが小さなサンプルサイズのグラフデータセットに苦しむことが多い。 一つの理由は、現在の重み初期化法が重み間の独立性を仮定しているからであり、モデルのパラメータを正確に見積もるには不十分なサンプルがある場合、問題となる可能性がある。 このような小さなデータシナリオでは、追加構造を利用することで、モデルのパフォーマンスとトレーニングの安定性が向上します。 そこで本稿では,グラフデータに存在する暗黙構造を活用してニューラルネットワークを強化する汎用手法であるGCondNetを提案する。 我々は、各データ次元のサンプル間でグラフを作成し、グラフニューラルネットワーク(GNN)を使用して、この暗黙構造を抽出し、基礎となる予測ネットワークの第1層のパラメータを条件付ける。 多数の小さなグラフを作成することで、GCondNetはデータの高次元性を利用して、基礎となる予測ネットワークの性能を向上させる。 GCondNetが実世界の12のデータセットに対して有効であることを示す。 その結果,GCondNetは多種多様なニューラルネットワークにグラフ正規化を注入するための汎用的なフレームワークであることがわかった。 コードはhttps://github.com/andreimargeloiu/GCondNetで入手できる。

Neural networks often struggle with high-dimensional but small sample-size tabular datasets. One reason is that current weight initialisation methods assume independence between weights, which can be problematic when there are insufficient samples to estimate the model's parameters accurately. In such small data scenarios, leveraging additional structures can improve the model's performance and training stability. To address this, we propose GCondNet, a general approach to enhance neural networks by leveraging implicit structures present in tabular data. We create a graph between samples for each data dimension, and utilise Graph Neural Networks (GNNs) to extract this implicit structure, and for conditioning the parameters of the first layer of an underlying predictor network. By creating many small graphs, GCondNet exploits the data's high-dimensionality, and thus improves the performance of an underlying predictor network. We demonstrate GCondNet's effectiveness on 12 real-world datasets, where it outperforms 14 standard and state-of-the-art methods. The results show that GCondNet is a versatile framework for injecting graph-regularisation into various types of neural networks, including MLPs and tabular Transformers. Code is available at https://github.com/andreimargeloiu/GCondNet.
翻訳日:2024-08-21 06:43:37 公開日:2024-08-17
# タペストリーの展開--連続学習における一般化と予測の相互作用

Unveiling the Tapestry: the Interplay of Generalization and Forgetting in Continual Learning ( http://arxiv.org/abs/2211.11174v6 )

ライセンス: Link先を確認
Zenglin Shi, Jing Jie, Ying Sun, Joo Hwee Lim, Mengmi Zhang, (参考訳) AIでは、一般化とは、与えられたタスクに関連するアウト・オブ・ディストリビューション・データに対して、トレーニングされたデータ以外にうまく機能するモデルの能力を指す。 AIエージェントが優れているためには、継続的な学習能力も必要であり、エージェントは、古いタスクを解決するために、以前取得した知識を忘れずに、段階的にタスクのシーケンスを実行することを学習する。 直感的には、タスク内の一般化は、モデルが新しいタスクに容易に適用可能な基礎的な機能を学ぶことを可能にする。 逆に、連続的な学習手法は、しばしば破滅的な忘れを軽減し、以前のタスクからの知識を確実に保持するメカニズムを含んでいる。 このタスク上の知識の保存は、現在進行中のタスクの一般化を促進する役割を担っている。 両能力の相互作用の直感的なアピールにもかかわらず、継続学習と一般化に関する既存の文献は別々に進められている。 両分野を橋渡しする研究を促進するための予備的な取り組みとして,まず,両分野が相互に正の効果を持つことを示す実証的証拠を提示する。 次に, この発見に基づいて, 連続学習を支援する形状テクスチュア一貫性規則化(STCR)と呼ばれる, シンプルで効果的な手法を導入する。 STCRは各タスクの形状とテクスチャ表現の両方を学習し、一般化を強化し、忘れを緩和する。 注目すべきは、我々のSTCRが既存の連続学習手法とシームレスに統合可能であることであり、その性能は、これらの連続学習手法を単独で、あるいは、確立された一般化手法と大きなマージンで組み合わせた場合に、その性能が超えることである。 当社のデータとソースコードは、公開時に公開されます。

In AI, generalization refers to a model's ability to perform well on out-of-distribution data related to the given task, beyond the data it was trained on. For an AI agent to excel, it must also possess the continual learning capability, whereby an agent incrementally learns to perform a sequence of tasks without forgetting the previously acquired knowledge to solve the old tasks. Intuitively, generalization within a task allows the model to learn underlying features that can readily be applied to novel tasks, facilitating quicker learning and enhanced performance in subsequent tasks within a continual learning framework. Conversely, continual learning methods often include mechanisms to mitigate catastrophic forgetting, ensuring that knowledge from earlier tasks is retained. This preservation of knowledge over tasks plays a role in enhancing generalization for the ongoing task at hand. Despite the intuitive appeal of the interplay of both abilities, existing literature on continual learning and generalization has proceeded separately. In the preliminary effort to promote studies that bridge both fields, we first present empirical evidence showing that each of these fields has a mutually positive effect on the other. Next, building upon this finding, we introduce a simple and effective technique known as Shape-Texture Consistency Regularization (STCR), which caters to continual learning. STCR learns both shape and texture representations for each task, consequently enhancing generalization and thereby mitigating forgetting. Remarkably, extensive experiments validate that our STCR, can be seamlessly integrated with existing continual learning methods, where its performance surpasses these continual learning methods in isolation or when combined with established generalization techniques by a large margin. Our data and source code will be made publicly available upon publication.
翻訳日:2024-08-21 06:43:37 公開日:2024-08-17
# 機械は人間を遠ざけるか? 視覚と言語のための統合的チューリングテストは狭義のギャップを実証する

Can Machines Imitate Humans? Integrative Turing Tests for Vision and Language Demonstrate a Narrowing Gap ( http://arxiv.org/abs/2211.13087v2 )

ライセンス: Link先を確認
Mengmi Zhang, Giorgia Dellaferrera, Ankur Sikarwar, Caishun Chen, Marcelo Armendariz, Noga Mudrik, Prachi Agrawal, Spandan Madan, Mranmay Shetty, Andrei Barbu, Haochen Yang, Tanishq Kumar, Shui'Er Han, Aman Raj Singh, Meghna Sadwani, Stella Dellaferrera, Michele Pizzochero, Brandon Tang, Yew Soon Ong, Hanspeter Pfister, Gabriel Kreiman, (参考訳) AIアルゴリズムが日々の活動にますます参加するにつれて、私たちが対話するエージェントが人間であるかどうかを確認することが重要になる。 この問題に対処するために、チューリングテストに目を向け、現在のAIを3つの言語タスク(画像キャプション、ワードアソシエーション、会話)と3つの視覚タスク(物体検出、色推定、注意予測)で模倣する能力で体系的にベンチマークする。 実験では、549人の人間エージェントと26人のAIエージェントがデータセットの作成に使われ、1,126人の人間審査員と10人のAI審査員が、チューリング風のテストで25,650人が参加した。 その結果、現在のAIは、複雑な言語やビジョンの課題で人間を偽装できるわけではないことが判明した。 人間の裁判官はしばしば騙されたが、単純なAIの裁判官は人間の答えとAIの答えを区別することで人間の裁判官より優れていた。 模倣テストの結果は、AIの標準的なパフォーマンス指標と最小限の相関しか持たない。 したがって、機械が人間として通過できるかどうかを評価することは、AIアルゴリズムを評価するための重要な独立テストを構成する。 ここで導入されたキュレートされた大規模チューリングデータセットとその評価指標は、エージェントが人間であるかどうかを評価するための新しいベンチマークと洞察を提供し、これらおよび他のAIドメインにおける厳密で体系的で定量的な模倣テストの関連性を強調する。

As AI algorithms increasingly participate in daily activities, it becomes critical to ascertain whether the agents we interact with are human or not. To address this question, we turn to the Turing test and systematically benchmark current AIs in their abilities to imitate humans in three language tasks (Image captioning, Word association, and Conversation) and three vision tasks (Object detection, Color estimation, and Attention prediction). The experiments involved 549 human agents plus 26 AI agents for dataset creation, and 1,126 human judges plus 10 AI judges, in 25,650 Turing-like tests. The results reveal that current AIs are not far from being able to impersonate humans in complex language and vision challenges. While human judges were often deceived, simple AI judges outperformed human judges in distinguishing human answers from AI answers. The results of imitation tests are only minimally correlated with standard performance metrics in AI. Thus, evaluating whether a machine can pass as a human constitutes an important independent test to evaluate AI algorithms. The curated, large-scale, Turing datasets introduced here and their evaluation metrics provide new benchmarks and insights to assess whether an agent is human or not and emphasize the relevance of rigorous, systematic, and quantitative imitation tests in these and other AI domains.
翻訳日:2024-08-21 06:43:37 公開日:2024-08-17
# MUSTER: セマンティックセグメンテーションのためのマルチスケールトランスフォーマーベースのデコーダ

MUSTER: A Multi-scale Transformer-based Decoder for Semantic Segmentation ( http://arxiv.org/abs/2211.13928v2 )

ライセンス: Link先を確認
Jing Xu, Wentao Shi, Pan Gao, Zhengwei Wang, Qizhu Li, (参考訳) セマンティックセグメンテーションに関する最近の研究では、トランスフォーマーベースのエンコーダの設計と統合に重点が置かれている。 しかし、トランスフォーマーベースのデコーダには注意が向けられていない。 我々は,デコーダの段は,より優れたセグメンテーション性能を実現する上で,エンコーダと同等に重要であることを強調した。 ハイレベルなキューをアンタングルして洗練し、ピクセルレベルでの正確なオブジェクト境界のデライン化を可能にする。 本稿では,階層型エンコーダとシームレスに統合し,エンコーダアーキテクチャによらず常に高品質なセグメンテーション結果を提供する,MUSTERと呼ばれる新しいトランスフォーマベースのデコーダを提案する。 さらに,性能を保ちながらFLOPSを低減するMUSTERの変種を提案する。 MUSTERは、慎重に設計されたマルチヘッド・スキップ・アテンション(MSKA)を取り入れ、革新的なアップサンプリング・オペレーションを導入している。 MSKAユニットはエンコーダとデコーダからのマルチスケール機能の融合を可能にし、包括的な情報統合を容易にする。 アップサンプリング操作は、エンコーダ機能を活用してオブジェクトのローカライゼーションを強化し、従来のアップサンプリング手法を超越し、mIoU(平均ユニオン間)を0.4%から3.2%改善する。 ADE20Kデータセットでは,50.23の単一スケールmIoUと51.88のマルチスケールmIoUを実現している。 注目すべきは、FLOPの数を61.3%削減しつつ、これを実現することである。 私たちのソースコードとモデルは、https://github.com/shiwt03/MUSTER.comで公開されています。

In recent works on semantic segmentation, there has been a significant focus on designing and integrating transformer-based encoders. However, less attention has been given to transformer-based decoders. We emphasize that the decoder stage is equally vital as the encoder in achieving superior segmentation performance. It disentangles and refines high-level cues, enabling precise object boundary delineation at the pixel level. In this paper, we introduce a novel transformer-based decoder called MUSTER, which seamlessly integrates with hierarchical encoders and consistently delivers high-quality segmentation results, regardless of the encoder architecture. Furthermore, we present a variant of MUSTER that reduces FLOPS while maintaining performance. MUSTER incorporates carefully designed multi-head skip attention (MSKA) units and introduces innovative upsampling operations. The MSKA units enable the fusion of multi-scale features from the encoder and decoder, facilitating comprehensive information integration. The upsampling operation leverages encoder features to enhance object localization and surpasses traditional upsampling methods, improving mIoU (mean Intersection over Union) by 0.4% to 3.2%. On the challenging ADE20K dataset, our best model achieves a single-scale mIoU of 50.23 and a multi-scale mIoU of 51.88, which is on-par with the current state-of-the-art model. Remarkably, we achieve this while significantly reducing the number of FLOPs by 61.3%. Our source code and models are publicly available at: https://github.com/shiwt03/MUSTER.
翻訳日:2024-08-21 06:43:37 公開日:2024-08-17
# 深層学習のための変分テンソルニューラルネットワーク

Variational Tensor Neural Networks for Deep Learning ( http://arxiv.org/abs/2211.14657v3 )

ライセンス: Link先を確認
Saeed S. Jahromi, Roman Orus, (参考訳) ディープニューラルネットワーク(NN)は、多数のニューロンに直面するとスケーラビリティの制限に直面するため、達成可能なネットワーク深さが制限される。 この課題に対処するため,NNフレームワークへのテンソルネットワーク(TN)の統合と,DMRGにインスパイアされたトレーニング手法の組み合わせを提案する。 これにより、大きなパラメータ空間上で効率的にトレーニングできるスケーラブルなテンソルニューラルネットワーク(TNN)アーキテクチャが実現される。 我々の変分アルゴリズムは局所勾配差分法を用いてテンソル勾配を手動または自動で計算し、高密度層とテンソル層を組み合わせたハイブリッドTNNモデルの設計を容易にする。 さらに, トレーニングアルゴリズムは, テンソル化トレーニング可能な重みの絡み合い構造とモデルパラメータ間の相関について考察する。 我々はTNNモデルを設計し、線形および非線形回帰、データ分類、MNIST手書き桁の画像認識のためのベンチマーク結果を提供することにより、提案手法の精度と効率を検証した。

Deep neural networks (NNs) encounter scalability limitations when confronted with a vast array of neurons, thereby constraining their achievable network depth. To address this challenge, we propose an integration of tensor networks (TN) into NN frameworks, combined with a variational DMRG-inspired training technique. This in turn, results in a scalable tensor neural network (TNN) architecture capable of efficient training over a large parameter space. Our variational algorithm utilizes a local gradient-descent technique, enabling manual or automatic computation of tensor gradients, facilitating design of hybrid TNN models with combined dense and tensor layers. Our training algorithm further provides insight on the entanglement structure of the tensorized trainable weights and correlation among the model parameters. We validate the accuracy and efficiency of our method by designing TNN models and providing benchmark results for linear and non-linear regressions, data classification and image recognition on MNIST handwritten digits.
翻訳日:2024-08-21 06:43:37 公開日:2024-08-17
# 異なるスピン対系の緩和ダイナミクス

Relaxation dynamics of an unlike spin pair system ( http://arxiv.org/abs/2212.08747v3 )

ライセンス: Link先を確認
A. Consuelo-Leal, Hugo D. Fernández Sare, R. Auccaise, (参考訳) レッドフィールド・マスター方程式は、室温で異なるスピンの相互作用する対のアンサンブルのダイナミクスを研究するために応用された。 このスピン量子系は、純粋な双極子-双極子カップリングによって相互作用するヘテロ核二レベルスピン系の緩和ダイナミクスを分析するワークベンチ量子モデルである。 密度行列要素の表現と各コヒーレンス秩序の緩和速度定数を計算した。 さらに、これらの解は3つの初期量子状態を考慮して評価され、多変量進化や拡張のような理論的予測は、解が磁化時間進化のために行った以前の研究と一致した挙動である。 さらに、縦磁化のダイナミクスを予測するために計算された解は、I. Solomonの報告した不一致を避ける。

Redfield master equation was applied to study the dynamics of an ensemble of interacting pairs of unlike spins at room temperature. This spin quantum system is a workbench quantum model to analyze the relaxation dynamics of a heteronuclear two-level spin system interacting by a pure dipole-dipole coupling. Expressions for the density matrix elements and their relaxation rate constants of each coherence order were computed. In addition, the solutions were evaluated considering three initial quantum states, and the theoretical predictions, such as multi-exponential evolutions and enhancement, are behaviors that the solutions preserve and agree with previous studies performed for magnetization time evolutions. Moreover, the solutions computed to predict the dynamics of the longitudinal magnetization avoid the disagreement reported by I. Solomon.
翻訳日:2024-08-21 06:43:37 公開日:2024-08-17
# FedST: 時系列分類のためのセキュアなフェデレーションシェイプレット変換

FedST: Secure Federated Shapelet Transformation for Time Series Classification ( http://arxiv.org/abs/2302.10631v4 )

ライセンス: Link先を確認
Zhiyu Liang, Hongzhi Wang, (参考訳) 本稿では,データ共有を行なわずに複数の所有者からより多くのデータを利用する,フェデレートラーニング(FL)シナリオにおいて,シェープレットに基づく時系列分類(TSC)モデルを構築する方法について検討する。 我々は,集中型シェイプレット変換法から拡張された新しいフェデレートTSCフレームワークであるFedSTを提案する。 我々はフェデレートされたシェープレット探索ステップをFedSTのカーネルとして認識する。 したがって、我々はFedSTカーネルの基本プロトコルを設計し、安全で正確であることを証明した。 しかし,基本プロトコルは効率のボトルネックに悩まされており,セキュリティ上の問題により中央集権的加速技術は効率を損なう。 セキュリティ保証付きフェデレーションプロトコルを高速化するため,FL設定に適した最適化をいくつか提案する。 理論的解析により,提案手法はより安全で効率的であることが示唆された。 我々は、合成データセットと実世界のデータセットの両方を用いて広範な実験を行う。 実験の結果,提案手法はTSCの精度において有効であり,提案手法は3桁の高速化を実現することができることがわかった。

This paper explores how to build a shapelet-based time series classification (TSC) model in the federated learning (FL) scenario, that is, using more data from multiple owners without actually sharing the data. We propose FedST, a novel federated TSC framework extended from a centralized shapelet transformation method. We recognize the federated shapelet search step as the kernel of FedST. Thus, we design a basic protocol for the FedST kernel that we prove to be secure and accurate. However, we identify that the basic protocol suffers from efficiency bottlenecks and the centralized acceleration techniques lose their efficacy due to the security issues. To speed up the federated protocol with security guarantee, we propose several optimizations tailored for the FL setting. Our theoretical analysis shows that the proposed methods are secure and more efficient. We conduct extensive experiments using both synthetic and real-world datasets. Empirical results show that our FedST solution is effective in terms of TSC accuracy, and the proposed optimizations can achieve three orders of magnitude of speedup.
翻訳日:2024-08-21 04:48:49 公開日:2024-08-17
# UniTS: 自己監督型表現学習を活用したユニバーサル時系列分析フレームワーク

UniTS: A Universal Time Series Analysis Framework Powered by Self-Supervised Representation Learning ( http://arxiv.org/abs/2303.13804v2 )

ライセンス: Link先を確認
Zhiyu Liang, Chen Liang, Zheng Liang, Hongzhi Wang, Bo Zheng, (参考訳) 機械学習は時系列分析の強力なツールとして登場した。 既存の手法は通常、異なる分析タスクのためにカスタマイズされ、部分的なラベリングやドメインシフトといった実践的な問題に取り組む際の課題に直面します。 自己指導型表現学習(あるいは事前学習)を取り入れた新しいフレームワークであるUniTSを開発した。 UniTSのコンポーネントは、柔軟な拡張を可能にするためにsklearnのようなAPIを使って設計されている。 ユーザがユーザフレンドリなGUIを使って分析タスクを簡単に実行できることを示し、従来のタスク固有の手法よりもUniTSの方が5つのメインストリームタスクと2つの実践的な設定で自己教師付き事前学習なしで優れた性能を示す。

Machine learning has emerged as a powerful tool for time series analysis. Existing methods are usually customized for different analysis tasks and face challenges in tackling practical problems such as partial labeling and domain shift. To improve the performance and address the practical problems universally, we develop UniTS, a novel framework that incorporates self-supervised representation learning (or pre-training). The components of UniTS are designed using sklearn-like APIs to allow flexible extensions. We demonstrate how users can easily perform an analysis task using the user-friendly GUIs, and show the superior performance of UniTS over the traditional task-specific methods without self-supervised pre-training on five mainstream tasks and two practical settings.
翻訳日:2024-08-21 04:48:49 公開日:2024-08-17
# フィルタインバージョンによる部分ビューオブジェクトビュー合成

Partial-View Object View Synthesis via Filtered Inversion ( http://arxiv.org/abs/2304.00673v2 )

ライセンス: Link先を確認
Fan-Yun Sun, Jonathan Tremblay, Valts Blukis, Kevin Lin, Danfei Xu, Boris Ivanovic, Peter Karkus, Stan Birchfield, Dieter Fox, Ruohan Zhang, Yunzhu Li, Jiajun Wu, Marco Pavone, Nick Haber, (参考訳) 本稿では,1つないし少数の部分ビューからレンダリング可能な3Dオブジェクト表現を予測する学習フレームワークFINVを提案する。 FINVは、部分的な観察からオブジェクトの新たなビューを合成するという課題に対処する。 これを実現するために、FINVは3D生成モデルをトレーニングすることで、形状の先行を学習する。 推測において、新しい現実世界のオブジェクトの1つ以上のビューが与えられたとき、FINVはまず、生成モデルを複数の初期シードから反転させることで、オブジェクトの潜在コードを見つける。 潜伏符号の集合を維持するために、FINVは粒子フィルタリングに似た新しい観測を受け取った後にそれらをフィルターして再サンプリングする。 ジェネレータは、新しいオブジェクトに適応するために、利用可能なビュー上の各潜在コードに対して微調整される。 FINVは, 合成対象にのみ訓練された場合でも, 現実の物体(例えば, 椅子, テーブル, 車)の新規な視点の合成に成功した。 sim-to-real問題に対処する能力により、FINVは現実世界のデータセットなしでオブジェクトカテゴリに使用できる。 FINVは、複数の実世界のデータセット上で最先端のパフォーマンスを達成し、部分的およびスパースなビューからオブジェクトの形状とテクスチャを回復し、閉塞に対して堅牢であり、より多くの観測でその表現を漸進的に改善することができる。

We propose Filtering Inversion (FINV), a learning framework and optimization process that predicts a renderable 3D object representation from one or few partial views. FINV addresses the challenge of synthesizing novel views of objects from partial observations, spanning cases where the object is not entirely in view, is partially occluded, or is only observed from similar views. To achieve this, FINV learns shape priors by training a 3D generative model. At inference, given one or more views of a novel real-world object, FINV first finds a set of latent codes for the object by inverting the generative model from multiple initial seeds. Maintaining the set of latent codes, FINV filters and resamples them after receiving each new observation, akin to particle filtering. The generator is then finetuned for each latent code on the available views in order to adapt to novel objects. We show that FINV successfully synthesizes novel views of real-world objects (e.g., chairs, tables, and cars), even if the generative prior is trained only on synthetic objects. The ability to address the sim-to-real problem allows FINV to be used for object categories without real-world datasets. FINV achieves state-of-the-art performance on multiple real-world datasets, recovers object shape and texture from partial and sparse views, is robust to occlusion, and is able to incrementally improve its representation with more observations.
翻訳日:2024-08-21 04:48:49 公開日:2024-08-17
# 大規模言語モデルにおける辞書プロンプト翻訳の連鎖

Chain-of-Dictionary Prompting Elicits Translation in Large Language Models ( http://arxiv.org/abs/2305.06575v6 )

ライセンス: Link先を確認
Hongyuan Lu, Haoran Yang, Haoyang Huang, Dongdong Zhang, Wai Lam, Furu Wei, (参考訳) 大規模言語モデル(LLM)は、並列データなしで訓練しても、MNMT(multilingual neural machine translation)において驚くほど優れた性能を示している。 しかし、トレーニングデータの量は膨大であるにもかかわらず、レアワードの翻訳に苦慮している。 さらに悪いことに、LLM上での低リソース言語によるテキスト内学習に関する関連するデモを検索することは非現実的です。 この目的のために,入力単語のサブセットに対する多言語辞書の連鎖による事前知識でLLMを増強し,LLMの翻訳能力を引き出す新しい手法であるCoDを提案する。 CoDによるChatGPTの拡張は、FLORES-200の完全なテストセット上で、MNMTの13倍のchrF++ポイント(キリル文字で書かれた英語からセルビア語への3.08から42.63)を大きく増加させることを示している。 さらに,多言語辞書のチェーン化の重要性や,低リソース言語における数ショットのデモに対するCoDの優位性も示している。

Large language models (LLMs) have shown surprisingly good performance in multilingual neural machine translation (MNMT) even when trained without parallel data. Yet, despite the fact that the amount of training data is gigantic, they still struggle with translating rare words, particularly for low-resource languages. Even worse, it is usually unrealistic to retrieve relevant demonstrations for in-context learning with low-resource languages on LLMs, which restricts the practical use of LLMs for translation -- how should we mitigate this problem? To this end, we present a novel method, CoD, which augments LLMs with prior knowledge with the chains of multilingual dictionaries for a subset of input words to elicit translation abilities for LLMs. Extensive experiments indicate that augmenting ChatGPT with CoD elicits large gains by up to 13x chrF++ points for MNMT (3.08 to 42.63 for English to Serbian written in Cyrillic script) on FLORES-200 full devtest set. We further demonstrate the importance of chaining the multilingual dictionaries, as well as the superiority of CoD to few-shot demonstration for low-resource languages.
翻訳日:2024-08-21 04:36:46 公開日:2024-08-17
# OpenVIS: オープン語彙ビデオインスタンスセグメンテーション

OpenVIS: Open-vocabulary Video Instance Segmentation ( http://arxiv.org/abs/2305.16835v3 )

ライセンス: Link先を確認
Pinxue Guo, Tony Huang, Peiyang He, Xuefeng Liu, Tianjun Xiao, Zhaoyu Chen, Wenqiang Zhang, (参考訳) OpenVIS(Open-vocabulary Video Instance Segmentation)は、トレーニング中に見られるカテゴリに制約されることなく、ビデオ内の任意のオブジェクトカテゴリを検出し、セグメンテーションし、追跡する。 本研究では,OpenVISタスクのための慎重に設計されたフレームワークであるInstFormerを提案する。 InstFormerは、オープンワールドマスクの提案ネットワークから始まり、コントラストのあるインスタンスマージン損失によって、すべての潜在的なインスタンスクラスに依存しないマスクを提案することを奨励している。 次に、オープン語彙のインスタンストークンを効率的にエンコードするインスタンス誘導注意による事前訓練済みCLIPから適応したInstCLIPを紹介します。 これらのインスタンストークンは、オープン語彙分類を可能にするだけでなく、強力なユニバーサルトラッキング機能を提供する。 さらに,特定カテゴリのトレーニングデータによるトラッキングモジュールの制約を回避するために,トラッキング問題を次のフレームのインスタンス追跡トークンの予測に変換するユニバーサルロールアウトアソシエーションを提案する。 実験の結果,提案したInstFormerは,総合的なOpenVIS評価ベンチマークで最先端の機能を実現するとともに,完全な教師付きVISタスクにおける競合性能も達成した。

Open-vocabulary Video Instance Segmentation (OpenVIS) can simultaneously detect, segment, and track arbitrary object categories in a video, without being constrained to categories seen during training. In this work, we propose InstFormer, a carefully designed framework for the OpenVIS task that achieves powerful open-vocabulary capabilities through lightweight fine-tuning with limited-category data. InstFormer begins with the open-world mask proposal network, encouraged to propose all potential instance class-agnostic masks by the contrastive instance margin loss. Next, we introduce InstCLIP, adapted from pre-trained CLIP with Instance Guidance Attention, which encodes open-vocabulary instance tokens efficiently. These instance tokens not only enable open-vocabulary classification but also offer strong universal tracking capabilities. Furthermore, to prevent the tracking module from being constrained by the training data with limited categories, we propose the universal rollout association, which transforms the tracking problem into predicting the next frame's instance tracking token. The experimental results demonstrate the proposed InstFormer achieve state-of-the-art capabilities on a comprehensive OpenVIS evaluation benchmark, while also achieves competitive performance in fully supervised VIS task.
翻訳日:2024-08-21 04:36:46 公開日:2024-08-17
# Black-Box 異常属性

Black-Box Anomaly Attribution ( http://arxiv.org/abs/2305.18440v2 )

ライセンス: Link先を確認
Tsuyoshi Idé, Naoki Abe, (参考訳) ブラックボックス機械学習モデルの予測が真の観測から逸脱したとき、その逸脱の背後にある理由について何を言えるだろうか? これは、ビジネスまたは産業用AIアプリケーションのエンドユーザがよく問う、基本的でユビキタスな質問である。 偏差は、準最適ブラックボックスモデルによるものかもしれないし、単に、問題のサンプルが外れやすいためかもしれない。 いずれの場合も、入力変数が異常の原因となる範囲の値を示す何らかの属性スコアを得るのが理想的である。 本稿では, モデルがブラックボックスであり, トレーニングデータが利用できない設定において, この課題である<anomaly attribution'に対処する。 具体的には、最も高い可能性を達成するために必要な各入力変数の補正に責任スコアが等しくなるような、'likelihood compensation (LC)' と呼ばれる新しい確率ベースの属性フレームワークを提案する。 まず、局所線形サロゲートモデリングやシェープリー値のような主流モデルに依存しない説明手法が、異常を説明するために設計されていない理由を正式に示すことから始める。 特に、それらが「逸脱に依存しない」こと、すなわち、それらの説明が関心のサンプルのモデル予測に偏りがあるという事実に盲目であることを示す。 私たちは、これらの既存のメソッドを 'integrated gradient family' と呼ぶ関数ファミリーの統一された傘の下に配置することで、これを実現します。 提案手法の有効性を,公開データセットを用いて検証した。 また、実世界の建築エネルギー予測タスクを用いてケーススタディを行い、専門家のフィードバックに基づいてその実用性を確認する。

When the prediction of a black-box machine learning model deviates from the true observation, what can be said about the reason behind that deviation? This is a fundamental and ubiquitous question that the end user in a business or industrial AI application often asks. The deviation may be due to a sub-optimal black-box model, or it may be simply because the sample in question is an outlier. In either case, one would ideally wish to obtain some form of attribution score -- a value indicative of the extent to which an input variable is responsible for the anomaly. In the present paper we address this task of ``anomaly attribution,'' particularly in the setting in which the model is black-box and the training data are not available. Specifically, we propose a novel likelihood-based attribution framework we call the ``likelihood compensation (LC),'' in which the responsibility score is equated with the correction on each input variable needed to attain the highest possible likelihood. We begin by showing formally why mainstream model-agnostic explanation methods, such as the local linear surrogate modeling and Shapley values, are not designed to explain anomalies. In particular, we show that they are ``deviation-agnostic,'' namely, that their explanations are blind to the fact that there is a deviation in the model prediction for the sample of interest. We do this by positioning these existing methods under the unified umbrella of a function family we call the ``integrated gradient family.'' We validate the effectiveness of the proposed LC approach using publicly available data sets. We also conduct a case study with a real-world building energy prediction task and confirm its usefulness in practice based on expert feedback.
翻訳日:2024-08-21 04:36:46 公開日:2024-08-17
# 教師なし多変量時系列表現学習のためのシェープレットベースフレームワーク

A Shapelet-based Framework for Unsupervised Multivariate Time Series Representation Learning ( http://arxiv.org/abs/2305.18888v4 )

ライセンス: Link先を確認
Zhiyu Liang, Jianfeng Zhang, Chen Liang, Hongzhi Wang, Zheng Liang, Lujia Pan, (参考訳) 最近の研究は、多変量時系列に対する教師なし表現学習(URL)において、URLはアクセス不能なラベルを使わずに多くの下流タスクに対して一般化可能な表現を学習する能力を持っているため、大きな可能性を示している。 しかしながら、既存のアプローチでは、通常、時系列データをエンコードするために、他のドメイン(例えばコンピュータビジョン)のために設計されたモデルを採用し、学習目標を設計するための強い仮定に基づいて、うまく機能する能力を制限する。 これらの問題に対処するために、一般的なコントラスト学習パラダイムを用いて時系列固有のシェープレットに基づく表現を学習することで、多変量時系列のための新しいURLフレームワークを提案する。 我々の知る限りでは、これは、教師なし汎用表現学習におけるシェープレットベースの埋め込みを探求する最初の研究である。 特に,多粒度コントラストとマルチスケールアライメントを備えた統一型シェープレットベースのエンコーダと新しい学習目標を目標として設計し,一般化を改善するためにデータ拡張ライブラリを採用した。 我々は、数個の実世界のデータセットを用いて広範囲にわたる実験を行い、分類、クラスタリング、異常検出を含む多くの下流タスクにおける表現品質を評価する。 提案手法は,URLコンペティタだけでなく,ダウンストリームタスク用に特別に設計された技術に対して優れていることを示す。 私たちのコードはhttps://github.com/real2fish/CSLで公開されています。

Recent studies have shown great promise in unsupervised representation learning (URL) for multivariate time series, because URL has the capability in learning generalizable representation for many downstream tasks without using inaccessible labels. However, existing approaches usually adopt the models originally designed for other domains (e.g., computer vision) to encode the time series data and {rely on strong assumptions to design learning objectives, which limits their ability to perform well}. To deal with these problems, we propose a novel URL framework for multivariate time series by learning time-series-specific shapelet-based representation through a popular contrasting learning paradigm. To the best of our knowledge, this is the first work that explores the shapelet-based embedding in the unsupervised general-purpose representation learning. A unified shapelet-based encoder and a novel learning objective with multi-grained contrasting and multi-scale alignment are particularly designed to achieve our goal, and a data augmentation library is employed to improve the generalization. We conduct extensive experiments using tens of real-world datasets to assess the representation quality on many downstream tasks, including classification, clustering, and anomaly detection. The results demonstrate the superiority of our method against not only URL competitors, but also techniques specially designed for downstream tasks. Our code has been made publicly available at https://github.com/real2fish/CSL.
翻訳日:2024-08-21 04:36:46 公開日:2024-08-17
# 指数ティルティングによるRTB市場における流通変化への対応

Addressing Distribution Shift in RTB Markets via Exponential Tilting ( http://arxiv.org/abs/2308.07424v2 )

ライセンス: Link先を確認
Minji Kim, Seong Jin Lee, Bumsik Kim, (参考訳) 機械学習アプリケーションでは、トレーニングとターゲット環境の間の分散シフトによって、モデルパフォーマンスが大幅に低下する可能性がある。 本研究では、選択バイアスがこれらのシフトに寄与する実時間入札(RTB)市場コンテキストにおいて、そのようなシフトが二項分類モデルに与える影響について検討する。 この課題に対処するため,Maity et al (2023) の提案した Exponential Tilt Reweighting Alignment (ExTRA) アルゴリズムを適用した。 本アルゴリズムは,特定の重み構造を仮定することにより,ラベル情報を必要としない共変量分布とラベル分布の両方を考慮することにより,経験的リスクに対する重みを推定する。 本研究の目的は,RTBモデルの分布変化を補正する重みを推定し,実世界のシミュレーションデータを用いて提案モデルの有効性を評価することである。

In machine learning applications, distribution shifts between training and target environments can lead to significant drops in model performance. This study investigates the impact of such shifts on binary classification models within the Real-Time Bidding (RTB) market context, where selection bias contributes to these shifts. To address this challenge, we apply the Exponential Tilt Reweighting Alignment (ExTRA) algorithm, proposed by Maity et al. (2023). This algorithm estimates importance weights for the empirical risk by considering both covariate and label distributions, without requiring target label information, by assuming a specific weight structure. The goal of this study is to estimate weights that correct for the distribution shifts in RTB model and to evaluate the efficiency of the proposed model using simulated real-world data.
翻訳日:2024-08-21 04:26:45 公開日:2024-08-17
# 自己重み付きベイズ物理学インフォームドニューラルネットワークと多タスク逆問題に対するロバスト推定

Auto-weighted Bayesian Physics-Informed Neural Networks and robust estimations for multitask inverse problems in pore-scale imaging of dissolution ( http://arxiv.org/abs/2308.12864v2 )

ライセンス: Link先を確認
Sarah Perez, Philippe Poncet, (参考訳) 本稿では,多孔質イメージングにおける新しいデータ同化戦略を提案し,不確実性量子化(UQ)を取り入れた反応性逆問題に頑健に対処できることを実証する。 反応流の細孔スケールモデリングは、動的プロセスによるマクロスケール特性の進化を研究する貴重な機会となる。 しかし、X線マイクロトモグラフィー(X線マイクロCT)プロセスによるイメージングの限界に悩まされ、特性推定における相違が引き起こされる。 反応係数は幅広い値をカバーする重要なパラメータであるからである。 我々はこれらの2つの問題を考慮し、ワークフローに不確実な定量化を統合することにより、動的microCT画像に基づく細孔スケールモデリングの信頼性の高いキャリブレーションを確保する。 本手法は, カルサイト溶解におけるデータ駆動法と物理インフォームド法を組み合わせた反応逆問題のマルチタスク定式化に基づく。 これにより、ポロシティ場の形態的不確かさを定量化し、潜在濃度場と動的マイクロCTを持つ所定のPDEモデルを通して反応パラメータの範囲を推定することができる。 データ同化戦略は、連続的に追加のPDE制約を取り入れた逐次強化に依存している。 我々はベイズ物理学情報ニューラルネットワーク(BPINN)の適応重み付けによる堅牢で偏りのない不確実性定量化を保証する。 反応パラメータと無次元数に有意な後続分布を有する合成microCT画像による1D+Timeおよび2D+Time Calcite解離におけるベイズ推論の成功例を示した。

In this article, we present a novel data assimilation strategy in pore-scale imaging and demonstrate that this makes it possible to robustly address reactive inverse problems incorporating Uncertainty Quantification (UQ). Pore-scale modeling of reactive flow offers a valuable opportunity to investigate the evolution of macro-scale properties subject to dynamic processes. Yet, they suffer from imaging limitations arising from the associated X-ray microtomography (X-ray microCT) process, which induces discrepancies in the properties estimates. Assessment of the kinetic parameters also raises challenges, as reactive coefficients are critical parameters that can cover a wide range of values. We account for these two issues and ensure reliable calibration of pore-scale modeling, based on dynamical microCT images, by integrating uncertainty quantification in the workflow. The present method is based on a multitasking formulation of reactive inverse problems combining data-driven and physics-informed techniques in calcite dissolution. This allows quantifying morphological uncertainties on the porosity field and estimating reactive parameter ranges through prescribed PDE models with a latent concentration field and dynamical microCT. The data assimilation strategy relies on sequential reinforcement incorporating successively additional PDE constraints. We guarantee robust and unbiased uncertainty quantification by straightforward adaptive weighting of Bayesian Physics-Informed Neural Networks (BPINNs), ensuring reliable micro-porosity changes during geochemical transformations. We demonstrate successful Bayesian Inference in 1D+Time and 2D+Time calcite dissolution based on synthetic microCT images with meaningful posterior distribution on the reactive parameters and dimensionless numbers.
翻訳日:2024-08-21 04:26:45 公開日:2024-08-17
# SGNet: ポイントクラウド登録のための有能な幾何学的ネットワーク

SGNet: Salient Geometric Network for Point Cloud Registration ( http://arxiv.org/abs/2309.06207v4 )

ライセンス: Link先を確認
Qianliang Wu, Yaqing Ding, Lei Luo, Haobo Jiang, Shuo Gu, Chuanwei Zhou, Jin Xie, Jian Yang, (参考訳) ポイントクラウド登録(PCR)はコンピュータビジョンにおいて重要かつ困難なタスクである。 PCRの最大の難しさの1つは、様々なスキャンで一貫した意味的および幾何学的性質を示す、健全で有意義な点を特定することである。 従来の手法では、点群全体のパッチブロック間の類似性や、効率的なグローバルな幾何整合性に対する考慮の欠如が原因で、不明瞭なマッチングの問題に遭遇した。 これらの課題に対処するため、我々はいくつかの新しい手法を含む新しい枠組みを提案する。 まず,オブジェクトレベルとパッチレベルのセマンティック情報を組み合わせた意味認識型幾何エンコーダを提案する。 このエンコーダは、パッチレベルのスーパーポイントマッチングにおけるあいまいさを低減することにより、登録リコールを大幅に改善する。 さらに本研究では,本質的な形状のシグネチャを用いて有能な点を同定する事前知識手法を取り入れた。 これにより、シーン内で最も有意義なスーパーポイントと有意義な密度ポイントを抽出できる。 次に,高次幾何学的特徴を符号化する革新的な変換器を提案する。 これらの特徴は、大域的な高次幾何整合性を考慮して、初期重なり合う領域内の有意な点を特定するために重要である。 この高階変圧器をさらに最適化するために、アンカーノード選択戦略を導入する。 これらのアンカーノードに基づいてフレーム間三角形やポリヘドロン整合性を符号化することにより、有意なスーパーポイントの高次幾何学的特徴を効果的に学習することができる。 これらの高次特徴は、密接な点に伝播し、シンクホーンマッチングモジュールによって、キー対応を識別して、登録を成功させる。 3DMatch/3DLoMatchやKITTIといったよく知られたデータセットを用いて実験を行った結果,提案手法の有効性が示された。

Point Cloud Registration (PCR) is a critical and challenging task in computer vision. One of the primary difficulties in PCR is identifying salient and meaningful points that exhibit consistent semantic and geometric properties across different scans. Previous methods have encountered challenges with ambiguous matching due to the similarity among patch blocks throughout the entire point cloud and the lack of consideration for efficient global geometric consistency. To address these issues, we propose a new framework that includes several novel techniques. Firstly, we introduce a semantic-aware geometric encoder that combines object-level and patch-level semantic information. This encoder significantly improves registration recall by reducing ambiguity in patch-level superpoint matching. Additionally, we incorporate a prior knowledge approach that utilizes an intrinsic shape signature to identify salient points. This enables us to extract the most salient super points and meaningful dense points in the scene. Secondly, we introduce an innovative transformer that encodes High-Order (HO) geometric features. These features are crucial for identifying salient points within initial overlap regions while considering global high-order geometric consistency. To optimize this high-order transformer further, we introduce an anchor node selection strategy. By encoding inter-frame triangle or polyhedron consistency features based on these anchor nodes, we can effectively learn high-order geometric features of salient super points. These high-order features are then propagated to dense points and utilized by a Sinkhorn matching module to identify key correspondences for successful registration. In our experiments conducted on well-known datasets such as 3DMatch/3DLoMatch and KITTI, our approach has shown promising results, highlighting the effectiveness of our novel method.
翻訳日:2024-08-21 04:16:54 公開日:2024-08-17
# 物性構造:化学要素埋め込みと化学特性の正確な予測のための深層学習アプローチ

Structure to Property: Chemical Element Embeddings and a Deep Learning Approach for Accurate Prediction of Chemical Properties ( http://arxiv.org/abs/2309.09355v3 )

ライセンス: Link先を確認
Shokirbek Shermukhamedov, Dilorom Mamurjonova, Michael Probst, (参考訳) 化学分類タスクのためのelEmBERTモデルを提案する。 これは多層エンコーダアーキテクチャのようなディープラーニング技術に基づいている。 我々は, 有機, 無機, 結晶化合物の集合に対して, アプローチがもたらす機会を実証する。 特に, 結晶特性と薬物設計関連ベンチマークを含むMatebench と Moleculenet ベンチマークを用いて, モデルの開発と試験を行った。 また, 化学化合物のベクトル表現を解析し, 構造データの基本パターンに光を当てる。 本モデルは異常な予測能力を示し,分子および材料データセットに普遍的に適用可能であることを証明している。 例えば、Tox21データセットでは、平均96%の精度を達成し、これまでで最高の結果の10%を上回りました。

We introduce the elEmBERT model for chemical classification tasks. It is based on deep learning techniques, such as a multilayer encoder architecture. We demonstrate the opportunities offered by our approach on sets of organic, inorganic and crystalline compounds. In particular, we developed and tested the model using the Matbench and Moleculenet benchmarks, which include crystal properties and drug design-related benchmarks. We also conduct an analysis of vector representations of chemical compounds, shedding light on the underlying patterns in structural data. Our model exhibits exceptional predictive capabilities and proves universally applicable to molecular and material datasets. For instance, on the Tox21 dataset, we achieved an average precision of 96%, surpassing the previously best result by 10%.
翻訳日:2024-08-21 04:16:54 公開日:2024-08-17
# 多孔質媒質中の水浸透の流体モデルのためのデータ駆動型新しい数値計算法

A Novel Data-driven Numerical Method for Hydrological Modeling of Water Infiltration in Porous Media ( http://arxiv.org/abs/2310.02806v2 )

ライセンス: Link先を確認
Zeyuan Song, Zheyu Jiang, (参考訳) 根圏土壌の水分モニタリングはセンサによるスマート灌水と農業干ばつ防止に不可欠である。 土壌のような多孔質媒質における時空間水流のダイナミクスのモデル化は、典型的には、リチャーズ方程式であるアグロ-水理モデル(英語版)を解くことによって達成される。 本稿では,適応線形化スキーム,ニューラルネットワーク,大域ランダムウォークを有限体積離散化フレームワークで一意に統合したDRW(Data-driven Global Random Walk)アルゴリズムを提案する。 本稿では,解の精度と数値安定性の相乗的改善を実現するために,これらのコンポーネントを導入する必要性とメリットについて論じる。 DRWアルゴリズムは、合理的な仮定の下で収束を保証することで、$n$次元リチャーズ方程式を正確に解くことができることを示す。 実例を通して、DRWアルゴリズムは、最先端の解法アルゴリズムや商用解法と比較して、リチャーズ方程式の基礎となる物理と質量保存をよりよく保存できることを示した。

Root-zone soil moisture monitoring is essential for sensor-based smart irrigation and agricultural drought prevention. Modeling the spatiotemporal water flow dynamics in porous media such as soil is typically achieved by solving an agro-hydrological model, the most important of which being the Richards equation. In this paper, we present a novel data-driven solution algorithm named the DRW (Data-driven global Random Walk) algorithm, which holistically integrates adaptive linearization scheme, neural networks, and global random walk in a finite volume discretization framework. We discuss the need and benefits of introducing these components to achieve synergistic improvements in solution accuracy and numerical stability. We show that the DRW algorithm can accurately solve $n$-dimensional Richards equation with guaranteed convergence under reasonable assumptions. Through examples, we also demonstrate that the DRW algorithm can better preserve the underlying physics and mass conservation of the Richards equation compared to state-of-the-art solution algorithms and commercial solver.
翻訳日:2024-08-21 04:16:54 公開日:2024-08-17
# 多目的直接選好最適化における一方向全アライメントの超越

Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization ( http://arxiv.org/abs/2310.03708v4 )

ライセンス: Link先を確認
Zhanhui Zhou, Jie Liu, Jing Shao, Xiangyu Yue, Chao Yang, Wanli Ouyang, Yu Qiao, (参考訳) 単一の言語モデルでは、人間からのフィードバック(RLHF)からの強化学習を通じてラベルを付けたとしても、人間の好みに合わない場合がある。 したがって、近年のアプローチでは、カスタマイズ、多次元フィードバックの収集、各次元に対する異なる報酬モデルの作成が好まれている。 異なる言語モデルは、様々な報酬重みを持つ多目的RLHF(MORLHF)を用いて様々な好みに最適化される。 しかし、RLの微調整は不安定で資源が豊富であり、特に多様で通常は矛盾する目的がある。 本稿では,複数のアライメント目的に対して直接参照最適化(DPO)のRLフリー拡張であるMODPOを提案する。 本質的には、MODPOは言語モデリングを直接報酬モデルに折り畳み、言語モデルを暗黙の集団報酬モデルとして訓練し、全ての目的を特定の重みと組み合わせる。 MODPO は理論上は MORLHF と同じ最適解が得られるが、実質的にはより安定で効率的である。 安全アライメントと長期質問応答の実証結果から、MODPOは既存の手法に適合または優れており、MORLHFに比べて3倍少ない計算資源で多種多様な好みに対応する言語モデルのParetoフロントを生成する。 コードはhttps://github.com/ZHZisZZ/modpo.comで入手できる。

A single language model, even when aligned with labelers through reinforcement learning from human feedback (RLHF), may not suit all human preferences. Recent approaches therefore prefer customization, gathering multi-dimensional feedback, and creating distinct reward models for each dimension. Different language models are then optimized for various preferences using multi-objective RLHF (MORLHF) with varying reward weights. However, RL fine-tuning is unstable and resource-heavy, especially with diverse and usually conflicting objectives. In this paper, we present Multi-Objective Direct Preference Optimization (MODPO), an RL-free extension of Direct Preference Optimization (DPO) for multiple alignment objectives. Essentially, MODPO folds language modeling directly into reward modeling, training language models as implicit collective reward models that combine all objectives with specific weights. MODPO theoretically yields the same optimal solutions as MORLHF but is practically more stable and efficient. Empirical results in safety alignment and long-form question answering show that MODPO matches or outperforms existing methods, producing a Pareto front of language models catering to diverse preferences with three times less computational resources compared to MORLHF. Code is available at https://github.com/ZHZisZZ/modpo.
翻訳日:2024-08-21 04:16:54 公開日:2024-08-17
# 凸最適化のための線探索のない単純一様最適化法

A simple uniformly optimal method without line search for convex optimization ( http://arxiv.org/abs/2310.10082v3 )

ライセンス: Link先を確認
Tianjiao Li, Guanghui Lan, (参考訳) 線形探索(あるいはバックトラック)手順は、凸最適化問題、特に未知の問題パラメータ(例えばリプシッツ定数)を解く一階法に広く用いられている。 本稿では,事前パラメータが与えられていない凸最適化問題の解法において,線形探索が最適収束率の達成に過剰であることを示す。 特に,大域リプシッツ定数の見積や線探索手順を使わずに,滑らかな凸最適化に最適な$\mathcal{O}(1/k^2)$収束率を達成できる,自動条件付高速勾配法 (AC-FGM) と呼ばれる新しい加速勾配勾配型アルゴリズムを提案する。 次に、H\"{o}lder の連続勾配で凸最適化問題を解くために AC-FGM を拡張し、解の所望の精度を唯一の入力として全ての問題クラスに対して一様収束率を自動で達成することを示す。 最後に,これまで開発されたパラメータフリーな凸最適化法よりもAC-FGMの方が優れていることを示す数値計算結果について報告する。

Line search (or backtracking) procedures have been widely employed into first-order methods for solving convex optimization problems, especially those with unknown problem parameters (e.g., Lipschitz constant). In this paper, we show that line search is superfluous in attaining the optimal rate of convergence for solving a convex optimization problem whose parameters are not given a priori. In particular, we present a novel accelerated gradient descent type algorithm called auto-conditioned fast gradient method (AC-FGM) that can achieve an optimal $\mathcal{O}(1/k^2)$ rate of convergence for smooth convex optimization without requiring the estimate of a global Lipschitz constant or the employment of line search procedures. We then extend AC-FGM to solve convex optimization problems with H\"{o}lder continuous gradients and show that it automatically achieves the optimal rates of convergence uniformly for all problem classes with the desired accuracy of the solution as the only input. Finally, we report some encouraging numerical results that demonstrate the advantages of AC-FGM over the previously developed parameter-free methods for convex optimization.
翻訳日:2024-08-21 04:16:54 公開日:2024-08-17
# 公共政策の制約を伴わないブラックボックス最適化

Black-Box Optimization with Implicit Constraints for Public Policy ( http://arxiv.org/abs/2310.18449v4 )

ライセンス: Link先を確認
Wenqian Xing, Jungho Lee, Chong Liu, Shixiang Zhu, (参考訳) ブラックボックス最適化(BBO)は、特に警察の再編成のような公共政策領域において、複雑な意思決定問題に対処するためにますます重要になっている。 しかし、公共政策におけるその広範な適用は、実現可能な地域を定義する複雑さと意思決定の高次元性によって妨げられている。 本稿では,CageBO(Conditional and Generative Black-box Optimization)と呼ばれる新しいBBOフレームワークを紹介する。 このアプローチは条件付き変分オートエンコーダを利用して、実現可能な決定の分布を学習し、元の決定空間と単純化された制約のない潜在空間との双方向マッピングを可能にする。 CageBOは、公共政策アプリケーションでよく見られる暗黙の制約を効果的に処理し、元の空間の目的を評価しながら、潜在空間における最適化を可能にする。 ジョージア州アトランタにおける大規模警察再編成問題のケーススタディにより,本手法の有効性を検証した。 我々のCageBOは,ベースラインに比べて性能と効率が著しく向上していることが明らかとなった。

Black-box optimization (BBO) has become increasingly relevant for tackling complex decision-making problems, especially in public policy domains such as police redistricting. However, its broader application in public policymaking is hindered by the complexity of defining feasible regions and the high-dimensionality of decisions. This paper introduces a novel BBO framework, termed as the Conditional And Generative Black-box Optimization (CageBO). This approach leverages a conditional variational autoencoder to learn the distribution of feasible decisions, enabling a two-way mapping between the original decision space and a simplified, constraint-free latent space. The CageBO efficiently handles the implicit constraints often found in public policy applications, allowing for optimization in the latent space while evaluating objectives in the original space. We validate our method through a case study on large-scale police redistricting problems in Atlanta, Georgia. Our results reveal that our CageBO offers notable improvements in performance and efficiency compared to the baselines.
翻訳日:2024-08-21 04:07:00 公開日:2024-08-17
# 偽負推定によるEコマース検索におけるプールバイアスの緩和

Mitigating Pooling Bias in E-commerce Search via False Negative Estimation ( http://arxiv.org/abs/2311.06444v3 )

ライセンス: Link先を確認
Xiaochen Wang, Xiao Xiao, Ruhan Zhang, Xuan Zhang, Taesik Na, Tejaswi Tenneti, Haixun Wang, Fenglong Ma, (参考訳) ユーザエクスペリエンスとビジネス成功には、効率的で正確な製品関連性評価が不可欠です。 熟練した妥当性評価モデルのトレーニングには高品質なクエリ生成ペアが必要であり、しばしば負のサンプリング戦略によって得られる。 残念ながら、現在の手法では誤った否定を誤ってサンプリングし、パフォーマンスとビジネスへの影響を減らし、プールバイアスを導入しています。 そこで本研究では,従来の偽陰性推定アルゴリズムに基づいて,偽陰性の検出・調整に適した新しいネガティブサンプリング手法であるBias-mitigating Hard Negative Smpling(BHNS)を提案する。 Instacartサーチセッティングの実験により,BHNSが実用的なeコマースに有効であることが確認された。 さらに、パブリックデータセットの比較分析では、多様なアプリケーションに対するドメインに依存しない可能性を示している。

Efficient and accurate product relevance assessment is critical for user experiences and business success. Training a proficient relevance assessment model requires high-quality query-product pairs, often obtained through negative sampling strategies. Unfortunately, current methods introduce pooling bias by mistakenly sampling false negatives, diminishing performance and business impact. To address this, we present Bias-mitigating Hard Negative Sampling (BHNS), a novel negative sampling strategy tailored to identify and adjust for false negatives, building upon our original False Negative Estimation algorithm. Our experiments in the Instacart search setting confirm BHNS as effective for practical e-commerce use. Furthermore, comparative analyses on public dataset showcase its domain-agnostic potential for diverse applications.
翻訳日:2024-08-21 04:07:00 公開日:2024-08-17
# 前処理を伴う無条件で安全な量子コミットメント

Unconditionally secure quantum commitments with preprocessing ( http://arxiv.org/abs/2311.18171v2 )

ライセンス: Link先を確認
Luowen Qian, (参考訳) 複雑性の仮定を証明せずに、量子補助入力の助けを借りて計算的にセキュアなコミットメントスキームを構築する方法を示す。 さらに、量子補助入力は、外部の信頼できる第三者に頼ることなく、一様指数時間でサンプリングするか、少なくとも2倍指数時間で準備することができる。 古典的には、これは最初に$\mathsf{P} \neq \mathsf{NP}$を証明しない限りは不可能である。

We demonstrate how to build computationally secure commitment schemes with the aid of quantum auxiliary inputs without unproven complexity assumptions. Furthermore, the quantum auxiliary input can be either sampled in uniform exponential time or prepared in at most doubly exponential time, without relying on an external trusted third party. Classically, this remains impossible without first proving $\mathsf{P} \neq \mathsf{NP}$.
翻訳日:2024-08-21 03:57:15 公開日:2024-08-17
# k*分布:局所的近傍分析による深部ニューラルネットワークの潜時空間の評価

k* Distribution: Evaluating the Latent Space of Deep Neural Networks using Local Neighborhood Analysis ( http://arxiv.org/abs/2312.04024v2 )

ライセンス: Link先を確認
Shashank Kotyan, Tatsuya Ueda, Danilo Vasconcellos Vargas, (参考訳) ニューラルネットワークの学習潜在空間のほとんどの検査では、通常、t-SNEやUMAPのような次元還元技術を用いる。 これらの手法は、視覚化において局所的な近傍を歪め、潜伏空間におけるサンプルのサブセットの構造を区別することが困難になる。 本手法では,学習した潜伏空間のサブセット内の個々のクラスに対するサンプル分布の構造の保存を保証するために,局所的近傍解析を用いる。 これにより、異なるk*〜分布を簡単に比較でき、同じニューラルネットワークで様々なクラスがどのように処理されるかを分析することができる。 我々の研究は、学習された潜在空間部分集合内のサンプルの3つの異なる分布を明らかにした。 a (複数形 as) b) オーバーラップし、そして c) クラスタ化され、既存の現代的な視覚化をより深く理解する。 実験により、ネットワークの学習潜在空間内のサンプルの分布は、クラスによって大きく異なることが示された。 さらに、ニューラルネットワークアーキテクチャの潜時空間、ニューラルネットワーク内の様々な層、入力サンプルに適用された変換、ニューラルネットワークのトレーニングとテストデータの分布について、我々の分析を適用した。 したがって、k*分布は、ニューラルネットワーク内の構造を可視化し、その理解をさらに促進するのに役立ちます。 Project Webサイトはhttps://shashankkotyan.github.io/k-Distribution/.comで公開されている。

Most examinations of neural networks' learned latent spaces typically employ dimensionality reduction techniques such as t-SNE or UMAP. These methods distort the local neighborhood in the visualization, making it hard to distinguish the structure of a subset of samples in the latent space. In response to this challenge, we introduce the {k*~distribution} and its corresponding visualization technique This method uses local neighborhood analysis to guarantee the preservation of the structure of sample distributions for individual classes within the subset of the learned latent space. This facilitates easy comparison of different k*~distributions, enabling analysis of how various classes are processed by the same neural network. Our study reveals three distinct distributions of samples within the learned latent space subset: a) Fractured, b) Overlapped, and c) Clustered, providing a more profound understanding of existing contemporary visualizations. Experiments show that the distribution of samples within the network's learned latent space significantly varies depending on the class. Furthermore, we illustrate that our analysis can be applied to explore the latent space of diverse neural network architectures, various layers within neural networks, transformations applied to input samples, and the distribution of training and testing data for neural networks. Thus, the k* distribution should aid in visualizing the structure inside neural networks and further foster their understanding. Project Website is available online at https://shashankkotyan.github.io/k-Distribution/.
翻訳日:2024-08-21 03:57:15 公開日:2024-08-17
# 異なるデータセットを持つ高次元一般化線形モデル構築のための不均一移動学習

Heterogeneous Transfer Learning for Building High-Dimensional Generalized Linear Models with Disparate Datasets ( http://arxiv.org/abs/2312.12786v2 )

ライセンス: Link先を確認
Ruzhang Zhao, Prosenjit Kundu, Arkajyoti Saha, Nilanjan Chatterjee, (参考訳) 包括的な予測モデルの開発は、科学の多くの分野において大きな関心を持つことが多いが、全ての望ましい特徴に関する情報を持つデータセットは、しばしば小さなサンプルサイズを持つ。 本稿では,すべての予測器の詳細な情報と,より限定された予測器の集合を確定した外部的,潜在的にはるかに大きいデータを用いて,高次元一般化線形モデルを構築するための伝達学習手法について述べる。 そこで本研究では,設計変数の学習特異的な影響を考慮に入れたキャリブレーション式を用いて,主研究の主研究分析の基盤となるパラメータの「伝達」を行うための外部データセットを提案する。 次に,標準glmnetパッケージを用いて実装可能な一段階推定法を提案する。 本研究では, 漸近理論を開発し, 提案手法の予測性能と選択後推測特性の両方について検討する。 最後に,イギリスバイオバンクを用いた5つの共通疾患のリスクモデル開発のための提案手法の適用について,低次元リスク因子とプロテオミクスバイオマーカーを組み合わせて検討した。

Development of comprehensive prediction models are often of great interest in many disciplines of science, but datasets with information on all desired features often have small sample sizes. We describe a transfer learning approach for building high-dimensional generalized linear models using data from a main study with detailed information on all predictors and an external, potentially much larger, study that has ascertained a more limited set of predictors. We propose using the external dataset to build a reduced model and then "transfer" the information on underlying parameters for the analysis of the main study through a set of calibration equations which can account for the study-specific effects of design variables. We then propose a penalized generalized method of moment framework for inference and a one-step estimation method that could be implemented using standard glmnet package. We develop asymptotic theory and conduct extensive simulation studies to investigate both predictive performance and post-selection inference properties of the proposed method. Finally, we illustrate an application of the proposed method for the development of risk models for five common diseases using the UK Biobank study, combining information on low-dimensional risk factors and high throughout proteomic biomarkers.
翻訳日:2024-08-21 03:57:15 公開日:2024-08-17
# 微分型中心学習による点雲の事前形状バイアスの緩和

Mitigating Prior Shape Bias in Point Clouds via Differentiable Center Learning ( http://arxiv.org/abs/2402.02088v2 )

ライセンス: Link先を確認
Zhe Li, Jinglin Zhao, Zheng Wang, Bocheng Ren, Debin Liu, Ziyang Zhang, Laurence T. Yang, (参考訳) マスク付き自動エンコーディングと生成事前学習はコンピュータビジョンと自然言語処理において顕著な成功を収め、最近ではポイントクラウド領域にまで拡張されている。 それでも、既存のポイントクラウドモデルは、センターポイントの事前サンプリングによる情報漏洩の問題に悩まされており、モデルの簡単なプロキシタスクにつながります。 これらのアプローチは、主に、ポイントクラウド内のグローバルパターンをキャプチャする能力を制限した、ローカル機能の再構築に重点を置いている。 本稿では、プレテキストタスクの難しさの低減が、表現表現を学習するモデルの能力を損なうことを論じる。 これらの制約に対処するために、微分可能中心サンプリングネットワーク(DCS-Net)と呼ばれる新しいソリューションを導入する。 グローバル機能再構築とローカル機能再構築の両方を非自明なプロキシタスクとして組み込むことで、情報漏洩問題に対処し、ポイントクラウド内のグローバルパターンとローカルパターンの同時学習を可能にする。 実験結果から,本手法は既存のポイントクラウドモデルの表現能力を高め,情報漏洩問題に効果的に対処できることが示唆された。

Masked autoencoding and generative pretraining have achieved remarkable success in computer vision and natural language processing, and more recently, they have been extended to the point cloud domain. Nevertheless, existing point cloud models suffer from the issue of information leakage due to the pre-sampling of center points, which leads to trivial proxy tasks for the models. These approaches primarily focus on local feature reconstruction, limiting their ability to capture global patterns within point clouds. In this paper, we argue that the reduced difficulty of pretext tasks hampers the model's capacity to learn expressive representations. To address these limitations, we introduce a novel solution called the Differentiable Center Sampling Network (DCS-Net). It tackles the information leakage problem by incorporating both global feature reconstruction and local feature reconstruction as non-trivial proxy tasks, enabling simultaneous learning of both the global and local patterns within point cloud. Experimental results demonstrate that our method enhances the expressive capacity of existing point cloud models and effectively addresses the issue of information leakage.
翻訳日:2024-08-21 03:47:26 公開日:2024-08-17
# SCLA: LLMとSemantic Augmentationによるスマートコントラクトの自動要約

SCLA: Automated Smart Contract Summarization via LLMs and Semantic Augmentation ( http://arxiv.org/abs/2402.04863v4 )

ライセンス: Link先を確認
Yingjie Mao, Xiaoqi Li, Zongwei Li, Wenkai Li, Xin Wang, Lei Xie, (参考訳) 急速に進化するブロックチェーンシステムの世界では、スマートコントラクトの効率的な開発とメンテナンスが重要な課題になっています。 スマートコントラクトコードの要約は、スマートコントラクトのメンテナンスと脆弱性の軽減を著しく促進します。 GPT-4oやGemini-1.5-Proのような大規模言語モデル(LLM)には、プロンプトに埋め込まれたコード例からコード要約を生成する能力がある。 しかし、コード要約におけるLLMの性能は、微調整ベースのモデル(例えば、CodeT5+、CodeBERT)と比較しても最適以下である。 そこで,コード要約性能を向上させるために,LLMと意味拡張を利用したフレームワークであるSCLAを提案する。 SCLAは、スマートコントラクトの抽象構文木(AST)を構築し、潜在意味論を抽出し、意味的に拡張されたプロンプトを形成する。 評価には,4万の現実世界契約からなる大規模データセットを利用する。 実験の結果,SCLAは拡張プロンプトにより,コード要約の品質を著しく向上させることがわかった。 SCLAは他の最先端モデル(CodeBERT、CodeT5、CodeT5+)を上回り、37.53%のBLEU-4、52.54%のMETEOR、56.97%のROUGE-L、63.44%のBLEURTを達成している。

In the rapidly evolving world of blockchain systems, the efficient development and maintenance of smart contracts has become a critical task. Smart contract code summarization can significantly facilitate the maintenance of smart contracts and mitigate their vulnerabilities. Large Language Models (LLMs), such as GPT-4o and Gemini-1.5-Pro, possess the capability to generate code summarizations from code examples embedded in prompts. However, the performance of LLMs in code summarization remains suboptimal compared to fine-tuning-based models (e.g., CodeT5+, CodeBERT). Therefore, we propose SCLA, a framework leveraging LLMs and semantic augmentation to improve code summarization performance. SCLA constructs the smart contract's Abstract Syntax Tree (AST) to extract latent semantics, thereby forming a semantically augmented prompt. For evaluation, we utilize a large-scale dataset comprising 40,000 real-world contracts. Experimental results demonstrate that SCLA, with its enhanced prompt, significantly improves the quality of code summarizations. SCLA surpasses other state-of-the-art models (e.g., CodeBERT, CodeT5, and CodeT5+), achieving 37.53% BLEU-4, 52.54% METEOR, 56.97% ROUGE-L, and 63.44% BLEURT, respectively.
翻訳日:2024-08-21 03:47:26 公開日:2024-08-17
# データ透かしを用いたLLM事前学習データの証明

Proving membership in LLM pretraining data via data watermarks ( http://arxiv.org/abs/2402.10892v3 )

ライセンス: Link先を確認
Johnny Tian-Zheng Wei, Ryan Yixiang Wang, Robin Jia, (参考訳) LLM事前学習において著作権保持者の著作物が使用されているかどうかを検出することは重要な問題であると考えられる。 本研究は,データ透かしを用いてブラックボックスモデルアクセスのみによる原則的検出を実現することを提案する。 ランダムにサンプリングされたデータ透かしを適用することで、偽検出率の保証を提供する仮説テストとして検出を行うことができる。 ランダムなシーケンスを挿入する2つの透かしと、Unicodeに似た文字をランダムに置換する2つの透かしについて検討する。 まず、透かし設計の3つの側面(透かしの長さ、重複数、干渉数)が仮説テストの力にどのように影響するかを示す。 次に,モデルおよびデータセットのスケーリングにおいて,透かしの検出強度がどう変化するかを検討する。データセットサイズの増加は透かしの強度を減少させるが,モデルサイズが増大しても透かしは強いままである。 最後に、SHAハッシュを自然の透かしとみなし、少なくとも90回はBLOOM-176Bのトレーニングデータからハッシュを確実に検出できることを示す。 我々の結果は、現実世界でのデータ透かしに将来性のある未来に向けられている。

Detecting whether copyright holders' works were used in LLM pretraining is poised to be an important problem. This work proposes using data watermarks to enable principled detection with only black-box model access, provided that the rightholder contributed multiple training documents and watermarked them before public release. By applying a randomly sampled data watermark, detection can be framed as hypothesis testing, which provides guarantees on the false detection rate. We study two watermarks: one that inserts random sequences, and another that randomly substitutes characters with Unicode lookalikes. We first show how three aspects of watermark design -- watermark length, number of duplications, and interference -- affect the power of the hypothesis test. Next, we study how a watermark's detection strength changes under model and dataset scaling: while increasing the dataset size decreases the strength of the watermark, watermarks remain strong if the model size also increases. Finally, we view SHA hashes as natural watermarks and show that we can robustly detect hashes from BLOOM-176B's training data, as long as they occurred at least 90 times. Together, our results point towards a promising future for data watermarks in real world use.
翻訳日:2024-08-21 03:37:26 公開日:2024-08-17
# WeakSAM:Segment Anythingが弱教師付きインスタンスレベルの認識に遭遇

WeakSAM: Segment Anything Meets Weakly-supervised Instance-level Recognition ( http://arxiv.org/abs/2402.14812v2 )

ライセンス: Link先を確認
Lianghui Zhu, Junwei Zhou, Yan Liu, Xin Hao, Wenyu Liu, Xinggang Wang, (参考訳) 不正確な監督を用いた弱々しい教師付き視覚認識は、批判的ながら困難な学習問題である。 人間のラベリングコストを大幅に削減し、伝統的にマルチスタンス学習と擬似ラベリングに依存している。 本稿では、WeakSAMを紹介し、ビジョン基礎モデルに含まれる事前学習された世界知識、すなわちSAM(Seegment Anything Model)を利用して、弱教師付きオブジェクト検出(WSOD)とセグメンテーションを解決する。 WeakSAMは、従来のWSODリトレーニングにおける2つの重要な制限、すなわち擬似基底真理(PGT)の不完全性とノイズの多いPGTインスタンスに適応PGT生成とRerea of Interest(RoI)ドロップ正規化を通じて対処する。 また、SAMが自動オブジェクト検出とセグメンテーションのためにプロンプトやカテゴリを意識しないという問題にも対処している。 WeakSAMは、WSODおよびWSISベンチマークにおいて、それぞれ7.4%と8.5%の平均的な改善という大きなマージンを持つ従来の最先端手法を著しく上回っている。 コードは \url{https://github.com/hustvl/WeakSAM} で公開されている。

Weakly supervised visual recognition using inexact supervision is a critical yet challenging learning problem. It significantly reduces human labeling costs and traditionally relies on multi-instance learning and pseudo-labeling. This paper introduces WeakSAM and solves the weakly-supervised object detection (WSOD) and segmentation by utilizing the pre-learned world knowledge contained in a vision foundation model, i.e., the Segment Anything Model (SAM). WeakSAM addresses two critical limitations in traditional WSOD retraining, i.e., pseudo ground truth (PGT) incompleteness and noisy PGT instances, through adaptive PGT generation and Region of Interest (RoI) drop regularization. It also addresses the SAM's problems of requiring prompts and category unawareness for automatic object detection and segmentation. Our results indicate that WeakSAM significantly surpasses previous state-of-the-art methods in WSOD and WSIS benchmarks with large margins, i.e. average improvements of 7.4% and 8.5%, respectively. The code is available at \url{https://github.com/hustvl/WeakSAM}.
翻訳日:2024-08-21 03:37:26 公開日:2024-08-17
# PRIME:データ効率な模倣学習のための行動プリミティブを用いた操作タスクの共有

PRIME: Scaffolding Manipulation Tasks with Behavior Primitives for Data-Efficient Imitation Learning ( http://arxiv.org/abs/2403.00929v3 )

ライセンス: Link先を確認
Tian Gao, Soroush Nasiriany, Huihan Liu, Quantao Yang, Yuke Zhu, (参考訳) 模倣学習は、ロボットが複雑な操作行動を得ることを可能にする大きな可能性を示している。 しかし、これらのアルゴリズムは長い水平タスクにおいて高いサンプル複雑さに悩まされ、そこでは複雑なエラーがタスクの水平線上に蓄積される。 本稿では,模倣学習のデータ効率向上を目的とした行動プリミティブなフレームワークPRIMEを提案する。 PRIMEは、タスクのデモをプリミティブシーケンスに分解し、続いて模倣学習を通じてプリミティブをシーケンスするハイレベルな制御ポリシーを学ぶ。 実験の結果,PRIMEは多段階操作タスクにおいて,最先端ベースラインのシミュレーションにおいて10~34%,物理ハードウェアでは20~48%,大幅な性能向上を実現していることがわかった。

Imitation learning has shown great potential for enabling robots to acquire complex manipulation behaviors. However, these algorithms suffer from high sample complexity in long-horizon tasks, where compounding errors accumulate over the task horizons. We present PRIME (PRimitive-based IMitation with data Efficiency), a behavior primitive-based framework designed for improving the data efficiency of imitation learning. PRIME scaffolds robot tasks by decomposing task demonstrations into primitive sequences, followed by learning a high-level control policy to sequence primitives through imitation learning. Our experiments demonstrate that PRIME achieves a significant performance improvement in multi-stage manipulation tasks, with 10-34% higher success rates in simulation over state-of-the-art baselines and 20-48% on physical hardware.
翻訳日:2024-08-21 03:37:26 公開日:2024-08-17
# Sim2Real in Reconstructive Spectroscopy: Augmented Device-Informed Data Simulationによるディープラーニング

Sim2Real in Reconstructive Spectroscopy: Deep Learning with Augmented Device-Informed Data Simulation ( http://arxiv.org/abs/2403.12354v3 )

ライセンス: Link先を確認
Jiyi Chen, Pengyu Li, Yutong Wang, Pei-Cheng Ku, Qing Qu, (参考訳) 本研究は,効率的なデータサンプリングと高速推論時間に着目し,再構成分光におけるスペクトル信号再構成のための深層学習(DL)ベースのフレームワークであるSim2Realを提案する。 この研究は、デバイスインフォームド・シミュレートされたデータのみをトレーニングに利用できる極端な設定の下で、現実世界のスペクトル信号を再構築するという課題に焦点を当てている。 このようなデバイスインフォームド・シミュレートされたデータは、実際のデータよりもはるかに容易に収集できるが、実際のデータから大きな分散シフトを示す。 このようなシミュレーションデータを効果的に活用するために、このドメインシフトの悪影響を軽減するために階層的なデータ拡張戦略を導入し、我々の拡張データによるスペクトル信号再構成のための対応するニューラルネットワークを設計する。 我々の分光計装置から測定した実データを用いて実験したところ、Sim2Realは、最先端の最適化手法でオンパー性能を達成しつつ、推論中にかなりのスピードアップを達成することがわかった。

This work proposes a deep learning (DL)-based framework, namely Sim2Real, for spectral signal reconstruction in reconstructive spectroscopy, focusing on efficient data sampling and fast inference time. The work focuses on the challenge of reconstructing real-world spectral signals under the extreme setting where only device-informed simulated data are available for training. Such device-informed simulated data are much easier to collect than real-world data but exhibit large distribution shifts from their real-world counterparts. To leverage such simulated data effectively, a hierarchical data augmentation strategy is introduced to mitigate the adverse effects of this domain shift, and a corresponding neural network for the spectral signal reconstruction with our augmented data is designed. Experiments using a real dataset measured from our spectrometer device demonstrate that Sim2Real achieves significant speed-up during the inference while attaining on-par performance with the state-of-the-art optimization-based methods.
翻訳日:2024-08-21 03:27:41 公開日:2024-08-17
# PuzzleVQA:抽象的な視覚パターンを持つ言語モデルのマルチモーダル推論課題の診断

PuzzleVQA: Diagnosing Multimodal Reasoning Challenges of Language Models with Abstract Visual Patterns ( http://arxiv.org/abs/2403.13315v3 )

ライセンス: Link先を確認
Yew Ken Chia, Vernon Toh Yan Han, Deepanway Ghosal, Lidong Bing, Soujanya Poria, (参考訳) 大規模なマルチモーダルモデルは、多モーダル理解能力を統合することで、大きな言語モデルの印象的な能力を拡張します。 しかし、人間の一般的な知性と推論能力をどのようにエミュレートできるかは明らかではない。 パターン認識と抽象概念が汎用インテリジェンスに欠かせないものとして,抽象パターンに基づく2000のパズルインスタンスのコレクションであるPuzzleVQAを紹介する。 本データセットでは,色,数,サイズ,形状などの基本概念に基づいた抽象パターンを用いた大規模マルチモーダルモデルの評価を行う。 最先端の大規模マルチモーダルモデルに関する我々の実験により、単純な抽象パターンに対してうまく一般化できないことが判明した。 特に、GPT-4Vはシングルコンセプトパズルで46.4%のスコアを達成しており、現在のモデルが私たちのデータセットで苦労していることを示している。 大規模マルチモーダルモデルにおける推論の課題を診断するために、視覚的知覚、帰納的推論、帰納的推論の説明を根拠として、モデルを段階的にガイドする。 系統分析の結果, GPT-4Vの主なボトルネックは視覚知覚の弱さと誘導的推論能力であることがわかった。 この研究を通じて、我々は、大規模なマルチモーダルモデルの限界と、将来の人間の認知プロセスをよりうまくエミュレートする方法に光を当てたいと考えています。 私たちのデータとコードはhttps://puzzlevqa.github.ioで公開されています。

Large multimodal models extend the impressive capabilities of large language models by integrating multimodal understanding abilities. However, it is not clear how they can emulate the general intelligence and reasoning ability of humans. As recognizing patterns and abstracting concepts are key to general intelligence, we introduce PuzzleVQA, a collection of 2000 puzzle instances based on abstract patterns. With this dataset, we evaluate large multimodal models with abstract patterns based on fundamental concepts, including colors, numbers, sizes, and shapes. Through our experiments on state-of-the-art large multimodal models, we find that they are not able to generalize well to simple abstract patterns. Notably, GPT-4V achieves a score of 46.4% on single-concept puzzles, which shows that state-of-the-art models struggle on our dataset. To diagnose the reasoning challenges in large multimodal models, we progressively guide the models with our ground truth reasoning explanations for visual perception, inductive reasoning, and deductive reasoning. Our systematic analysis finds that the main bottlenecks of GPT-4V are weaker visual perception and inductive reasoning abilities. Through this work, we hope to shed light on the limitations of large multimodal models and how they can better emulate human cognitive processes in the future. Our data and code are available at https://puzzlevqa.github.io
翻訳日:2024-08-21 03:17:53 公開日:2024-08-17
# MatchSeg: 参照画像マッチングによるセグメンテーションの改善を目指す

MatchSeg: Towards Better Segmentation via Reference Image Matching ( http://arxiv.org/abs/2403.15901v3 )

ライセンス: Link先を確認
Jiayu Huo, Ruiqiang Xiao, Haotian Zheng, Yang Liu, Sebastien Ourselin, Rachel Sparks, (参考訳) 近年,深層学習に基づく医用画像の自動分割法は大きな成功を収めている。 しかし、彼らは大きな注釈付きデータセットに大きく依存しており、取得にはコストと時間を要する。 Few-shot Learningは、サポートセットとして知られる小さなラベル付きデータセットを使用して、クエリセットとして知られる新しいラベル付きイメージの予測ラベルをガイドすることで、注釈付きデータの必要性を克服することを目的としている。 このパラダイムに着想を得たMatchSegは,戦略的基準画像マッチングによる医用画像のセグメンテーションを強化する新しいフレームワークである。 我々は,言語画像事前学習(CLIP)を利用して,サポートセットを定義する際に,関連性の高いサンプルを選択する。 さらに,サポート機能とクエリ機能とのインタラクションを強化し,サポート機能とクエリセット間のより効果的な知識伝達を容易にするために,共同注目モジュールを設計する。 提案手法を4つの公開データセットで検証した。 実験の結果,MatchSegの領域分割性能とドメイン一般化能力は,ドメイン固有およびクロスドメインセグメンテーションタスクの既存手法と比較して優れていることが示された。 私たちのコードはhttps://github.com/keeplearning-again/MatchSegで利用可能です。

Recently, automated medical image segmentation methods based on deep learning have achieved great success. However, they heavily rely on large annotated datasets, which are costly and time-consuming to acquire. Few-shot learning aims to overcome the need for annotated data by using a small labeled dataset, known as a support set, to guide predicting labels for new, unlabeled images, known as the query set. Inspired by this paradigm, we introduce MatchSeg, a novel framework that enhances medical image segmentation through strategic reference image matching. We leverage contrastive language-image pre-training (CLIP) to select highly relevant samples when defining the support set. Additionally, we design a joint attention module to strengthen the interaction between support and query features, facilitating a more effective knowledge transfer between support and query sets. We validated our method across four public datasets. Experimental results demonstrate superior segmentation performance and powerful domain generalization ability of MatchSeg against existing methods for domain-specific and cross-domain segmentation tasks. Our code is made available at https://github.com/keeplearning-again/MatchSeg
翻訳日:2024-08-21 03:17:53 公開日:2024-08-17
# 直感的スマートコントラクト監査のためのファインチューニングとLCMベースエージェントの併用

Combining Fine-Tuning and LLM-based Agents for Intuitive Smart Contract Auditing with Justifications ( http://arxiv.org/abs/2403.16073v2 )

ライセンス: Link先を確認
Wei Ma, Daoyuan Wu, Yuqiang Sun, Tianwen Wang, Shangqing Liu, Jian Zhang, Yue Xue, Yang Liu, (参考訳) スマートコントラクトはEthereumのようなブロックチェーン上に構築された分散アプリケーションである。 近年の研究では、大きな言語モデル(LLM)がスマートコントラクトを監査する可能性があることが示されているが、現状では、GPT-4でさえ30%の精度しか達成できない(決定と正当化が正しければ)。 これは、既製のLLMが主に一般的なテキスト/コードコーパスで事前訓練されており、Solidityスマートコントラクト監査の特定のドメインで微調整されていないためだろう。 本稿では,直感的なスマートコントラクト監査と正当化のための微調整エージェントとLLMベースのエージェントを組み合わせた汎用フレームワークiAuditを提案する。 特にiAuditは、専門家の人間監査官がまず何が間違っているかを理解し、その原因を特定するためのコードの詳細な分析を行うという観察にインスパイアされている。 iAuditは2段階の微調整アプローチを採用しており、まずはディクタモデルをチューニングし、次にReasonerモデルをチューニングして脆弱性の原因を生成する。 しかし、微調整だけでは、脆弱性の最適な原因を正確に特定することの難しさに直面する。 そこで我々はLLMをベースとした2つのエージェントであるRancherとCricを導入し、微調整されたReasonerモデルの出力に基づいて、脆弱性の最も適切な原因を反復的に選択し、議論する。 iAuditを評価するために,iAuditに1,734の正,負のサンプル1,810のバランスデータセットを収集した。 次に、従来の微調整モデル(CodeBERT、GraphCodeBERT、CodeT5、UnixCoder)と比較し、学習ベースのLCM(GPT4、GPT-3.5、CodeLlama-13b/34b)と比較した。 263の実際のスマートコントラクトの脆弱性のデータセットでは、iAuditはF1スコアが91.21%、精度が91.11%に達する。 iAuditが生成した原因は、根本原因と比較して約38%の整合性を達成した。

Smart contracts are decentralized applications built atop blockchains like Ethereum. Recent research has shown that large language models (LLMs) have potential in auditing smart contracts, but the state-of-the-art indicates that even GPT-4 can achieve only 30% precision (when both decision and justification are correct). This is likely because off-the-shelf LLMs were primarily pre-trained on a general text/code corpus and not fine-tuned on the specific domain of Solidity smart contract auditing. In this paper, we propose iAudit, a general framework that combines fine-tuning and LLM-based agents for intuitive smart contract auditing with justifications. Specifically, iAudit is inspired by the observation that expert human auditors first perceive what could be wrong and then perform a detailed analysis of the code to identify the cause. As such, iAudit employs a two-stage fine-tuning approach: it first tunes a Detector model to make decisions and then tunes a Reasoner model to generate causes of vulnerabilities. However, fine-tuning alone faces challenges in accurately identifying the optimal cause of a vulnerability. Therefore, we introduce two LLM-based agents, the Ranker and Critic, to iteratively select and debate the most suitable cause of vulnerability based on the output of the fine-tuned Reasoner model. To evaluate iAudit, we collected a balanced dataset with 1,734 positive and 1,810 negative samples to fine-tune iAudit. We then compared it with traditional fine-tuned models (CodeBERT, GraphCodeBERT, CodeT5, and UnixCoder) as well as prompt learning-based LLMs (GPT4, GPT-3.5, and CodeLlama-13b/34b). On a dataset of 263 real smart contract vulnerabilities, iAudit achieves an F1 score of 91.21% and an accuracy of 91.11%. The causes generated by iAudit achieved a consistency of about 38% compared to the ground truth causes.
翻訳日:2024-08-21 03:17:53 公開日:2024-08-17
# 圧縮の順序:CNNを併用するための体系的および最適シーケンス

Order of Compression: A Systematic and Optimal Sequence to Combinationally Compress CNN ( http://arxiv.org/abs/2403.17447v2 )

ライセンス: Link先を確認
Yingtao Shen, Minqing Sun, Jianzhe Lin, Jie Zhao, An Zou, (参考訳) モデル圧縮は、機械学習モデルの計算およびメモリ要求を軽減する手段として、大きな人気を集めている。 それぞれの圧縮技術は、ユニークな特徴を活用して、ニューラルネットワークのサイズを減らす。 異なる手法を直感的に組み合わせることで圧縮効率が向上する可能性があるが、それらを組み合わせた順序が性能に大きく影響していることが分かる。 ニューラルネットワークを圧縮するための最適なシーケンスを特定するために,複数の圧縮手法を最も効果的な順序で適用するための,システマティックかつ最適なシーケンスである圧縮順序を提案する。 まず,2つの圧縮手法間の順序の土台を構築し,さらに2つの圧縮手法間の追加圧縮が2つの圧縮手法の順序を損なわないことを示す。 これらの基礎に基づいて、位相的ソートによって最適な順序が得られる。 画像に基づく回帰と異なるデータセット間の分類ネットワークを検証し,提案した圧縮の順序は,ベースラインモデルと比較して無視可能な精度損失(-0.09%)を伴って,ResNet34の計算コストを最大859倍に削減する。 我々は, モデル圧縮の行程をシンプルかつ効果的に探索することで, モデル圧縮の実践に光を当てることができると考えている。

Model compression has gained significant popularity as a means to alleviate the computational and memory demands of machine learning models. Each compression technique leverages unique features to reduce the size of neural networks. Although intuitively combining different techniques may enhance compression effectiveness, we find that the order in which they are combined significantly influences performance. To identify the optimal sequence for compressing neural networks, we propose the Order of Compression, a systematic and optimal sequence to apply multiple compression techniques in the most effective order. We start by building the foundations of the orders between any two compression approaches and then demonstrate inserting additional compression between any two compressions will not break the order of the two compression approaches. Based on the foundations, an optimal order is obtained with topological sorting. Validated on image-based regression and classification networks across different datasets, our proposed Order of Compression significantly reduces computational costs by up to 859 times on ResNet34, with negligible accuracy loss (-0.09% for CIFAR10) compared to the baseline model. We believe our simple yet effective exploration of the order of compression will shed light on the practice of model compression.
翻訳日:2024-08-21 03:17:53 公開日:2024-08-17
# MagLive: 磁気パターン変化を用いたスマートフォンにおけるロバスト音声のライブ検出

MagLive: Robust Voice Liveness Detection on Smartphones Using Magnetic Pattern Changes ( http://arxiv.org/abs/2404.01106v2 )

ライセンス: Link先を確認
Xiping Sun, Jing Chen, Cong Wu, Kun He, Haozhe Xu, Yebo Feng, Ruiying Du, Xianhao Chen, (参考訳) 音声認証はスマートフォンで広く使われている。 しかし、攻撃者は音声認証システムをバイパスするためにスピーカーを用いて、本物の人間の音声サンプルを再生する。 本稿では,スマートフォンによるスプーフィング攻撃の軽減を目的とした,堅牢な音声ライブ検出方式であるMagLiveを提案する。 MagLiveは、スマートフォンに内蔵されている磁気センサで捉えたライブ検出について話すとき、異なる話者(人間やスピーカーなど)が生成する磁気パターンの変化の差を利用する。 有効でロバストな磁気特徴を抽出するために、MagLiveはTF-CNN-SAFモデルを特徴抽出器として使用し、時間周波数畳み込みニューラルネットワーク(TF-CNN)と自己アテンションベース融合(SAF)モデルを組み合わせた。 教師付きコントラスト学習は、ユーザ非関連、デバイス非関連、コンテンツ非関連を達成するために使用される。 MagLiveはユーザーに余計な負担を課さず、アクティブなセンシングや専用ハードウェアに依存しない。 MagLiveの安全性とロバスト性を評価するため,各種設定による総合的な実験を行った。 以上の結果から,MagLiveは人間と攻撃者とを効果的に区別し,平均平衡精度(BAC)が99.01%,誤り率(EER)が0.77%であった。

Voice authentication has been widely used on smartphones. However, it remains vulnerable to spoofing attacks, where the attacker replays recorded voice samples from authentic humans using loudspeakers to bypass the voice authentication system. In this paper, we present MagLive, a robust voice liveness detection scheme designed for smartphones to mitigate such spoofing attacks. MagLive leverages the differences in magnetic pattern changes generated by different speakers (i.e., humans or loudspeakers) when speaking for liveness detection, which are captured by the built-in magnetometer on smartphones. To extract effective and robust magnetic features, MagLive utilizes a TF-CNN-SAF model as the feature extractor, which includes a time-frequency convolutional neural network (TF-CNN) combined with a self-attention-based fusion (SAF) model. Supervised contrastive learning is then employed to achieve user-irrelevance, device-irrelevance, and content-irrelevance. MagLive imposes no additional burden on users and does not rely on active sensing or specialized hardware. We conducted comprehensive experiments with various settings to evaluate the security and robustness of MagLive. Our results demonstrate that MagLive effectively distinguishes between humans and attackers (i.e., loudspeakers), achieving an average balanced accuracy (BAC) of 99.01% and an equal error rate (EER) of 0.77%.
翻訳日:2024-08-21 03:08:08 公開日:2024-08-17
# 一次元液滴搭載環境における分散衝撃波

Dispersive shock waves in a one-dimensional droplet-bearing environment ( http://arxiv.org/abs/2404.02998v4 )

ライセンス: Link先を確認
Sathyanarayanan Chandramouli, Simeon I. Mistakidis, Garyfallia C. Katsimiga, Panayotis G. Kevrekidis, (参考訳) 本研究では, ステップ状初期条件の助けを借りて, 量子液滴軸受環境に発生する分散衝撃波の制御可能な生成を実証する。 続く流体力学特異点の分散正則化は、平均場反発と魅力的な量子ゆらぎの競合によって生じる。 この相互作用は、音の実速と想像速度によってそれぞれ指定されるデフォーカス(双曲)と集中(楕円)の流体力学現象の優位性を示す。 具体的には、Gross-Pitaevskiiモデルの拡張対称性は、ここで用いられるリーマン問題の2つの密度と相対速度を含む3パラメータの族に導かれる。 驚くべきことに、分散衝撃波は双曲から楕円のしきい値を越えて持続する一方、レアファクテーション波、走行する分散衝撃波、(反)キンク、および液滴波列などの追加の波動パターンが出現する。 これらの特徴の分類と特徴づけは、ウィットハム変調理論を展開させることによって達成される。 この結果から, 多数の未探索コヒーレントに伝播する波形を, 魅力的な相互作用を持つ混合物中で明らかにし, 現状の実験で検出できる可能性が示唆された。

We demonstrate the controllable generation of distinct types of dispersive shock-waves emerging in a quantum droplet bearing environment with the aid of step-like initial conditions. Dispersive regularization of the ensuing hydrodynamic singularities occurs due to the competition between meanfield repulsion and attractive quantum fluctuations. This interplay delineates the dominance of defocusing (hyperbolic) and focusing (elliptic) hydrodynamic phenomena respectively being designated by real and imaginary speed of sound. Specifically, the symmetries of the extended Gross-Pitaevskii model lead to a three-parameter family, encompassing two densities and a relative velocity, of the underlying Riemann problem utilized herein. Surprisingly, dispersive shock waves persist across the hyperbolic-to-elliptic threshold, while a plethora of additional wave patterns arise, such as rarefaction waves, traveling dispersive shock waves, (anti)kinks and droplet wavetrains. The classification and characterization of these features is achieved by deploying Whitham modulation theory. Our results pave the way for unveiling a multitude of unexplored coherently propagating waveforms in such attractively interacting mixtures and should be detectable by current experiments.
翻訳日:2024-08-21 03:08:08 公開日:2024-08-17
# キャビティ量子電磁力学の量子ディジタルシミュレーション:超伝導およびトラップされたイオン量子検層からの考察

Quantum Digital Simulation of Cavity Quantum Electrodynamics: Insights from Superconducting and Trapped Ion Quantum Testbeds ( http://arxiv.org/abs/2404.03861v2 )

ライセンス: Link先を確認
Alex H. Rubin, Brian Marinelli, Victoria A. Norman, Zainab Rizvi, Ashlyn D. Burch, Ravi K. Naik, John Mark Kreikebaum, Matthew N. H. Chow, Daniel S. Lobser, Melissa C. Revelle, Christopher G. Yale, Megan Ivory, David I. Santiago, Christopher Spitzer, Marina Krstic-Marinkovic, Susan M. Clark, Irfan Siddiqi, Marina Radulaski, (参考訳) 量子コンピュータの先導的な応用は、大きなユニタリ量子システムの効率的なシミュレーションである。 この利点を、オープンなCavity Quantum Electrodynamics (CQED)システムの研究に拡張することで、多体量子光学デバイスの探索と設計に量子コンピュータを使用できる。 このようなデバイスは光量子通信、シミュレーション、計算に有望な応用がある。 本研究では,オープンなCQED物理を効率的に研究するための量子コンピュータの可能性を探究する。 我々のシミュレーションでは、損失の大きい空洞に結合したN$原子を含む一斉に励起されたTavis-Cummingsモデルの力学をマッピングする最近の量子アルゴリズムを用いている。 我々は,このアルゴリズムを2つのノイズの多い中間量子コンピュータ,超伝導プロセッサ,イオントラッププロセッサ上で実行し,N = 3$原子を含むオープンCQEDシステムの個体群動態をシミュレートした結果を報告する。 各ハードウェアプラットフォームにおけるゲートエラー,ノイズ,デコヒーレンスの影響を最小限に抑え,システムの正確な解と密接に一致する結果を得る。 これらの結果は、将来のシミュレーションアルゴリズムと新しい大規模量子プロセッサが組み合わさって、空洞量子力学を研究するための強力なツールとなることを確信する。

A leading application of quantum computers is the efficient simulation of large unitary quantum systems. Extending this advantage to the study of open Cavity Quantum Electrodynamics (CQED) systems could enable the use of quantum computers in the exploration and design of many-body quantum optical devices. Such devices have promising applications in optical quantum communication, simulation, and computing. In this work, we present an early exploration of the potential for quantum computers to efficiently investigate open CQED physics. Our simulations make use of a recent quantum algorithm that maps the dynamics of a singly excited open Tavis-Cummings model containing $N$ atoms coupled to a lossy cavity. We report the results of executing this algorithm on two noisy intermediate-scale quantum computers, a superconducting processor and a trapped ion processor, to simulate the population dynamics of an open CQED system featuring $N = 3$ atoms. By applying technology-specific transpilation and error mitigation techniques, we minimize the impact of gate errors, noise, and decoherence in each hardware platform, obtaining results which agree closely with the exact solution of the system. These results provide confidence that future simulation algorithms, combined with emerging large-scale quantum processors, can be a powerful tool for studying cavity quantum electrodynamics.
翻訳日:2024-08-21 03:08:08 公開日:2024-08-17
# 個人投資家に対するストックレコメンデーション:平均変動効率サンプリングを用いた時間グラフネットワークアプローチ

Stock Recommendations for Individual Investors: A Temporal Graph Network Approach with Mean-Variance Efficient Sampling ( http://arxiv.org/abs/2404.07223v2 )

ライセンス: Link先を確認
Youngbin Lee, Yejin Kim, Javier Sanz-Cruzado, Richard McCreadie, Yongjae Lee, (参考訳) レコメンダシステムは、複雑な金融市場において、個人が十分にインフォームドされた決定を下すのに役立つ。 多くの研究が株価の予測に力を入れているが、高度なモデルでさえ正確な予測には至っていない。 さらに、以前の研究では、個人投資家は確立した投資理論を軽視し、代わりに個人の好みを好んでいることが示されている。 これは、強い投資実績を提供するだけでなく、これらの個人の嗜好を尊重する株式レコメンデーションシステムにとっての課題である。 効果的なストックレコメンデーションシステムを構築するには、3つの重要な要素を組み込まなければならない。 1)個人の嗜好 2【ポートフォリオの多様化】 3)最初の2つの時間的ダイナミクス。 そこで本研究では,時間変化による協調的な信号の処理と多変量強調サンプリングを取り入れた新しいモデルであるPortfolio Temporal Graph Network Recommender, PfoTGNRecを提案する。 実世界の個人トレーディングデータでは,最先端の動的埋め込みモデルや既存のストックレコメンデーションモデルなど,最先端のベースラインよりも優れたパフォーマンスを示す。 実際、PfoTGNRecは顧客の好みと高いReturn-on-Investmentのポートフォリオを提案する必要性をバランスさせる効果的なソリューションであることを示す。 ソースコードとデータはhttps://anonymous.4open.science/r/ICAIF2024-E23Eで公開されている。

Recommender systems can be helpful for individuals to make well-informed decisions in complex financial markets. While many studies have focused on predicting stock prices, even advanced models fall short of accurately forecasting them. Additionally, previous studies indicate that individual investors often disregard established investment theories, favoring their personal preferences instead. This presents a challenge for stock recommendation systems, which must not only provide strong investment performance but also respect these individual preferences. To create effective stock recommender systems, three critical elements must be incorporated: 1) individual preferences, 2) portfolio diversification, and 3) the temporal dynamics of the first two. In response, we propose a new model, Portfolio Temporal Graph Network Recommender, PfoTGNRec, which can handle time-varying collaborative signals and incorporates diversification-enhancing sampling. On real-world individual trading data, our approach demonstrates superior performance compared to state-of-the-art baselines, including cutting-edge dynamic embedding models and existing stock recommendation models. Indeed, we show that PfoTGNRec is an effective solution that can balance customer preferences with the need to suggest portfolios with high Return-on-Investment. The source code and data are available at https://anonymous.4open.science/r/ICAIF2024-E23E.
翻訳日:2024-08-21 03:08:08 公開日:2024-08-17
# 事前処理の課題:WSI分類のためのセグメント探索法

Pre-processing matters: A segment search method for WSI classification ( http://arxiv.org/abs/2404.11161v2 )

ライセンス: Link先を確認
Jun Wang, Yufei Cui, Yu Mao, Nan Guan, Chun Jason Xue, (参考訳) スライド画像全体(WSI)の事前処理は、分類性能に影響を及ぼす可能性がある。 本研究は,ドメイン外WSIの事前処理に固定されたハイパーパラメータを用いることで,性能が著しく低下することを示す。 したがって、推論中にドメイン固有のハイパーパラメータを探索することが重要である。 しかし,最適パラメータ集合の探索には時間を要する。 そこで本研究では,SSAPTを提案する。新しい類似性に基づくSimulated Annealingアプローチにより,パラメータチューニングを高速化し,ドメイン外データに対する推論性能を向上させる。 提案したSSAPTは,平均パラメータ探索速度の5倍から50倍の精度向上を実現している。

Pre-processing whole slide images (WSIs) can impact classification performance. Our study shows that using fixed hyper-parameters for pre-processing out-of-domain WSIs can significantly degrade performance. Therefore, it is critical to search domain-specific hyper-parameters during inference. However, searching for an optimal parameter set is time-consuming. To overcome this, we propose SSAPT, a novel Similarity-based Simulated Annealing approach for fast parameter tuning to enhance inference performance on out-of-domain data. The proposed SSAPT achieves 5\% to 50\% improvement in accuracy with $\times5$ times faster parameter searching speed on average.
翻訳日:2024-08-21 02:58:10 公開日:2024-08-17
# iRAG: インクリメンタルアプローチによるビデオのRAG向上

iRAG: Advancing RAG for Videos with an Incremental Approach ( http://arxiv.org/abs/2404.12309v2 )

ライセンス: Link先を確認
Md Adnan Arefeen, Biplob Debnath, Md Yusuf Sarwar Uddin, Srimat Chakradhar, (参考訳) Retrieval-augmented Generation (RAG) システムは、言語生成と情報検索の強みを組み合わせて、チャットボットのような現実世界の多くのアプリケーションに電力を供給する。 ビデオの理解にRAGを使うことは魅力的だが、2つの重要な制限がある。 大規模なビデオコーパス内のすべてのコンテンツをテキスト記述に一回、前もって変換することは、高い処理時間を必要とする。 また、リッチなビデオデータの全ての情報が典型的にはテキスト記述に記録されるわけではない。 ユーザクエリはアプリオリではないため、ビデオからテキストへの変換やビデオデータの対話的クエリを行うシステムの開発は困難である。 これらの制約に対処するため,ビデオコーパスの対話的クエリを可能にするために,新しいインクリメンタルワークフローでRAGを拡張するiRAGと呼ばれるインクリメンタルRAGシステムを提案する。 従来のRAGとは異なり、iRAGはビデオの大規模なリポジトリを素早くインデクシングし、インクリメンタルワークフローでは、インデクシングを使用してビデオのセレクション部分からより多くの詳細を抽出し、インタラクティブなユーザクエリに関連するコンテキストを検索する。 このようなインクリメンタルなワークフローは、長いビデオからテキストへの変換時間を回避し、ビデオデータのオンデマンドクエリ固有の詳細抽出を行うことで、ビデオからテキストへの変換による情報損失問題を克服する。 これにより、しばしばAprioriを知らない対話型ユーザクエリに対する高い品質の応答が保証される。 我々の知る限り、iRAGはRAGをインクリメンタルワークフローで拡張する最初のシステムであり、大規模なビデオコーパスの効率的なインタラクティブクエリをサポートする。 実世界のデータセットの実験結果は、テキストの取り込みが23倍から25倍速く、対話型ユーザクエリに対する応答のレイテンシと品質が、ユーザのクエリの前にすべてのビデオデータがテキストに変換される従来のRAGの応答に匹敵することを保証する。

Retrieval-augmented generation (RAG) systems combine the strengths of language generation and information retrieval to power many real-world applications like chatbots. Use of RAG for understanding of videos is appealing but there are two critical limitations. One-time, upfront conversion of all content in large corpus of videos into text descriptions entails high processing times. Also, not all information in the rich video data is typically captured in the text descriptions. Since user queries are not known apriori, developing a system for video to text conversion and interactive querying of video data is challenging. To address these limitations, we propose an incremental RAG system called iRAG, which augments RAG with a novel incremental workflow to enable interactive querying of a large corpus of videos. Unlike traditional RAG, iRAG quickly indexes large repositories of videos, and in the incremental workflow, it uses the index to opportunistically extract more details from select portions of the videos to retrieve context relevant to an interactive user query. Such an incremental workflow avoids long video to text conversion times, and overcomes information loss issues due to conversion of video to text, by doing on-demand query-specific extraction of details in video data. This ensures high quality of responses to interactive user queries that are often not known apriori. To the best of our knowledge, iRAG is the first system to augment RAG with an incremental workflow to support efficient interactive querying of a large corpus of videos. Experimental results on real-world datasets demonstrate 23x to 25x faster video to text ingestion, while ensuring that latency and quality of responses to interactive user queries is comparable to responses from a traditional RAG where all video data is converted to text upfront before any user querying.
翻訳日:2024-08-21 02:58:10 公開日:2024-08-17
# 畳み込みニューラルネットワークを用いた粘弾性乱流流中の流れと弾性応力の予測

Prediction of flow and elastic stresses in a viscoelastic turbulent channel flow using convolutional neural networks ( http://arxiv.org/abs/2404.14121v2 )

ライセンス: Link先を確認
Arivazhagan G. Balasubramanian, Ricardo Vinuesa, Outi Tammisola, (参考訳) 粘弾性乱流における壁面近傍の瞬時流れの予測にはニューラルネットワークモデルが用いられている。 壁面における数値シミュレーションデータを用いて,バッファ領域内の3つの壁面正規位置における瞬時速度変動と高分子ストレス変動を予測する。 非侵入予測の能力は、非ニュートン乱流では以前にも研究されていない。 粘弾性乱流における壁面計測から速度変動をよく予測できることを示す。 これらのモデルでは、冬眠間隔における興味の量の予測精度が向上し、低抵抗事象における基礎物理学の深い理解が促進された。 ニューラルネットワークモデルはまた、与えられた壁の通常の位置におけるポリマーの応力とポリマーの応力の痕跡を予測する上で、合理的に優れた精度を示す。 この方法は、フロー制御や、実験(例えば不透明流体)からの壁情報しか利用できない場合にも使用できる。 さらに重要なことは、速度と圧力のみを実験的に測定できるのに対し、高分子の伸長と配向は乱流力学において重要であるにもかかわらず直接測定できないことである。 そこで, 粘弾性乱流の速度・圧力測定から高分子-応力場を再構築する可能性について検討した。 その結果, 入力速度場における微小スケールの欠如により, 高分子へのエネルギー移動速度が変化し, 高分子-応力変動の予測に影響を及ぼす可能性が示唆された。 本手法は, 高分子ストレス情報を抽出するだけでなく, 粘弾性乱流の速度場と高分子ストレス情報を関連付ける。

Neural-network models have been employed to predict the instantaneous flow close to the wall in a viscoelastic turbulent channel flow. Numerical simulation data at the wall is utilized to predict the instantaneous velocity-fluctuations and polymeric-stress-fluctuations at three different wall-normal positions in the buffer region. The ability of non-intrusive predictions has not been previously investigated in non-Newtonian turbulence. Our analysis shows that velocity-fluctuations are predicted well from wall measurements in viscoelastic turbulence. The models exhibit enhanced accuracy in predicting quantities of interest during the hibernation intervals, facilitating a deeper understanding of the underlying physics during low-drag events. The neural-network models also demonstrate a reasonably good accuracy in predicting polymeric-shear stress and the trace of the polymer stress at a given wall-normal location. This method could be used in flow control or when only wall information is available from experiments (for example, in opaque fluids). More importantly, only velocity and pressure information can be measured experimentally, while polymeric elongation and orientation cannot be directly measured despite their importance for turbulent dynamics. We therefore study the possibility to reconstruct the polymeric-stress fields from velocity or pressure measurements in viscoelastic turbulent flows. The results are promising but also underline that a lack of small scales in the input velocity fields can alter the rate of energy transfer from flow to polymers, affecting the prediction of the polymer-stress fluctuations. The present approach not only aids in extracting polymeric-stress information but also gives information about the link between polymeric-stress and velocity fields in viscoelastic turbulence.
翻訳日:2024-08-21 02:58:10 公開日:2024-08-17
# スプリット・インデックス行列積状態における非オンサイト対称性と量子テレポーテーション

Non-onsite symmetries and quantum teleportation in split-index matrix product states ( http://arxiv.org/abs/2404.15883v2 )

ライセンス: Link先を確認
David T. Stephen, (参考訳) 我々は、新しい物理的および計算的性質を持つスピン鎖のクラスを記述する。 物理的側面において、スピン鎖は非オンサイト対称性によって定義される対称性で保護された位相位相の例を与える。 これらの位相は弦順パラメータによって検出できるが、特に絡み合いスペクトルの縮退は示さない。 計算側では、スピン鎖は、必要な古典的側処理が測定結果の非線形関数であるという新しい性質により、長距離にわたって決定論的に情報をテレポートするために使用できる新しい種類の状態を表す。 また、測定に基づく量子計算の普遍的な資源として機能しうる状態の例を示し、絡み合いスペクトルの縮退を伴わずにそのような資源の最初の例を提供する。 我々の分析における重要なツールは、スプリットインデックス行列積状態(SIMPS)と呼ばれる新しいテンソルネットワーク表現である。 我々は、SIMPSの基本形式を開発し、それらを行列積状態と比較し、異常対称性を含む特定の非オンサイト対称性を記述するのにどのように適しているかを示し、量子テレポーテーションや制約されたスピン鎖を記述するのにどのように適しているかを議論する。

We describe a class of spin chains with new physical and computational properties. On the physical side, the spin chains give examples of symmetry-protected topological phases that are defined by non-onsite symmetries, i.e. symmetries that are not a tensor product of single-site operators. These phases can be detected by string-order parameters, but notably do not exhibit entanglement spectrum degeneracy. On the computational side, the spin chains represent a new class of states that can be used to deterministically teleport information across long distances, with the novel property that the necessary classical side processing is a non-linear function of the measurement outcomes. We also give examples of states that can serve as universal resources for measurement-based quantum computation, providing the first examples of such resources without entanglement spectrum degeneracy. The key tool in our analysis is a new kind of tensor network representation which we call split-index matrix product states (SIMPS). We develop the basic formalism of SIMPS, compare them to matrix product states, show how they are better equipped to describe certain kinds of non-onsite symmetries including anomalous symmetries, and discuss how they are also well-suited to describing quantum teleportation and constrained spin chains.
翻訳日:2024-08-21 02:58:10 公開日:2024-08-17
# HookChain: EDRソリューションをバイパスする新しい視点

HookChain: A new perspective for Bypassing EDR Solutions ( http://arxiv.org/abs/2404.16856v3 )

ライセンス: Link先を確認
Helvio Carvalho Junior, (参考訳) 脅威が急速に複雑化する現在のデジタルセキュリティエコシステムでは、エンドポイント検出と応答(EDR)ソリューションを開発している企業は、追いつくだけでなく、新たな攻撃ベクトルも期待するイノベーションを常に探している。 本稿では、HookChainを紹介する。HookChainは、広く知られている技術から見て、従来のEDRシステムに対する高度な回避レイヤーを提供するものである。 IAT Hookingテクニック、動的SSN解像度、間接システムコールの正確な組み合わせにより、HookChainはWindowsサブシステムの実行フローを、Ntdll.dllにのみ作用するEDRの警戒的な目からは見えない方法でリダイレクトする。 この作業は、サイバーセキュリティの現在の慣例に挑戦するだけでなく、デジタルセキュリティの有効性の鍵となる継続的進化の理解を生かして、将来の保護戦略への有望な道に光を当てている。 HookChain技術の開発と探索により、この研究はエンドポイントセキュリティにおける知識の体系に大きく貢献し、デジタル脅威の絶え間なく変化するダイナミクスに効果的に対処できる、より堅牢で適応的なソリューションの開発を刺激する。 この研究は、常に敵に先立ついくつかのステップであるセキュリティ技術の研究と開発に深い反映と進歩を刺激することを目的としています。

In the current digital security ecosystem, where threats evolve rapidly and with complexity, companies developing Endpoint Detection and Response (EDR) solutions are in constant search for innovations that not only keep up but also anticipate emerging attack vectors. In this context, this article introduces the HookChain, a look from another perspective at widely known techniques, which when combined, provide an additional layer of sophisticated evasion against traditional EDR systems. Through a precise combination of IAT Hooking techniques, dynamic SSN resolution, and indirect system calls, HookChain redirects the execution flow of Windows subsystems in a way that remains invisible to the vigilant eyes of EDRs that only act on Ntdll.dll, without requiring changes to the source code of the applications and malwares involved. This work not only challenges current conventions in cybersecurity but also sheds light on a promising path for future protection strategies, leveraging the understanding that continuous evolution is key to the effectiveness of digital security. By developing and exploring the HookChain technique, this study significantly contributes to the body of knowledge in endpoint security, stimulating the development of more robust and adaptive solutions that can effectively address the ever-changing dynamics of digital threats. This work aspires to inspire deep reflection and advancement in the research and development of security technologies that are always several steps ahead of adversaries.
翻訳日:2024-08-21 02:58:10 公開日:2024-08-17
# 等変極小学習機械による部分微分方程式の解法

Solving Partial Differential Equations with Equivariant Extreme Learning Machines ( http://arxiv.org/abs/2404.18530v5 )

ライセンス: Link先を確認
Hans Harder, Jean Rabault, Ricardo Vinuesa, Mikael Mortensen, Sebastian Peitz, (参考訳) 偏微分方程式(PDE)の予測に極端学習機を用いる。 提案手法では,状態空間を複数のウィンドウに分割し,一つのモデルを用いて個別に予測する。 少数のデータポイントしか必要とせず(場合によっては、我々の手法は1つのフルステートスナップショットから学習することができる)、高い精度でPDEのフローを予測できる。 さらに, サンプル効率を高め, 等式を強制するために, 追加の対称性をいかに活用できるかを示す。

We utilize extreme-learning machines for the prediction of partial differential equations (PDEs). Our method splits the state space into multiple windows that are predicted individually using a single model. Despite requiring only few data points (in some cases, our method can learn from a single full-state snapshot), it still achieves high accuracy and can predict the flow of PDEs over long time horizons. Moreover, we show how additional symmetries can be exploited to increase sample efficiency and to enforce equivariance.
翻訳日:2024-08-21 02:58:10 公開日:2024-08-17
# CodeHalu: 実行ベースの検証によるLLMにおけるコード幻覚の調査

CodeHalu: Investigating Code Hallucinations in LLMs via Execution-based Verification ( http://arxiv.org/abs/2405.00253v3 )

ライセンス: Link先を確認
Yuchen Tian, Weixiang Yan, Qian Yang, Xuandong Zhao, Qian Chen, Wen Wang, Ziyang Luo, Lei Ma, Dawn Song, (参考訳) 大規模言語モデル(LLM)はコード生成において大きな進歩を遂げており、開発者は自動プログラミングのサポートを画期的なものにしている。 しかし、LLMは構文的に正しいコードを生成することが多く、意味的にも妥当である。 コード領域におけるこの幻覚の現象は、体系的に研究されていない。 この問題に対するコミュニティの理解と研究を進めるために,コード幻覚の概念を導入し,実行検証に基づくコード幻覚の分類手法を提案する。 コード幻覚は、マッピング、命名、リソース、論理幻覚の4つの主なタイプに分類し、各カテゴリは、より粒度の細かいコード生成においてLLMが直面する固有の課題を理解し、対処するために、さらに異なるサブカテゴリに分けられる。 さらに,コード幻覚の検出と定量化を目的とした,CodeHaluと呼ばれる動的検出アルゴリズムを提案する。 また、699のタスクから8,883のサンプルを含むCodeHaluEvalベンチマークを導入し、コードの幻覚を体系的に定量的に評価する。 このベンチマークを用いて17の人気のあるLCMを評価し,その精度とコード生成の信頼性に大きな違いを明らかにし,LCMのコード生成能力を改善するための詳細な知見を提供する。 CodeHaluベンチマークとコードはhttps://github.com/yuchen814/CodeHaluで公開されている。

Large Language Models (LLMs) have made significant progress in code generation, offering developers groundbreaking automated programming support. However, LLMs often generate code that is syntactically correct and even semantically plausible, but may not execute as expected or fulfill specified requirements. This phenomenon of hallucinations in the code domain has not been systematically explored. To advance the community's understanding and research on this issue, we introduce the concept of code hallucinations and propose a classification method for code hallucination based on execution verification. We categorize code hallucinations into four main types: mapping, naming, resource, and logic hallucinations, with each category further divided into different subcategories to understand and address the unique challenges faced by LLMs in code generation with finer granularity. Additionally, we present a dynamic detection algorithm called CodeHalu designed to detect and quantify code hallucinations. We also introduce the CodeHaluEval benchmark, which includes 8,883 samples from 699 tasks, to systematically and quantitatively evaluate code hallucinations. By evaluating 17 popular LLMs using this benchmark, we reveal significant differences in their accuracy and reliability in code generation, offering detailed insights for further improving the code generation capabilities of LLMs. The CodeHalu benchmark and code are publicly available at https://github.com/yuchen814/CodeHalu.
翻訳日:2024-08-21 02:48:22 公開日:2024-08-17
# MEDVOC:医学テキスト要約に基づく微調整事前学習言語モデルの語彙適応

MEDVOC: Vocabulary Adaptation for Fine-tuning Pre-trained Language Models on Medical Text Summarization ( http://arxiv.org/abs/2405.04163v2 )

ライセンス: Link先を確認
Gunjan Balde, Soumyadeep Roy, Mainack Mondal, Niloy Ganguly, (参考訳) 本研究は,BertSumAbs,BART,PEGASUSなどの微調整済み言語モデル(PLM)のための動的語彙適応戦略であるMEDVOCを提案する。 要約における既存のドメイン適応アプローチとは対照的に、MEDVOCは語彙を最適化可能なパラメータとして扱い、下流タスクの参照要約にのみ条件付きフラグメントスコアに基づいてPLM語彙を最適化する。 語彙適応に関する従来の研究(分類タスクのみに限る)とは異なり、要約タスクに基づく語彙の最適化には、大規模な要約データセットにおいて非常にコストのかかる中間調整ステップが必要である。 そのために、新しい断片スコアに基づくハイパーパラメーターサーチは、この微調整時間を平均450日から2日未満に大幅に短縮する。 さらに、語彙適応に関する以前の研究は、主に単一のPLMに結びついているが、MEDVOCは複数のPLMにまたがるデプロイが可能なように設計されている(様々なモデル語彙サイズ、事前学習目的、モデルサイズ)。 MEDVOCはゼロショット設定でルージュ-Lのベースラインを15.74%上回り、高いOf-ボキャブラリ(OOV)濃度で17.29%の上昇を示した。 MEDVOCはより忠実な医療サマリー(ベースラインの59%に比べて88%)を産み出す。 コードベースはhttps://github.com/gb-kgp/MEDVOC.comで公開しています。

This work presents a dynamic vocabulary adaptation strategy, MEDVOC, for fine-tuning pre-trained language models (PLMs) like BertSumAbs, BART, and PEGASUS for improved medical text summarization. In contrast to existing domain adaptation approaches in summarization, MEDVOC treats vocabulary as an optimizable parameter and optimizes the PLM vocabulary based on fragment score conditioned only on the downstream task's reference summaries. Unlike previous works on vocabulary adaptation (limited only to classification tasks), optimizing vocabulary based on summarization tasks requires an extremely costly intermediate fine-tuning step on large summarization datasets. To that end, our novel fragment score-based hyperparameter search very significantly reduces this fine-tuning time -- from 450 days to less than 2 days on average. Furthermore, while previous works on vocabulary adaptation are often primarily tied to single PLMs, MEDVOC is designed to be deployable across multiple PLMs (with varying model vocabulary sizes, pre-training objectives, and model sizes) -- bridging the limited vocabulary overlap between the biomedical literature domain and PLMs. MEDVOC outperforms baselines by 15.74% in terms of Rouge-L in zero-shot setting and shows gains of 17.29% in high Out-Of-Vocabulary (OOV) concentrations. Our human evaluation shows MEDVOC generates more faithful medical summaries (88% compared to 59% in baselines). We make the codebase publicly available at https://github.com/gb-kgp/MEDVOC.
翻訳日:2024-08-21 02:48:22 公開日:2024-08-17
# 解釈可能で説明可能なAIのためのデータサイエンスの原則

Data Science Principles for Interpretable and Explainable AI ( http://arxiv.org/abs/2405.10552v2 )

ライセンス: Link先を確認
Kris Sankaran, (参考訳) アルゴリズムによる問題解決のための社会の能力は、かつてないほど大きくなった。 人工知能は、強力な抽象化、豊富なデータ、アクセス可能なソフトウェアの結果、これまで以上に多くのドメインに適用されている。 能力が拡大するにつれて、モデルが潜在的な影響を完全に理解せずにデプロイされることがしばしばあります。 解釈可能な対話型機械学習は、複雑なモデルをより透明でコントロールし、ユーザエージェンシーを強化することを目的としている。 本論は, この分野における文献の発達から重要な原則を合成するものである。 まず、ガラス箱と説明可能なモデルの区別など、解釈可能性について議論するための正確な語彙を導入する。 そして、古典的な統計学とデザインの原理、例えばパシモニーや相互作用の群れとの関係を探求する。 学習した埋め込み、統合された勾配、概念のボトルネックなど、基本的な説明可能性のテクニックは、簡単なケーススタディで説明されます。 また,解釈可能性のアプローチを客観的に評価するための基準についても検討した。 全体として、インタラクティブなデータ駆動システムの設計において、オーディエンス目標を考えることの重要性を強調している。 最後に、オープンな課題の概要と、それに対応する上でのデータサイエンスが果たす役割について論じる。 すべての例を再現するコードは、https://go.wisc.edu/3k1ewe.orgにある。

Society's capacity for algorithmic problem-solving has never been greater. Artificial Intelligence is now applied across more domains than ever, a consequence of powerful abstractions, abundant data, and accessible software. As capabilities have expanded, so have risks, with models often deployed without fully understanding their potential impacts. Interpretable and interactive machine learning aims to make complex models more transparent and controllable, enhancing user agency. This review synthesizes key principles from the growing literature in this field. We first introduce precise vocabulary for discussing interpretability, like the distinction between glass box and explainable models. We then explore connections to classical statistical and design principles, like parsimony and the gulfs of interaction. Basic explainability techniques -- including learned embeddings, integrated gradients, and concept bottlenecks -- are illustrated with a simple case study. We also review criteria for objectively evaluating interpretability approaches. Throughout, we underscore the importance of considering audience goals when designing interactive data-driven systems. Finally, we outline open challenges and discuss the potential role of data science in addressing them. Code to reproduce all examples can be found at https://go.wisc.edu/3k1ewe.
翻訳日:2024-08-21 02:48:22 公開日:2024-08-17
# オフラインモデルに基づく最適化のための設計編集

Design Editing for Offline Model-based Optimization ( http://arxiv.org/abs/2405.13964v3 )

ライセンス: Link先を確認
Ye Yuan, Youyuan Zhang, Can Chen, Haolun Wu, Zixuan Li, Jianmo Li, James J. Clark, Xue Liu, (参考訳) オフラインモデルベース最適化(MBO)は、デザインとスコアのオフラインデータセットのみを使用してブラックボックスの目的関数を最大化することを目的としている。 これらのタスクは、ロボット工学、材料設計、タンパク質や分子工学など、さまざまな領域にまたがる。 一般的なアプローチは、既存の設計とその対応するスコアを使用して代理モデルをトレーニングし、その後、代理モデルに関する勾配ベースの更新を通じて新しい設計を生成することである。 この手法は、サロゲートモデルが見当たらない設計の高得点を誤って予測する、アウト・オブ・ディストリビューションの問題に悩まされる。 この課題に対処するために、過度に最適化された設計を校正する前に拡散を利用する新しい手法DEMO(Design Editing for Offline Model-based Optimization)を導入する。 DEMOはまず、サロゲートモデルに対して勾配上昇を行い、擬似設計候補を生成する。 そして、ノイズを導入してこれらの擬似設計候補を洗練させ、その後、オフラインデータセットで事前に訓練された拡散をデノベートし、有効な設計の分布に整合することを保証する。 本稿では、DEMOが生成した最終最適化設計とオフラインデータセットの事前分布との差が、編集過程中に注入されるノイズによって制御されることを示す。 7つのオフラインMBOタスクに対する実証的な評価は、DEMOが様々なベースライン法より優れており、最高ランク2.1、中央ランク1を達成していることを示している。

Offline model-based optimization (MBO) aims to maximize a black-box objective function using only an offline dataset of designs and scores. These tasks span various domains, such as robotics, material design, and protein and molecular engineering. A common approach involves training a surrogate model using existing designs and their corresponding scores, and then generating new designs through gradient-based updates with respect to the surrogate model. This method suffers from the out-of-distribution issue, where the surrogate model may erroneously predict high scores for unseen designs. To address this challenge, we introduce a novel method, Design Editing for Offline Model-based Optimization} (DEMO), which leverages a diffusion prior to calibrate overly optimized designs. DEMO first generates pseudo design candidates by performing gradient ascent with respect to a surrogate model. Then, an editing process refines these pseudo design candidates by introducing noise and subsequently denoising them with a diffusion prior trained on the offline dataset, ensuring they align with the distribution of valid designs. We provide a theoretical proof that the difference between the final optimized designs generated by DEMO and the prior distribution of the offline dataset is controlled by the noise injected during the editing process. Empirical evaluations on seven offline MBO tasks show that DEMO outperforms various baseline methods, achieving the highest mean rank of 2.1 and a median rank of 1.
翻訳日:2024-08-21 02:38:38 公開日:2024-08-17
# AI言語モデルとしての"Yes I Recommend Calling the Police" : LLM意思決定におけるノームの不整合

As an AI Language Model, "Yes I Would Recommend Calling the Police": Norm Inconsistency in LLM Decision-Making ( http://arxiv.org/abs/2405.14812v2 )

ライセンス: Link先を確認
Shomik Jain, D Calacci, Ashia Wilson, (参考訳) 我々は,LLMが同様の状況において異なる規範を適用しているノルムの不整合現象について検討する。 具体的には、Amazon Ringのホーム監視ビデオで警察を呼ぶかどうかを決める、リスクの高いアプリケーションに焦点を当てます。 GPT-4, Gemini 1.0, Claude 3 Sonnetの3つの最先端LCMの判断は, 映像に描かれた活動, 被験者の肌色, 性別, 映像が記録された地区の特徴と関連して評価した。 分析の結果,(1)警察に通報する勧告と犯罪行為の実態との間には不一致がみられ,(2)地区の人口動態に左右される偏見がみられた。 これらの結果は、監視文脈におけるモデル決定の任意性や、規範的意思決定における現在のバイアス検出と緩和戦略の限界を浮き彫りにする。

We investigate the phenomenon of norm inconsistency: where LLMs apply different norms in similar situations. Specifically, we focus on the high-risk application of deciding whether to call the police in Amazon Ring home surveillance videos. We evaluate the decisions of three state-of-the-art LLMs -- GPT-4, Gemini 1.0, and Claude 3 Sonnet -- in relation to the activities portrayed in the videos, the subjects' skin-tone and gender, and the characteristics of the neighborhoods where the videos were recorded. Our analysis reveals significant norm inconsistencies: (1) a discordance between the recommendation to call the police and the actual presence of criminal activity, and (2) biases influenced by the racial demographics of the neighborhoods. These results highlight the arbitrariness of model decisions in the surveillance context and the limitations of current bias detection and mitigation strategies in normative decision-making.
翻訳日:2024-08-21 02:38:38 公開日:2024-08-17
# DP-IQA:野生のブラインド画像品質評価に先立って拡散を利用する

DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild ( http://arxiv.org/abs/2405.19996v4 )

ライセンス: Link先を確認
Honghao Fu, Yufei Wang, Wenhan Yang, Bihan Wen, (参考訳) 複雑な精度の歪みと参照画像のない画像の品質を評価する、野生におけるブラインド画像品質評価(IQA)は、重大な課題を提示する。 大規模なトレーニングデータの収集が困難であることを考えると、厳密な一般化モデルを開発するために限られたデータを活用することは、未解決の問題である。 事前訓練されたテキスト・ツー・イメージ(T2I)拡散モデルのロバストな画像認識能力により、新しいIQA法、拡散優先型IQA(DP-IQA)を提案し、T2Iモデルの先行特性を利用して性能と一般化能力を向上させる。 具体的には、トレーニング済みの安定拡散をバックボーンとして利用し、調整可能なテキストアダプタを介し、組込みを急がせることで案内されるデノナイズU-Netからマルチレベル特徴を抽出する。 同時に、画像アダプタは、失われた事前学習エンコーダによって導入された情報損失を補償する。 完全な画像分布モデリングを必要とするT2Iモデルとは異なり、本手法は本質的に少ないパラメータを必要とする画像品質評価をターゲットにしている。 適用性を向上させるために,我々は知識を軽量CNNベースの学生モデルに抽出し,一般化性能の維持や向上を図りながらパラメータを著しく削減する。 実験結果から,DP-IQA は様々な組込みデータセット上で最先端の性能を達成し,盲点IQA タスクにおける T2I 先行処理の優れた一般化能力を強調した。 我々の知る限り、DP-IQAは、ブラインドIQAに事前訓練された拡散先を適用するための最初の方法である。 コードとチェックポイントはhttps://github.com/RomGai/DP-IQA.comで入手できる。

Blind image quality assessment (IQA) in the wild, which assesses the quality of images with complex authentic distortions and no reference images, presents significant challenges. Given the difficulty in collecting large-scale training data, leveraging limited data to develop a model with strong generalization remains an open problem. Motivated by the robust image perception capabilities of pre-trained text-to-image (T2I) diffusion models, we propose a novel IQA method, diffusion priors-based IQA (DP-IQA), to utilize the T2I model's prior for improved performance and generalization ability. Specifically, we utilize pre-trained Stable Diffusion as the backbone, extracting multi-level features from the denoising U-Net guided by prompt embeddings through a tunable text adapter. Simultaneously, an image adapter compensates for information loss introduced by the lossy pre-trained encoder. Unlike T2I models that require full image distribution modeling, our approach targets image quality assessment, which inherently requires fewer parameters. To improve applicability, we distill the knowledge into a lightweight CNN-based student model, significantly reducing parameters while maintaining or even enhancing generalization performance. Experimental results demonstrate that DP-IQA achieves state-of-the-art performance on various in-the-wild datasets, highlighting the superior generalization capability of T2I priors in blind IQA tasks. To our knowledge, DP-IQA is the first method to apply pre-trained diffusion priors in blind IQA. Codes and checkpoints are available at https://github.com/RomGai/DP-IQA.
翻訳日:2024-08-21 02:38:38 公開日:2024-08-17
# Open Ko-LLM Leaderboard:Ko-H5ベンチマークによる韓国の大規模言語モデルの評価

Open Ko-LLM Leaderboard: Evaluating Large Language Models in Korean with Ko-H5 Benchmark ( http://arxiv.org/abs/2405.20574v2 )

ライセンス: Link先を確認
Chanjun Park, Hyeonwoo Kim, Dahyun Kim, Seonghwan Cho, Sanghoon Kim, Sukyung Lee, Yungi Kim, Hwalsuk Lee, (参考訳) 本稿では,韓国の大規模言語モデル(LLM)を評価する上で重要なツールとして,Open Ko-LLM LeaderboardとKo-H5ベンチマークを紹介する。 英語のOpen LLM Leaderboardを反映しながらプライベートテストセットを組み込むことで、韓国のLLMコミュニティによく統合された堅牢な評価フレームワークを確立する。 我々は、Ko-H5ベンチマーク内の相関調査とKo-H5スコアの時間的解析とともに、プライベートテストセットの利点を示すデータ漏洩解析を行う。 さらに、設定されたベンチマークを超えて拡張する必要性を実証的に支援する。 Open Ko-LLM Leaderboardは、LLMの評価を拡大し、より言語的な多様性を育むための先例となることを願っている。

This paper introduces the Open Ko-LLM Leaderboard and the Ko-H5 Benchmark as vital tools for evaluating Large Language Models (LLMs) in Korean. Incorporating private test sets while mirroring the English Open LLM Leaderboard, we establish a robust evaluation framework that has been well integrated in the Korean LLM community. We perform data leakage analysis that shows the benefit of private test sets along with a correlation study within the Ko-H5 benchmark and temporal analyses of the Ko-H5 score. Moreover, we present empirical support for the need to expand beyond set benchmarks. We hope the Open Ko-LLM Leaderboard sets precedent for expanding LLM evaluation to foster more linguistic diversity.
翻訳日:2024-08-21 02:38:38 公開日:2024-08-17
# クラウドデバイス協調によるバックプロパゲーションフリーマルチモーダルオンデバイスモデル適応

Backpropagation-Free Multi-modal On-Device Model Adaptation via Cloud-Device Collaboration ( http://arxiv.org/abs/2406.01601v2 )

ライセンス: Link先を確認
Wei Ji, Li Li, Zheqi Lv, Wenqiao Zhang, Mengze Li, Zhen Wan, Wenqiang Lei, Roger Zimmermann, (参考訳) インテリジェントなデバイスが継続的に、パーソナライズされたパーソナライズされたマルチモーダルデータを蓄積している、ますます相互接続する世界では、高品質でパーソナライズされたデバイス対応サービスを提供するためのプレッシャーが生まれます。 しかし、この取り組みは、主にクラウドに根ざした人工知能(AI)システムに、多面的な挑戦をもたらす。 これらのシステムは、クラウドとデバイス間のデータ分散のシフトに対応しているため、ファインチューニングベースの適応(FTA)の従来のアプローチには、FTAが要求するコストと時間を要するデータアノテーションと、モデルオーバーフィッティングの略奪的なリスクがある。 これらの課題を克服するため、我々はUniversal On-Device Multi-modal Model Adaptation Frameworkを導入する。 このフレームワークは、クラウドにホストされるFast Domain Adaptor(FDA)を特徴とし、デバイス上の軽量マルチモーダルモデル用に調整されたパラメータを提供する。 マルチモーダルタスク間の適応性を高めるため、ADR(AnchorFrame Distribution Reasoner)は通信コストを最小化する。 クラウド・デバイス・コラボレーション・マルチモーダルパラメータ生成(CDC-MMPG)フレームワークにカプセル化されている当社のコントリビューションは、オン・デバイス・マルチモーダル・モデル適応(DMMA)の先駆的なソリューションである。 特にビデオ質問応答と検索タスクにおいて,我々の日常生活におけるインテリジェントデバイスの統合を推進し,本手法の有効性と有効性を検証する。

In our increasingly interconnected world, where intelligent devices continually amass copious personalized multi-modal data, a pressing need arises to deliver high-quality, personalized device-aware services. However, this endeavor presents a multifaceted challenge to prevailing artificial intelligence (AI) systems primarily rooted in the cloud. As these systems grapple with shifting data distributions between the cloud and devices, the traditional approach of fine-tuning-based adaptation (FTA) exists the following issues: the costly and time-consuming data annotation required by FTA and the looming risk of model overfitting. To surmount these challenges, we introduce a Universal On-Device Multi-modal Model Adaptation Framework, revolutionizing on-device model adaptation by striking a balance between efficiency and effectiveness. The framework features the Fast Domain Adaptor (FDA) hosted in the cloud, providing tailored parameters for the Lightweight Multi-modal Model on devices. To enhance adaptability across multi-modal tasks, the AnchorFrame Distribution Reasoner (ADR) minimizes communication costs. Our contributions, encapsulated in the Cloud-Device Collaboration Multi-modal Parameter Generation (CDC-MMPG) framework, represent a pioneering solution for on-Device Multi-modal Model Adaptation (DMMA). Extensive experiments validate the efficiency and effectiveness of our method, particularly in video question answering and retrieval tasks, driving forward the integration of intelligent devices into our daily lives.
翻訳日:2024-08-21 02:38:38 公開日:2024-08-17
# GenAI著作権問題に対処する:オリジナル性の推定と生成

Tackling GenAI Copyright Issues: Originality Estimation and Genericization ( http://arxiv.org/abs/2406.03341v3 )

ライセンス: Link先を確認
Hiroaki Chiba-Okabe, Weijie J. Su, (参考訳) 生成AI技術の急速な進歩は、重要な著作権上の懸念を引き起こし、AI開発者に対する数多くの訴訟を引き起こした。 著作権問題を緩和するための様々な技術が研究されているが、重大なリスクは残されている。 本稿では、生成モデルの出力を一般化し、著作権を侵害しにくくする汎用化手法を提案する。 これを実現するために、法的な枠組みと整合した方法でデータの独創性のレベルを定量化する指標を導入する。 この計量は、生成モデルからサンプルを抽出し、一般化過程に使用することにより、実際に推定することができる。 そこで本研究では,ジェネリゼーション手法と既存の緩和手法を組み合わせたPrepreGenを紹介する。 提案手法は,テキストから画像への生成モデルの出力を改良し,より汎用的で著作権に適合した画像を生成する。 PreGenは既存の手法の性能を劇的に改善し、著作権付き文字名をプロンプトとして使用する場合、著作権付き文字を半分以上生成する可能性を減らす。 さらに、生成モデルは、プロンプトに文字名が直接言及されていない場合でも、著作権付き文字を生成することが発見されているが、PreGenはそのようなプロンプトに対して、ほぼ完全に著作権付き文字の生成を抑圧している。

The rapid progress of generative AI technology has sparked significant copyright concerns, leading to numerous lawsuits filed against AI developers. While various techniques for mitigating copyright issues have been studied, significant risks remain. Here, we propose a genericization method that modifies the outputs of a generative model to make them more generic and less likely to infringe copyright. To achieve this, we introduce a metric for quantifying the level of originality of data in a manner that is consistent with the legal framework. This metric can be practically estimated by drawing samples from a generative model, which is then used for the genericization process. As a practical implementation, we introduce PREGen, which combines our genericization method with an existing mitigation technique. Experiments demonstrate that our genericization method successfully modifies the output of a text-to-image generative model so that it produces more generic, copyright-compliant images. PREGen dramatically improves the performance of the existing method, reducing the likelihood of generating copyrighted characters by more than half when the names of copyrighted characters are used as the prompt. Additionally, although generative models have been found to generate copyrighted characters even when the names of characters are not directly mentioned in the prompt, PREGen almost completely suppresses the generation of copyrighted characters for such prompts.
翻訳日:2024-08-21 02:28:42 公開日:2024-08-17
# 言語エージェントの直接マルチツーリング選好最適化

Direct Multi-Turn Preference Optimization for Language Agents ( http://arxiv.org/abs/2406.14868v3 )

ライセンス: Link先を確認
Wentao Shi, Mengqi Yuan, Junkang Wu, Qifan Wang, Fuli Feng, (参考訳) エージェントタスクに対するLLM(Large Language Models)の適用は、言語エージェントの開発において重要である。 直接選好最適化(DPO)は、複合的エラーの緩和によるこの適応のための有望な手法であり、強化学習(RL)の目的を直接最適化する手段を提供する。 しかし、DPOをマルチターンタスクに適用すると、分割関数をキャンセルできないため、課題が生じる。 この障害を克服するには、パーティション関数を現在の状態から独立させ、好ましくない軌道と好ましくない軌道の間の長さ格差に対処することが含まれる。 この光で、我々は政策制約をRL目標における状態-作用占有度尺度制約に置き換え、Bradley-Terryモデルに長さ正規化を加え、理論的な説明を伴うマルチターンエージェントタスクにDMPOという新しい損失関数を与える。 3つのマルチターンエージェントタスクデータセットに対する大規模な実験により、DMPO損失の有効性と優位性が確認された。

Adapting Large Language Models (LLMs) for agent tasks is critical in developing language agents. Direct Preference Optimization (DPO) is a promising technique for this adaptation with the alleviation of compounding errors, offering a means to directly optimize Reinforcement Learning (RL) objectives. However, applying DPO to multi-turn tasks presents challenges due to the inability to cancel the partition function. Overcoming this obstacle involves making the partition function independent of the current state and addressing length disparities between preferred and dis-preferred trajectories. In this light, we replace the policy constraint with the state-action occupancy measure constraint in the RL objective and add length normalization to the Bradley-Terry model, yielding a novel loss function named DMPO for multi-turn agent tasks with theoretical explanations. Extensive experiments on three multi-turn agent task datasets confirm the effectiveness and superiority of the DMPO loss.
翻訳日:2024-08-21 02:18:57 公開日:2024-08-17
# トークンレベル臨床名認識における大規模言語モデル

Large Language Models Struggle in Token-Level Clinical Named Entity Recognition ( http://arxiv.org/abs/2407.00731v2 )

ライセンス: Link先を確認
Qiuhao Lu, Rui Li, Andrew Wen, Jinlian Wang, Liwei Wang, Hongfang Liu, (参考訳) 大規模言語モデル(LLM)は、様々な分野に革命をもたらした。 それらの実用性は、データ不足、複雑さ、特異性が大きな課題を引き起こす稀な疾患の文脈において特に重要である。 臨床領域では、名前付きエンティティ認識(NER)が重要な課題であり、臨床テキストから関連情報を抽出する上で重要な役割を担っている。 LLMの約束にもかかわらず、現在の研究は主に文書レベルのNERに焦点を当てており、正確な位置を抽出することなく、文書全体のより一般的なコンテキストにおけるエンティティを識別している。 さらに、トークンレベルのNERにChatGPTを適用する取り組みも進められている。 しかし、臨床テキストにトークンレベルのNERを用いる場合、特にローカルなオープンソースLPMを使用する場合、大きな研究ギャップがある。 本研究の目的は,トークンレベルNERにおけるプロプライエタリLLMとローカルLLMの両方の有効性を検討することにより,このギャップを埋めることである。 基本的には、ゼロショットプロンプト、少数ショットプロンプト、検索強化生成(RAG)、命令微細調整を含む一連の実験を通じて、これらのモデルの能力を掘り下げる。 我々の調査は、トークンレベルのNERにおいてLLMが直面する固有の課題、特にまれな疾患の文脈で明らかにし、医療への応用における改善の可能性を示している。 この研究は、医療情報学における大きなギャップを狭めることに寄与し、医療分野におけるLSMのより洗練された応用につながる可能性のある洞察を提供する。

Large Language Models (LLMs) have revolutionized various sectors, including healthcare where they are employed in diverse applications. Their utility is particularly significant in the context of rare diseases, where data scarcity, complexity, and specificity pose considerable challenges. In the clinical domain, Named Entity Recognition (NER) stands out as an essential task and it plays a crucial role in extracting relevant information from clinical texts. Despite the promise of LLMs, current research mostly concentrates on document-level NER, identifying entities in a more general context across entire documents, without extracting their precise location. Additionally, efforts have been directed towards adapting ChatGPT for token-level NER. However, there is a significant research gap when it comes to employing token-level NER for clinical texts, especially with the use of local open-source LLMs. This study aims to bridge this gap by investigating the effectiveness of both proprietary and local LLMs in token-level clinical NER. Essentially, we delve into the capabilities of these models through a series of experiments involving zero-shot prompting, few-shot prompting, retrieval-augmented generation (RAG), and instruction-fine-tuning. Our exploration reveals the inherent challenges LLMs face in token-level NER, particularly in the context of rare diseases, and suggests possible improvements for their application in healthcare. This research contributes to narrowing a significant gap in healthcare informatics and offers insights that could lead to a more refined application of LLMs in the healthcare sector.
翻訳日:2024-08-21 02:18:57 公開日:2024-08-17
# 参加者の名誉 - オンラインフェアディビジョンのためのNo-Regret Learning

Honor Among Bandits: No-Regret Learning for Online Fair Division ( http://arxiv.org/abs/2407.01795v2 )

ライセンス: Link先を確認
Ariel D. Procaccia, Benjamin Schiffer, Shirley Zhang, (参考訳) 本研究では, 商品の種類が有限であり, プレイヤーの値が未知の方法で分布から引き出される場合, プレイヤーに対する不特定商品のオンライン公平分割の問題点を考察する。 我々の目標は、期待通りに商品を配分する社会福祉を最大化することです。 割り当て時にアイテムに対するプレイヤーの値が不明な場合、この問題は、各プレイヤーの商品に対して、各プレイヤーの値にアームが存在するような、(確率的な)マルチアームバンディットの変種に還元されることが示される。 各ステップで、次のアイテムをどのように割り当てるかを決定するアーム上の分布を選択します。 この問題に対する公平性制約の2つのセットを考察する: 期待の自由度と期待の比例性である。 我々の主な成果は、公正さの制約を維持しながら、$\tilde{O}(T^{2/3})$ regret を達成する探索-then-commitアルゴリズムの設計である。 この結果は、制限されたアクション空間にもかかわらず、学習の速度を速くする公平な分割の制約に基本となる固有の性質に依存している。 我々はまた、我々の設定に後悔する$\tilde{\Omega}(T^{2/3})の低い境界を証明し、その結果がきついことを示す。

We consider the problem of online fair division of indivisible goods to players when there are a finite number of types of goods and player values are drawn from distributions with unknown means. Our goal is to maximize social welfare subject to allocating the goods fairly in expectation. When a player's value for an item is unknown at the time of allocation, we show that this problem reduces to a variant of (stochastic) multi-armed bandits, where there exists an arm for each player's value for each type of good. At each time step, we choose a distribution over arms which determines how the next item is allocated. We consider two sets of fairness constraints for this problem: envy-freeness in expectation and proportionality in expectation. Our main result is the design of an explore-then-commit algorithm that achieves $\tilde{O}(T^{2/3})$ regret while maintaining either fairness constraint. This result relies on unique properties fundamental to fair-division constraints that allow faster rates of learning, despite the restricted action space. We also prove a lower bound of $\tilde{\Omega}(T^{2/3})$ regret for our setting, showing that our results are tight.
翻訳日:2024-08-21 02:18:56 公開日:2024-08-17
# MM-Tracker:UAVプラットフォーム多目的追跡のためのマージン損失付きモーションマンバ

MM-Tracker: Motion Mamba with Margin Loss for UAV-platform Multiple Object Tracking ( http://arxiv.org/abs/2407.10485v2 )

ライセンス: Link先を確認
Mufeng Yao, Jinlong Peng, Qingdong He, Bo Peng, Hao Chen, Mingmin Chi, Chao Liu, Jon Atli Benediktsson, (参考訳) 無人航空機(UAV)プラットフォームからの複数の物体追跡(MOT)には、効率的なモーションモデリングが必要である。 これは、UAV-MOTが局所的な物体の動きとグローバルなカメラの動きの両方に直面しているためである。 動きのぼかしは、大きな動く物体を検出することの難しさも増す。 従来のUAVモーションモデリング手法は、局所的な動きのみに焦点を当てるか、動きのぼかし効果を無視し、追跡性能と速度を制限していた。 これらの問題に対処するため、我々は、より優れたモーションモデリングのために、クロスコリレーションと双方向のマンバモジュールを用いて、局所的およびグローバルなモーション特徴を探索するモーション・マンバ・モジュールを提案する。 動きのぼやけによる検出の難しさに対処するため,動きのぼやけた物体の検出精度を効果的に向上する運動マージンの損失を設計する。 Motion Mambaモジュールとモーションマージンの損失に基づいて、提案したMM-Trackerは、2つの広くオープンソースUAV-MOTデータセットで最先端のデータを上回ります。 コードは利用可能です。

Multiple object tracking (MOT) from unmanned aerial vehicle (UAV) platforms requires efficient motion modeling. This is because UAV-MOT faces both local object motion and global camera motion. Motion blur also increases the difficulty of detecting large moving objects. Previous UAV motion modeling approaches either focus only on local motion or ignore motion blurring effects, thus limiting their tracking performance and speed. To address these issues, we propose the Motion Mamba Module, which explores both local and global motion features through cross-correlation and bi-directional Mamba Modules for better motion modeling. To address the detection difficulties caused by motion blur, we also design motion margin loss to effectively improve the detection accuracy of motion blurred objects. Based on the Motion Mamba module and motion margin loss, our proposed MM-Tracker surpasses the state-of-the-art in two widely open-source UAV-MOT datasets. Code will be available.
翻訳日:2024-08-21 02:09:01 公開日:2024-08-17
# MMM:多言語相互強化効果 混合データセットとオープンドメイン情報抽出大言語モデルを用いたテスト

MMM: Multilingual Mutual Reinforcement Effect Mix Datasets & Test with Open-domain Information Extraction Large Language Models ( http://arxiv.org/abs/2407.10953v2 )

ライセンス: Link先を確認
Chengguang Gan, Qingyu Yin, Xinyang He, Hanjun Wei, Yunhao Liang, Younghun Lim, Shijian Wang, Hexiang Huang, Qinghao Zhang, Shiwen Ni, Tatsunori Mori, (参考訳) 相互強化効果(MRE)は情報抽出とマルチタスク研究において有望な道のりを示す。 それにもかかわらず、MRE混合データセットが日本語で排他的に利用可能であることから、その適用性は制限されており、グローバル研究コミュニティによる包括的な探索が制限されている。 この制限に対処するために、英語、日本語、中国語の21のサブデータセットを含む多言語MRE混合データセット(MMM)を導入する。 本稿では,Lumge Language Models (LLMs) が支援するデータセット翻訳手法を提案する。 さらに、オープンドメイン名前付きエンティティ認識(NER)と文分類タスクを組み込むことで、データセットを充実させた。 この拡張データセットを利用することで、オープンドメイン情報抽出大言語モデル(OIELLM)を学習するための統一的な入力出力フレームワークを開発した。 OIELLMモデルは、新しいMMMデータセットを効果的に処理できることを示し、パフォーマンスを大幅に改善した。

The Mutual Reinforcement Effect (MRE) represents a promising avenue in information extraction and multitasking research. Nevertheless, its applicability has been constrained due to the exclusive availability of MRE mix datasets in Japanese, thereby limiting comprehensive exploration by the global research community. To address this limitation, we introduce a Multilingual MRE mix dataset (MMM) that encompasses 21 sub-datasets in English, Japanese, and Chinese. In this paper, we also propose a method for dataset translation assisted by Large Language Models (LLMs), which significantly reduces the manual annotation time required for dataset construction by leveraging LLMs to translate the original Japanese datasets. Additionally, we have enriched the dataset by incorporating open-domain Named Entity Recognition (NER) and sentence classification tasks. Utilizing this expanded dataset, we developed a unified input-output framework to train an Open-domain Information Extraction Large Language Model (OIELLM). The OIELLM model demonstrates the capability to effectively process novel MMM datasets, exhibiting significant improvements in performance.
翻訳日:2024-08-21 02:09:01 公開日:2024-08-17
# 低所得・中所得地域における日常生活活動と室内空気質データセット

Indoor Air Quality Dataset with Activities of Daily Living in Low to Middle-income Communities ( http://arxiv.org/abs/2407.14501v2 )

ライセンス: Link先を確認
Prasenjit Karmakar, Swadhin Pradhan, Sandip Chakraborty, (参考訳) 近年、室内大気汚染は社会に重大な脅威をもたらしており、毎年320万人が命を落としている。 インドのような発展途上国は、知識の不足、規制の不十分、屋外の大気汚染などにより、毎日汚染物質に深刻な影響を受けている。 しかし、インドのような発展途上国が室内空気汚染がどう影響するかを理解するために、限られた研究しか行われていない。 このギャップを解消するために,夏と冬の6ヶ月間に30箇所の屋内から空気の質を時空間的に測定した。 この遺跡は、地方、郊外、都市という4つのタイプにまたがって地理的に位置しており、インドの典型的な低所得層と中所得層をカバーしている。 このデータセットには、様々な種類の屋内環境(例えば、スタジオのアパート、教室、研究所、食品缶詰、住宅など)が含まれており、発展途上国のユニークな汚染パターンに対処するためのデータ駆動学習モデル研究の基礎を提供することができる。 このユニークなデータセットは、データ収集中に電源障害やネットワークの停止によって欠落したデータを処理するための高度なデータクリーニングと計算技術を必要とする。 さらに,簡単な音声からテキストへの応用により,住民が注釈付けした屋内活動ラベルをリアルタイムに提供する。 そのため、環境学者やML愛好家は、このデータセットを利用して、異なる屋内活動下での汚染物質の複雑なパターンを理解し、汚染の繰り返し源の特定、暴露の予測、近代屋内デザインのフロアプランやルーム構造の改善、汚染に配慮したレコメンデーターシステムの開発などを行うことができる。

In recent years, indoor air pollution has posed a significant threat to our society, claiming over 3.2 million lives annually. Developing nations, such as India, are most affected since lack of knowledge, inadequate regulation, and outdoor air pollution lead to severe daily exposure to pollutants. However, only a limited number of studies have attempted to understand how indoor air pollution affects developing countries like India. To address this gap, we present spatiotemporal measurements of air quality from 30 indoor sites over six months during summer and winter seasons. The sites are geographically located across four regions of type: rural, suburban, and urban, covering the typical low to middle-income population in India. The dataset contains various types of indoor environments (e.g., studio apartments, classrooms, research laboratories, food canteens, and residential households), and can provide the basis for data-driven learning model research aimed at coping with unique pollution patterns in developing countries. This unique dataset demands advanced data cleaning and imputation techniques for handling missing data due to power failure or network outages during data collection. Furthermore, through a simple speech-to-text application, we provide real-time indoor activity labels annotated by occupants. Therefore, environmentalists and ML enthusiasts can utilize this dataset to understand the complex patterns of the pollutants under different indoor activities, identify recurring sources of pollution, forecast exposure, improve floor plans and room structures of modern indoor designs, develop pollution-aware recommender systems, etc.
翻訳日:2024-08-21 02:09:01 公開日:2024-08-17
# SmartQuant: CXLベースのAIモデルストアで実行時設定可能なウェイト量子化をサポート

SmartQuant: CXL-based AI Model Store in Support of Runtime Configurable Weight Quantization ( http://arxiv.org/abs/2407.15866v2 )

ライセンス: Link先を確認
Rui Xie, Asad Ul Haq, Linsen Ma, Krystal Sun, Sanchari Sen, Swagath Venkataramani, Liu Liu, Tong Zhang, (参考訳) 近年の研究では、トランスフォーマーのような生成AIモデルに対する推論において、異なる重みの重要性は、文脈依存のかなりのバリエーションを示すことが明らかになっている。 これは自然に、生成するAI推論効率を改善するために、ウェイト量子化を適応的に設定する有望な可能性を示す。 構成可能な重み量子化は、現代のGPUやAIアクセラレータにおける可変精度演算のハードウェアサポートを、容易に活用できるが、従来の研究では、変動量量子化を利用してAIモデルのメモリアクセス速度とエネルギー効率を比例的に改善する方法が研究されていない。 急速に成熟したCXLエコシステムに動機づけられたこの研究は、このギャップを埋めるためのCXLベースの設計ソリューションを開発する。 鍵となるのは、CXLメモリコントローラが実行時設定可能な重み量子化をサポートし、活用する上で、アクティブな役割を果たすことである。 トランスフォーマーを代表的生成AIモデルとして使用し,提案手法の有効性を実証する実験を行った。

Recent studies have revealed that, during the inference on generative AI models such as transformer, the importance of different weights exhibits substantial context-dependent variations. This naturally manifests a promising potential of adaptively configuring weight quantization to improve the generative AI inference efficiency. Although configurable weight quantization can readily leverage the hardware support of variable-precision arithmetics in modern GPU and AI accelerators, little prior research has studied how one could exploit variable weight quantization to proportionally improve the AI model memory access speed and energy efficiency. Motivated by the rapidly maturing CXL ecosystem, this work develops a CXL-based design solution to fill this gap. The key is to allow CXL memory controllers play an active role in supporting and exploiting runtime configurable weight quantization. Using transformer as a representative generative AI model, we carried out experiments that well demonstrate the effectiveness of the proposed design solution.
翻訳日:2024-08-21 01:59:09 公開日:2024-08-17
# Kan または MLP: より公正な比較

KAN or MLP: A Fairer Comparison ( http://arxiv.org/abs/2407.16674v2 )

ライセンス: Link先を確認
Runpeng Yu, Weihao Yu, Xinchao Wang, (参考訳) 本論文では,新しい方法を紹介しない。 代わりに、機械学習、コンピュータビジョン、オーディオ処理、自然言語処理、記号式表現など、さまざまなタスクにわたるKanとMLPモデルのより公平で包括的な比較を提供する。 具体的には,パラメータ数とFLOPを制御して,kan と MLP のパフォーマンスを比較する。 我々の主な観察は、記号式表現タスクを除くと、MLPは一般的にKanより優れています。 また, カンに関するアブレーション研究を行い, 記号式表現におけるその優位性は主にB-スプライン活性化関数に由来することを見出した。 MLPにB-スプラインを適用すると、シンボリック式表現の性能は、Kanよりも大幅に向上する。 しかし,すでに Kan に勝っている他のタスクでは,B-spline は MLP の性能を大幅に向上させるものではない。 さらに, 標準クラス増分連続学習環境においては, カンの忘れる問題は, MLPよりも深刻であることが確認された。 これらの結果がkanや他のMLP代替品の今後の研究に役立つことを願っている。 プロジェクトリンク:https://github.com/yu-rp/KanbeFair

This paper does not introduce a novel method. Instead, it offers a fairer and more comprehensive comparison of KAN and MLP models across various tasks, including machine learning, computer vision, audio processing, natural language processing, and symbolic formula representation. Specifically, we control the number of parameters and FLOPs to compare the performance of KAN and MLP. Our main observation is that, except for symbolic formula representation tasks, MLP generally outperforms KAN. We also conduct ablation studies on KAN and find that its advantage in symbolic formula representation mainly stems from its B-spline activation function. When B-spline is applied to MLP, performance in symbolic formula representation significantly improves, surpassing or matching that of KAN. However, in other tasks where MLP already excels over KAN, B-spline does not substantially enhance MLP's performance. Furthermore, we find that KAN's forgetting issue is more severe than that of MLP in a standard class-incremental continual learning setting, which differs from the findings reported in the KAN paper. We hope these results provide insights for future research on KAN and other MLP alternatives. Project link: https://github.com/yu-rp/KANbeFair
翻訳日:2024-08-21 01:59:09 公開日:2024-08-17
# 非凸スパース正規化のための空間反復加重2次法

Reduced-Space Iteratively Reweighted Second-Order Methods for Nonconvex Sparse Regularization ( http://arxiv.org/abs/2407.17216v3 )

ライセンス: Link先を確認
Hao Wang, Xiangyu Yang, Yichen Zhu, (参考訳) 本稿では,非凸空間空間の正規化問題,すなわち$\ell_p$-norm正規化を含む問題と,連続的に微分可能な損失関数を併用した特定のタイプの非凸空間空間空間の正規化問題について検討する。 本稿では,この難解な非凸問題と非滑らかな問題に効果的に対処するために,いくつかの革新的な特徴を示す新しい2次アルゴリズムを提案する。 (i)reweighted $\ell_1$ regularized subproblemと部分空間近似ニュートンステップを解くための交互戦略の使用。 (ii)reweighted $\ell_1$ regularized subproblem は凸近似を非凸正規化項に頼り、軟弱作用素を特徴とする閉形式解を可能にする。 本手法は, 様々な非凸正規化問題に適用可能である。 3) このアルゴリズムは, 繰り返しが符号値を維持することを保証し, 非零成分が十分な回数の反復のために0から遠ざけられ, 最終的に摂動ニュートン法に遷移する。 (4)このアルゴリズムでは,大域収束の理論的保証,クルディカ・オジャシエヴィチ(KL)特性の存在による局所超線型収束,およびニュートンの正確なステップを用いる場合の局所二次収束について述べる。 また,様々なモデル予測問題に対する実験を通じて,本手法の有効性を示す。

This paper explores a specific type of nonconvex sparsity-promoting regularization problems, namely those involving $\ell_p$-norm regularization, in conjunction with a twice continuously differentiable loss function. We propose a novel second-order algorithm designed to effectively address this class of challenging nonconvex and nonsmooth problems, showcasing several innovative features: (i) The use of an alternating strategy to solve a reweighted $\ell_1$ regularized subproblem and the subspace approximate Newton step. (ii) The reweighted $\ell_1$ regularized subproblem relies on a convex approximation to the nonconvex regularization term, enabling a closed-form solution characterized by the soft-thresholding operator. This feature allows our method to be applied to various nonconvex regularization problems. (iii) Our algorithm ensures that the iterates maintain their sign values and that nonzero components are kept away from 0 for a sufficient number of iterations, eventually transitioning to a perturbed Newton method. (iv) We provide theoretical guarantees of global convergence, local superlinear convergence in the presence of the Kurdyka-\L ojasiewicz (KL) property, and local quadratic convergence when employing the exact Newton step in our algorithm. We also showcase the effectiveness of our approach through experiments on a diverse set of model prediction problems.
翻訳日:2024-08-21 01:59:09 公開日:2024-08-17
# Gaussian Process Kolmogorov-Arnold Networks

Gaussian Process Kolmogorov-Arnold Networks ( http://arxiv.org/abs/2407.18397v2 )

ライセンス: Link先を確認
Andrew Siyuan Chen, (参考訳) 本稿では,ガウス過程(GP)を非線形ニューロンとして組み込むことにより,コルモゴロフ・アーノルドネットワーク(KAN)の確率的拡張を導入する。 入力分布を持つGP関数サンプルの関数内積を考慮し、あるGPの出力分布を他のGPへの入力として扱うための完全な解析的アプローチを実現する。 これらのGPニューロンは、少数のパラメータを使用しながら頑健な非線形モデリング能力を示し、フィードフォワードネットワーク構造に容易に完全に組み込むことができる。 これらはモデル予測に固有の不確実性推定を提供し、変動的な下界や近似を必要とせず、ログのような目的関数を直接訓練することができる。 MNIST分類の文脈では、GP-KANをベースとした8千のパラメータのモデルは、150万のパラメータを持つ現在の最先端モデルと比較して98.5%の予測精度を達成した。

In this paper, we introduce a probabilistic extension to Kolmogorov Arnold Networks (KANs) by incorporating Gaussian Process (GP) as non-linear neurons, which we refer to as GP-KAN. A fully analytical approach to handling the output distribution of one GP as an input to another GP is achieved by considering the function inner product of a GP function sample with the input distribution. These GP neurons exhibit robust non-linear modelling capabilities while using few parameters and can be easily and fully integrated in a feed-forward network structure. They provide inherent uncertainty estimates to the model prediction and can be trained directly on the log-likelihood objective function, without needing variational lower bounds or approximations. In the context of MNIST classification, a model based on GP-KAN of 80 thousand parameters achieved 98.5% prediction accuracy, compared to current state-of-the-art models with 1.5 million parameters.
翻訳日:2024-08-21 01:59:09 公開日:2024-08-17
# 大規模言語モデルを自動抑うつ分類のための3モードアーキテクチャに統合する

Integrating Large Language Models into a Tri-Modal Architecture for Automated Depression Classification ( http://arxiv.org/abs/2407.19340v2 )

ライセンス: Link先を確認
Santosh V. Patapati, (参考訳) メジャー・うつ病(Major Depressive Disorder、MDD)は、世界中の3億人に影響を及ぼす広汎な精神疾患である。 本研究は, 臨床面接記録からのうつ病のバイナリ分類のための, BiLSTM に基づくトリモーダルモデルレベルの融合アーキテクチャを提案する。 提案アーキテクチャでは、Mel Frequency Cepstral Coefficients, Facial Action Unitsを組み込み、2ショット学習に基づくGPT-4モデルを用いてテキストデータを処理する。 これは、このタスクのために、大規模な言語モデルをマルチモーダルアーキテクチャに組み込む最初の作業である。 DAIC-WOZ AVEC 2016 Challenge cross-validation splitとLeave-One-Subject-Out cross-validation splitは、すべてのベースラインモデルと複数の最先端モデルを上回っている。 Leave-One-Subject-Outテストでは91.01%の精度、F1スコア85.95%の精度、80%の精度、92.86%のリコールを達成した。

Major Depressive Disorder (MDD) is a pervasive mental health condition that affects 300 million people worldwide. This work presents a novel, BiLSTM-based tri-modal model-level fusion architecture for the binary classification of depression from clinical interview recordings. The proposed architecture incorporates Mel Frequency Cepstral Coefficients, Facial Action Units, and uses a two-shot learning based GPT-4 model to process text data. This is the first work to incorporate large language models into a multi-modal architecture for this task. It achieves impressive results on the DAIC-WOZ AVEC 2016 Challenge cross-validation split and Leave-One-Subject-Out cross-validation split, surpassing all baseline models and multiple state-of-the-art models. In Leave-One-Subject-Out testing, it achieves an accuracy of 91.01%, an F1-Score of 85.95%, a precision of 80%, and a recall of 92.86%.
翻訳日:2024-08-21 01:59:09 公開日:2024-08-17
# RAGのための新しいハイパーパラメータの導入:コンテキストウィンドウの利用

Introducing a new hyper-parameter for RAG: Context Window Utilization ( http://arxiv.org/abs/2407.19794v2 )

ライセンス: Link先を確認
Kush Juvekar, Anupam Purwar, (参考訳) 本稿では、コンテキストウインドウ利用(Context Window utilization)と呼ばれるRAG(Retrieval-Augmented Generation)システムのための新しいハイパーパラメータを提案する。 RAGシステムは、外部知識ベースから取得した関連情報を組み込んで生成モデルを強化し、生成した応答の事実的正確性と文脈的関連性を改善する。 検索および処理されたテキストチャンクのサイズは、RAG性能に影響を与える重要な要因である。 本研究の目的は,回答生成品質を最大化する最適チャンクサイズを特定することである。 組織的な実験を通じて,RAGフレームワークの効率と有効性に及ぼすチャンクサイズの影響を解析した。 以上の結果から,最適なチャンクサイズは,適切なコンテキストの提供と無関係情報の最小化とのトレードオフをバランスさせることがわかった。 これらの知見はRAGシステムの設計と実装の強化に不可欠であり、優れた性能を達成するために適切なチャンクサイズを選択することの重要性を強調している。

This paper introduces a new hyper-parameter for Retrieval-Augmented Generation (RAG) systems called Context Window Utilization. RAG systems enhance generative models by incorporating relevant information retrieved from external knowledge bases, improving the factual accuracy and contextual relevance of generated responses. The size of the text chunks retrieved and processed is a critical factor influencing RAG performance. This study aims to identify the optimal chunk size that maximizes answer generation quality. Through systematic experimentation, we analyze the effects of varying chunk sizes on the efficiency and effectiveness of RAG frameworks. Our findings reveal that an optimal chunk size balances the trade-off between providing sufficient context and minimizing irrelevant information. These insights are crucial for enhancing the design and implementation of RAG systems, underscoring the importance of selecting an appropriate chunk size to achieve superior performance.
翻訳日:2024-08-21 01:49:20 公開日:2024-08-17
# 変圧器を用いた拡散モデルによる原データと生成データのランダム再構成による脳波分類の改善

Improving EEG Classification Through Randomly Reassembling Original and Generated Data with Transformer-based Diffusion Models ( http://arxiv.org/abs/2407.20253v2 )

ライセンス: Link先を確認
Mingzhi Chen, Yiyu Gui, Yuqi Su, Yuesheng Zhu, Guibo Luo, Yuchao Yang, (参考訳) 脳波(EEG)分類は、脳機能を理解し、疾患を診断し、精神状態を評価するために重要である様々な医学・工学的応用で広く用いられている。 しかし、脳波データの不足は脳波分類網の性能を著しく制限し、この課題を克服するための潜在的な解決策として生成モデルに基づくデータ拡張法が登場している。 既存の手法には2つの問題がある: 1) 生成された脳波信号の品質は高くない; (2) 脳波分類網の強化は有効ではない。 本稿では,トランスフォーマーを用いた拡散確率モデルと,上記の2つの問題に対処するためのデータに基づく拡張手法を提案する。 脳波信号の特徴として,信号の事前処理を行う定数要素スケーリング手法を提案する。 マルチスケール・コンボリューションと動的フーリエスペクトル情報モジュールをモデルに組み込み、トレーニングプロセスの安定性と生成データの品質を改善した。 提案手法は,生成したデータを時間領域の原データでランダムに再アセンブルしてビジナルデータを得る手法で,経験的リスクとビジナルリスクを最小化してモデル性能を向上させる。 提案した4つのEEGデータセットの4つのタスクに対する拡張手法を検証するとともに、ボンデータセットの14.00%、SleepEDF-20データセットの6.38%、FACEDデータセットの9.42%、Shuデータセットの2.5%の大幅な精度向上を実現した。 もうすぐ私たちのメソッドのコードを公開します。

Electroencephalogram (EEG) classification has been widely used in various medical and engineering applications, where it is important for understanding brain function, diagnosing diseases, and assessing mental health conditions. However, the scarcity of EEG data severely restricts the performance of EEG classification networks, and generative model-based data augmentation methods have emerged as potential solutions to overcome this challenge. There are two problems with existing methods: (1) The quality of the generated EEG signals is not high; (2) The enhancement of EEG classification networks is not effective. In this paper, we propose a Transformer-based denoising diffusion probabilistic model and a generated data-based augmentation method to address the above two problems. For the characteristics of EEG signals, we propose a constant-factor scaling method to preprocess the signals, which reduces the loss of information. We incorporated Multi-Scale Convolution and Dynamic Fourier Spectrum Information modules into the model, improving the stability of the training process and the quality of the generated data. The proposed augmentation method randomly reassemble the generated data with original data in the time-domain to obtain vicinal data, which improves the model performance by minimizing the empirical risk and the vicinal risk. We verify the proposed augmentation method on four EEG datasets for four tasks and observe significant accuracy performance improvements: 14.00% on the Bonn dataset; 6.38% on the SleepEDF-20 dataset; 9.42% on the FACED dataset; 2.5% on the Shu dataset. We will make the code of our method publicly accessible soon.
翻訳日:2024-08-21 01:49:20 公開日:2024-08-17
# PhysMamba:リモート生理計測のための状態空間双対モデル

PhysMamba: State Space Duality Model for Remote Physiological Measurement ( http://arxiv.org/abs/2408.01077v2 )

ライセンス: Link先を確認
Zhixin Yan, Yan Zhong, Hongbin Xu, Wenjun Zhang, Lin Shu, Hongbin Xu, Wenxiong Kang, (参考訳) リモートフォトプラチスモグラフィー(Remote Photoplethysmography, RPPG)は、感情モニタリング、医療支援、反顔スプーフィングなどの応用に用いられる、顔ビデオから生理的信号を抽出する非接触技術である。 制御された実験室環境とは異なり、実世界の環境は、しばしば動きのアーティファクトやノイズを含んでおり、既存のrPPG法の性能に影響を及ぼす。 そこで本稿では,PhysMambaを提案する。 この手法により、ネットワークはよりリッチでより代表的な特徴を学習し、ノイズのある条件下で堅牢性を高めることができる。 2つの経路間の情報交換と特徴補間を容易にするため、我々は改良されたアルゴリズムであるCASSD(Cross-Attention State Space Duality)を設計した。 PURE,UBFC-rPPG,MMPDデータセットの比較実験を行った。 実験結果からPhysMambaは,特に複雑な環境での最先端性能を実現し,遠隔生理信号測定の実用化の可能性を示した。

Remote Photoplethysmography (rPPG) is a non-contact technique for extracting physiological signals from facial videos, used in applications like emotion monitoring, medical assistance, and anti-face spoofing. Unlike controlled laboratory settings, real-world environments often contain motion artifacts and noise, affecting the performance of existing rPPG methods. To address this, we propose PhysMamba, a dual-Pathway time-frequency interaction model via State Space Duality. This method allows the network to learn richer, more representative features, enhancing robustness in noisy conditions. To facilitate information exchange and feature complementation between the two pathways, we design an improved algorithm: Cross-Attention State Space Duality (CASSD). We conduct comparative experiments on the PURE, UBFC-rPPG, and MMPD datasets. Experimental results show that PhysMamba achieves state-of-the-art performance, particularly in complex environments, demonstrating its potential in practical remote physiological signal measurement applications.
翻訳日:2024-08-21 01:39:16 公開日:2024-08-17
# MultiFuser: ドライバ動作認識のためのマルチモーダルフュージョン変換器

MultiFuser: Multimodal Fusion Transformer for Enhanced Driver Action Recognition ( http://arxiv.org/abs/2408.01766v2 )

ライセンス: Link先を確認
Ruoyu Wang, Wenqian Wang, Jianjun Gao, Dan Lin, Kim-Hui Yap, Bingbing Li, (参考訳) ドライバーの動作を正確に識別することを目的としたドライバー行動認識は、ドライバーとドライバーの相互作用を強化し、運転安全性を確保するために不可欠である。 一般的な行動認識とは異なり、ドライバーの環境は暗く、センサーの開発に伴い、ドライバーの行動を分析するために赤外線やディープカメラなどの様々なカメラが出現している。 そこで本稿では,マルチモーダルカーキャビンビデオ間の相互相互関係と相互作用を識別し,表現改善のために異なるモーダルを適応的に統合するマルチモーダルフュージョントランス (MultiFuser) を提案する。 特に、MultiFuserは、時空間特徴をモデル化するためのBi分解モジュールの層と、マルチモーダル特徴統合のためのモダリティシンセサイザーから構成される。 各Bi分解モジュールは、モダリティ固有の特徴を抽出するModal Expertise ViTブロックと、効率的なクロスモーダル融合のためのPatch-wise Adaptive Fusionブロックを含む。 Drive&Actデータセットを用いて大規模な実験を行い,提案手法の有効性を実証した。

Driver action recognition, aiming to accurately identify drivers' behaviours, is crucial for enhancing driver-vehicle interactions and ensuring driving safety. Unlike general action recognition, drivers' environments are often challenging, being gloomy and dark, and with the development of sensors, various cameras such as IR and depth cameras have emerged for analyzing drivers' behaviors. Therefore, in this paper, we propose a novel multimodal fusion transformer, named MultiFuser, which identifies cross-modal interrelations and interactions among multimodal car cabin videos and adaptively integrates different modalities for improved representations. Specifically, MultiFuser comprises layers of Bi-decomposed Modules to model spatiotemporal features, with a modality synthesizer for multimodal features integration. Each Bi-decomposed Module includes a Modal Expertise ViT block for extracting modality-specific features and a Patch-wise Adaptive Fusion block for efficient cross-modal fusion. Extensive experiments are conducted on Drive&Act dataset and the results demonstrate the efficacy of our proposed approach.
翻訳日:2024-08-21 01:39:16 公開日:2024-08-17
# SkyDiffusion: 拡散モデルとBEVパラダイムを用いたStreet-to-Satellite画像合成

SkyDiffusion: Street-to-Satellite Image Synthesis with Diffusion Models and BEV Paradigm ( http://arxiv.org/abs/2408.01812v2 )

ライセンス: Link先を確認
Junyan Ye, Jun He, Weijia Li, Zhutao Lv, Jinhua Yu, Haote Yang, Conghui He, (参考訳) ストリート・トゥ・サテライト画像合成は、空から見下ろすような一貫したコンテンツレイアウトを維持しながら、対応する地上ストリートビュー画像から現実的な衛星画像を生成することに焦点を当てている。 視点の重大な違いは、ビュー間に大きなドメインギャップを生じさせ、このクロスビュー生成タスクを特に困難にします。 本稿では,道路画像から衛星画像を合成し,拡散モデルとBird's Eye View(BEV)パラダイムを活用する,新しいクロスビュー生成手法であるSkyDiffusionを紹介する。 まず,街路ビュー画像を衛星ビューに変換するCurved-BEV法を設計し,課題であるクロスドメイン画像合成タスクを条件付き生成問題に再構成する。 また、Curved-BEVは「Multi-to-One」マッピング戦略も備えており、複数のストリートビュー画像を同じ衛星範囲内で活用し、密集した都市のシーンにおける閉塞問題を効果的に解決している。 次に、BEV制御拡散モデルを用いて、街路ビューの内容と整合した衛星画像を生成する。 実験の結果、SkyDiffusionは郊外(CVUSA & CVACT)と都市(VIGOR-Chicago)のクロスビューデータセットの両方において、平均SSIMが13.96%増加し、FIDが20.54%減少し、現実的でコンテンツに一貫性のある衛星画像生成を実現している。 この作業のコードとモデルはhttps://opendatalab.github.io/skydiffusionで公開される。

Street-to-satellite image synthesis focuses on generating realistic satellite images from corresponding ground street-view images while maintaining a consistent content layout, similar to looking down from the sky. The significant differences in perspectives create a substantial domain gap between the views, making this cross-view generation task particularly challenging. In this paper, we introduce SkyDiffusion, a novel cross-view generation method for synthesizing satellite images from street-view images, leveraging diffusion models and Bird's Eye View (BEV) paradigm. First, we design a Curved-BEV method to transform street-view images to the satellite view, reformulating the challenging cross-domain image synthesis task into a conditional generation problem. Curved-BEV also includes a "Multi-to-One" mapping strategy for leveraging multiple street-view images within the same satellite coverage area, effectively solving the occlusion issues in dense urban scenes. Next, we design a BEV-controlled diffusion model to generate satellite images consistent with the street-view content, which also incorporates a light manipulation module to make the lighting conditions of the synthesized satellite images more flexible. Experimental results demonstrate that SkyDiffusion outperforms state-of-the-art methods on both suburban (CVUSA & CVACT) and urban (VIGOR-Chicago) cross-view datasets, with an average SSIM increase of 13.96% and a FID reduction of 20.54%, achieving realistic and content-consistent satellite image generation. The code and models of this work will be released at https://opendatalab.github.io/skydiffusion
翻訳日:2024-08-21 01:39:16 公開日:2024-08-17
# バイオメディカルSAM 2: バイオメディカルイメージとビデオのセグメンテーション

Biomedical SAM 2: Segment Anything in Biomedical Images and Videos ( http://arxiv.org/abs/2408.03286v2 )

ライセンス: Link先を確認
Zhiling Yan, Weixiang Sun, Rong Zhou, Zhengqing Yuan, Kai Zhang, Yiwei Li, Tianming Liu, Quanzheng Li, Xiang Li, Lifang He, Lichao Sun, (参考訳) 医用画像のセグメンテーションとビデオオブジェクトのセグメンテーションは、生物学的構造を特定して測定することにより、疾患の診断と解析に不可欠である。 自然領域の最近の進歩は、Segment Anything Model 2 (SAM-2)のような基礎モデルによって推進されている。 バイオメディカルアプリケーションにおけるSAM-2の性能を明らかにするため,単フレーム2次元画像セグメンテーション,多フレーム3次元画像セグメンテーション,多フレームビデオセグメンテーションの3つの評価パイプラインを設計し,医療現場におけるSAM-2の限界を明らかにした。 そこで本研究では,SAM-2に基づくバイオメディカルデータに最適化された基盤モデルであるBioSAM-2を開発した。 以上の結果から,BioSAM-2は既存の基礎モデルの性能に勝るだけでなく,専門モデルに匹敵し,医療領域におけるその有効性と可能性を示す。

Medical image segmentation and video object segmentation are essential for diagnosing and analyzing diseases by identifying and measuring biological structures. Recent advances in natural domain have been driven by foundation models like the Segment Anything Model 2 (SAM-2). To explore the performance of SAM-2 in biomedical applications, we designed three evaluation pipelines for single-frame 2D image segmentation, multi-frame 3D image segmentation and multi-frame video segmentation with varied prompt designs, revealing SAM-2's limitations in medical contexts. Consequently, we developed BioSAM-2, an enhanced foundation model optimized for biomedical data based on SAM-2. Our experiments show that BioSAM-2 not only surpasses the performance of existing state-of-the-art foundation models but also matches or even exceeds specialist models, demonstrating its efficacy and potential in the medical domain.
翻訳日:2024-08-20 23:45:42 公開日:2024-08-17
# You Augment Me: セマンティックコード検索のためのChatGPTベースのデータ拡張を探る

You Augment Me: Exploring ChatGPT-based Data Augmentation for Semantic Code Search ( http://arxiv.org/abs/2408.05542v2 )

ライセンス: Link先を確認
Yanlin Wang, Lianghong Guo, Ensheng Shi, Wenqing Chen, Jiachi Chen, Wanjun Zhong, Menghan Wang, Hui Li, Hongyu Zhang, Ziyu Lyu, Zibin Zheng, (参考訳) コード検索はソフトウェア開発において重要な役割を担い、開発者は自然言語クエリを使ってコードを検索し再利用することができる。 コード検索モデルの性能は高品質なデータの増加とともに向上するが、そのようなデータを取得することは困難でコストがかかる。 近年、ChatGPTのような大規模言語モデル(LLM)は、自然言語理解と生成の両方において顕著な進歩を遂げており、単純なプロンプトを通じてユーザフレンドリなインタラクションを提供している。 これらの進歩にインスパイアされた新しいアプローチであるChatDANCEを提案する。これは、大規模言語モデルによって生成された高品質で多様な拡張データを利用し、低品質な拡張を除去するためにフィルタリング機構を活用する。 具体的には、まず、ソースコードとクエリ用に特別に設計されたChatGPTプロンプトルールのセットを提案する。 そこで,我々はChatGPTを利用して,対応するプロンプトに基づいてコードとクエリの書き直しを行うとともに,バックボーンモデルUniXcoderからクロスエンコーダをトレーニングし,一致するスコアの低いコードとクエリペアをフィルタリングするフィルタリング機構を提案する。 最後に、得られた高品質な拡張データを用いて、バックボーンモデルを再訓練する。 実験の結果,ChatDANCEは最先端のパフォーマンスを達成し,13.2%(R@1)と7%(MRR)で最高のベースラインを向上した。 驚くべきことに、この拡張フィルタ-リトラクション戦略により、バックボーンモデル(UniXcoder)が自己成長できることがわかった。 さらに、広範囲な実験により、各コンポーネントの有効性が示され、ChatDANCEは異なるハイパーパラメータ設定下で安定したパフォーマンスを持つ。 さらに、ChatDanceがなぜうまく機能するのかを定性的かつ定量的に分析し、より均一な表現の分布を学習し、コードとクエリ空間を効果的に整列させる。

Code search plays a crucial role in software development, enabling developers to retrieve and reuse code using natural language queries. While the performance of code search models improves with an increase in high-quality data, obtaining such data can be challenging and expensive. Recently, large language models (LLMs) such as ChatGPT have made remarkable progress in both natural and programming language understanding and generation, offering user-friendly interaction via simple prompts. Inspired by these advancements, we propose a novel approach ChatDANCE, which utilizes high-quality and diverse augmented data generated by a large language model and leverages a filtering mechanism to eliminate low-quality augmentations. Specifically, we first propose a set of ChatGPT prompting rules that are specifically designed for source code and queries. Then, we leverage ChatGPT to rewrite code and queries based on the according prompts and then propose a filtering mechanism which trains a cross-encoder from the backbone model UniXcoder to filter out code and query pairs with low matching scores. Finally, we re-train the backbone model using the obtained high-quality augmented data. Experimental results show that ChatDANCE achieves state-of-the-art performance, improving the best baseline by 13.2% (R@1) and 7% (MRR). Surprisingly, we find that this augment-filter-retrain strategy enables the backbone model (UniXcoder) to self-grow. Moreover, extensive experiments show the effectiveness of each component and ChatDANCE has stable performance under different hyperparameter settings. In addition, we conduct qualitative and quantitative analyses to investigate why ChatDANCE works well and find that it learns a more uniform distribution of representations and effectively aligns the code and query spaces.
翻訳日:2024-08-20 23:45:42 公開日:2024-08-17
# 基礎変換器のサンプリング:理論的展望

Sampling Foundational Transformer: A Theoretical Perspective ( http://arxiv.org/abs/2408.05822v2 )

ライセンス: Link先を確認
Viet Anh Nguyen, Minh Lenhat, Khoa Nguyen, Duong Duc Hieu, Dao Huu Hung, Truong Son Hy, (参考訳) 自己保持機構の汎用性は、ほぼ全てのデータモダリティにおいてトランスフォーマーに大きな成功を収め、二次的な複雑さと訓練の難しさに制限を与えた。 異なるデータモダリティにトランスフォーマーを適用するには、実践者は巧妙なデータモダリティに依存した構築をしなければならない。 本稿では、複数のデータモダリティ(例えば、点雲、グラフ、シーケンス)と制約(例えば、回転不変量)を扱うことができるSampring Foundational Transformer(SFT)を提案する。 このようなモデルの存在は、複数のデータソース上での操作性を必要とする現代基礎モデリングとして重要である。 多数のトークンの効率向上のために、我々のモデルは、線形漸近的計算複雑性と実推測時間ゲインの両方に対して、サンプリングなしのサンプリングメカニズムを意識した文脈に依存している。 効率性のために、モデル収束率を高めるために、新たに発見された変圧器層の擬凸定式化を頼りにしている。 複数のデータモダリティを扱うモデルとして、SFTは他の非常に特殊なモデルに比べて推論が高速でありながら、多くのベンチマークで競合する結果を得た。

The versatility of self-attention mechanism earned transformers great success in almost all data modalities, with limitations on the quadratic complexity and difficulty of training. To apply transformers across different data modalities, practitioners have to make specific clever data-modality-dependent constructions. In this paper, we propose Sampling Foundational Transformer (SFT) that can work on multiple data modalities (e.g., point cloud, graph, and sequence) and constraints (e.g., rotational-invariant). The existence of such model is important as contemporary foundational modeling requires operability on multiple data sources. For efficiency on large number of tokens, our model relies on our context aware sampling-without-replacement mechanism for both linear asymptotic computational complexity and real inference time gain. For efficiency, we rely on our newly discovered pseudoconvex formulation of transformer layer to increase model's convergence rate. As a model working on multiple data modalities, SFT has achieved competitive results on many benchmarks, while being faster in inference, compared to other very specialized models.
翻訳日:2024-08-20 23:45:42 公開日:2024-08-17
# PhaGO:ゲノムコンテキストの統合によるバクテリオファージのタンパク質機能アノテーション

PhaGO: Protein function annotation for bacteriophages by integrating the genomic context ( http://arxiv.org/abs/2408.06402v2 )

ライセンス: Link先を確認
Jiaojiao Guan, Yongxin Ji, Cheng Peng, Wei Zou, Xubo Tang, Jiayu Shang, Yanni Sun, (参考訳) 細菌ファージは細菌を標的とするウイルスであり、微生物生態学において重要な役割を果たす。 ファージタンパク質は、ウイルス感染、複製、進化などのファージ生物学を理解する上で重要である。 メッサージノミクスシークエンシングによって多くの新しいファージが同定されているが、それらの多くは限定的なタンパク質機能アノテーションを持っている。 ファージタンパク質の正確な機能アノテーションは、その固有の多様性や注釈付きタンパク質の不足など、いくつかの課題を呈している。 既存のツールはまだ、アノテートタンパク質の機能において、ファージのユニークな性質を十分に活用していない。 本研究では,ファージゲノムのモジュール構造を利用した新しいタンパク質機能アノテーションツールを提案する。 最新のタンパク質基盤モデルとトランスフォーマーの埋め込みを利用してファージゲノムのタンパク質間のコンテキスト情報をキャプチャすることで、PhaGOは、それぞれ6.78%と13.05%改善した。 PhaGOは、ホモロジー検索を欠いたタンパク質をアノテートすることができ、急速に蓄積するファージゲノムを特徴づけるのに重要である。 食餌中のホリンを688個同定し,PhaGOの有用性を実証した。 以上の結果から,新たに発見された食の理解を深める上でのPhaGOの可能性が示唆された。

Bacteriophages are viruses that target bacteria, playing a crucial role in microbial ecology. Phage proteins are important in understanding phage biology, such as virus infection, replication, and evolution. Although a large number of new phages have been identified via metagenomic sequencing, many of them have limited protein function annotation. Accurate function annotation of phage proteins presents several challenges, including their inherent diversity and the scarcity of annotated ones. Existing tools have yet to fully leverage the unique properties of phages in annotating protein functions. In this work, we propose a new protein function annotation tool for phages by leveraging the modular genomic structure of phage genomes. By employing embeddings from the latest protein foundation models and Transformer to capture contextual information between proteins in phage genomes, PhaGO surpasses state-of-the-art methods in annotating diverged proteins and proteins with uncommon functions by 6.78% and 13.05% improvement, respectively. PhaGO can annotate proteins lacking homology search results, which is critical for characterizing the rapidly accumulating phage genomes. We demonstrate the utility of PhaGO by identifying 688 potential holins in phages, which exhibit high structural conservation with known holins. The results show the potential of PhaGO to extend our understanding of newly discovered phages.
翻訳日:2024-08-20 23:35:59 公開日:2024-08-17
# Atlas: GPU上の量子回路シミュレーションのための階層的パーティショニング(拡張バージョン)

Atlas: Hierarchical Partitioning for Quantum Circuit Simulation on GPUs (Extended Version) ( http://arxiv.org/abs/2408.09055v1 )

ライセンス: Link先を確認
Mingkuan Xu, Shiyi Cao, Xupeng Miao, Umut A. Acar, Zhihao Jia, (参考訳) 本稿では,量子回路をサブ回路の階層に分割し,マルチノードGPU上でのサブ回路をシミュレーションする手法を提案する。通信コストを最小化しつつ,利用可能なデータ並列性を生かし,通信コストを最小化するため,"ニアバイ"GPU上の"ニアバイ"ゲートのシミュレーションを行うInteger Linear Programを定式化する。 スループットを最大化するために、動的プログラミングアルゴリズムを用いて、各カーネルがGPUでシミュレーションしたサブ回路を計算する。 我々は、分散マルチGPU量子回路シミュレータであるAtlasでこれらの技術を実現する。 様々な量子回路に対する評価では、Atlasは最先端のGPUベースのシミュレータを平均2$\times$で上回り、DRAMへのオフロードによりより大きな回路を走らせることができ、他の大規模回路シミュレータを2桁以上上回ります。

This paper presents techniques for theoretically and practically efficient and scalable Schr\"odinger-style quantum circuit simulation. Our approach partitions a quantum circuit into a hierarchy of subcircuits and simulates the subcircuits on multi-node GPUs, exploiting available data parallelism while minimizing communication costs. To minimize communication costs, we formulate an Integer Linear Program that rewards simulation of "nearby" gates on "nearby" GPUs. To maximize throughput, we use a dynamic programming algorithm to compute the subcircuit simulated by each kernel at a GPU. We realize these techniques in Atlas, a distributed, multi-GPU quantum circuit simulator. Our evaluation on a variety of quantum circuits shows that Atlas outperforms state-of-the-art GPU-based simulators by more than 2$\times$ on average and is able to run larger circuits via offloading to DRAM, outperforming other large-circuit simulators by two orders of magnitude.
翻訳日:2024-08-20 22:56:40 公開日:2024-08-17
# 半重水の同位体選択強磁場電離

Isotope-Selective Strong Field Ionization of Semi-Heavy Water ( http://arxiv.org/abs/2408.09056v1 )

ライセンス: Link先を確認
Andrew J. Howard, M. Britton, Zachary L. Streeter, Chuan Cheng, Robert R. Lucchese, C. William McCurdy, Philip H. Bucksbaum, (参考訳) 半重水 (HOD) は、結合が同位体でラベル付けされる最も単純な分子の1つである。 1対の強い数フェムト秒赤外レーザーパルスが2つの結合の1つに沿ってイオン化を選択的にトンネルするために用いられることを示した。 第1パルスはHODを二重に電離し、急激な結合伸縮と屈曲を引き起こす。 フェムト秒後、第2のパルスが到着し、OH結合に沿ってさらにイオン化が選択的に増強される。 これらの結論は、三重イオン化後のH$^+$、D$^+$、O$^+$の3次元時間分解測定から生じる。

Semi-heavy water (HOD) is one of the simplest molecules in which the bonds are labelled by isotope. We demonstrate that a pair of intense few-femtosecond infrared laser pulses can be used to selectively tunnel ionize along one of the two bonds. The first pulse doubly ionizes HOD, inducing rapid bond stretching and unbending. Femtoseconds later, the second pulse arrives and further ionization is selectively enhanced along the OH bond. These conclusions arise from 3D time-resolved measurements of H$^+$, D$^+$, and O$^+$ momenta following triple ionization.
翻訳日:2024-08-20 22:56:40 公開日:2024-08-17
# 非線形Jaynes-Cummingsモデルのスペクトル応答

Spectral response of a nonlinear Jaynes-Cummings model ( http://arxiv.org/abs/2408.09061v1 )

ライセンス: Link先を確認
L. Medina-Dozal, A. R. Urzúa, D. Aranda-Lozano, C. A. González-Gutiérrez, J. Récamier, R. Román-Ancheyta, (参考訳) Jaynes-Cummings量子光学モデルにより、光と物質との対話を最も基本的なレベルで理解することができる。 モデルのいくつかの一般化は長い間提案され、そのダイナミックな振る舞いを強調してきたが、分光にはあまり注意を払わなかった。 ここでは、変形場演算子に基づく非線形Jaynes-Cummingsモデルの時間依存スペクトル応答の解析式を得る。 非線形空洞場の長時間応答は、回路量子力学の強い分散状態において実験的に得られたものと類似していることが示される。 スペクトルは本質的に非線形結合と非対称であり、有限場励起に対する共鳴条件を得ることができないことの符号である。

The Jaynes-Cummings quantum optics model allows us to understand the dialogue between light and matter at its most fundamental level, which is crucial for advancements in quantum science and technology. Several generalizations of the model have long been proposed, emphasizing their dynamic behavior but paying less attention to their spectroscopy. Here, we obtain analytical expressions of the time-dependent spectral response of a nonlinear Jaynes-Cummings model based on deformed field operators. We show that the long-time response of the resulting nonlinear cavity field resembles the one experimentally obtained in the strong-dispersive regime of circuit quantum electrodynamics. The spectrum is intrinsically asymmetric with the nonlinear coupling, a signature of the impossibility of getting resonant conditions for finite field excitations.
翻訳日:2024-08-20 22:56:40 公開日:2024-08-17
# MoRA:LoRAガイドによるマルチモーダル病診断

MoRA: LoRA Guided Multi-Modal Disease Diagnosis with Missing Modality ( http://arxiv.org/abs/2408.09064v1 )

ライセンス: Link先を確認
Zhiyi Shi, Junsik Kim, Wanhua Li, Yicong Li, Hanspeter Pfister, (参考訳) マルチモーダル事前学習モデルは、微調整のための低メモリ要求の異なる様々なモーダルから効率よく特徴を抽出し、融合する。 この効率にもかかわらず、病気の診断への応用は未調査である。 重要な課題は、欠落したモダリティが頻繁に発生し、パフォーマンスを損なうことである。 さらに、事前訓練されたモデル全体を微調整するには、かなりの計算資源が必要である。 これらの問題に対処するために、計算効率のよいMoRA(Modality-aware Low-Rank Adaptation)を導入する。 MoRAは各入力を低内在次元に投影するが、モダリティを欠く場合、モダリティ固有の適応のために異なるモダリティ対応のアッププロジェクションを使用する。 実際、MoRAはモデルの第一ブロックに統合され、モダリティの欠如によるパフォーマンスが大幅に向上する。 最小限の計算資源が必要であり、訓練可能なパラメータの1.6%以下である。 実験の結果,MoRAは疾患診断において既存の技術よりも優れ,優れた性能,堅牢性,訓練効率が示された。

Multi-modal pre-trained models efficiently extract and fuse features from different modalities with low memory requirements for fine-tuning. Despite this efficiency, their application in disease diagnosis is under-explored. A significant challenge is the frequent occurrence of missing modalities, which impairs performance. Additionally, fine-tuning the entire pre-trained model demands substantial computational resources. To address these issues, we introduce Modality-aware Low-Rank Adaptation (MoRA), a computationally efficient method. MoRA projects each input to a low intrinsic dimension but uses different modality-aware up-projections for modality-specific adaptation in cases of missing modalities. Practically, MoRA integrates into the first block of the model, significantly improving performance when a modality is missing. It requires minimal computational resources, with less than 1.6% of the trainable parameters needed compared to training the entire model. Experimental results show that MoRA outperforms existing techniques in disease diagnosis, demonstrating superior performance, robustness, and training efficiency.
翻訳日:2024-08-20 22:56:40 公開日:2024-08-17
# リンクロバスト性と一般化:視覚モデルのための潜在空間における概念クラスタリングのk*分布解析

Linking Robustness and Generalization: A k* Distribution Analysis of Concept Clustering in Latent Space for Vision Models ( http://arxiv.org/abs/2408.09065v1 )

ライセンス: Link先を確認
Shashank Kotyan, Pin-Yu Chen, Danilo Vasconcellos Vargas, (参考訳) 視覚モデルのほとんどの評価は、間接的手法を用いて遅延空間の品質を評価する。 これらのメソッドはしばしば、潜在空間を新しいものに投影するために余分なレイヤを追加する。 この射影により、元の潜在空間を解析して比較することが困難になる。 本稿では,局所近傍解析法であるk*分布を用いて,学習された潜在空間を個々の概念のレベルで調べる。 視覚モデルの潜在空間の全体的品質を評価するために、個々の概念を解釈するための歪度に基づく真および近似メトリクスを導入する。 以上の結果から,現在の視覚モデルが潜在空間内の個々の概念の分布を頻繁に破壊していることが示唆された。 しかしながら、これらのモデルが複数のデータセットにわたる一般化を改善するにつれて、フラクチャーの度合いは低下する。 同様に、ロバストな視覚モデルでは、ロバストさの増加はフラクチャーの減少と相関する。 最終的に、このアプローチは異なる視覚モデルの潜在空間の直接解釈と比較を可能にし、モデルの一般化可能性と堅牢性の関係を明らかにする。 その結果、モデルがより一般的で堅牢になるにつれて、概念のより優れたクラスタリングをもたらす特徴を学習する傾向が示される。 Project Webサイトはhttps://shashankkotyan.github.io/k-Distribution/で公開されている。

Most evaluations of vision models use indirect methods to assess latent space quality. These methods often involve adding extra layers to project the latent space into a new one. This projection makes it difficult to analyze and compare the original latent space. This article uses the k* Distribution, a local neighborhood analysis method, to examine the learned latent space at the level of individual concepts, which can be extended to examine the entire latent space. We introduce skewness-based true and approximate metrics for interpreting individual concepts to assess the overall quality of vision models' latent space. Our findings indicate that current vision models frequently fracture the distributions of individual concepts within the latent space. Nevertheless, as these models improve in generalization across multiple datasets, the degree of fracturing diminishes. A similar trend is observed in robust vision models, where increased robustness correlates with reduced fracturing. Ultimately, this approach enables a direct interpretation and comparison of the latent spaces of different vision models and reveals a relationship between a model's generalizability and robustness. Results show that as a model becomes more general and robust, it tends to learn features that result in better clustering of concepts. Project Website is available online at https://shashankkotyan.github.io/k-Distribution/
翻訳日:2024-08-20 22:56:40 公開日:2024-08-17
# CodeTaxo: コード言語プロンプトによる限定例による分類拡張の強化

CodeTaxo: Enhancing Taxonomy Expansion with Limited Examples via Code Language Prompts ( http://arxiv.org/abs/2408.09070v1 )

ライセンス: Link先を確認
Qingkai Zeng, Yuyang Bai, Zhaoxuan Tan, Zhenyu Wu, Shangbin Feng, Meng Jiang, (参考訳) 分類学は知識の構造的表現を提供することによって様々な応用において重要な役割を果たす。 分類学拡張の課題は、これらの新しいクエリ概念の適切な親概念を特定することによって、新しい概念を既存の分類学に統合することである。 従来のアプローチは、通常、既存の分類学からアノテーションデータを生成する自己管理手法に依存していた。 しかし、既存の分類が小さければ(100種類未満)、これらの手法は効果が低い。 そこで本研究では,コード言語を介し,大規模言語モデルを活用する新しい手法として,分類学的構造を捉えることを提案する。 異なる領域の5つの実世界のベンチマークに対する大規模な実験により、‘textsc{CodeTaxo} はすべての評価指標に対して一貫して優れたパフォーマンスを達成し、従来の最先端の手法よりも大幅に優れていた。 コードとデータは \url{https://github.com/QingkaiZeng/CodeTaxo-Pub} で公開されている。

Taxonomies play a crucial role in various applications by providing a structural representation of knowledge. The task of taxonomy expansion involves integrating emerging concepts into existing taxonomies by identifying appropriate parent concepts for these new query concepts. Previous approaches typically relied on self-supervised methods that generate annotation data from existing taxonomies. However, these methods are less effective when the existing taxonomy is small (fewer than 100 entities). In this work, we introduce \textsc{CodeTaxo}, a novel approach that leverages large language models through code language prompts to capture the taxonomic structure. Extensive experiments on five real-world benchmarks from different domains demonstrate that \textsc{CodeTaxo} consistently achieves superior performance across all evaluation metrics, significantly outperforming previous state-of-the-art methods. The code and data are available at \url{https://github.com/QingkaiZeng/CodeTaxo-Pub}.
翻訳日:2024-08-20 22:46:56 公開日:2024-08-17
# クッキーを欲しがる! Web上の自動化された透明なデータガバナンスを目指して

Me want cookie! Towards automated and transparent data governance on the Web ( http://arxiv.org/abs/2408.09071v1 )

ライセンス: Link先を確認
Jesse Wright, Beatriz Esteves, Rui Zhao, (参考訳) 本稿では,Webブラウザ内でのクッキーを含む個人データ管理のための社会工学的ビジョンを提案する。 まず,Web上での半自動データガバナンス,利用規約記述のためのポリシ言語の利用,ユーザに代わってブラウザを動作させることによるポリシベースのコントロールの実現,というビジョンを提示する。 そして,既存の政策言語が今日のWeb上でクッキーポリシーを記述するのに十分な範囲の概念を表現していることを実証するために必要な技術研究の概要を述べる。 この作業は,WebエージェントやSolidといった次世代のWebテクノロジでも,長期的に使用可能な,Webスケールでの半自動データガバナンスの今後に向けての一歩である,と私たちは考えています。

This paper presents a sociotechnical vision for managing personal data, including cookies, within Web browsers. We first present our vision for a future of semi-automated data governance on the Web, using policy languages to describe data terms of use, and having browsers act on behalf of users to enact policy-based controls. Then, we present an overview of the technical research required to {prove} that existing policy languages express a sufficient range of concepts for describing cookie policies on the Web today. We view this work as a stepping stone towards a future of semi-automated data governance at Web-scale, which in the long term will also be used by next-generation Web technologies such as Web agents and Solid.
翻訳日:2024-08-20 22:46:56 公開日:2024-08-17
# ネットワークにおけるコミュニティ検出の強化:局所的メトリクスと階層的アルゴリズムの比較分析

Enhancing Community Detection in Networks: A Comparative Analysis of Local Metrics and Hierarchical Algorithms ( http://arxiv.org/abs/2408.09072v1 )

ライセンス: Link先を確認
Julio-Omar Palacio-Niño, Fernando Berzal, (参考訳) ネットワーク構造におけるコミュニティの分析と検出は、社会的行動を理解するためにますます重要になっている。 この分野での大きな課題の1つは、既存のアルゴリズムの複雑さである。 Girvan-Newmanアルゴリズムはノード間の距離をノード類似性の尺度として用いており、この分野で最も代表的なアルゴリズムの1つである。 本研究は,地域間類似度指標を用いた地域検出の関連性を評価するために,同じ手法を用いている。 Girvan-Newman基本アルゴリズムを用いて構築されたネットワーク上で、一連のローカルメトリクスがテストされた。 これらの指標の有効性は,モジュール性とNMIを用いて,異なるコミュニティサイズを持つ複数の実ネットワークにベースアルゴリズムを適用して評価した。 その結果,地域類似度尺度に基づくアプローチは,コミュニティ検出に有意な可能性を示唆した。

The analysis and detection of communities in network structures are becoming increasingly relevant for understanding social behavior. One of the principal challenges in this field is the complexity of existing algorithms. The Girvan-Newman algorithm, which uses the betweenness metric as a measure of node similarity, is one of the most representative algorithms in this area. This study employs the same method to evaluate the relevance of using local similarity metrics for community detection. A series of local metrics were tested on a set of networks constructed using the Girvan-Newman basic algorithm. The efficacy of these metrics was evaluated by applying the base algorithm to several real networks with varying community sizes, using modularity and NMI. The results indicate that approaches based on local similarity metrics have significant potential for community detection.
翻訳日:2024-08-20 22:46:56 公開日:2024-08-17
# 一般化スムースネス下でのグラディエント変分オンライン学習

Gradient-Variation Online Learning under Generalized Smoothness ( http://arxiv.org/abs/2408.09074v1 )

ライセンス: Link先を確認
Yan-Feng Xie, Peng Zhao, Zhi-Hua Zhou, (参考訳) グラディエント変分オンライン学習は、ゲームにおける迅速な収束と確率的最適化の堅牢性の達成に不可欠であることが示されているオンライン機能の勾配の変動にともなう、後悔の保証を達成することを目的としている。 既存の結果はしばしば勾配リプシッツ性に固定境界を課すことによって滑らかさ条件を必要とするが、実際は成立しない。 ニューラルネットワーク最適化における最近の取り組みは、一般化された滑らかさ条件を示唆し、滑らかさは勾配ノルムと相関する。 本稿では,一般化された滑らかさの下での勾配偏差オンライン学習を体系的に研究する。 この目的のために、最適化軌道上の安定性解析を行い、局所的に滑らかさを利用することにより、古典的な楽観的なミラー降下アルゴリズムを勾配-偏差境界の導出に拡張する。 さらに,一様オンライン学習を探求し,曲率情報を知ることなく,凸関数と強凸関数の最適勾配偏差後悔を満足する1つのアルゴリズムを設計する。 このアルゴリズムは、ベースラーナーのグループ上で動作するメタアルゴリズムを備えた2層構造を採用する。 良好な保証を確保するため,リプシッツ適応型メタアルゴリズムを設計した。 最後に,本研究の結果を示唆し,高速ゲームと確率的拡張対角最適化の新たな結果を得る。

Gradient-variation online learning aims to achieve regret guarantees that scale with the variations in the gradients of online functions, which has been shown to be crucial for attaining fast convergence in games and robustness in stochastic optimization, hence receiving increased attention. Existing results often require the smoothness condition by imposing a fixed bound on the gradient Lipschitzness, but this may not hold in practice. Recent efforts in neural network optimization suggest a generalized smoothness condition, allowing smoothness to correlate with gradient norms. In this paper, we systematically study gradient-variation online learning under generalized smoothness. To this end, we extend the classic optimistic mirror descent algorithm to derive gradient-variation bounds by conducting stability analysis over the optimization trajectory and exploiting smoothness locally. Furthermore, we explore universal online learning, designing a single algorithm enjoying optimal gradient-variation regrets for convex and strongly convex functions simultaneously without knowing curvature information. The algorithm adopts a two-layer structure with a meta-algorithm running over a group of base-learners. To ensure favorable guarantees, we have designed a new meta-algorithm that is Lipschitz-adaptive to handle potentially unbounded gradients and meanwhile ensures second-order regret to cooperate with base-learners. Finally, we provide implications of our findings and obtain new results in fast-rate games and stochastic extended adversarial optimization.
翻訳日:2024-08-20 22:46:56 公開日:2024-08-17
# 辞書とアテンション・マスキングによるレアワード翻訳の改善

Improving Rare Word Translation With Dictionaries and Attention Masking ( http://arxiv.org/abs/2408.09075v1 )

ライセンス: Link先を確認
Kenneth J. Sible, David Chiang, (参考訳) 機械翻訳において、レアワードはエンコーダ-デコーダアーキテクチャ、特に低リソースおよび外ドメイン翻訳設定における問題であり続けている。 人間翻訳者は、この問題をモノリンガル辞書やバイリンガル辞書で解決する。 本稿では、二言語辞書からソース文への追加定義を提案し、アテンションマスキングを用いて、希少単語とそれらの定義をリンクする。 稀な単語の定義を含むと、最大1.0BLEUと1.6MacroF1の性能が向上することがわかった。

In machine translation, rare words continue to be a problem for the dominant encoder-decoder architecture, especially in low-resource and out-of-domain translation settings. Human translators solve this problem with monolingual or bilingual dictionaries. In this paper, we propose appending definitions from a bilingual dictionary to source sentences and using attention masking to link together rare words with their definitions. We find that including definitions for rare words improves performance by up to 1.0 BLEU and 1.6 MacroF1.
翻訳日:2024-08-20 22:46:56 公開日:2024-08-17
# 階層型フェデレーション学習のためのユーザアソシエーションと無線帯域割当を支援するツインソルティング動的プログラミング

Twin Sorting Dynamic Programming Assisted User Association and Wireless Bandwidth Allocation for Hierarchical Federated Learning ( http://arxiv.org/abs/2408.09076v1 )

ライセンス: Link先を確認
Rung-Hung Gau, Ting-Yu Wang, Chun-Hung Liu, (参考訳) 本稿では,モバイルユーザ,エッジサーバ,クラウドサーバで構成される階層型フェデレーション学習システムのユーザアソシエーションと無線帯域幅割り当てについて検討する。 階層的フェデレーション学習におけるグローバルラウンドの長さを等帯域割り当てで最小化するために,組合せ最適化問題を定式化する。 2つのエッジサーバが存在する場合の多項式時間で大域的最適解を求めるツインソート動的プログラミング (TSDP) アルゴリズムを設計する。 さらに,3つ以上のエッジサーバが存在する場合に,ユーザアソシエーションのためのTSDP支援アルゴリズムを提案する。 さらに、ユーザ関連行列が与えられた場合、最適な無線帯域割り当てのための凸最適化問題を定式化し、解決する。 シミュレーションの結果,提案手法はいくつかの代替手法より優れていることがわかった。

In this paper, we study user association and wireless bandwidth allocation for a hierarchical federated learning system that consists of mobile users, edge servers, and a cloud server. To minimize the length of a global round in hierarchical federated learning with equal bandwidth allocation, we formulate a combinatorial optimization problem. We design the twin sorting dynamic programming (TSDP) algorithm that obtains a globally optimal solution in polynomial time when there are two edge servers. In addition, we put forward the TSDP-assisted algorithm for user association when there are three or more edge servers. Furthermore, given a user association matrix, we formulate and solve a convex optimization problem for optimal wireless bandwidth allocation. Simulation results show that the proposed approach outperforms a number of alternative schemes.
翻訳日:2024-08-20 22:46:56 公開日:2024-08-17
# セキュアコード生成のための微調整大言語モデルの探索的研究

An Exploratory Study on Fine-Tuning Large Language Models for Secure Code Generation ( http://arxiv.org/abs/2408.09078v1 )

ライセンス: Link先を確認
Junjie Li, Fazle Rabbi, Cheng Cheng, Aseem Sangalay, Yuan Tian, Jinqiu Yang, (参考訳) GitHub CopilotやOpenAI ChatGPTといったAIによるコーディングアシスタントは、コード生成の自動化において大きな成功を収めている。 しかしながら、これらのツールはトレーニング済みのLarge Language Models(LLM)に依存しており、GitHubのようなオープンソースプロジェクトホスティングサイトからソースされた人手によるコードでトレーニングされる。 これらの脆弱性は、これらのLSMによって生成されたコードに反映される可能性がある。 本研究では,脆弱性修正コミットのデータセット上での微調整済みのLLMがセキュアなコード生成を促進するかどうかを探索研究する。 コード生成のための2つの事前学習LDM上で,パラメータ効率のよい2つの微調整手法 (LoRa, IA3) について検討した。 オープンソースのリポジトリから、確認済みの脆弱性のコード修正を収集することで、セキュアなコード生成のための微調整データセット(14,622 CとC++ファイル)をクロールしました。 評価データセットは、最も危険なCとC++共通弱度列挙(CWE)をカバーするように設計された52の脆弱性シナリオで構成されています。 各シナリオはLSMを誘導して脆弱なコードを生成するプロンプトである。 我々の調査によると、微調整のLLMは、C言語で6.4%、C++言語で5.4%、セキュアなコード生成を改善することができる。 さらに、収集したセキュアなコードデータセット(ブロック、関数、行)の異なるバージョンを使用して、微調整 LLM を実験した。 関数レベルとブロックレベルのデータセットによる微調整は、代替(ファイルレベルとラインレベル)と比較して、最高のセキュアなコード生成性能を実現することがわかった。

AI-powered coding assistants such as GitHub Copilot and OpenAI ChatGPT have achieved notable success in automating code generation. However, these tools rely on pre-trained Large Language Models (LLMs) that are typically trained on human-written code sourced from open-source project hosting sites like GitHub, which often contains inherent security vulnerabilities. These vulnerabilities may then be mirrored in the code generated by these LLMs, a critical risk revealed and highlighted by recent empirical studies. In this work, we present an exploratory study on whether fine-tuning pre-trained LLMs on datasets of vulnerability-fixing commits can promote secure code generation. We explored two parameter-efficient fine-tuning techniques (LoRa and IA3) on two pre-trained LLMs for code generation. We crawled a fine-tuning dataset (14,622 C and C++ files) for secure code generation by collecting code fixes of confirmed vulnerabilities from open-source repositories. Our evaluation dataset comprises 52 vulnerability scenarios designed to cover the top most dangerous C and C++ Common Weakness Enumerations (CWEs). Each scenario is a prompt that may induce LLMs to generate vulnerable code. Our exploration reveals that fine-tuning LLMs can improve secure code generation by 6.4% in C language and 5.4% in C++ language. We further experimented with fine-tuning LLMs using different versions of the collected secure code dataset (block, function, and line). We found that fine-tuning with function-level and block-level datasets achieves the best secure code generation performance, compared to the alternatives (file-level and line-level).
翻訳日:2024-08-20 22:46:56 公開日:2024-08-17
# 量子チャネルの量子不確実性関係

The quantum uncertainty relations of quantum channels ( http://arxiv.org/abs/2408.09082v1 )

ライセンス: Link先を確認
Shi-Yun Kong, Ming-Jing Zhao, Zhi-Xi Wang, Shao-Ming Fei, (参考訳) 不確実性の関係は、古典的世界と量子的世界との本質的な違いを明らかにする。 量子ビット系における量子チャネルの量子不確実性関係について検討する。 2つの一般的な測定基準の下では、まずコヒーレンスの相対エントロピーに関する量子チャネルの量子不確実性関係を導出する。 次に、コヒーレンスの$l_1$ノルムに関するユニタリチャネルの量子不確実性関係を得る。 詳しくはいくつかの例を挙げる。

The uncertainty relation reveals the intrinsic difference between the classical world and the quantum world. We investigate the quantum uncertainty relation of quantum channel in qubit systems. Under two general measurement bases, we first derive the quantum uncertainty relation for quantum channels with respect to the relative entropy of coherence. Then we obtain the quantum uncertainty relation for unitary channels with respect to the $l_1$ norm of coherence. Some examples are given in detail.
翻訳日:2024-08-20 22:46:56 公開日:2024-08-17
# 組合せ最適化問題に対するイマジナリーハミルトン変分アンサッツ

Imaginary Hamiltonian variational ansatz for combinatorial optimization problems ( http://arxiv.org/abs/2408.09083v1 )

ライセンス: Link先を確認
Xiaoyang Wang, Yahui Chai, Xu Feng, Yibin Guo, Karl Jansen, Cenk Tüysüz, (参考訳) 古典計算を用いた組合せ最適化問題の正確な解を得るには、計算コストがかかる。 この分野の現在の傾向は、量子コンピュータがこれらの問題により効率的に対処できるということである。 有望なアルゴリズムはフォールトトレラントな量子ハードウェアを必要とするが、変分アルゴリズムは短期的デバイスの候補として浮上している。 これらのアルゴリズムの成功は、アンザッツの設計が最も重要であり、複数の要因に依存している。 量子近似最適化アルゴリズム (QAOA) や量子アニーリングのような一般的なアプローチは、より大きな回路深さまたは進化時間に繋がる断熱的ボトルネックに悩まされることが知られている。 一方、想像時間進化の進化時間は、多くの非臨界物理系に対して一定であるハミルトンの逆エネルギーギャップによって制限される。 本研究は,量子想像時間進化にインスパイアされたハミルトン変分アンザッツ(i$HVA)を提案し,MaxCut問題を解く。 パラメタライズド量子ゲートのツリー配置を導入し、1ラウンド$i$HVAを用いて任意のツリーグラフを正確に解けるようにする。 ランダムに生成された$D$正規グラフに対して、$i$HVAは、グラフサイズに応じてラウンドが増大するQAOAよりも小さいラウンド数とサブ線形深さで、MaxCut問題を解くことを数値的に示す。 さらに、我々のアンサッツは、最大24ノードと$D \leq 5$のグラフに対して、MaxCutを正確に解き、一方、近似解のみが古典的な準最適ゴーマン・ウィリアムソンアルゴリズムによって導き出すことができる。 63ノードのグラフ上でハードウェア実験を行い,シミュレーション結果を検証した。

Obtaining exact solutions to combinatorial optimization problems using classical computing is computationally expensive. The current tenet in the field is that quantum computers can address these problems more efficiently. While promising algorithms require fault-tolerant quantum hardware, variational algorithms have emerged as viable candidates for near-term devices. The success of these algorithms hinges on multiple factors, with the design of the ansatz having the utmost importance. It is known that popular approaches such as quantum approximate optimization algorithm (QAOA) and quantum annealing suffer from adiabatic bottlenecks, that lead to either larger circuit depth or evolution time. On the other hand, the evolution time of imaginary time evolution is bounded by the inverse energy gap of the Hamiltonian, which is constant for most non-critical physical systems. In this work, we propose imaginary Hamiltonian variational ansatz ($i$HVA) inspired by quantum imaginary time evolution to solve the MaxCut problem. We introduce a tree arrangement of the parametrized quantum gates, enabling the exact solution of arbitrary tree graphs using the one-round $i$HVA. For randomly generated $D$-regular graphs, we numerically demonstrate that the $i$HVA solves the MaxCut problem with a small constant number of rounds and sublinear depth, outperforming QAOA, which requires rounds increasing with the graph size. Furthermore, our ansatz solves MaxCut exactly for graphs with up to 24 nodes and $D \leq 5$, whereas only approximate solutions can be derived by the classical near-optimal Goemans-Williamson algorithm. We validate our simulated results with hardware experiments on a graph with 63 nodes.
翻訳日:2024-08-20 22:46:56 公開日:2024-08-17
# 複数のモダリティを持つセグメンテーション

Segment Anything with Multiple Modalities ( http://arxiv.org/abs/2408.09085v1 )

ライセンス: Link先を確認
Aoran Xiao, Weihao Xuan, Heli Qi, Yun Xing, Naoto Yokoya, Shijian Lu, (参考訳) 様々な視覚認識やナビゲーションタスクにおいて、シーンのロバストで正確なセグメンテーションが中心的な機能となっている。 これは、一般的なマスクセグメンテーションの基礎モデルであるSAM(Segment Anything Model)の最近の発展にインスピレーションを与えている。 しかしSAMは単一モードのRGB画像に最適化されており、LiDAR+RGB、深さ+RGB、熱+RGBなど、広く採用されているセンサースイートでキャプチャされたマルチモーダルデータに適用可能である。 MM-SAMは、異なるセンサスイートによる堅牢で拡張されたセグメンテーションのための、クロスモーダルおよびマルチモーダル処理をサポートするSAMの拡張および拡張である。 MM-SAMは、教師なしのクロスモーダル転送と弱い教師付きマルチモーダル融合という2つの重要な設計を特徴としている。 主な3つの課題に対処する。 1)単一モード処理のための多様なRGB非RGBセンサへの適応 2【センサ融合によるマルチモーダルデータの相乗的処理】 3) 異なる下流作業に対するマスクフリートレーニング。 広範囲な実験により、MM-SAMはSAMのマージンを大きく上回り、様々なセンサーやデータモダリティでその有効性と堅牢性を実証している。

Robust and accurate segmentation of scenes has become one core functionality in various visual recognition and navigation tasks. This has inspired the recent development of Segment Anything Model (SAM), a foundation model for general mask segmentation. However, SAM is largely tailored for single-modal RGB images, limiting its applicability to multi-modal data captured with widely-adopted sensor suites, such as LiDAR plus RGB, depth plus RGB, thermal plus RGB, etc. We develop MM-SAM, an extension and expansion of SAM that supports cross-modal and multi-modal processing for robust and enhanced segmentation with different sensor suites. MM-SAM features two key designs, namely, unsupervised cross-modal transfer and weakly-supervised multi-modal fusion, enabling label-efficient and parameter-efficient adaptation toward various sensor modalities. It addresses three main challenges: 1) adaptation toward diverse non-RGB sensors for single-modal processing, 2) synergistic processing of multi-modal data via sensor fusion, and 3) mask-free training for different downstream tasks. Extensive experiments show that MM-SAM consistently outperforms SAM by large margins, demonstrating its effectiveness and robustness across various sensors and data modalities.
翻訳日:2024-08-20 22:46:56 公開日:2024-08-17
# 量子暗号設計はシャノンの定理を克服し、再利用可能な鍵で完全秘密を達成する

Quantum encryption design overcomes Shannon's theorem to achieve perfect-secrecy with reusable keys ( http://arxiv.org/abs/2408.09088v1 )

ライセンス: Link先を確認
Zixuan Hu, Zhenyu Li, (参考訳) シャノンの完全秘密定理(英語版)は、敵にゼロ情報をもたらす完全暗号システムは、ランダムに生成され再利用されない鍵を持つワンタイムパッド(OTP)でなければならないと述べている。 しかし、最近発見された量子絡み合いのエキゾチックな性質は、量子状態におけるシャノンの定理を再考する動機となった。 本研究では、シャノンの定理を克服し、再利用可能な鍵で完全機密性を達成する量子暗号法を設計する大胆な試みを行う。 このメカニズムは基本的に量子であり、量子システムと古典システムでは情報がどのように処理されるかという微妙だが重要な違いを示している。

Shannon's perfect-secrecy theorem states that a perfect encryption system that yields zero information to the adversary must be a one-time-pad (OTP) with the keys randomly generated and never reused. However, recently discovered exotic properties of quantum entanglement have motivated us to re-consider Shannon's theorem in the quantum regime. In this work we make a bold attempt to design a quantum encryption method that overcomes Shannon's theorem to achieve perfect-secrecy with reusable keys. The mechanism used is fundamentally quantum, demonstrating subtle but critical differences in how information is processed in quantum versus classical systems.
翻訳日:2024-08-20 22:46:56 公開日:2024-08-17
# 乗客行動予測のための動的グラフ表現学習

Dynamic Graph Representation Learning for Passenger Behavior Prediction ( http://arxiv.org/abs/2408.09092v1 )

ライセンス: Link先を確認
Mingxuan Xie, Tao Zou, Junchen Ye, Bowen Du, Runhe Huang, (参考訳) 乗務員の行動予測は、歴史的搭乗や乗降データを通じて乗客の移動パターンを追跡することを目的としており、都市駅の乗客フローの分析と時間的リスク管理を可能にしている。 これはスマートシティ開発と公共交通計画にとって不可欠である。 既存の研究は主に、乗客と駅間の相関を無視する個々の歴史的相互作用から学ぶための統計手法とシーケンシャルモデルに依存している。 このような問題に対処するために,動的グラフを利用して乗客行動の複雑な進化を捉えるDyGPPを提案する。 まず、乗客と駅間の相互作用を表す頂点間の接続を動的グラフで表し、乗客と駅を異種頂点として定式化する。 そこで,本研究では,乗客と駅のインタラクション・シーケンスを別々にサンプリングした。 個々のシーケンスから時間的パターンをキャプチャし、その2つのシーケンス間の時間的挙動を相関づける。 最後に,MLPをベースとしたエンコーダを用いて,対話の時間パターンを学習し,乗客や駅のリアルタイム表現を生成する。 実世界のデータセットを用いた実験により、DyGPPは行動予測タスクにおいて現在のモデルよりも優れており、我々のモデルの優位性が示された。

Passenger behavior prediction aims to track passenger travel patterns through historical boarding and alighting data, enabling the analysis of urban station passenger flow and timely risk management. This is crucial for smart city development and public transportation planning. Existing research primarily relies on statistical methods and sequential models to learn from individual historical interactions, which ignores the correlations between passengers and stations. To address these issues, this paper proposes DyGPP, which leverages dynamic graphs to capture the intricate evolution of passenger behavior. First, we formalize passengers and stations as heterogeneous vertices in a dynamic graph, with connections between vertices representing interactions between passengers and stations. Then, we sample the historical interaction sequences for passengers and stations separately. We capture the temporal patterns from individual sequences and correlate the temporal behavior between the two sequences. Finally, we use an MLP-based encoder to learn the temporal patterns in the interactions and generate real-time representations of passengers and stations. Experiments on real-world datasets confirmed that DyGPP outperformed current models in the behavior prediction task, demonstrating the superiority of our model.
翻訳日:2024-08-20 22:46:56 公開日:2024-08-17
# BaThe: バックドアトリガーとしての有害命令処理による多モード大規模言語モデルにおけるジェイルブレイク攻撃に対する防御

BaThe: Defense against the Jailbreak Attack in Multimodal Large Language Models by Treating Harmful Instruction as Backdoor Trigger ( http://arxiv.org/abs/2408.09093v1 )

ライセンス: Link先を確認
Yulin Chen, Haoran Li, Zihao Zheng, Yangqiu Song, (参考訳) MLLM(Multimodal Large Language Models)は、様々なマルチモーダルタスクにおいて印象的なパフォーマンスを示す。 一方、追加の画像モダリティの統合により、悪意のあるユーザーが画像内に有害なコンテンツを注入してジェイルブレイクすることが可能になる。 特定のアルゴリズムを用いて悪意のある意図を隠蔽するために、敵が個別のトークンを選択するテキストベースのLLMとは異なり、画像信号の連続的な性質は、敵が有害な意図を注入する直接的な機会を提供する。 本稿では,単純なジェイルブレイク防御機構である$\textbf{BaThe}$$$\textbf{Ba}$ckdoor $\textbf{T}$rigger S$\textbf{h}$i$\textbf{e}$ldを提案する。 我々の研究は、最近のジェイルブレイクバックドアアタックと、生成言語モデルにおける仮想プロンプトバックドアアタックの研究に動機づけられている。 ジェイルブレイクのバックドア攻撃は、手作りの弦と組み合わされた有害な指示をトリガーとして使用し、バックドアモデルが禁止された応答を生成する。 有害な命令がトリガーとして機能し、代わりにリジェクション応答をトリガー応答として設定すれば、バックドアモデルがジェイルブレイク攻撃に対して防御できると仮定する。 我々は、仮想的なプロンプトバックドア攻撃と同様に、仮想的な拒絶プロンプトを利用することでこれを実現する。 仮想拒絶プロンプトをソフトテキストの埋め込みに埋め込み、それを `wedge'' と呼ぶ。 包括的実験により,BaTheは様々な種類のジェイルブレイク攻撃を効果的に軽減し,MLLMのパフォーマンスに最小限の影響を及ぼすことなく,目に見えない攻撃から防御できることを示した。

Multimodal Large Language Models (MLLMs) have showcased impressive performance in a variety of multimodal tasks. On the other hand, the integration of additional image modality may allow the malicious users to inject harmful content inside the images for jailbreaking. Unlike text-based LLMs, where adversaries need to select discrete tokens to conceal their malicious intent using specific algorithms, the continuous nature of image signals provides a direct opportunity for adversaries to inject harmful intentions. In this work, we propose $\textbf{BaThe}$ ($\textbf{Ba}$ckdoor $\textbf{T}$rigger S$\textbf{h}$i$\textbf{e}$ld), a simple yet effective jailbreak defense mechanism. Our work is motivated by recent research on jailbreak backdoor attack and virtual prompt backdoor attack in generative language models. Jailbreak backdoor attack uses harmful instructions combined with manually crafted strings as triggers to make the backdoored model generate prohibited responses. We assume that harmful instructions can function as triggers, and if we alternatively set rejection responses as the triggered response, the backdoored model then can defend against jailbreak attacks. We achieve this by utilizing virtual rejection prompt, similar to the virtual prompt backdoor attack. We embed the virtual rejection prompt into the soft text embeddings, which we call ``wedge''. Our comprehensive experiments demonstrate that BaThe effectively mitigates various types of jailbreak attacks and is adaptable to defend against unseen attacks, with minimal impact on MLLMs' performance.
翻訳日:2024-08-20 22:46:56 公開日:2024-08-17
# TENNを用いた非構造化データに基づくカラーレシピレコメンデーションに関する研究

Research on color recipe recommendation based on unstructured data using TENN ( http://arxiv.org/abs/2408.09094v1 )

ライセンス: Link先を確認
Seongsu Jhang, Donghwi Yoo, Jaeyong Kown, (参考訳) 近年、OpenAI Chatgpt、Google BARD、Microsoft copilotなどの大規模言語モデルに基づくサービスやビジネスモデルが導入され、ディープラーニングによる自然言語処理を利用したアプリケーションが増えており、自然言語前処理手法の1つである。 非構造化データのトークン化と処理による機械語への変換が増加している。 人間の言語を理解し、適用できるアルゴリズムはますます洗練されつつあるが、標準化されたデータを扱う産業において、人間の感情や感覚に依存するプロセスに適用することは困難である。 特に、絵画や射出成形など、明るさ、彩度、色情報などが不可欠であるプロセスにおいては、大企業を除くほとんどの中小企業は、色彩ミキサーの暗黙の知識と感受性に依存しており、顧客企業でさえ、しばしば標準化されていない要件を提示している。 と。 本稿では,感情的自然言語を用いた非構造化データに基づいて,カラーレシピを推論するTENNを提案し,それを実証した。

Recently, services and business models based on large language models, such as OpenAI Chatgpt, Google BARD, and Microsoft copilot, have been introduced, and the applications utilizing natural language processing with deep learning are increasing, and it is one of the natural language preprocessing methods. Conversion to machine language through tokenization and processing of unstructured data are increasing. Although algorithms that can understand and apply human language are becoming increasingly sophisticated, it is difficult to apply them to processes that rely on human emotions and senses in industries that still mainly deal with standardized data. In particular, in processes where brightness, saturation, and color information are essential, such as painting and injection molding, most small and medium-sized companies, excluding large corporations, rely on the tacit knowledge and sensibility of color mixers, and even customer companies often present non-standardized requirements. . In this paper, we proposed TENN to infer color recipe based on unstructured data with emotional natural language, and demonstrated it.
翻訳日:2024-08-20 22:46:56 公開日:2024-08-17
# 時空間表現を一般化したスパイキングニューラルネットワークの時間反転学習

Temporal Reversed Training for Spiking Neural Networks with Generalized Spatio-Temporal Representation ( http://arxiv.org/abs/2408.09108v1 )

ライセンス: Link先を確認
Lin Zuo, Yongqi Ding, Wenwei Luo, Mengmeng Jing, Xianlong Tian, Kunshan Yang, (参考訳) スパイキングニューラルネットワーク(SNN)は、超低エネルギーコンピューティングパラダイムとして広く注目を集めている。 近年,SNNの特徴抽出能力の向上に焦点が当てられているが,非効率な推論や準最適性能に悩まされている。 本稿では,SNNの時空間性能を最適化し,これらの問題を回避するための簡易かつ効果的な時間逆トレーニング(TRT)法を提案する。 入力時空間データを時間反転で摂動し、SNNが元の逆一貫した出力ロジットを生成し、摂動不変表現を学習する。 時間的次元を持たない静的データに対しては、スパイク特性の時間反転にスパイクニューロン固有の時間的特性を利用することにより、この戦略を一般化する。 さらに、軽量な「星演算」(要素演算)を用いて、原点および時間反転したスパイク発火率をハイブリダイズし、暗黙の次元を拡大し、時空間正規化として機能し、SNNの一般化をさらに促進する。 本手法は,訓練中の時間的逆転操作と要素的乗算のみを伴い,無視できる訓練オーバーヘッドを発生させ,推論効率にまったく影響を与えない。 静的・ニューロモルフィックな物体/行動認識と3Dポイントクラウド分類タスクに関する大規模な実験により,本手法の有効性と一般化性を示した。 特に,2つのタイムステップで,画像NetとModelNet40でそれぞれ74.77\%,90.57\%の精度を達成した。

Spiking neural networks (SNNs) have received widespread attention as an ultra-low energy computing paradigm. Recent studies have focused on improving the feature extraction capability of SNNs, but they suffer from inefficient inference and suboptimal performance. In this paper, we propose a simple yet effective temporal reversed training (TRT) method to optimize the spatio-temporal performance of SNNs and circumvent these problems. We perturb the input temporal data by temporal reversal, prompting the SNN to produce original-reversed consistent output logits and to learn perturbation-invariant representations. For static data without temporal dimension, we generalize this strategy by exploiting the inherent temporal property of spiking neurons for spike feature temporal reversal. In addition, we utilize the lightweight ``star operation" (element-wise multiplication) to hybridize the original and temporally reversed spike firing rates and expand the implicit dimensions, which serves as spatio-temporal regularization to further enhance the generalization of the SNN. Our method involves only an additional temporal reversal operation and element-wise multiplication during training, thus incurring negligible training overhead and not affecting the inference efficiency at all. Extensive experiments on static/neuromorphic object/action recognition, and 3D point cloud classification tasks demonstrate the effectiveness and generalizability of our method. In particular, with only two timesteps, our method achieves 74.77\% and 90.57\% accuracy on ImageNet and ModelNet40, respectively.
翻訳日:2024-08-20 22:46:56 公開日:2024-08-17
# より良い回答に向けて: アップデート後の自動スタックオーバーフロー

Towards Better Answers: Automated Stack Overflow Post Updating ( http://arxiv.org/abs/2408.09095v1 )

ライセンス: Link先を確認
Yubo Mai, Zhipeng Gao, Haoye Wang, Tingting Bi, Xing Hu, Xin Xia, Jianling Sun, (参考訳) Stack Overflow(SO)でのコードスニペットの利用は、問題解決の一般的なプラクティスである。 SOコードスニペットは貴重なリソースとして機能するが、それらの欠陥を認識することが重要である。 SOコメントは、しばしば投稿の弱点を指摘し、回答の品質を改善するための貴重な洞察を提供する。 本研究ではまず,関連コメントに基づいてSOポストの自動更新作業について検討する。 このタスクのために、Soup(Stack Overflow Updator for Post)という新しいフレームワークを紹介します。 Soupは、Valid Comment-Edit Prediction(VCP)とAutomatic Post Updating(APU)の2つの重要なタスクに対処する。 大規模な実験結果からは,ベンチマークによるモデルの性能向上が期待できる。 さらに,我々はStack Overflowの現場での評価を行い,Stack Overflowの投稿に対するアプローチによって生成された50の編集を提出し,その中の21の編集がSOメンテナによって検証,承認され,さらにSoupの実用的価値が証明された。

Utilizing code snippets on Stack Overflow (SO) is a common practice among developers for problem-solving. Although SO code snippets serve as valuable resources, it is important to acknowledge their imperfections, reusing problematic code snippets can lead to the introduction of suboptimal or buggy code into software projects. SO comments often point out weaknesses of a post and provide valuable insights to improve the quality of answers, while SO comments are usually missed and/or ignored, leaving these problematic code snippets untouched. In this work, we first investigate the task of automatic SO posts updating based on their associated comments. We introduce a novel framework, named Soup (Stack Overflow Updator for Post) for this task. Soup addresses two key tasks: Valid Comment-Edit Prediction (VCP) and Automatic Post Updating (APU). Extensive experimental results show the promising performance of our model over a set of benchmarks. Moreover, we also performed an in-the-wild evaluation on Stack Overflow, we submitted 50 edits generated by our approach to Stack Overflow posts and 21 of them have been verified and accepted by SO maintainers, further proving the practical value of Soup.
翻訳日:2024-08-20 22:37:12 公開日:2024-08-17
# 画像セマンティックセグメンテーションのための深さ誘導型集合組織拡散

Depth-guided Texture Diffusion for Image Semantic Segmentation ( http://arxiv.org/abs/2408.09097v1 )

ライセンス: Link先を確認
Wei Sun, Yuan Li, Qixiang Ye, Jianbin Jiao, Yanzhao Zhou, (参考訳) 深度情報は3D構造、特にオブジェクトの輪郭に関する貴重な洞察を与え、セマンティックセグメンテーションタスクを改善するために利用することができる。 しかし、奥行き情報の統合は、奥行きと視界のずれによる特徴や妥協の精度を損なう可能性がある。 そこで本研究では,Depth-Guided Texture Diffusionアプローチを導入し,その課題を効果的に解決する。 本手法は,テクスチャ画像を作成するために,エッジやテクスチャから低レベル特徴を抽出する。 この画像は深度マップに選択的に拡散され、オブジェクトの輪郭を正確に抽出するための構造情報を強化する。 この拡張された深度マップを元のRGB画像と結合した特徴埋め込みに統合することにより、深度マップと画像との格差を効果的に橋渡しし、より正確なセマンティックセグメンテーションを可能にする。 我々は、カモフラージュオブジェクト検出(COD)、サルエントオブジェクト検出(SOD)、屋内セマンティックセマンティックセマンティックセマンティクスなど、幅広いセマンティックセマンティクスタスクにまたがる、多種多様な一般的なデータセットにわたる包括的な実験を行う。 画像セグメンテーションにおけるDepth-Guided Texture Diffusionの有効性を実証し,Depth-Guided Texture Diffusionの有効性を示す。

Depth information provides valuable insights into the 3D structure especially the outline of objects, which can be utilized to improve the semantic segmentation tasks. However, a naive fusion of depth information can disrupt feature and compromise accuracy due to the modality gap between the depth and the vision. In this work, we introduce a Depth-guided Texture Diffusion approach that effectively tackles the outlined challenge. Our method extracts low-level features from edges and textures to create a texture image. This image is then selectively diffused across the depth map, enhancing structural information vital for precisely extracting object outlines. By integrating this enriched depth map with the original RGB image into a joint feature embedding, our method effectively bridges the disparity between the depth map and the image, enabling more accurate semantic segmentation. We conduct comprehensive experiments across diverse, commonly-used datasets spanning a wide range of semantic segmentation tasks, including Camouflaged Object Detection (COD), Salient Object Detection (SOD), and indoor semantic segmentation. With source-free estimated depth or depth captured by depth cameras, our method consistently outperforms existing baselines and achieves new state-of-theart results, demonstrating the effectiveness of our Depth-guided Texture Diffusion for image semantic segmentation.
翻訳日:2024-08-20 22:37:12 公開日:2024-08-17
# HybridOcc: NeRF強化トランスを用いたマルチカメラ3D動作予測

HybridOcc: NeRF Enhanced Transformer-based Multi-Camera 3D Occupancy Prediction ( http://arxiv.org/abs/2408.09104v1 )

ライセンス: Link先を確認
Xiao Zhao, Bo Chen, Mingyang Sun, Dingkang Yang, Youxing Wang, Xukun Zhang, Mingcheng Li, Dongliang Kou, Xiaoyi Wei, Lihua Zhang, (参考訳) 視覚に基づく3Dセマンティックシーン補完(SSC)は、3Dボリューム表現による自律走行シーンを記述する。 しかし、シーン表面による見えないボクセルの排除は、洗練された3次元幾何学の幻覚化において、現在のSSC法に課題をもたらす。 本稿では,TransformerフレームワークとNeRF表現によって生成されたハイブリッド3Dボリュームクエリ提案手法であるHybridOccを提案する。 HybridOccは、ハイブリッドクエリの提案に基づいてTransformerパラダイムを通じてコンテキストの特徴を集約し、NeRF表現と組み合わせて深度監視を得る。 Transformerブランチは複数のスケールを含み、2Dから3Dへの変換に空間的相互アテンションを使用する。 新しく設計されたNeRFブランチは、視認性や見えないボクセルを含むボリュームレンダリングを通じてシーン占有率を暗黙的に推測し、RGB色を生成するのではなく、シーン深度を明示的にキャプチャする。 さらに,シーン表面に焦点をあてるのではなく,SSCタスクをオリエントに配置し,全体的な性能を向上する。 nuScenesとSemanticKITTIデータセットに関する大規模な実験は、SSCタスクにおけるHybridOccの有効性を実証している。

Vision-based 3D semantic scene completion (SSC) describes autonomous driving scenes through 3D volume representations. However, the occlusion of invisible voxels by scene surfaces poses challenges to current SSC methods in hallucinating refined 3D geometry. This paper proposes HybridOcc, a hybrid 3D volume query proposal method generated by Transformer framework and NeRF representation and refined in a coarse-to-fine SSC prediction framework. HybridOcc aggregates contextual features through the Transformer paradigm based on hybrid query proposals while combining it with NeRF representation to obtain depth supervision. The Transformer branch contains multiple scales and uses spatial cross-attention for 2D to 3D transformation. The newly designed NeRF branch implicitly infers scene occupancy through volume rendering, including visible and invisible voxels, and explicitly captures scene depth rather than generating RGB color. Furthermore, we present an innovative occupancy-aware ray sampling method to orient the SSC task instead of focusing on the scene surface, further improving the overall performance. Extensive experiments on nuScenes and SemanticKITTI datasets demonstrate the effectiveness of our HybridOcc on the SSC task.
翻訳日:2024-08-20 22:37:12 公開日:2024-08-17
# フラグメント型分子最適化

Fragment-Masked Molecular Optimization ( http://arxiv.org/abs/2408.09106v1 )

ライセンス: Link先を確認
Kun Li, Xiantao Cai, Jia Wu, Bo Du, Wenbin Hu, (参考訳) 分子最適化は、薬物の有効性を高め副作用を最小限に抑えるために分子構造を精製することを目的とした、薬物発見の重要な側面である。 多くの標的に基づく分子最適化法が提案され、薬物発見が著しく進んでいる。 これらの方法は、主に、特定の薬物標的構造や、疾患と闘う上でのそれらの仮説的役割を理解することである。 しかし、利用可能なターゲットの限られた数や明確な構造を捉えることの難しさといった課題は、革新的な薬物開発を妨げている。 対照的に、表現型薬物発見(PDD)は明確な標的構造に依存しておらず、新規で偏りのない多薬理学的な署名でヒットを特定することができる。 その結果、PDDに基づく分子最適化は、表現型活性を最適化しながら潜在的な安全性リスクを低減し、臨床成功の可能性を高めることができる。 そこで本研究では, PDD (FMOP) に基づくフラグメントマインド分子最適化手法を提案する。 FMOPは回帰自由拡散モデルを用いて、トレーニングなしで分子マスク領域を条件付きで最適化し、類似した足場を持つ新しい分子を効果的に生成する。 大規模薬物応答データセットGDSCv2では,全945細胞株にまたがるポテンシャル分子を最適化する。 総合的な実験により、シリカ内最適化の成功率は94.4%に達し、平均効率は5.3%上昇した。 さらに, FMOPが分子最適化法として有効かつ堅牢な手法であることを確認し, 広範囲にわたるアブレーションおよび可視化実験を行った。 コードはhttps://anonymous.4open.science/r/FMOP-98C2で公開されている。

Molecular optimization is a crucial aspect of drug discovery, aimed at refining molecular structures to enhance drug efficacy and minimize side effects, ultimately accelerating the overall drug development process. Many target-based molecular optimization methods have been proposed, significantly advancing drug discovery. These methods primarily on understanding the specific drug target structures or their hypothesized roles in combating diseases. However, challenges such as a limited number of available targets and a difficulty capturing clear structures hinder innovative drug development. In contrast, phenotypic drug discovery (PDD) does not depend on clear target structures and can identify hits with novel and unbiased polypharmacology signatures. As a result, PDD-based molecular optimization can reduce potential safety risks while optimizing phenotypic activity, thereby increasing the likelihood of clinical success. Therefore, we propose a fragment-masked molecular optimization method based on PDD (FMOP). FMOP employs a regression-free diffusion model to conditionally optimize the molecular masked regions without training, effectively generating new molecules with similar scaffolds. On the large-scale drug response dataset GDSCv2, we optimize the potential molecules across all 945 cell lines. The overall experiments demonstrate that the in-silico optimization success rate reaches 94.4%, with an average efficacy increase of 5.3%. Additionally, we conduct extensive ablation and visualization experiments, confirming that FMOP is an effective and robust molecular optimization method. The code is available at:https://anonymous.4open.science/r/FMOP-98C2.
翻訳日:2024-08-20 22:37:12 公開日:2024-08-17
# UAV支援通信のためのQ-ラーニングに基づくマルチホップルーティングの改良

Improved Q-learning based Multi-hop Routing for UAV-Assisted Communication ( http://arxiv.org/abs/2408.09109v1 )

ライセンス: Link先を確認
N P Sharvari, Dibakar Das, Jyotsna Bapat, Debabrata Das, (参考訳) トポロジの変化,電池容量の制限,通信環境の動的性質などにより,無人航空機(UAV)による効果的なルーティングプロトコルの設計は困難である。 現在のプロトコルは個々のネットワークパラメータの最適化を優先しており、断続的な接続性、変動する信号強度、様々なネットワーク密度を持つシナリオにおけるニュアンスなアプローチの必要性を見越して、最終的に航空ネットワークの要求に包括的に対処することができない。 本稿では,Q-Learning-based Multi-hop Routing (IQMR) アルゴリズムを提案する。 ルーティング決定にQ(\lambda)学習を用いることで、IQMRはエネルギー効率とネットワークデータのスループットを大幅に向上する。 IQMRは、信頼性の高い接続性やUAV間の衝突回避を優先し、リアルタイムネットワークステータス情報を統合することでシステムのレジリエンスを向上させる。 その結果、IQMRのシステム条件の変化への適応性と、現在の技術よりも優れていることが検証された。 IQMRは、既存の手法よりもエネルギー効率とデータのスループットが36.35\%、32.05\%向上している。

Designing effective Unmanned Aerial Vehicle(UAV)-assisted routing protocols is challenging due to changing topology, limited battery capacity, and the dynamic nature of communication environments. Current protocols prioritize optimizing individual network parameters, overlooking the necessity for a nuanced approach in scenarios with intermittent connectivity, fluctuating signal strength, and varying network densities, ultimately failing to address aerial network requirements comprehensively. This paper proposes a novel, Improved Q-learning-based Multi-hop Routing (IQMR) algorithm for optimal UAV-assisted communication systems. Using Q(\lambda) learning for routing decisions, IQMR substantially enhances energy efficiency and network data throughput. IQMR improves system resilience by prioritizing reliable connectivity and inter-UAV collision avoidance while integrating real-time network status information, all in the absence of predefined UAV path planning, thus ensuring dynamic adaptability to evolving network conditions. The results validate IQMR's adaptability to changing system conditions and superiority over the current techniques. IQMR showcases 36.35\% and 32.05\% improvements in energy efficiency and data throughput over the existing methods.
翻訳日:2024-08-20 22:37:12 公開日:2024-08-17
# 地球上のあらゆる場所:リモートセンシングコミュニティのためのオープンボキャブラリオブジェクト検出の改善

Locate Anything on Earth: Advancing Open-Vocabulary Object Detection for Remote Sensing Community ( http://arxiv.org/abs/2408.09110v1 )

ライセンス: Link先を確認
Jiancheng Pan, Yanxing Liu, Yuqian Fu, Muyuan Ma, Jiaohao Li, Danda Pani Paudel, Luc Van Gool, Xiaomeng Huang, (参考訳) オブジェクト検出、特にオープン語彙オブジェクト検出は、環境モニタリング、自然災害評価、土地利用計画といった地球科学において重要な役割を果たす。 しかし、既存のオープンボキャブラリ検出器は、主に自然界の画像に基づいて訓練されており、データ領域の差が大きいため、リモートセンシング画像への一般化に苦慮している。 そこで本稿は,リモートセンシングコミュニティにおけるオープン語彙オブジェクト検出の進展を目指す。 これを達成するために、我々はまず、地球上の新しい概念を検出することを目的として、Locate Anything on Earth (LAE)としてタスクを再構築する。 次に、LAE-1Mを作成した最大10個のリモートセンシングデータセットを収集、自動アノテーション、統合するLAE-Label Engineを開発しました。 LAE-1Mを用いて、動的語彙構築(DVC)とビジュアルガイドテキストプロンプト学習(VisGT)モジュールを特徴とする、RAEタスクのための最初のオープン語彙ベースオブジェクト検出器であるRAE-DINOモデルの提案と訓練を行う。 DVCはトレーニングバッチ毎に語彙を動的に構築し、VisGTは視覚的特徴を意味空間にマッピングし、テキスト機能を強化する。 我々は、確立されたリモートセンシングベンチマークDIOR、DOTAv2.0、および新たに導入された80クラスのLEE-80Cベンチマークを総合的に実施する。 その結果, LAE-1Mデータセットの利点と, LAE-DINO法の有効性が示された。

Object detection, particularly open-vocabulary object detection, plays a crucial role in Earth sciences, such as environmental monitoring, natural disaster assessment, and land-use planning. However, existing open-vocabulary detectors, primarily trained on natural-world images, struggle to generalize to remote sensing images due to a significant data domain gap. Thus, this paper aims to advance the development of open-vocabulary object detection in remote sensing community. To achieve this, we first reformulate the task as Locate Anything on Earth (LAE) with the goal of detecting any novel concepts on Earth. We then developed the LAE-Label Engine which collects, auto-annotates, and unifies up to 10 remote sensing datasets creating the LAE-1M - the first large-scale remote sensing object detection dataset with broad category coverage. Using the LAE-1M, we further propose and train the novel LAE-DINO Model, the first open-vocabulary foundation object detector for the LAE task, featuring Dynamic Vocabulary Construction (DVC) and Visual-Guided Text Prompt Learning (VisGT) modules. DVC dynamically constructs vocabulary for each training batch, while VisGT maps visual features to semantic space, enhancing text features. We comprehensively conduct experiments on established remote sensing benchmark DIOR, DOTAv2.0, as well as our newly introduced 80-class LAE-80C benchmark. Results demonstrate the advantages of the LAE-1M dataset and the effectiveness of the LAE-DINO method.
翻訳日:2024-08-20 22:37:12 公開日:2024-08-17
# マルチモーダルモデルにおける視覚機能の測定

Measuring Visual Sycophancy in Multimodal Models ( http://arxiv.org/abs/2408.09111v1 )

ライセンス: Link先を確認
Jaehyuk Lim, Bruce W. Lee, (参考訳) 本稿では,マルチモーダル言語モデルにおける「視覚的梅毒」現象について,従来の知識や応答に反する場合でも,視覚的に提示された情報を不均等に好む傾向を示す用語として紹介し,考察する。 本研究は,この現象を解析するための体系的手法を用いて,複数の選択質問の画像を含むモデルを提示し,まず最初に正解し,そのモデルを視覚的に予めマークされた選択肢を持つバージョンに公開する。 以上の結果から, 前回の正解にもかかわらず, 事前マーク付きオプションに対するモデルの反応が顕著に変化していることが判明した。 包括的評価は、視覚的梅毒は様々なモデルアーキテクチャ全体にわたって一貫した、定量的な振る舞いであることを示している。 本研究は,視覚情報を誤解を招く可能性のある情報処理において,これらのモデルの信頼性の潜在的な限界を強調し,重要な意思決定コンテキストにおけるそれらの応用に関する重要な疑問を提起する。

This paper introduces and examines the phenomenon of "visual sycophancy" in multimodal language models, a term we propose to describe these models' tendency to disproportionately favor visually presented information, even when it contradicts their prior knowledge or responses. Our study employs a systematic methodology to investigate this phenomenon: we present models with images of multiple-choice questions, which they initially answer correctly, then expose the same model to versions with visually pre-marked options. Our findings reveal a significant shift in the models' responses towards the pre-marked option despite their previous correct answers. Comprehensive evaluations demonstrate that visual sycophancy is a consistent and quantifiable behavior across various model architectures. Our findings highlight potential limitations in the reliability of these models when processing potentially misleading visual information, raising important questions about their application in critical decision-making contexts.
翻訳日:2024-08-20 22:37:12 公開日:2024-08-17
# 集合型強化学習を用いた検証可能なロバストエージェントの訓練

Training Verifiably Robust Agents Using Set-Based Reinforcement Learning ( http://arxiv.org/abs/2408.09112v1 )

ライセンス: Link先を確認
Manuel Wendl, Lukas Koller, Tobias Ladner, Matthias Althoff, (参考訳) 強化学習は、複雑な制御タスクを解決するためにニューラルネットワークを使用することが多い。 しかし、ニューラルネットワークは入力の摂動に敏感であり、安全クリティカルな環境への展開を困難にしている。 この研究は、そのような障害に対するニューラルネットワークの正式な検証から、到達可能性分析を用いた連続状態および行動空間における強化学習まで、最近の成果を上げたものである。 これまでの研究は主に、堅牢な強化学習のための敵攻撃に焦点を当てていたが、摂動入力の集合全体を利用してニューラルネットワークを訓練し、最悪の場合の報酬を最大化する。 得られた薬剤は、関連する作業によって得られるエージェントよりも確実に堅牢であり、安全クリティカルな環境に適用できる。 これは4つの異なるベンチマークの広範な実験的な評価で実証される。

Reinforcement learning often uses neural networks to solve complex control tasks. However, neural networks are sensitive to input perturbations, which makes their deployment in safety-critical environments challenging. This work lifts recent results from formally verifying neural networks against such disturbances to reinforcement learning in continuous state and action spaces using reachability analysis. While previous work mainly focuses on adversarial attacks for robust reinforcement learning, we train neural networks utilizing entire sets of perturbed inputs and maximize the worst-case reward. The obtained agents are verifiably more robust than agents obtained by related work, making them more applicable in safety-critical environments. This is demonstrated with an extensive empirical evaluation of four different benchmarks.
翻訳日:2024-08-20 22:37:12 公開日:2024-08-17
# GoodSAM++: パノラマセマンティックセマンティックセグメンテーションのためのセグメンテーションモデルによるブリッジングドメインとキャパシティギャップ

GoodSAM++: Bridging Domain and Capacity Gaps via Segment Anything Model for Panoramic Semantic Segmentation ( http://arxiv.org/abs/2408.09115v1 )

ライセンス: Link先を確認
Weiming Zhang, Yexin Liu, Xu Zheng, Lin Wang, (参考訳) 本稿では,SAMの強力なゼロショットインスタンスセグメンテーション機能を利用した,コンパクトなパノラマ意味セグメンテーションモデルであるGoodSAM++について述べる。 GoodSAM++は2つの重要な課題に対処する。 1)パノラマ画像のセマンティックラベルと固有の歪み問題の提供が不可能なSAM 2)SAMと学生の間には,有意な能力格差があった。 GoodSAM++の‘out-of-the-box’の洞察は、SAMのセマンティック情報を提供するための教師アシスタント(TA)を導入し、SAMと統合して、ドメインとキャパシティのギャップを埋めるために信頼できる擬似セマンティックマップを取得することである。 これを実現するために、まずドメインギャップに対処するDAR(Distortion-Aware Rectification)モジュールを提案する。 パノラマ画像における物体の変形と歪みの問題を効果的に緩和し、擬似意味写像を得る。 次に,マルチレベル知識適応 (MKA) モジュールを導入し,TAと擬似意味マップからコンパクトな学生モデルに効率的に意味情報を伝達し,その容量ギャップに対処する。 我々は屋外および屋内のベンチマークデータセットについて広範な実験を行い、GoldSAM++は最先端(SOTA)ドメイン適応法よりも優れた性能向上を実現していることを示した。 さらに、さまざまなオープンワールドシナリオは、GoodSAM++の一般化能力を示しています。 最後に、我々の最も軽量な学生モデルは、370万のパラメータしか持たないSOTAモデルに匹敵する性能を達成する。

This paper presents GoodSAM++, a novel framework utilizing the powerful zero-shot instance segmentation capability of SAM (i.e., teacher) to learn a compact panoramic semantic segmentation model, i.e., student, without requiring any labeled data. GoodSAM++ addresses two critical challenges: 1) SAM's inability to provide semantic labels and inherent distortion problems of panoramic images; 2) the significant capacity disparity between SAM and the student. The `out-of-the-box' insight of GoodSAM++ is to introduce a teacher assistant (TA) to provide semantic information for SAM, integrated with SAM to obtain reliable pseudo semantic maps to bridge both domain and capacity gaps. To make this possible, we first propose a Distortion-Aware Rectification (DARv2) module to address the domain gap. It effectively mitigates the object deformation and distortion problem in panoramic images to obtain pseudo semantic maps. We then introduce a Multi-level Knowledge Adaptation (MKA) module to efficiently transfer the semantic information from the TA and pseudo semantic maps to our compact student model, addressing the significant capacity gap. We conduct extensive experiments on both outdoor and indoor benchmark datasets, showing that our GoodSAM++ achieves a remarkable performance improvement over the state-of-the-art (SOTA) domain adaptation methods. Moreover, diverse open-world scenarios demonstrate the generalization capacity of our GoodSAM++. Last but not least, our most lightweight student model achieves comparable performance to the SOTA models with only 3.7 million parameters.
翻訳日:2024-08-20 22:37:12 公開日:2024-08-17
# LOID:高機能自動運転システムの車線閉塞塗装と検出

LOID: Lane Occlusion Inpainting and Detection for Enhanced Autonomous Driving Systems ( http://arxiv.org/abs/2408.09117v1 )

ライセンス: Link先を確認
Aayush Agrawal, Ashmitha Jaysi Sivakumar, Ibrahim Kaif, Chayan Banerjee, (参考訳) 正確な車線検出は、自動運転における効果的な経路計画や車線追従に不可欠であり、特に車両や歩行者からかなりの排除を受けたシナリオにおいて重要である。 既存のモデルはそのような条件下でしばしば苦労し、信頼性の低い航行と安全性のリスクをもたらす。 本稿では,これらの難易度の高い環境下での車線検出を改善するための2つの革新的な手法を提案し,それぞれが現行手法よりも顕著に改善されていることを示す。 最初のアプローチであるAug-Segmentは、CULanesのトレーニングデータセットをシミュレーションオクルージョンで強化し、セグメンテーションモデルをトレーニングすることで、従来のレーン検出モデルを改善する。 この方法は、CULanesデータセット上の複数のSOTAモデルよりも12%の改善を実現し、豊富なトレーニングデータがオクルージョンを処理することができることを示したが、このモデルは特定の設定に対する堅牢性に欠けていたため、主な貢献は第2のアプローチであるLOID Lane Occlusion Inpainting and Detectionである。 LOIDは、画像処理パイプラインを使用してオクルージョンを特定し、マスクする高度な車線検出ネットワークを導入している。 その後、周囲の道路環境を再構築するために塗装モデルを用いている。 改良された画像はレーン検出アルゴリズムによって処理され、BDDK100とCULanesデータセット上の複数のSOTAモデルに対して20%と24%改善され、この新技術の有効性が強調された。

Accurate lane detection is essential for effective path planning and lane following in autonomous driving, especially in scenarios with significant occlusion from vehicles and pedestrians. Existing models often struggle under such conditions, leading to unreliable navigation and safety risks. We propose two innovative approaches to enhance lane detection in these challenging environments, each showing notable improvements over current methods. The first approach aug-Segment improves conventional lane detection models by augmenting the training dataset of CULanes with simulated occlusions and training a segmentation model. This method achieves a 12% improvement over a number of SOTA models on the CULanes dataset, demonstrating that enriched training data can better handle occlusions, however, since this model lacked robustness to certain settings, our main contribution is the second approach, LOID Lane Occlusion Inpainting and Detection. LOID introduces an advanced lane detection network that uses an image processing pipeline to identify and mask occlusions. It then employs inpainting models to reconstruct the road environment in the occluded areas. The enhanced image is processed by a lane detection algorithm, resulting in a 20% & 24% improvement over several SOTA models on the BDDK100 and CULanes datasets respectively, highlighting the effectiveness of this novel technique.
翻訳日:2024-08-20 22:37:12 公開日:2024-08-17
# 状態空間学習による時系列解析

Time Series Analysis by State Space Learning ( http://arxiv.org/abs/2408.09120v1 )

ライセンス: Link先を確認
André Ramos, Davi Valladão, Alexandre Street, (参考訳) 状態空間モデルによる時系列解析は、説明変数とともに、レベル、スロープ、季節といった観測不可能なコンポーネントを予測および抽出するために広く用いられている。 しかし、従来のカルマンフィルターへの依存は、主にガウス的な仮定と、今日のビッグデータアプリケーションにおける潜在的な説明変数の多さに対応する効率的な部分集合選択方法が欠如していることから、その効果をしばしば損なう。 本研究は,統計的学習の能力を活用し,時系列モデリングと予測のための総合的なフレームワークを構築するための新しいフレームワークとパラダイムであるState Space Learning(SSL)を紹介する。 正規化された高次元回帰フレームワークを利用することで、典型的な時系列の観測不可能な成分を共同で抽出し、外乱の検出と対処を行い、多項式時間と大域的最適性を保証する高次元空間における外因性変数の影響を選択する。 制御された数値実験により,説明変数の精度のサブセット選択における提案手法の優位性について,関連するベンチマークと比較した。 また、M4コンペティションの48,000の月次時系列データセットを用いて、直感的な予測手法を提示し、従来の時系列モデルと比較して優れた性能を示す。 時間変化係数を特徴とする線形状態空間の定式化を高次元正則化レグレッションに変換する手法の適用性を拡張し、時系列解析以外の他の工学的応用にも応用範囲を広げる。 最後に,提案手法は Julia オープンソースパッケージ ``StateSpaceLearning.jl に実装されている。

Time series analysis by state-space models is widely used in forecasting and extracting unobservable components like level, slope, and seasonality, along with explanatory variables. However, their reliance on traditional Kalman filtering frequently hampers their effectiveness, primarily due to Gaussian assumptions and the absence of efficient subset selection methods to accommodate the multitude of potential explanatory variables in today's big-data applications. Our research introduces the State Space Learning (SSL), a novel framework and paradigm that leverages the capabilities of statistical learning to construct a comprehensive framework for time series modeling and forecasting. By utilizing a regularized high-dimensional regression framework, our approach jointly extracts typical time series unobservable components, detects and addresses outliers, and selects the influence of exogenous variables within a high-dimensional space in polynomial time and global optimality guarantees. Through a controlled numerical experiment, we demonstrate the superiority of our approach in terms of subset selection of explanatory variables accuracy compared to relevant benchmarks. We also present an intuitive forecasting scheme and showcase superior performances relative to traditional time series models using a dataset of 48,000 monthly time series from the M4 competition. We extend the applicability of our approach to reformulate any linear state space formulation featuring time-varying coefficients into high-dimensional regularized regressions, expanding the impact of our research to other engineering applications beyond time series analysis. Finally, our proposed methodology is implemented within the Julia open-source package, ``StateSpaceLearning.jl".
翻訳日:2024-08-20 22:37:12 公開日:2024-08-17
# コード生成のための選択型プロンプトアンカリング

Selective Prompt Anchoring for Code Generation ( http://arxiv.org/abs/2408.09121v1 )

ライセンス: Link先を確認
Yuan Tian, Tianyi Zhang, (参考訳) CopilotやChatGPTのような大規模言語モデル(LLM)の最近の進歩は、コーディングタスクの自動化によってソフトウェア開発に変化をもたらした。 これらの進歩にもかかわらず、エラー率の削減とユーザの期待を完全に満たすことは依然として課題である。 私たちの経験的研究によると、LLMはコードトークンが生成されるにつれて、初期プロンプトに対する自己注意を減らしがちです。 LLM生成符号における不正確性の根本原因の1つとして, この自己注意希釈問題の仮説を立てる。 この問題を軽減するため,SPA(Selective Prompt Anchoring)を提案する。 SPAは、初期プロンプトにおいて選択された部分の影響を増幅し、コード生成時に ''anchored text'' と呼ぶ。 具体的には、SPAは、アンカーされたテキストと不要なロジット分布差を算出する。 この差は、出力ロジットに対するアンカーテキストの文脈的寄与を近似する。 SPAは、元のロジット分布とロジット差を線形に結合することにより、拡張ロジット分布を生成する。 4つのベンチマークでSPAを5つのLLMで評価した。 我々の結果は、SPAを使用することで、すべての設定でPass@1レートを最大9.7%改善できることを示している。 特に、選択的なテキストアンカーによって、DeepSeek-Coder (6.7B) の小さなバージョンは、オリジナルのより大きなバージョン (33B) よりもパフォーマンスが向上する。 私たちのコードはhttps://github.com/magic-YuanTian/Selective-Prompt-Anchoring.comで利用可能です。

Recent advances in large language models (LLMs) such as Copilot and ChatGPT have transformed software development by automating coding tasks. Despite these advancements, challenges remain in reducing error rates and fully meeting user expectations. Our empirical study reveals LLMs tend to dilute their self-attention on the initial prompt as more code tokens are generated. We hypothesize this self-attention dilution issue is one of the root causes of inaccuracies in LLM-generated code. To mitigate this issue, we propose Selective Prompt Anchoring (SPA). SPA amplifies the influence of the selected parts in the initial prompt, which we refer to as ``anchored text'', during code generation. Specifically, SPA calculates the logit distribution difference with and without the anchored text. We prove this difference approximates the anchored text's contextual contribution to the output logits. SPA creates an augmented logit distribution by linearly combining the original logit distribution and the logit difference. We evaluate SPA with five LLMs on four benchmarks. Our results demonstrate that using SPA can consistently improve Pass@1 rates by up to 9.7% in all settings. Notably, with selective text anchoring, a small version of DeepSeek-Coder (6.7B) can achieve better performance than an original much larger version (33B). Our code is available at https://github.com/magic-YuanTian/Selective-Prompt-Anchoring.
翻訳日:2024-08-20 22:37:12 公開日:2024-08-17
# MaskBEV: BEV検出とマップセグメンテーションのための統一フレームワークを目指す

MaskBEV: Towards A Unified Framework for BEV Detection and Map Segmentation ( http://arxiv.org/abs/2408.09122v1 )

ライセンス: Link先を確認
Xiao Zhao, Xukun Zhang, Dingkang Yang, Mingyang Sun, Mingcheng Li, Shunli Wang, Lihua Zhang, (参考訳) 高精度で堅牢なマルチモーダルマルチタスク認識は、現代の自動運転システムにとって不可欠である。 しかし、現在のマルチモーダル認知研究は、特定の知覚タスク用に設計された独立したパラダイムに従っており、タスク間の相補的学習の欠如と、共同学習によるマルチタスク学習(MTL)の性能低下につながっている。 本稿では,3次元物体検出と鳥の目視(BEV)マップのセグメンテーションを統合したマスキングアテンションに基づくMTLパラダイムであるMaskBEVを提案する。 MaskBEVはタスクに依存しないトランスフォーマーデコーダを導入し、これらの多様なタスクを処理する。 BEV空間におけるBEVマップセグメンテーションと3次元オブジェクト検出タスクの相補的な情報を完全に活用するために,空間変調とシーンレベルのコンテキスト集約戦略を提案する。 これらの戦略は、BEVセグメンテーションと3D検出の固有の依存関係を考慮し、MTL性能を自然に向上させる。 nuScenesデータセットの大規模な実験によると、MaskBEVは従来の最先端のMTL手法と比較して、3Dオブジェクトの検出における1.3 NDSの改善とBEVマップのセグメンテーションにおける2.7 mIoUの改善を達成している。

Accurate and robust multimodal multi-task perception is crucial for modern autonomous driving systems. However, current multimodal perception research follows independent paradigms designed for specific perception tasks, leading to a lack of complementary learning among tasks and decreased performance in multi-task learning (MTL) due to joint training. In this paper, we propose MaskBEV, a masked attention-based MTL paradigm that unifies 3D object detection and bird's eye view (BEV) map segmentation. MaskBEV introduces a task-agnostic Transformer decoder to process these diverse tasks, enabling MTL to be completed in a unified decoder without requiring additional design of specific task heads. To fully exploit the complementary information between BEV map segmentation and 3D object detection tasks in BEV space, we propose spatial modulation and scene-level context aggregation strategies. These strategies consider the inherent dependencies between BEV segmentation and 3D detection, naturally boosting MTL performance. Extensive experiments on nuScenes dataset show that compared with previous state-of-the-art MTL methods, MaskBEV achieves 1.3 NDS improvement in 3D object detection and 2.7 mIoU improvement in BEV map segmentation, while also demonstrating slightly leading inference speed.
翻訳日:2024-08-20 22:37:12 公開日:2024-08-17
# 動的ニューラルダウカーネットワーク:動的指向グラフにおける永続ホモロジーの近似

Dynamic Neural Dowker Network: Approximating Persistent Homology in Dynamic Directed Graphs ( http://arxiv.org/abs/2408.09123v1 )

ライセンス: Link先を確認
Hao Li, Hao Jiang, Jiajun Fan, Dongsheng Ye, Liang Du, (参考訳) トポロジカル・データ・アナリティクス(TDA)の基本的な手法である永続ホモロジーは、グラフの構造的および形状的特性を捉えるが、動的指向グラフに適用した場合の計算困難に遭遇する。 本稿では,動的指向グラフの高次トポロジ的特徴を捉えることを目的として,動的ダウカーフィルタの結果を近似する新しいフレームワークであるDNDNを提案する。 我々のアプローチは、線グラフ変換を使って、ソースグラフとシンクライングラフの両方を生成し、Dowker複合体が注目する共有隣り合う構造を強調します。 DNDNは、ソースシンクライングラフニューラルネットワーク(SSLGNN)レイヤを組み込んで、動的エッジ間の近傍関係を効果的にキャプチャする。 さらに、シンクグラフとソースライングラフの両方の結果がダウカー錯体に固有の双対性原理に従うことを保証し、革新的な双対性エッジ融合機構を導入する。 提案手法は,DNDNが動的ダウカーフィルタの結果を効果的に近似するだけでなく,動的グラフ分類タスクにおいて例外的に実行できることを実証し,実世界のデータセットに関する包括的な実験を通じて検証する。

Persistent homology, a fundamental technique within Topological Data Analysis (TDA), captures structural and shape characteristics of graphs, yet encounters computational difficulties when applied to dynamic directed graphs. This paper introduces the Dynamic Neural Dowker Network (DNDN), a novel framework specifically designed to approximate the results of dynamic Dowker filtration, aiming to capture the high-order topological features of dynamic directed graphs. Our approach creatively uses line graph transformations to produce both source and sink line graphs, highlighting the shared neighbor structures that Dowker complexes focus on. The DNDN incorporates a Source-Sink Line Graph Neural Network (SSLGNN) layer to effectively capture the neighborhood relationships among dynamic edges. Additionally, we introduce an innovative duality edge fusion mechanism, ensuring that the results for both the sink and source line graphs adhere to the duality principle intrinsic to Dowker complexes. Our approach is validated through comprehensive experiments on real-world datasets, demonstrating DNDN's capability not only to effectively approximate dynamic Dowker filtration results but also to perform exceptionally in dynamic graph classification tasks.
翻訳日:2024-08-20 22:37:12 公開日:2024-08-17
# Markov Balance Satisfactionは、厳密なバッチオフライン模倣学習のパフォーマンスを改善する

Markov Balance Satisfaction Improves Performance in Strictly Batch Offline Imitation Learning ( http://arxiv.org/abs/2408.09125v1 )

ライセンス: Link先を確認
Rishabh Agrawal, Nathan Dahlin, Rahul Jain, Ashutosh Nayyar, (参考訳) 模倣学習(IL)は、直接プログラミングや最適制御コストの定義が困難なロボット作業に特に効果的である。 本研究では,模倣者が観察行動にのみ依存し,学習中に環境相互作用を起こさないシナリオに対処する。 専門家のデータセット以外の追加のデータセットや、移行ダイナミクスに関する情報は持っていない。 State-of-the-art (SOTA) の IL メソッドとは異なり、このアプローチはより制約のある現実的な環境で動作することで、従来の IL の制限に対処する。 本手法はマルコフ均衡方程式を用いて,新しい条件密度推定に基づく模倣学習フレームワークを提案する。 遷移力学推定に条件付き正規化フローを使用し、環境のバランス方程式を満たすことを目的としている。 古典制御と MuJoCo 環境に関する数値実験を通じて,多くのSOTA IL アルゴリズムと比較して,実験性能が一貫して優れていることを示す。

Imitation learning (IL) is notably effective for robotic tasks where directly programming behaviors or defining optimal control costs is challenging. In this work, we address a scenario where the imitator relies solely on observed behavior and cannot make environmental interactions during learning. It does not have additional supplementary datasets beyond the expert's dataset nor any information about the transition dynamics. Unlike state-of-the-art (SOTA) IL methods, this approach tackles the limitations of conventional IL by operating in a more constrained and realistic setting. Our method uses the Markov balance equation and introduces a novel conditional density estimation-based imitation learning framework. It employs conditional normalizing flows for transition dynamics estimation and aims at satisfying a balance equation for the environment. Through a series of numerical experiments on Classic Control and MuJoCo environments, we demonstrate consistently superior empirical performance compared to many SOTA IL algorithms.
翻訳日:2024-08-20 22:25:12 公開日:2024-08-17
# バービー:バービースタイルの3Dアバター

Barbie: Text to Barbie-Style 3D Avatars ( http://arxiv.org/abs/2408.09126v1 )

ライセンス: Link先を確認
Xiaokun Sun, Zhenyu Zhang, Ying Tai, Qian Wang, Hao Tang, Zili Yi, Jian Yang, (参考訳) テキスト誘導型3Dアバター生成の最近の進歩は,拡散モデルから知識を抽出することによって大きく進歩している。 既存の手法では, 内部と装身具の微粒化や高忠実度モデリングは不可能である。 本稿では,バービーのような多彩で高品質な衣服やアクセサリーを身に着けた3Dアバターを製作するための新しいフレームワークであるバービーを提案する。 全体論的モデルに頼る代わりに、バービーは人体と衣服のセマンティックアライズされたモデルによって、アバターのきめ細かいゆがみを達成している。 これらの非絡み合った3D表現は、異なる専門家モデルによって最適化され、ドメイン固有の忠実さが保証される。 幾何学的多様性と合理的さのバランスをとるために,テンプレート保存と人間優先の進化のための一連の損失を提案する。 最終アバターは、集合的なテクスチャ改質により、優れたテクスチャ整合性を実現する。 大規模な実験では、バービーは服装と服装の両方で既存の手法よりも優れており、柔軟なアパレルの組み合わせとアニメーションをサポートしている。 コードは研究目的でリリースされます。 私たちのプロジェクトページは以下のとおりです。

Recent advances in text-guided 3D avatar generation have made substantial progress by distilling knowledge from diffusion models. Despite the plausible generated appearance, existing methods cannot achieve fine-grained disentanglement or high-fidelity modeling between inner body and outfit. In this paper, we propose Barbie, a novel framework for generating 3D avatars that can be dressed in diverse and high-quality Barbie-like garments and accessories. Instead of relying on a holistic model, Barbie achieves fine-grained disentanglement on avatars by semantic-aligned separated models for human body and outfits. These disentangled 3D representations are then optimized by different expert models to guarantee the domain-specific fidelity. To balance geometry diversity and reasonableness, we propose a series of losses for template-preserving and human-prior evolving. The final avatar is enhanced by unified texture refinement for superior texture consistency. Extensive experiments demonstrate that Barbie outperforms existing methods in both dressed human and outfit generation, supporting flexible apparel combination and animation. The code will be released for research purposes. Our project page is: https://2017211801.github.io/barbie.github.io/.
翻訳日:2024-08-20 22:25:12 公開日:2024-08-17
# 仕様からプロンプトへ:要求工学における生成LDMの将来

From Specifications to Prompts: On the Future of Generative LLMs in Requirements Engineering ( http://arxiv.org/abs/2408.09127v1 )

ライセンス: Link先を確認
Andreas Vogelsang, (参考訳) GPTのようなジェネレーティブLLMは、タスクを新しい方法で自動化することで、要求工学(RE)に革命をもたらす可能性がある。 このコラムは、斬新さを探求し、効果的な相互作用のための正確なプロンプトの重要性を紹介している。 人間の評価と迅速な工学は、LLMの機能を活用する上で不可欠である。

Generative LLMs, such as GPT, have the potential to revolutionize Requirements Engineering (RE) by automating tasks in new ways. This column explores the novelties and introduces the importance of precise prompts for effective interactions. Human evaluation and prompt engineering are essential in leveraging LLM capabilities.
翻訳日:2024-08-20 22:25:12 公開日:2024-08-17
# さまざまなソフトウェアプロジェクトにおける技術的負債とそのタイプ

Identifying Technical Debt and Its Types Across Diverse Software Projects Issues ( http://arxiv.org/abs/2408.09128v1 )

ライセンス: Link先を確認
Karthik Shivashankar, Mili Orucevic, Maren Maritsdatter Kruke, Antonio Martini, (参考訳) ソフトウェアプロジェクトの課題における技術的負債(TD)の識別は、コード品質の維持、長期的なメンテナンスコストの削減、プロジェクト全体の健全性の向上に不可欠である。 本研究は,大規模ソフトウェア開発において,高精度かつ効率的なTD識別の必要性に対処するため,トランスフォーマーモデルを用いたTD分類を進歩させる。 提案手法では,TD の複数のバイナリ分類器とその型をアンサンブル学習により組み合わせることで,TD の様々な形態を検出する精度と堅牢性を向上する。 私たちはこれらのモデルを、産業データ検証を補完したGitHub Archive Issues (2015-2024)から包括的なデータセットでトレーニングし、評価します。 本研究では,TD分類において,プロジェクト内微調整トランスフォーマーモデルの方がタスク固有の微調整モデルよりも有意に優れており,正確なTD識別におけるプロジェクト固有のコンテキストの重要性を強調している。 また,本研究では,TDのマルチクラスモデルに対する特殊二元分類器の優位性も明らかにした。 比較分析により、小さな DistilRoBERTa モデルは、特に微調整後のTD分類タスクのための GPT のようなより大きな言語モデルよりも効果的であり、特定のTD検出タスクに対する効率的なモデル選択に関する洞察を提供する。 また、MCC、AUC ROC、リコール、F1スコアなどのメトリクスを用いて一般化能力を評価し、モデルの有効性、微調整の影響、相対的なパフォーマンスに焦点を当てた。 アウト・オブ・ディストリビューションと実世界の産業データセットに対するアプローチを検証することで、ソフトウェアプロジェクトの多様な性質に対処し、実用的な適用性を確保します。

Technical Debt (TD) identification in software projects issues is crucial for maintaining code quality, reducing long-term maintenance costs, and improving overall project health. This study advances TD classification using transformer-based models, addressing the critical need for accurate and efficient TD identification in large-scale software development. Our methodology employs multiple binary classifiers for TD and its type, combined through ensemble learning, to enhance accuracy and robustness in detecting various forms of TD. We train and evaluate these models on a comprehensive dataset from GitHub Archive Issues (2015-2024), supplemented with industrial data validation. We demonstrate that in-project fine-tuned transformer models significantly outperform task-specific fine-tuned models in TD classification, highlighting the importance of project-specific context in accurate TD identification. Our research also reveals the superiority of specialized binary classifiers over multi-class models for TD and its type identification, enabling more targeted debt resolution strategies. A comparative analysis shows that the smaller DistilRoBERTa model is more effective than larger language models like GPTs for TD classification tasks, especially after fine-tuning, offering insights into efficient model selection for specific TD detection tasks. The study also assesses generalization capabilities using metrics such as MCC, AUC ROC, Recall, and F1 score, focusing on model effectiveness, fine-tuning impact, and relative performance. By validating our approach on out-of-distribution and real-world industrial datasets, we ensure practical applicability, addressing the diverse nature of software projects.
翻訳日:2024-08-20 22:25:12 公開日:2024-08-17
# 暗黒におけるガウス的:ガウス的スプレイティングを用いた一貫性のない暗黒画像からのリアルタイムビュー合成

Gaussian in the Dark: Real-Time View Synthesis From Inconsistent Dark Images Using Gaussian Splatting ( http://arxiv.org/abs/2408.09130v1 )

ライセンス: Link先を確認
Sheng Ye, Zhen-Hui Dong, Yubin Hu, Yu-Hui Wen, Yong-Jin Liu, (参考訳) 3D Gaussian Splattingは、一貫したマルチビューイメージを入力として、驚くべき新しいビューを合成できる強力な表現として最近登場した。 しかし, シーンが完全に照らされていない暗い環境下で撮影された画像は, 明るさの変動や多視点不整合が顕著であり, 3次元ガウス散乱において大きな課題となり, 性能を著しく低下させる。 この問題に対処するため,ガウスDKを提案する。 不整合は主にカメラ画像によって引き起こされるので、異方性3Dガウスの集合を用いて物理世界の一貫した放射界を表現し、多視点不整合を補うためのカメラ応答モジュールを設計する。 また、カメラ近傍のガウス人を拘束するために、ステップベースの勾配スケーリング戦略を導入する。 提案したベンチマークデータセットを用いて,ゴーストやフローターのアーティファクトを使わずに高品質なレンダリングを実現し,既存の手法を著しく上回ることを示す。 さらに、影領域の詳細をはっきりと示す露光レベルを制御するために、dzh{byというライトアップ画像を合成することもできる。

3D Gaussian Splatting has recently emerged as a powerful representation that can synthesize remarkable novel views using consistent multi-view images as input. However, we notice that images captured in dark environments where the scenes are not fully illuminated can exhibit considerable brightness variations and multi-view inconsistency, which poses great challenges to 3D Gaussian Splatting and severely degrades its performance. To tackle this problem, we propose Gaussian-DK. Observing that inconsistencies are mainly caused by camera imaging, we represent a consistent radiance field of the physical world using a set of anisotropic 3D Gaussians, and design a camera response module to compensate for multi-view inconsistencies. We also introduce a step-based gradient scaling strategy to constrain Gaussians near the camera, which turn out to be floaters, from splitting and cloning. Experiments on our proposed benchmark dataset demonstrate that Gaussian-DK produces high-quality renderings without ghosting and floater artifacts and significantly outperforms existing methods. Furthermore, we can also synthesize light-up images \dzh{by controlling exposure levels that clearly show details in shadow areas.
翻訳日:2024-08-20 22:25:12 公開日:2024-08-17
# 薄膜スプラインによるアニメーションライン間補間

Thin-Plate Spline-based Interpolation for Animation Line Inbetweening ( http://arxiv.org/abs/2408.09131v1 )

ライセンス: Link先を確認
Tianyi Zhu, Wei Shang, Dongwei Ren, Wangmeng Zuo, (参考訳) 2つのキーフレーム間の中間ラインアートを予測することによりアニメーション流動性を高めることを目的としたアニメーション制作において、アニメーションラインインテワイニングは重要なステップである。 しかし,既存の手法では,ラインアートのキーフレームにおいて,スパースピクセルや重要な動きに効果的に対処する上で,課題に直面している。 文学において、チャンファー距離(CD)は、間欠的なパフォーマンスを評価するために一般的に用いられる。 良好なCD値を達成するにもかかわらず、既存の手法では、特に大きな動きを伴うシナリオにおいて、線が切断された補間フレームをしばしば生成する。 そこで本研究では,2つのキーフレーム間のキーポイント対応をモデル化し,より正確に粗い動きを推定するために,薄板スプライン変換を用いたアニメーションラインインテワイニングの簡易かつ効果的な補間法を提案する。 粗い推定に基づいて、単純なUNetモデルを用いて最終フレーム補間前の動きの詳細をさらに強化するために、モーションリファインメントモジュールが使用される。 さらに, アニメーションの行間性能をより正確に評価するために, CDメトリックスを改良し, 「重み付きチャンファー距離」と呼ばれる新しいメトリクスを導入し, 視覚的知覚品質との整合性を示す。 さらに,Earth Mover の Distance を取り入れ,より包括的な評価を行うためにユーザスタディを実施している。 本手法は,流動性を高めた高品質な補間結果を提供することにより,既存の手法よりも優れた性能を発揮する。 コードは \url{https://github.com/Tian-one/tps-inbetween} で公開されている。

Animation line inbetweening is a crucial step in animation production aimed at enhancing animation fluidity by predicting intermediate line arts between two key frames. However, existing methods face challenges in effectively addressing sparse pixels and significant motion in line art key frames. In literature, Chamfer Distance (CD) is commonly adopted for evaluating inbetweening performance. Despite achieving favorable CD values, existing methods often generate interpolated frames with line disconnections, especially for scenarios involving large motion. Motivated by this observation, we propose a simple yet effective interpolation method for animation line inbetweening that adopts thin-plate spline-based transformation to estimate coarse motion more accurately by modeling the keypoint correspondence between two key frames, particularly for large motion scenarios. Building upon the coarse estimation, a motion refine module is employed to further enhance motion details before final frame interpolation using a simple UNet model. Furthermore, to more accurately assess the performance of animation line inbetweening, we refine the CD metric and introduce a novel metric termed Weighted Chamfer Distance, which demonstrates a higher consistency with visual perception quality. Additionally, we incorporate Earth Mover's Distance and conduct user study to provide a more comprehensive evaluation. Our method outperforms existing approaches by delivering high-quality interpolation results with enhanced fluidity. The code is available at \url{https://github.com/Tian-one/tps-inbetween}.
翻訳日:2024-08-20 22:25:12 公開日:2024-08-17
# よりよいPythonプログラミング: 保守性に焦点をあてて

Better Python Programming for all: With the focus on Maintainability ( http://arxiv.org/abs/2408.09134v1 )

ライセンス: Link先を確認
Karthik Shivashankar, Antonio Martini, (参考訳) 本研究では,Large Language Models (LLM) が生成するコードの保守性向上を目的とした。 コーディング支援にLLMを使うことが進むにつれて、それらが生成するコードの保守性に関する懸念も高まる。 これまでの研究は主に、保守性の観点から、生成されたコードの機能的正確さとテストの成功に集中してきた。 当社のアプローチでは、モデルをトレーニングし、評価するために特別に設計されたデータセットを使用することで、コードの保守性を徹底的に評価する。 私たちの作業の中心は、コードの可読性の向上、複雑さの低減、全体的な保守性の向上を目的とした、コードリファクタリングのためのLLMの微調整です。 LLMを微調整してコードの保守性を優先順位付けした後、我々の評価は、このモデルがコードの保守性基準を大幅に改善し、AI支援ソフトウェア開発の将来への有望な方向性を示唆していることを示している。

This study aims to enhance the maintainability of code generated by Large Language Models (LLMs), with a focus on the Python programming language. As the use of LLMs for coding assistance grows, so do concerns about the maintainability of the code they produce. Previous research has mainly concentrated on the functional accuracy and testing success of generated code, overlooking aspects of maintainability. Our approach involves the use of a specifically designed dataset for training and evaluating the model, ensuring a thorough assessment of code maintainability. At the heart of our work is the fine-tuning of an LLM for code refactoring, aimed at enhancing code readability, reducing complexity, and improving overall maintainability. After fine-tuning an LLM to prioritize code maintainability, our evaluations indicate that this model significantly improves code maintainability standards, suggesting a promising direction for the future of AI-assisted software development.
翻訳日:2024-08-20 22:25:12 公開日:2024-08-17
# 斜め決定木用バニラグラディエント染料

Vanilla Gradient Descent for Oblique Decision Trees ( http://arxiv.org/abs/2408.09135v1 )

ライセンス: Link先を確認
Subrat Prasad Panda, Blaise Genest, Arvind Easwaran, Ponnuthurai Nagaratnam Suganthan, (参考訳) 決定木(Decision Trees, DT)は、グラフデータ上での効率向上のために、値付けされた、重要でないAIモデルの1つである。 しかし、正確なDTを学習することは、特に斜めDTでは複雑であり、かなりのトレーニング時間を要する。 さらに、DTは、例えば回帰タスクにおいて「一般化しない」というような過度な適合に苦しむ。 最近、いくつかの研究がDTを(斜めに)差別化する方法を提案している。 これにより、DTの学習に高効率な勾配偏光アルゴリズムが使用できる。 また、木の上の決定と同時に木の葉で回帰器を学習することで、一般化機能を可能にする。 DTを微分可能とする以前のアプローチは、木の内部ノード(ソフトDT)の確率近似や、内部ノード(量子化勾配勾配)の勾配計算の近似に依存する。 本稿では,標準的なバニラ勾配勾配を用いた(ハードで斜めの)DTをニューラルネットワーク(NN)で符号化する新奇な \textit{DTSemNet} を提案する。 様々な分類および回帰ベンチマークによる実験により、 \textit{DTSemNet} を用いて学習した斜めDTは、最先端技術を用いて学習した同様の大きさの斜めDTよりも精度が高いことが示された。 さらに、DT訓練時間を著しく短縮する。 また,身体入力を伴う強化学習(Reinforcement Learning, RL)設定において, DT ポリシーを NN ポリシーと同じくらい効率的に学習できることを実験的に実証した(例: $\leq32$)。 コードは {\color{blue}\textit{\url{https://github.com/CPS-research-group/dtsemnet}}} で公開されている。

Decision Trees (DTs) constitute one of the major highly non-linear AI models, valued, e.g., for their efficiency on tabular data. Learning accurate DTs is, however, complicated, especially for oblique DTs, and does take a significant training time. Further, DTs suffer from overfitting, e.g., they proverbially "do not generalize" in regression tasks. Recently, some works proposed ways to make (oblique) DTs differentiable. This enables highly efficient gradient-descent algorithms to be used to learn DTs. It also enables generalizing capabilities by learning regressors at the leaves simultaneously with the decisions in the tree. Prior approaches to making DTs differentiable rely either on probabilistic approximations at the tree's internal nodes (soft DTs) or on approximations in gradient computation at the internal node (quantized gradient descent). In this work, we propose \textit{DTSemNet}, a novel \textit{sem}antically equivalent and invertible encoding for (hard, oblique) DTs as Neural \textit{Net}works (NNs), that uses standard vanilla gradient descent. Experiments across various classification and regression benchmarks show that oblique DTs learned using \textit{DTSemNet} are more accurate than oblique DTs of similar size learned using state-of-the-art techniques. Further, DT training time is significantly reduced. We also experimentally demonstrate that \textit{DTSemNet} can learn DT policies as efficiently as NN policies in the Reinforcement Learning (RL) setup with physical inputs (dimensions $\leq32$). The code is available at {\color{blue}\textit{\url{https://github.com/CPS-research-group/dtsemnet}}}.
翻訳日:2024-08-20 22:25:12 公開日:2024-08-17
# StylePrompter: テスト時間スタイルでドメインの一般化を促進する

StylePrompter: Enhancing Domain Generalization with Test-Time Style Priors ( http://arxiv.org/abs/2408.09138v1 )

ライセンス: Link先を確認
Jiao Zhang, Jian Xu, Xu-Yao Zhang, Cheng-Lin Liu, (参考訳) 実世界のアプリケーションでは、推論段階でのサンプル分布は、トレーニング段階でのサンプル分布としばしば異なり、訓練された深層モデルの性能劣化を引き起こす。 ドメイン一般化(DG)の研究は、いくつかのドメインでトレーニングすることで、目に見えないドメインの一般化性能を改善する堅牢なアルゴリズムの開発を目的としている。 しかし、ドメインに依存しないビジョンモデルは、従来のドメイン一般化手法を用いて限られた数のドメインで訓練されているため、目に見えないドメインを扱う上での有効性を保証できない。 言語の導入は視覚モデルの閉じた認知空間を破り、視覚のみのデータセットから推測できない追加の意味情報を提供する。 本稿では,学習モデルに動的に適応する言語モーダルにスタイルプロンプトを導入することで,従来のDG手法の課題を克服することを提案する。 特に,既存の画像のスタイル情報をトークン埋め込み空間に埋め込んで,候補カテゴリー語の前に配置するスタイルプロンサを事前知識として訓練し,モデルのプロンプトを行う。 スタイルトークン埋め込み空間と手作りスタイル正規化のオープンスペース分割により、トレーニング済みのスタイルプロンサが未知のドメインからのデータを効率的に処理できるようになる。 大規模な実験により,提案手法の有効性が検証され,複数の公開データセット上での最先端性能が実証された。 この論文の受理後、コードは利用可能になる。

In real-world applications, the sample distribution at the inference stage often differs from the one at the training stage, causing performance degradation of trained deep models. The research on domain generalization (DG) aims to develop robust algorithms that can improve the generalized performance in unseen domains by training on a few domains. However, the domain-agnostic vision model, trained on a limited number of domains using traditional domain generalization methods, cannot guarantee its effectiveness in dealing with unseen domains. The introduction of language can break the closed cognition space of the vision model, providing additional semantic information that cannot be inferred from vision-only datasets. In this paper, we propose to overcome the challenge in previous DG methods by introducing the style prompt in the language modality to adapt the trained model dynamically. In particular, we train a style prompter to extract style information of the current image into an embedding in the token embedding space and place it in front of the candidate category words as prior knowledge to prompt the model. Our open space partition of the style token embedding space and the hand-crafted style regularization enable the trained style prompter to handle data from unknown domains effectively. Extensive experiments verify the effectiveness of our method and demonstrate state-of-the-art performances on multiple public datasets. Codes will be available after the acceptance of this paper.
翻訳日:2024-08-20 22:25:12 公開日:2024-08-17
# 確率勾配MCMCのための探索学習

Learning to Explore for Stochastic Gradient MCMC ( http://arxiv.org/abs/2408.09140v1 )

ライセンス: Link先を確認
SeungHyun Kim, Seohyeon Jung, Seonghyeon Kim, Juho Lee, (参考訳) 高次元パラメータを持つベイズニューラルネットワーク(BNN)は、後部分布の多モード性に起因する後部推論に挑戦する。 周期的学習率スケジューリングを伴う確率勾配MCMC(SGMCMC)は有望な解であるが、高次元多モード後部を探索するためには多数のサンプリングステップが必要であるため、計算コストがかかる。 本稿では,マルチモーダルなターゲット分布を効率的に探索するメタラーニング手法を提案する。 我々のアルゴリズムは、学習したSGMCMCが後部景観の高密度領域を迅速に探索することを可能にする。 また,この探索特性は,メタ学習段階において見つからないものであっても,様々なタスクに伝達可能であることを示す。 画像分類ベンチマークと様々なダウンストリームタスクを用いて,本手法がサンプリング効率を著しく向上し,バニラ{sgmcmc}よりも優れた性能が得られることを示した。

Bayesian Neural Networks(BNNs) with high-dimensional parameters pose a challenge for posterior inference due to the multi-modality of the posterior distributions. Stochastic Gradient MCMC(SGMCMC) with cyclical learning rate scheduling is a promising solution, but it requires a large number of sampling steps to explore high-dimensional multi-modal posteriors, making it computationally expensive. In this paper, we propose a meta-learning strategy to build \gls{sgmcmc} which can efficiently explore the multi-modal target distributions. Our algorithm allows the learned SGMCMC to quickly explore the high-density region of the posterior landscape. Also, we show that this exploration property is transferrable to various tasks, even for the ones unseen during a meta-training stage. Using popular image classification benchmarks and a variety of downstream tasks, we demonstrate that our method significantly improves the sampling efficiency, achieving better performance than vanilla \gls{sgmcmc} without incurring significant computational overhead.
翻訳日:2024-08-20 22:25:12 公開日:2024-08-17
# Singularity Enriched Neural Networks を用いた点源同定

Point Source Identification Using Singularity Enriched Neural Networks ( http://arxiv.org/abs/2408.09143v1 )

ライセンス: Link先を確認
Tianhao Hu, Bangti Jin, Zhi Zhou, (参考訳) 点源の逆問題は、適用された逆問題の重要なクラスを表す。 しかし、主に固有の解特異性のために、点源同定のためのニューラルネットワークベースの方法がまだ存在しない。 本研究では,ニューラルネットと特異度向上技術を組み合わせて,点源を同定する新しいアルゴリズムを開発した。 基本解とニューラルネットワークを用いてそれぞれ特異部分と正則部分を表現し、未知の点源の強度と位置を含む経験的損失を最小化し、ニューラルネットワークのパラメータを最小化する。 さらに,逆問題に対する条件安定性の議論と経験的損失の一般化誤差を組み合わせることで,アルゴリズムの厳密な誤り解析を行う。 本手法の有効性を,いくつかの挑戦的な実験で実証した。

The inverse problem of recovering point sources represents an important class of applied inverse problems. However, there is still a lack of neural network-based methods for point source identification, mainly due to the inherent solution singularity. In this work, we develop a novel algorithm to identify point sources, utilizing a neural network combined with a singularity enrichment technique. We employ the fundamental solution and neural networks to represent the singular and regular parts, respectively, and then minimize an empirical loss involving the intensities and locations of the unknown point sources, as well as the parameters of the neural network. Moreover, by combining the conditional stability argument of the inverse problem with the generalization error of the empirical loss, we conduct a rigorous error analysis of the algorithm. We demonstrate the effectiveness of the method with several challenging experiments.
翻訳日:2024-08-20 22:25:12 公開日:2024-08-17
# SSNeRF: 拡張型半教師型ニューラルラジアンス場

SSNeRF: Sparse View Semi-supervised Neural Radiance Fields with Augmentation ( http://arxiv.org/abs/2408.09144v1 )

ライセンス: Link先を確認
Xiao Cao, Beibei Lin, Bo Wang, Zhiyong Huang, Robby T. Tan, (参考訳) Sparse view NeRFは、限られた入力画像がボリュームレンダリングの制約の少ない最適化問題を引き起こすため、難しい。 既存の手法では、深度マップのような補足的な情報に頼ることでこの問題に対処している。 しかし、この補足情報を正確に生成することは問題であり、多くの場合、望ましくないアーティファクトを持つ画像を生成する。 これらの成果に対処し、堅牢性を高めるため、教員の枠組みに基づくスパースビュー半教師付きNeRF法であるSSNeRFを提案する。 我々のキーとなる考え方は、高い信頼性の擬似ラベルを提供しながら、徐々に厳しい視界劣化を伴うNeRFモジュールに挑戦することである。 このアプローチにより、NeRFモデルはスパースビューに関連するノイズや不完全な情報を認識し、その堅牢性を向上させることができる。 SSNeRFの新規性は、そのスパースビュー特有の拡張と半教師付き学習機構にある。 提案手法では,教師のNeRFは信頼度スコアとともに新規な視点を生成し,学生のNeRFは信頼度の高い擬似ラベルから学習する。 我々のスパースビュー劣化は、徐々にノイズをボリュームレンダリングの重みに注入し、パーターブの特徴マップを脆弱な層に配置し、スパースビューのぼかしをシミュレートする。 これらの拡張戦略により、学生のNeRFは劣化を認識し、より鮮明なレンダリングビューを生成する。 生徒のパラメータを教師に転送することで、教師はその後の訓練の繰り返しにおいて堅牢性を高める。 SSNeRFによる視界劣化の少ない新しい視界の創出効果について検討した。 私たちは受け入れに応じてコードを公開します。

Sparse view NeRF is challenging because limited input images lead to an under constrained optimization problem for volume rendering. Existing methods address this issue by relying on supplementary information, such as depth maps. However, generating this supplementary information accurately remains problematic and often leads to NeRF producing images with undesired artifacts. To address these artifacts and enhance robustness, we propose SSNeRF, a sparse view semi supervised NeRF method based on a teacher student framework. Our key idea is to challenge the NeRF module with progressively severe sparse view degradation while providing high confidence pseudo labels. This approach helps the NeRF model become aware of noise and incomplete information associated with sparse views, thus improving its robustness. The novelty of SSNeRF lies in its sparse view specific augmentations and semi supervised learning mechanism. In this approach, the teacher NeRF generates novel views along with confidence scores, while the student NeRF, perturbed by the augmented input, learns from the high confidence pseudo labels. Our sparse view degradation augmentation progressively injects noise into volume rendering weights, perturbs feature maps in vulnerable layers, and simulates sparse view blurriness. These augmentation strategies force the student NeRF to recognize degradation and produce clearer rendered views. By transferring the student's parameters to the teacher, the teacher gains increased robustness in subsequent training iterations. Extensive experiments demonstrate the effectiveness of our SSNeRF in generating novel views with less sparse view degradation. We will release code upon acceptance.
翻訳日:2024-08-20 22:25:12 公開日:2024-08-17
# 説明可能な機械学習による高成長企業の鍵となる予測因子の発見

Uncovering key predictors of high-growth firms via explainable machine learning ( http://arxiv.org/abs/2408.09149v1 )

ライセンス: Link先を確認
Yiwei Huang, Shuqi Xu, Linyuan Lü, Andrea Zaccaria, Manuel Sebastian Mariani, (参考訳) 高成長企業の予測は、技術予測や機械学習コミュニティからの関心が高まりつつある。 既存の研究のほとんどは、これらの予測に財務データを主に利用している。 しかし、研究は、企業の研究開発活動と技術エコシステム内のネットワークポジションが、価値ある予測要因として役立つことを示唆している。 本稿では, 多様な特徴の相対的重要性を解き明かすため, 企業5,071社の財務・特許データを分析し, 財務特徴, 特許特許の技術的特徴, 企業と主要技術とのつながりから派生したネットワーク的特徴の3つのカテゴリを抽出する。 アンサンブル学習アルゴリズムを用いることで、金融機能と技術、ネットワークベースの機能、あるいは両方を組み込むことで、金融機能のみを使用する場合と比較して、より正確な成長率の予測が可能になることを実証する。 この問題を深く掘り下げるために,説明可能な人工知能手法を用いて各カテゴリの個々の特徴の予測力を評価した。 非金融的特徴の中で、企業の付与した特許の最大経済価値と、企業の主要技術に関連する特許の数は、その重要性を際立たせる。 さらに、固形度は、一定の閾値まで高い成長確率と正に関連付けられ、その後、その相関台地が変化する。 逆に、企業の付与した特許の最大経済価値は、しきい値を超えた後にのみ、高い成長確率に肯定的に関連付けられる。 これらの結果は、高度成長企業の予測における様々な特徴の複雑な予測的役割を解明し、技術資源配分や投資決定を通知することができる。

Predicting high-growth firms has attracted increasing interest from the technological forecasting and machine learning communities. Most existing studies primarily utilize financial data for these predictions. However, research suggests that a firm's research and development activities and its network position within technological ecosystems may also serve as valuable predictors. To unpack the relative importance of diverse features, this paper analyzes financial and patent data from 5,071 firms, extracting three categories of features: financial features, technological features of granted patents, and network-based features derived from firms' connections to their primary technologies. By utilizing ensemble learning algorithms, we demonstrate that incorporating financial features with either technological, network-based features, or both, leads to more accurate high-growth firm predictions compared to using financial features alone. To delve deeper into the matter, we evaluate the predictive power of each individual feature within their respective categories using explainable artificial intelligence methods. Among non-financial features, the maximum economic value of a firm's granted patents and the number of patents related to a firms' primary technologies stand out for their importance. Furthermore, firm size is positively associated with high-growth probability up to a certain threshold size, after which the association plateaus. Conversely, the maximum economic value of a firm's granted patents is positively linked to high-growth probability only after a threshold value is exceeded. These findings elucidate the complex predictive role of various features in forecasting high-growth firms and could inform technological resource allocation as well as investment decisions.
翻訳日:2024-08-20 22:25:12 公開日:2024-08-17
# CogLM:大規模言語モデルの認知的発達の追跡

CogLM: Tracking Cognitive Development of Large Language Models ( http://arxiv.org/abs/2408.09150v1 )

ライセンス: Link先を確認
Xinglin Wang, Peiwen Yuan, Shaoxiong Feng, Yiwei Li, Boyuan Pan, Heda Wang, Yao Hu, Kan Li, (参考訳) Piaget's Theory of Cognitive Development (PTC) は、認知レベルの発達が、様々な能力にわたる人間の学習の基礎となることを示唆している。 最近、LLM(Large Language Models)は、様々なタスクにおいて顕著な能力を示しています。 この目的のために,PTCに基づく言語モデルの認知能力評価(CogLM)のベンチマークを構築し,LLMの認知レベルを評価する。 CogLMは、20人以上の専門家によって作られた10の認知能力にまたがる1,220の質問で構成され、LLMの認知レベルに関する包括的なテストベッドを提供する。 CogLMによる複数の主要なLSMに対する広範な実験により、(1)20歳以上の人間に匹敵する高度なLSM(GPT-4)に人間のような認知能力が出現した。 2) LLMの認知レベルに影響を与える2つの要因は, パラメータサイズと最適化目標である。 3) 下流課題におけるパフォーマンスは認知能力のレベルと正の相関が認められた。 これらの知見は、LLMの認知能力の研究のギャップを埋め、認知的視点からLLMの発達を辿り、その進化の今後の方向性を導く。

Piaget's Theory of Cognitive Development (PTC) posits that the development of cognitive levels forms the foundation for human learning across various abilities. As Large Language Models (LLMs) have recently shown remarkable abilities across a wide variety of tasks, we are curious about the cognitive levels of current LLMs: to what extent they have developed and how this development has been achieved. To this end, we construct a benchmark CogLM (Cognitive Ability Evaluation for Language Model) based on PTC to assess the cognitive levels of LLMs. CogLM comprises 1,220 questions spanning 10 cognitive abilities crafted by more than 20 human experts, providing a comprehensive testbed for the cognitive levels of LLMs. Through extensive experiments across multiple mainstream LLMs with CogLM, we find that: (1) Human-like cognitive abilities have emerged in advanced LLMs (GPT-4), comparable to those of a 20-year-old human. (2) The parameter size and optimization objective are two key factors affecting the cognitive levels of LLMs. (3) The performance on downstream tasks is positively correlated with the level of cognitive abilities. These findings fill the gap in research on the cognitive abilities of LLMs, tracing the development of LLMs from a cognitive perspective and guiding the future direction of their evolution.
翻訳日:2024-08-20 22:25:12 公開日:2024-08-17
# 生成的潜在空間学習による現実的極端画像再スケーリング

Realistic Extreme Image Rescaling via Generative Latent Space Learning ( http://arxiv.org/abs/2408.09151v1 )

ライセンス: Link先を確認
Ce Wang, Wanjie Sun, Zhenzhong Chen, (参考訳) 画像再スケーリングは、オリジナルの高解像度(HR)画像に正確に再構成できる最適な低解像度(LR)画像を学習することを目的としている。 このプロセスは、特に超高精細メディアの時代において、効率的な画像処理と記憶に不可欠である。 しかしながら、極端なダウンスケーリング要因は、逆アップスケーリングプロセスの極めて不適切な性質のために重大な課題を引き起こし、既存の手法が意味論的に妥当な構造と知覚的に豊かなテクスチャを生成するのに苦労する原因となった。 本研究では,過度な画像再スケーリングのためのLatent Space Based Image Rescaling (LSBIR) という新しいフレームワークを提案する。 LSBIRは、訓練済みのテキスト-画像拡散モデルによって学習された強力な自然画像の先行を効果的に活用し、リアルなHR画像を生成する。 この再スケーリングは、事前訓練された画像エンコーダとデコーダの潜在空間で行われ、より広さとよりリッチなセマンティクスにより、知覚的再構成品質が向上する。 LSBIRは2段階の訓練戦略を採用している。 第1段階では、擬似非可逆エンコーダデコーダは、HR画像の潜在特徴とターゲットサイズのLR画像との双方向マッピングをモデル化する。 第2段階では、第1段階からの再構成された特徴を事前訓練された拡散モデルにより洗練し、より忠実で視覚的に喜ぶ詳細を生成する。 拡張実験は、定量評価と定性評価の両方において、従来の方法よりもLSBIRの方が優れていることを示した。 コードは、https://github.com/wwangcece/LSBIR.comで入手できる。

Image rescaling aims to learn the optimal downscaled low-resolution (LR) image that can be accurately reconstructed to its original high-resolution (HR) counterpart. This process is crucial for efficient image processing and storage, especially in the era of ultra-high definition media. However, extreme downscaling factors pose significant challenges due to the highly ill-posed nature of the inverse upscaling process, causing existing methods to struggle in generating semantically plausible structures and perceptually rich textures. In this work, we propose a novel framework called Latent Space Based Image Rescaling (LSBIR) for extreme image rescaling tasks. LSBIR effectively leverages powerful natural image priors learned by a pre-trained text-to-image diffusion model to generate realistic HR images. The rescaling is performed in the latent space of a pre-trained image encoder and decoder, which offers better perceptual reconstruction quality due to its stronger sparsity and richer semantics. LSBIR adopts a two-stage training strategy. In the first stage, a pseudo-invertible encoder-decoder models the bidirectional mapping between the latent features of the HR image and the target-sized LR image. In the second stage, the reconstructed features from the first stage are refined by a pre-trained diffusion model to generate more faithful and visually pleasing details. Extensive experiments demonstrate the superiority of LSBIR over previous methods in both quantitative and qualitative evaluations. The code will be available at: https://github.com/wwangcece/LSBIR.
翻訳日:2024-08-20 22:25:12 公開日:2024-08-17
# CLIPは、Universal Synthetic Image Origin Attributionに必要な機能か?

Are CLIP features all you need for Universal Synthetic Image Origin Attribution? ( http://arxiv.org/abs/2408.09153v1 )

ライセンス: Link先を確認
Dario Cioni, Christos Tzelepis, Lorenzo Seidenari, Ioannis Patras, (参考訳) 視覚合成のための拡散モデルの着実に改善は、合成画像の新しい興味深いユースケースを数多く生み出したが、その潜在的な悪用を懸念し、社会的な脅威を生じさせている。 これに対処するためには、偽のイメージをソースモデルによって検出し、属性付けする必要がある。また、新しいジェネレータの頻繁なリリースを考えると、実際のアプリケーションは、トレーニング時に一部のモデルが見つからないOpen-Setシナリオを考える必要がある。 既存の法医学的手法はクローズドセット設定やGAN生成画像に限られており、脆弱な周波数ベースの"フィンガープリント"機能に依存している。 対照的に, 拡散モデルを含む様々な生成モデルによって生成される合成画像のオープンセット起点属性を実現するために, 大規模な事前学習基盤モデルの特徴を取り入れた, 単純かつ効果的なフレームワークを提案する。 提案手法は,低データ状態においても,既存手法の性能を超越し,多様なアーキテクチャの集合から得られる画像の一般化に寄与することを示す。 コードは、https://github.com/ciodar/UniversalAttribution.comで公開しています。

The steady improvement of Diffusion Models for visual synthesis has given rise to many new and interesting use cases of synthetic images but also has raised concerns about their potential abuse, which poses significant societal threats. To address this, fake images need to be detected and attributed to their source model, and given the frequent release of new generators, realistic applications need to consider an Open-Set scenario where some models are unseen at training time. Existing forensic techniques are either limited to Closed-Set settings or to GAN-generated images, relying on fragile frequency-based "fingerprint" features. By contrast, we propose a simple yet effective framework that incorporates features from large pre-trained foundation models to perform Open-Set origin attribution of synthetic images produced by various generative models, including Diffusion Models. We show that our method leads to remarkable attribution performance, even in the low-data regime, exceeding the performance of existing methods and generalizes better on images obtained from a diverse set of architectures. We make the code publicly available at: https://github.com/ciodar/UniversalAttribution.
翻訳日:2024-08-20 22:01:27 公開日:2024-08-17
# センサデータに対するロバスト処理規則の学習

Learning Robust Treatment Rules for Censored Data ( http://arxiv.org/abs/2408.09155v1 )

ライセンス: Link先を確認
Yifan Cui, Junyi Liu, Tao Shen, Zhengling Qi, Xi Chen, (参考訳) 期待される結果の最大化により、最適な治療規則を直接推定する研究が急速に進んでいる。 生体医学研究や手術応用において、制限された平均生存時間と生存確率が大きな関心を持つ場合において、検閲された生存結果が頻繁に観察される。 本稿では, 制限された平均生存時間を最大化するために, 制限された平均生存時間を最大化する, 制限された平均生存時間を最大化する, 制限された平均生存時間を最大化する, 制限された平均生存時間を最大化する, 制限された平均生存時間を最大化するためのバッファ付き生存確率を最大化するための2つの頑健な基準を提案する。 提案する最適処理規則の理論的正当性を提供し,それらを学習するためのサンプリングベース差分アルゴリズムを開発した。 シミュレーション実験では,既存手法と比較して性能が向上した。 また,エイズ臨床治験データを用いて提案手法を実証した。

There is a fast-growing literature on estimating optimal treatment rules directly by maximizing the expected outcome. In biomedical studies and operations applications, censored survival outcome is frequently observed, in which case the restricted mean survival time and survival probability are of great interest. In this paper, we propose two robust criteria for learning optimal treatment rules with censored survival outcomes; the former one targets at an optimal treatment rule maximizing the restricted mean survival time, where the restriction is specified by a given quantile such as median; the latter one targets at an optimal treatment rule maximizing buffered survival probabilities, where the predetermined threshold is adjusted to account the restricted mean survival time. We provide theoretical justifications for the proposed optimal treatment rules and develop a sampling-based difference-of-convex algorithm for learning them. In simulation studies, our estimators show improved performance compared to existing methods. We also demonstrate the proposed method using AIDS clinical trial data.
翻訳日:2024-08-20 22:01:27 公開日:2024-08-17
# DSReLU: モデルトレーニングのための新しいダイナミックスロープ機能

DSReLU: A Novel Dynamic Slope Function for Superior Model Training ( http://arxiv.org/abs/2408.09156v1 )

ライセンス: Link先を確認
Archisman Chakraborti, Bidyut B Chaudhuri, (参考訳) 本研究では,コンピュータビジョンタスクにおけるディープニューラルネットワークの適応性と性能の向上を目的とした,トレーニングプロセス全体を通して動的傾斜を調整した新しいアクティベーション関数を提案する。 このアプローチの理論的根拠は、ReLUのような従来のアクティベーション関数に関連する制限を克服することであり、学習プロセスの異なる段階に適応可能な、より柔軟なメカニズムを提供することである。 提案手法は,Mini-ImageNet,CIFAR-100,MIT-BIHデータセットに基づいて,分類基準と一般化能力の改善を実証した。 これらの結果から,ダイナミックスロープアクティベーション機能により,画像認識タスクにおける深層学習モデルの性能向上が図れる可能性が示唆された。

This study introduces a novel activation function, characterized by a dynamic slope that adjusts throughout the training process, aimed at enhancing adaptability and performance in deep neural networks for computer vision tasks. The rationale behind this approach is to overcome limitations associated with traditional activation functions, such as ReLU, by providing a more flexible mechanism that can adapt to different stages of the learning process. Evaluated on the Mini-ImageNet, CIFAR-100, and MIT-BIH datasets, our method demonstrated improvements in classification metrics and generalization capabilities. These results suggest that our dynamic slope activation function could offer a new tool for improving the performance of deep learning models in various image recognition tasks.
翻訳日:2024-08-20 22:01:27 公開日:2024-08-17
# KL-Divergence-based Robust Satisficing Modelについて

On the KL-Divergence-based Robust Satisficing Model ( http://arxiv.org/abs/2408.09157v1 )

ライセンス: Link先を確認
Haojie Yan, Minglong Zhou, Jiayi Guo, (参考訳) 機械学習の基盤となる経験的リスク最小化は、経験的データ生成分布と真のデータ生成分布の相違から生じるオプティマイザのカースによってしばしば妨げられる。この課題に対処するために、堅牢な満足度フレームワークが最近出現し、真の分布のあいまいさを軽減している。 解釈可能なハイパーパラメータと性能保証の強化により、このアプローチは学界からの注目を集めている。 しかし、一般の機械学習問題(特にディープニューラルネットワーク)に対処する適用性は、一般の損失関数全体にわたってこのモデルを効率的に解決する際の計算上の課題のため、ほとんど解明されていない。 本研究では, 解析的解釈, 多様な性能保証, 効率的で安定な数値法, 収束解析, 階層データ構造に適した拡張について述べる。 3つの異なる機械学習タスクにわたる広範な数値実験を通じて、我々のモデルの性能を最先端のベンチマークと比較した。

Empirical risk minimization, a cornerstone in machine learning, is often hindered by the Optimizer's Curse stemming from discrepancies between the empirical and true data-generating distributions.To address this challenge, the robust satisficing framework has emerged recently to mitigate ambiguity in the true distribution. Distinguished by its interpretable hyperparameter and enhanced performance guarantees, this approach has attracted increasing attention from academia. However, its applicability in tackling general machine learning problems, notably deep neural networks, remains largely unexplored due to the computational challenges in solving this model efficiently across general loss functions. In this study, we delve into the Kullback Leibler divergence based robust satisficing model under a general loss function, presenting analytical interpretations, diverse performance guarantees, efficient and stable numerical methods, convergence analysis, and an extension tailored for hierarchical data structures. Through extensive numerical experiments across three distinct machine learning tasks, we demonstrate the superior performance of our model compared to state-of-the-art benchmarks.
翻訳日:2024-08-20 22:01:27 公開日:2024-08-17
# 時空間予測における線形注意の意義

Linear Attention is Enough in Spatial-Temporal Forecasting ( http://arxiv.org/abs/2408.09158v1 )

ライセンス: Link先を確認
Xinyu Ning, (参考訳) 時空間予測タスクの最も代表的なシナリオとして、交通予測タスクは、空間と時間次元の両方において複雑な相関関係のため、機械学習コミュニティから多くの注目を集めた。 既存の方法では、時間とともに道路網を空間的時間グラフとして扱い、空間的時間的表現と時間的表現を独立に扱う。 しかし,これらの手法は,道路ネットワークの動的トポロジを捉えるのに苦労し,メッセージパッシング機構や過度なスムースメントの問題に遭遇し,空間的・時間的関係を別々に学習する際の課題に直面している。 これらの制約に対処するため,道路網内のノードを独立した時空間トークンとして扱い,複雑な時空間パターンを学習するためにバニラ変換器に供給することを提案する。 二次複雑性を考えると、Nystr$\ddot{o}$m 法に基づく変種 NSTformer を導入し、線形複雑性で自己注意を近似するが、驚くべきことにいくつかのケースでは前者よりも若干良い。 トラヒックデータセットの大規模な実験結果から,提案手法は安価な計算コストで最先端の性能を実現することを示す。 私たちのコードは利用可能になります。

As the most representative scenario of spatial-temporal forecasting tasks, the traffic forecasting task attracted numerous attention from machine learning community due to its intricate correlation both in space and time dimension. Existing methods often treat road networks over time as spatial-temporal graphs, addressing spatial and temporal representations independently. However, these approaches struggle to capture the dynamic topology of road networks, encounter issues with message passing mechanisms and over-smoothing, and face challenges in learning spatial and temporal relationships separately. To address these limitations, we propose treating nodes in road networks at different time steps as independent spatial-temporal tokens and feeding them into a vanilla Transformer to learn complex spatial-temporal patterns, design STformer achieving SOTA. Given its quadratic complexity, we introduce a variant NSTformer based on Nystr$\ddot{o}$m method to approximate self-attention with linear complexity but even slightly better than former in a few cases astonishingly. Extensive experimental results on traffic datasets demonstrate that the proposed method achieves state-of-the-art performance at an affordable computational cost. Our code will be made available.
翻訳日:2024-08-20 22:01:27 公開日:2024-08-17
# ゼロショットオブジェクト中心表現学習

Zero-Shot Object-Centric Representation Learning ( http://arxiv.org/abs/2408.09162v1 )

ライセンス: Link先を確認
Aniket Didolkar, Andrii Zadaianchuk, Anirudh Goyal, Mike Mozer, Yoshua Bengio, Georg Martius, Maximilian Seitzer, (参考訳) オブジェクト中心の表現学習の目標は、視覚シーンをエンティティを分離する構造化された表現に分解することである。 近年の成果は、事前学習した自己教師機能を利用することで、オブジェクト中心の表現学習を現実のシーンに拡張できることが示されている。 しかし、これまでのところ、オブジェクト中心の手法はほとんどが分散で適用されており、モデルは同じデータセットでトレーニングされ、評価されている。 これは、見えないデータやタスクに直接適用可能な汎用モデルに向けた機械学習の広範なトレンドとは対照的である。 そこで本研究では、8つの異なる合成および実世界のデータセットからなるベンチマークを導入することにより、ゼロショット一般化のレンズによる現在のオブジェクト中心手法について検討する。 ゼロショット性能に影響を与える要因を解析し,様々な実世界の画像のトレーニングにより,未知のシナリオへの転送性が向上することを確認した。 さらに,基礎モデルにおけるタスク固有の微調整の成功に触発されて,事前学習された視覚エンコーダをオブジェクト発見のタスクに適用するための新たな微調整戦略を導入する。 提案手法により、教師なしオブジェクト発見の最先端性能が得られ、目に見えないデータセットへの強力なゼロショット転送が示されることがわかった。

The goal of object-centric representation learning is to decompose visual scenes into a structured representation that isolates the entities. Recent successes have shown that object-centric representation learning can be scaled to real-world scenes by utilizing pre-trained self-supervised features. However, so far, object-centric methods have mostly been applied in-distribution, with models trained and evaluated on the same dataset. This is in contrast to the wider trend in machine learning towards general-purpose models directly applicable to unseen data and tasks. Thus, in this work, we study current object-centric methods through the lens of zero-shot generalization by introducing a benchmark comprising eight different synthetic and real-world datasets. We analyze the factors influencing zero-shot performance and find that training on diverse real-world images improves transferability to unseen scenarios. Furthermore, inspired by the success of task-specific fine-tuning in foundation models, we introduce a novel fine-tuning strategy to adapt pre-trained vision encoders for the task of object discovery. We find that the proposed approach results in state-of-the-art performance for unsupervised object discovery, exhibiting strong zero-shot transfer to unseen datasets.
翻訳日:2024-08-20 22:01:27 公開日:2024-08-17
# 異なるコンテンツの種類でランク付けする:多分野ブレンディングのロバストな美

Ranking Across Different Content Types: The Robust Beauty of Multinomial Blending ( http://arxiv.org/abs/2408.09168v1 )

ライセンス: Link先を確認
Jan Malte Lichtenberg, Giuseppe Di Benedetto, Matteo Ruffini, (参考訳) メディアストリーミングサービスは、複数のコンテンツタイプのエンティティを含むようにサービスを拡張している。 たとえば、音楽のみを提供するオーディオストリーミングサービスは、ポッドキャスト、商品、ビデオも提供するようになった。 異なるコンテンツタイプにまたがるアイテムを単一のスレートにランク付けすることは、異なるコンテンツタイプのユーザエンゲージメントパターンが異なるため、従来のLTR(Learning-to-rank)アルゴリズムにとって大きな課題となる。 我々は,既存のLTRアルゴリズムと組み合わせて使用可能な,多相ブレンディング(MB)と呼ばれるクロスコンテンツ型ランキングの簡易な手法について検討する。 MBと既存のベースラインを、ランキング品質だけでなく、解釈可能性、使いやすさ、動的環境の安定性といった業界関連の観点から比較し、ユーザの振る舞いやランキングモデルの再トレーニングを変化させる。 最後に、Amazon Musicランキングのユースケースから、A/Bテストの結果を報告する。

An increasing number of media streaming services have expanded their offerings to include entities of multiple content types. For instance, audio streaming services that started by offering music only, now also offer podcasts, merchandise items, and videos. Ranking items across different content types into a single slate poses a significant challenge for traditional learning-to-rank (LTR) algorithms due to differing user engagement patterns for different content types. We explore a simple method for cross-content-type ranking, called multinomial blending (MB), which can be used in conjunction with most existing LTR algorithms. We compare MB to existing baselines not only in terms of ranking quality but also from other industry-relevant perspectives such as interpretability, ease-of-use, and stability in dynamic environments with changing user behavior and ranking model retraining. Finally, we report the results of an A/B test from an Amazon Music ranking use-case.
翻訳日:2024-08-20 22:01:27 公開日:2024-08-17
# 自然言語生成における自動メトリクス:最近の評価実践に関する調査

Automatic Metrics in Natural Language Generation: A Survey of Current Evaluation Practices ( http://arxiv.org/abs/2408.09169v1 )

ライセンス: Link先を確認
Patrícia Schmidtová, Saad Mahamood, Simone Balloccu, Ondřej Dušek, Albert Gatt, Dimitra Gkatzia, David M. Howcroft, Ondřej Plátek, Adarsa Sivaprasad, (参考訳) 自動メトリクスは自然言語処理システムを評価するために広く使われている。 しかし、この分野の実践者によってどのように使用されるか、報告されているかに焦点が当てられている。 本稿では,特に自然言語生成(NLG)タスクに着目し,自動メトリクスの使用に関する調査を行った。 どのようなメトリクスが使用されるのか、なぜ選択されるのか、どのように使用されるのかを調査する。 本調査から,不適切な測定値の使用,実装詳細の欠如,人的判断との相関の欠如など,重大な問題点が明らかになった。 我々は、著者がフィールド内でより多くの厳格さを実現するために従うべきだと信じている推奨で締めくくります。

Automatic metrics are extensively used to evaluate natural language processing systems. However, there has been increasing focus on how they are used and reported by practitioners within the field. In this paper, we have conducted a survey on the use of automatic metrics, focusing particularly on natural language generation (NLG) tasks. We inspect which metrics are used as well as why they are chosen and how their use is reported. Our findings from this survey reveal significant shortcomings, including inappropriate metric usage, lack of implementation details and missing correlations with human judgements. We conclude with recommendations that we believe authors should follow to enable more rigour within the field.
翻訳日:2024-08-20 22:01:27 公開日:2024-08-17
# Unc-TTP: 文脈内事例選択を改善するLLM不確かさの分類方法

Unc-TTP: A Method for Classifying LLM Uncertainty to Improve In-Context Example Selection ( http://arxiv.org/abs/2408.09172v1 )

ライセンス: Link先を確認
Hsiu-Yuan Huang, Zichen Wu, Yutong Yang, Junzhao Zhang, Yunfang Wu, (参考訳) 現在、Large Language Models (LLMs) は様々な下流タスクで例外的なパフォーマンスを示している。 しかし、ユーザの期待に応えるために、応答が確実に生成されるか、あるいは作られているかを知ることは困難である。 LLMの不確実性を推定することは、その大規模化とホワイトボックスアクセスの欠如により特に困難である。 本研究では,ラベル干渉をサンプリングベースアプローチに組み込む際のLCM出力の整合性を評価することによって,LCMの不確かさを分類する新しいUncertainty Tripartite Testing Paradigm(Unc-TTP)を提案する。 Unc-TTP出力に基づいて、インスタンスを特定のカテゴリと不確実なカテゴリに集約する。 さらに,LLMの不確かさの詳細な解析を行い,既存のサンプリング法よりもUnc-TTPの方が優れていることを示す。 さらに、得られた不確実性情報を利用して、文脈内サンプル選択を誘導し、Unc-TTPが明らかに検索ベースおよびサンプリングベースアプローチより優れていることを示す。 本研究は,オープンソース LLM とクローズドソース LLM の両方の不確かさを分類する新たな手法を提案し,この不確実性を利用して LLM の性能を向上させるための実践的アプローチを提案する。

Nowadays, Large Language Models (LLMs) have demonstrated exceptional performance across various downstream tasks. However, it is challenging for users to discern whether the responses are generated with certainty or are fabricated to meet user expectations. Estimating the uncertainty of LLMs is particularly challenging due to their vast scale and the lack of white-box access. In this work, we propose a novel Uncertainty Tripartite Testing Paradigm (Unc-TTP) to classify LLM uncertainty, via evaluating the consistency of LLM outputs when incorporating label interference into the sampling-based approach. Based on Unc-TTP outputs, we aggregate instances into certain and uncertain categories. Further, we conduct a detailed analysis of the uncertainty properties of LLMs and show Unc-TTP's superiority over the existing sampling-based methods. In addition, we leverage the obtained uncertainty information to guide in-context example selection, demonstrating that Unc-TTP obviously outperforms retrieval-based and sampling-based approaches in selecting more informative examples. Our work paves a new way to classify the uncertainty of both open- and closed-source LLMs, and introduces a practical approach to exploit this uncertainty to improve LLMs performance.
翻訳日:2024-08-20 22:01:27 公開日:2024-08-17
# TableBench: テーブル質問回答のための総合的で複雑なベンチマーク

TableBench: A Comprehensive and Complex Benchmark for Table Question Answering ( http://arxiv.org/abs/2408.09174v1 )

ライセンス: Link先を確認
Xianjie Wu, Jian Yang, Linzheng Chai, Ge Zhang, Jiaheng Liu, Xinrun Du, Di Liang, Daixin Shu, Xianfu Cheng, Tianzhen Sun, Guanglin Niu, Tongliang Li, Zhoujun Li, (参考訳) 近年のLLM(Large Language Models)の進歩により、表形式のデータの解釈と処理が大幅に強化され、以前は想像できない機能が導入されている。 これらの成果にもかかわらず、LLMは、特に実世界の表表データに必要とされる推論の複雑さが増し、学術ベンチマークと実践的応用との顕著な相違が指摘されるなど、産業シナリオに適用された場合、依然として重大な課題に直面している。 この相違に対処するため,産業シナリオにおける表データの適用について詳細な調査を行い,テーブル質問応答機能(TableQA)の4大カテゴリに18の分野を含む,包括的で複雑なベンチマークTableBenchを提案する。 さらに,厳密に構築したTableInstructのトレーニングセットであるTableLLMを導入し,GPT-3.5と同等の性能を実現した。 TableBenchで実施された大規模な実験は、オープンソースとプロプライエタリなLLMの両方に、現実世界の要求を満たすための重要な改善の余地があることを示しており、最も先進的なモデルであるGPT-4は、人間に比べてわずかに緩やかなスコアしか得られていない。

Recent advancements in Large Language Models (LLMs) have markedly enhanced the interpretation and processing of tabular data, introducing previously unimaginable capabilities. Despite these achievements, LLMs still encounter significant challenges when applied in industrial scenarios, particularly due to the increased complexity of reasoning required with real-world tabular data, underscoring a notable disparity between academic benchmarks and practical applications. To address this discrepancy, we conduct a detailed investigation into the application of tabular data in industrial scenarios and propose a comprehensive and complex benchmark TableBench, including 18 fields within four major categories of table question answering (TableQA) capabilities. Furthermore, we introduce TableLLM, trained on our meticulously constructed training set TableInstruct, achieving comparable performance with GPT-3.5. Massive experiments conducted on TableBench indicate that both open-source and proprietary LLMs still have significant room for improvement to meet real-world demands, where the most advanced model, GPT-4, achieves only a modest score compared to humans.
翻訳日:2024-08-20 22:01:27 公開日:2024-08-17
# 認知的LLM:意思決定のための認知的アーキテクチャと大規模言語モデルの統合を目指して

Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making ( http://arxiv.org/abs/2408.09176v1 )

ライセンス: Link先を確認
Siyu Wu, Alessandro Oltramari, Jonathan Francis, C. Lee Giles, Frank E. Ritter, (参考訳) 認知アーキテクチャの人間的な制約のある推論プロセスと、大規模言語モデル(LLM)の広範だがノイズの多い推論動作の分離を解決することは、プロダクションシステムにおける信頼性の高いマシン推論機能を実現する上で、難しいがエキサイティングな追求である。 認知アーキテクチャは、人間の認知的意思決定の内部メカニズムを計算レベルでモデル化することを目的として開発されたことで有名である。 LLMを根拠とした意思決定に使用する従来のアプローチでは、幻覚のような十分な根拠の欠如に関連する問題を報告し、高速で直感的な推論よりも遅く、意図的な認識を必要とする複雑な推論タスクに対処する。 これらの課題を解決するために, ACT-R認知アーキテクチャをLLMと統合することにより, ヒューマンアライメントと多目的な意思決定を実現する新しいニューロシンボリックアーキテクチャ, LLM-ACTRを紹介した。 我々のフレームワークは、ACT-Rの内部決定プロセスの知識を潜在神経表現として抽出し、トレーニング可能なLLMアダプタ層に情報を注入し、下流予測のためにLLMを微調整する。 新規な製造タスク設計実験では,チェーン・オブ・フォー・マニュファクチャリング戦略を活用したLCMのみのベースラインと比較して,タスク性能の向上と,アプローチの基盤となる意思決定能力の向上が見られた。

Resolving the dichotomy between the human-like yet constrained reasoning processes of Cognitive Architectures and the broad but often noisy inference behavior of Large Language Models (LLMs) remains a challenging but exciting pursuit, for enabling reliable machine reasoning capabilities in production systems. Because Cognitive Architectures are famously developed for the purpose of modeling the internal mechanisms of human cognitive decision-making at a computational level, new investigations consider the goal of informing LLMs with the knowledge necessary for replicating such processes, e.g., guided perception, memory, goal-setting, and action. Previous approaches that use LLMs for grounded decision-making struggle with complex reasoning tasks that require slower, deliberate cognition over fast and intuitive inference -- reporting issues related to the lack of sufficient grounding, as in hallucination. To resolve these challenges, we introduce LLM-ACTR, a novel neuro-symbolic architecture that provides human-aligned and versatile decision-making by integrating the ACT-R Cognitive Architecture with LLMs. Our framework extracts and embeds knowledge of ACT-R's internal decision-making process as latent neural representations, injects this information into trainable LLM adapter layers, and fine-tunes the LLMs for downstream prediction. Our experiments on novel Design for Manufacturing tasks show both improved task performance as well as improved grounded decision-making capability of our approach, compared to LLM-only baselines that leverage chain-of-thought reasoning strategies.
翻訳日:2024-08-20 22:01:27 公開日:2024-08-17
# 多段階大言語モデルを用いた中国語メタファー認識

Chinese Metaphor Recognition Using a Multi-stage Prompting Large Language Model ( http://arxiv.org/abs/2408.09177v1 )

ライセンス: Link先を確認
Jie Wang, Jin Wang, Xuejie Zhang, (参考訳) メタファーは日常言語では一般的であり、メタファーの識別と理解はモデルによって促進され、テキストの理解を深める。 メタファーは主に既存の研究で事前訓練されたモデルによって識別され、生成されるが、テナーや車両がメタファーに含まれていない状況は処理できない。 この問題はLarge Language Models (LLMs) を用いて効果的に解けるが、この初期段階の研究領域では探索のための重要な余地が残っている。 本研究は,中国メタファーのテナー,車両,地盤の認識能力を高めるため,多段階のヒューリスティック・プロンプト・フレームワークを提案する。 第1段階では、回答候補生成に必要な信頼スコアを得るために、小さなモデルを訓練する。 第2段階では、質問は特定のルールに従ってクラスタ化され、サンプリングされる。 最後に、生成した回答候補とデモを組み合わせることで、ヒューリスティックに強化されたプロンプトを形成する。 提案されたモデルは、Subtask 1のトラック1で3位、Subtask 1のトラック2で1位、NLPCC-2024共有タスク9で2番目のトラック2で1位となった。

Metaphors are common in everyday language, and the identification and understanding of metaphors are facilitated by models to achieve a better understanding of the text. Metaphors are mainly identified and generated by pre-trained models in existing research, but situations, where tenors or vehicles are not included in the metaphor, cannot be handled. The problem can be effectively solved by using Large Language Models (LLMs), but significant room for exploration remains in this early-stage research area. A multi-stage generative heuristic-enhanced prompt framework is proposed in this study to enhance the ability of LLMs to recognize tenors, vehicles, and grounds in Chinese metaphors. In the first stage, a small model is trained to obtain the required confidence score for answer candidate generation. In the second stage, questions are clustered and sampled according to specific rules. Finally, the heuristic-enhanced prompt needed is formed by combining the generated answer candidates and demonstrations. The proposed model achieved 3rd place in Track 1 of Subtask 1, 1st place in Track 2 of Subtask 1, and 1st place in both tracks of Subtask 2 at the NLPCC-2024 Shared Task 9.
翻訳日:2024-08-20 22:01:27 公開日:2024-08-17
# MambaTrack: 状態空間モデルによる複数オブジェクト追跡のためのシンプルなベースライン

MambaTrack: A Simple Baseline for Multiple Object Tracking with State Space Model ( http://arxiv.org/abs/2408.09178v1 )

ライセンス: Link先を確認
Changcheng Xiao, Qiong Cao, Zhigang Luo, Long Lan, (参考訳) マルチオブジェクト追跡(MOT)分野において,検出による追跡が主流となっている。 これらの手法は典型的には、線形物体の動きを仮定して、対象の将来の位置を推定するためにカルマンフィルタに依存する。 しかし、ダンスやスポーツなどのシナリオにおいて、非線形で多様な動きを示す物体を追跡できない。 さらに,MOTにおける学習に基づく動き予測の活用にも焦点が当てられている。 これらの課題に対処するため、我々はデータ駆動型動き予測手法を探求する。 MTP(Mamba moTion Predictor)と呼ばれるマンバをベースとした運動モデルを導入する。 MTPはダンサーやアスリートのような複雑な動きパターンをモデル化するように設計されている。 具体的には、MTPはオブジェクトの時空間的位置ダイナミクスを入力として、バイマンバ符号化層を用いて動きパターンをキャプチャし、次の動きを予測する。 現実世界のシナリオでは、物体は閉塞や運動のぼやけによって見逃され、軌道の早々に終了する。 この課題に対処するため、MPPの適用をさらに拡大する。 自己回帰的手法を用いて、自分の予測を入力として利用し、より一貫した軌道に寄与することで、欠落した観測を補う。 提案するトラッカーであるMambaTrackは、複雑な動きと激しい閉塞を特徴とするDancetrackやSportsMOTなどのベンチマーク上での高度な性能を示す。

Tracking by detection has been the prevailing paradigm in the field of Multi-object Tracking (MOT). These methods typically rely on the Kalman Filter to estimate the future locations of objects, assuming linear object motion. However, they fall short when tracking objects exhibiting nonlinear and diverse motion in scenarios like dancing and sports. In addition, there has been limited focus on utilizing learning-based motion predictors in MOT. To address these challenges, we resort to exploring data-driven motion prediction methods. Inspired by the great expectation of state space models (SSMs), such as Mamba, in long-term sequence modeling with near-linear complexity, we introduce a Mamba-based motion model named Mamba moTion Predictor (MTP). MTP is designed to model the complex motion patterns of objects like dancers and athletes. Specifically, MTP takes the spatial-temporal location dynamics of objects as input, captures the motion pattern using a bi-Mamba encoding layer, and predicts the next motion. In real-world scenarios, objects may be missed due to occlusion or motion blur, leading to premature termination of their trajectories. To tackle this challenge, we further expand the application of MTP. We employ it in an autoregressive way to compensate for missing observations by utilizing its own predictions as inputs, thereby contributing to more consistent trajectories. Our proposed tracker, MambaTrack, demonstrates advanced performance on benchmarks such as Dancetrack and SportsMOT, which are characterized by complex motion and severe occlusion.
翻訳日:2024-08-20 22:01:27 公開日:2024-08-17
# 高周波フィンガープリントの信頼性について

On the Reliability of Radio Frequency Fingerprinting ( http://arxiv.org/abs/2408.09179v1 )

ライセンス: Link先を確認
Muhammad Irfan, Savio Sciancalepore, Gabriele Oligeri, (参考訳) RFF(Radio Frequency Fingerprinting)は、固有のハードウェアの違いによるRF放射に基づいて物理層(PHY)のデバイスを識別するユニークな方法を提供する。 しかしながら、RFF技術は、Software Defined Radios (SDR) を利用して、電波スペクトルのPHY層から情報を抽出する能力に依存している。 これまでの研究では、いわゆる ‘Day-After-Tomorrow' 効果、すなわち、SDRの本質的な問題が、無線電力サイクルの後に指紋の突然変異を引き起こすことを強調してきた。 本研究では,新しいFPGA画像が再ロードされるたびに,SDRが新しい通信を開始するたびに,指紋の突然変異が現れることを示すことによって,そのような研究を拡張した。 この文脈では、複数のFPGA画像再ロード操作に対するRFFの信頼性を詳細に分析し、その短命性と突然変異の性質を強調する。 本稿では, 指紋の突然変異をグラフに抽象化する手法を導入し, 指紋の信頼性を評価する理論的枠組みを提供する。 この結果から,RF指紋を一意かつ常に持続的とみなすという一般的な仮定は誤りであることが示唆された。 実世界の計測、高性能SDR、最先端のディープラーニング技術を組み合わせることで、無線デバイスは共有機能に応じてクラスタリング可能な複数の指紋を特徴付けることを実験的に実証した。 さらに、RF指紋は時間に依存しない確率的現象であり、必要な信頼性を達成するためには複数のサンプルの収集が必要であることを示す。

Radio Frequency Fingerprinting (RFF) offers a unique method for identifying devices at the physical (PHY) layer based on their RF emissions due to intrinsic hardware differences. Nevertheless, RFF techniques depend on the ability to extract information from the PHY layer of the radio spectrum by resorting to Software Defined Radios (SDR). Previous works have highlighted the so-called ``Day-After-Tomorrow'' effect, i.e., an intrinsic issue of SDRs leading to a fingerprint mutation following a radio power cycle. In this work, we extend such a study by demonstrating that fingerprint mutations appear every time a new FPGA image is reloaded, i.e., when the SDR initiates a new communication. In this context, we provide an in-depth analysis of the reliability of RFF over multiple FPGA image reloading operations, highlighting its ephemeral and mutational nature. We introduce a methodology for abstracting fingerprint mutations into a graph and provide a theoretical framework for assessing fingerprint reliability. Our results show that the common assumption of considering the RF fingerprint as unique and always persistent is incorrect. By combining real-world measurements, high-performance SDRs, and state-of-the-art deep learning techniques, we experimentally demonstrate that radio devices feature multiple fingerprints that can be clustered according to shared features. Moreover, we show that the RF fingerprint is a time-independent probabilistic phenomenon, which requires the collection of multiple samples to achieve the necessary reliability.
翻訳日:2024-08-20 22:01:27 公開日:2024-08-17
# PADetBench: オブジェクト検出に対する物理的攻撃のベンチマークを目指す

PADetBench: Towards Benchmarking Physical Attacks against Object Detection ( http://arxiv.org/abs/2408.09181v1 )

ライセンス: Link先を確認
Jiawei Lian, Jianhong Pan, Lefan Wang, Yi Wang, Lap-Pui Chau, Shaohui Mei, (参考訳) 物体検出に対する物理的攻撃は、その重要な実践的意味から注目を集めている。 しかし、物理実験の実施は非常に時間がかかり、労働集約的である。 さらに、物理力学とクロスドメイン変換は現実世界で厳格に規制することが困難であり、不整合性の評価と比較が行われ、物理的に堅牢なモデルの開発を著しく妨げている。 これらの課題に対処するために、現実的なシミュレーションを活用して、制御された物理力学とクロスドメイン変換の下で、公正な物理攻撃を徹底的かつ厳密にベンチマークする。 これにより、現実世界では達成できない同一の逆画像を取得するという問題が解決される。 私たちのベンチマークには、20の物理的攻撃方法、48のオブジェクト検出器、包括的な物理力学、評価指標が含まれています。 また、データセットの生成、検出、評価、分析のためのエンドツーエンドパイプラインも提供しています。 さらに,本ベンチマークに基づく8064グループの評価を行い,総合的な評価と,制御された物理力学のより詳細なアブレーション研究を含む。 これらの実験を通じて,身体的攻撃性能と身体的敵意の強靭性を詳細に分析し,貴重な観測を導き,今後の研究の方向性について考察する。 Codebase: https://github.com/JiaweiLian/Benchmarking_Physical_Attack

Physical attacks against object detection have gained increasing attention due to their significant practical implications. However, conducting physical experiments is extremely time-consuming and labor-intensive. Moreover, physical dynamics and cross-domain transformation are challenging to strictly regulate in the real world, leading to unaligned evaluation and comparison, severely hindering the development of physically robust models. To accommodate these challenges, we explore utilizing realistic simulation to thoroughly and rigorously benchmark physical attacks with fairness under controlled physical dynamics and cross-domain transformation. This resolves the problem of capturing identical adversarial images that cannot be achieved in the real world. Our benchmark includes 20 physical attack methods, 48 object detectors, comprehensive physical dynamics, and evaluation metrics. We also provide end-to-end pipelines for dataset generation, detection, evaluation, and further analysis. In addition, we perform 8064 groups of evaluation based on our benchmark, which includes both overall evaluation and further detailed ablation studies for controlled physical dynamics. Through these experiments, we provide in-depth analyses of physical attack performance and physical adversarial robustness, draw valuable observations, and discuss potential directions for future research. Codebase: https://github.com/JiaweiLian/Benchmarking_Physical_Attack
翻訳日:2024-08-20 22:01:27 公開日:2024-08-17
# 雑音量子コンピュータによる対称状態の群不変推定

Group-invariant estimation of symmetric states generated by noisy quantum computers ( http://arxiv.org/abs/2408.09183v1 )

ライセンス: Link先を確認
Federico Holik, Marcelo Losada, Giannina Zerr, Lorena Rebón, Diego Tielas, (参考訳) 量子状態推定の問題は、量子技術の発展に不可欠である。 特に、対称量子状態の使用は多くの関連する応用で有用である。 本研究では,量子プロセッサが生成する対称量子状態の密度行列を再構成するタスクを解析する。 この目的のために、量子最大エントロピー(MaxEnt)推定と等価となる推定手法を利用し、最近任意の対称性を持つ量子状態に適応した。 量子状態対称性の事前知識のスマートな使用により、システム上で必要な測定値の数と、データの保存と処理に必要となる計算問題のサイズの両方が削減され、その結果、推定器の全体的な性能も向上する。 数値シミュレーションを行った後、IonQ量子プロセッサにおける対称状態のいくつかの例を実装し、提案手法を用いてそれらを推定する。 結果は数値シミュレーションとよく一致しており,提案手法は実験資源と計算資源の両方を節約できる優れた推定器であることを示す。

The problem of quantum state estimation is crucial in the development of quantum technologies. In particular, the use of symmetric quantum states is useful in many relevant applications. In this work, we analyze the task of reconstructing the density matrices of symmetric quantum states generated by a quantum processor. For this purpose, we take advantage of an estimation technique that results to be equivalent to the quantum Maximum Entropy (MaxEnt) estimation, and which was recently adapted to quantum states with arbitrary symmetries. The smart use of prior knowledge of the quantum state symmetries allows for a reduction in both, the number of measurements that need to be made on the system, and the size of the computational problem to store and process the data, resulting in a better overall performance of the estimator as well. After performing numerical simulations, we implement some examples of symmetric states in IonQ quantum processors, and estimate them using the proposed technique. The results are in a good agreement with numerical simulations, showing that the proposed method is a good estimator that allows to save both, experimental and computational resources.
翻訳日:2024-08-20 21:50:22 公開日:2024-08-17
# 世界のデジタル化をめざして : デジタル化をめざして

Der Weg zur digitalen Arbeitsmappe: Digitales Prüfungswesen mit Zertifizierung ( http://arxiv.org/abs/2408.09184v1 )

ライセンス: Link先を確認
Martin Becke, Julia Padberg, (参考訳) 本研究の目的は,学生のパフォーマンスを記録・評価するための代替手法を提案することである。 意図された結果は、作業サンプルを備えたデジタルポートフォリオであり、単に証明書ではなく、学術的評価の文脈におけるポートフォリオ検査として理解することができる。 これは、例えば、最終事項の提出などのように、パフォーマンスレビューの選択的な評価よりも、学習の進歩と能力の記録、評価、認定に関するものである。 最終的な論文やパフォーマンステスト、特に高等学院での拡張と置き換え、代わりに教育プロジェクトの例に基づいて電子的に記録されたポートフォリオ試験を導入することを目的としている。 技術的には、このアプローチはブロックチェーンとウォレット/リポジトリに基づいており、最も広い意味ではスマートコントラクトの実装に基づいている。 スマートコントラクトの技術的アプローチは、管理努力の少ない高いトレーサビリティと透明性を実現する。 また、プロバイダによるサービスのセキュアな認証も提供する。 ポートフォリオ審査やスマートコントラクトによる学術的成果の管理は元々の考え方ではなく、特に実践的な要素を取り入れた持続的な演奏記録を可能にする、学生のパフォーマンスの録音・評価への代替アプローチに向けた学術的成果の記録の変更である。 望ましい結果は、作業サンプルを備えたデジタルポートフォリオです。 このアイデアスケッチの主な目的は、学生の個人化されたパフォーマンス記録を作ることであり、それによってパフォーマンスをより透明で理解しやすいものにすることにも貢献できる。

The aim of the work is to present an alternative approach to recording and evaluating student performance that enables sustainable performance recording with the possibility of integrating practical components in particular. The intended result is a digital portfolio with work samples - and not just certificates, which can be understood as a portfolio examination in the context of academic assessment. This is more about the recording, evaluation and certification of learning progress and competencies than the selective evaluation of a performance review, as is the case today, for example, with the submission of final theses. The idea is to expand and later replace final papers and performance tests, particularly in higher semesters, and instead introduce electronically recorded portfolio examinations - based on the example of teaching projects. Technologically, the approach is based on blockchain and wallets/repositories and, in the broadest sense, on an implementation of smart contracts. The technological approach of smart contracts enables a high degree of traceability and transparency with little administrative effort. It also offers secure certification of services by the provider. It should be clearly stated that neither the portfolio examination nor the administration of academic achievements with smart contracts is the original idea, but rather the change in the recording of academic achievements towards an alternative approach to the recording and evaluation of student performance, which enables sustainable performance recording with the possibility of integrating practical components in particular. The desired result is a digital portfolio with work samples. The primary aim of this idea sketch is to develop an individualized performance record for students, which can also contribute to making performance more transparent and comprehensible.
翻訳日:2024-08-20 21:50:21 公開日:2024-08-17
# EEG-SCMM:クロスコーパス脳波を用いた感情認識のためのソフトコントラストマスケッドモデリング

EEG-SCMM: Soft Contrastive Masked Modeling for Cross-Corpus EEG-Based Emotion Recognition ( http://arxiv.org/abs/2408.09186v1 )

ライセンス: Link先を確認
Qile Liu, Weishan Ye, Yulu Liu, Zhen Liang, (参考訳) 脳波(EEG)信号を用いた感情認識は近年広く注目を集めている。 しかし、既存の研究では、再訓練(クロスコーパス)なしで異なるデータセットに適した十分に一般化されたモデルを開発するのに苦労している。 この難しさは、データセット間の分散の違いがデータセット内の変数をはるかに超えるためである。 そこで本研究では,SCMM(Soft Contrastive Masked Modeling)フレームワークを提案する。 SCMMは感情の連続性に刺激され、ソフトコントラスト学習と新しいハイブリッドマスキング戦略を統合し、人間の感情に固有の「短期的連続性」特性を効果的にマイニングする。 自己教師付き学習プロセスでは、ソフトウェイトがサンプルペアに割り当てられ、サンプル間の類似性関係を適応的に学習することができる。 さらに,サンプル間の一対の類似性に基づいて,複数の近接サンプルから補完情報を重み付けして,微細な特徴表現を強化するアグリゲータを導入し,元のサンプル再構成に使用する。 SEED、SEED-IV、DEAPデータセットの大規模な実験により、SCMMは、脳波に基づく感情認識のための2種類のクロスコーパス条件(サムクラスと異なるクラス)の下で、平均4.26%の精度で2番目のベストメソッドを上回り、最先端(SOTA)のパフォーマンスを達成することが示された。

Emotion recognition using electroencephalography (EEG) signals has garnered widespread attention in recent years. However, existing studies have struggled to develop a sufficiently generalized model suitable for different datasets without re-training (cross-corpus). This difficulty arises because distribution differences across datasets far exceed the intra-dataset variability. To solve this problem, we propose a novel Soft Contrastive Masked Modeling (SCMM) framework. Inspired by emotional continuity, SCMM integrates soft contrastive learning with a new hybrid masking strategy to effectively mine the "short-term continuity" characteristics inherent in human emotions. During the self-supervised learning process, soft weights are assigned to sample pairs, enabling adaptive learning of similarity relationships across samples. Furthermore, we introduce an aggregator that weightedly aggregates complementary information from multiple close samples based on pairwise similarities among samples to enhance fine-grained feature representation, which is then used for original sample reconstruction. Extensive experiments on the SEED, SEED-IV and DEAP datasets show that SCMM achieves state-of-the-art (SOTA) performance, outperforming the second-best method by an average accuracy of 4.26% under two types of cross-corpus conditions (same-class and different-class) for EEG-based emotion recognition.
翻訳日:2024-08-20 21:50:21 公開日:2024-08-17
# SA-GDA: グラフ領域適応のためのスペクトル拡張

SA-GDA: Spectral Augmentation for Graph Domain Adaptation ( http://arxiv.org/abs/2408.09189v1 )

ライセンス: Link先を確認
Jinhui Pang, Zixuan Wang, Jiliang Tang, Mingyan Xiao, Nan Yin, (参考訳) グラフニューラルネットワーク(GNN)は、グラフ関連のタスクに対して印象的な成果を上げている。 しかし、ほとんどのGNNは、多くのタスク固有のラベルが必要で、他のドメインへの転送が困難である、教師付きトレーニングを備えた信号ドメインのケースで主に研究されている。 グラフノード分類のためのドメイン適応に焦点を当てた研究はほとんどない。 彼らは主に、異なるカテゴリ間の特徴の整合性を考慮せずに、ソースとターゲットドメインの特徴空間の整合性に焦点を合わせ、ターゲットドメインの分類を混乱させる可能性がある。 しかし、対象ドメインのラベルが不足しているため、異なるドメインのカテゴリを効果的にアライメントすることは困難である。 本稿では,グラフノード分類のためのグラフ領域適応のための「textit{Spectral Augmentation for Graph Domain Adaptation (\method{})}を提案する。 まず、異なる領域で同じカテゴリを持つノードがスペクトル領域で類似した特性を示すのに対し、異なるクラスは異なることを観察する。 観察の後、全特徴空間を整列する代わりにスペクトル領域内の異なる領域の圏特徴空間を整列し、提案された「メトッド」の安定性を理論的に証明する。 そこで我々は,特徴集約のための局所的および大域的一貫性を共同で活用するデュアルグラフ畳み込みネットワークを開発した。 最後に、逆学習サブモジュールを持つドメイン分類器を用いて、異なるドメイングラフ間の知識伝達を容易にする。 様々な公開データセットの実験結果から,我々の<method{}>の有効性が明らかとなった。

Graph neural networks (GNNs) have achieved impressive impressions for graph-related tasks. However, most GNNs are primarily studied under the cases of signal domain with supervised training, which requires abundant task-specific labels and is difficult to transfer to other domains. There are few works focused on domain adaptation for graph node classification. They mainly focused on aligning the feature space of the source and target domains, without considering the feature alignment between different categories, which may lead to confusion of classification in the target domain. However, due to the scarcity of labels of the target domain, we cannot directly perform effective alignment of categories from different domains, which makes the problem more challenging. In this paper, we present the \textit{Spectral Augmentation for Graph Domain Adaptation (\method{})} for graph node classification. First, we observe that nodes with the same category in different domains exhibit similar characteristics in the spectral domain, while different classes are quite different. Following the observation, we align the category feature space of different domains in the spectral domain instead of aligning the whole features space, and we theoretical proof the stability of proposed \method{}. Then, we develop a dual graph convolutional network to jointly exploits local and global consistency for feature aggregation. Last, we utilize a domain classifier with an adversarial learning submodule to facilitate knowledge transfer between different domain graphs. Experimental results on a variety of publicly available datasets reveal the effectiveness of our \method{}.
翻訳日:2024-08-20 21:50:21 公開日:2024-08-17
# GSLAMOT: トラックレットとクエリグラフに基づく同時ロケート,マッピング,複数オブジェクト追跡システム

GSLAMOT: A Tracklet and Query Graph-based Simultaneous Locating, Mapping, and Multiple Object Tracking System ( http://arxiv.org/abs/2408.09191v1 )

ライセンス: Link先を確認
Shuo Wang, Yongcai Wang, Zhimin Xu, Yongyu Guo, Wanting Li, Zhe Huang, Xuewei Bai, Deying Li, (参考訳) 不慣れな環境でモバイルオブジェクトと対話するためには、複数のオブジェクトの3Dポーズを同時に見つけ、マッピングし、追跡する必要がある。 本稿では,この課題に対処するため,トラックレットグラフとクエリグラフベースのフレームワークであるGSLAMOTを提案する。 GSLAMOTは、カメラとLiDARのマルチモーダル情報を入力として使用し、動的シーンの表現を静的環境を表す意味マップ、エゴエージェントの軌道、検出された移動体の3Dポーズを追跡し予測するためのオンライン保守されたトラックレットグラフ(TG)に分割する。 クエリグラフ(QG)は、オブジェクト検出によって各フレームに構築され、TGをクエリし、更新する。 高精度なオブジェクトアソシエーションを実現するため,多基準星グラフアソシエーション (MSGA) 法を提案し,QGにおける検出とTGにおける予測トラックレット間の一致したオブジェクトを検出する。 次に,オブジェクト中心グラフ最適化(OGO)手法を提案し,TG,セマンティックマップ,エージェントの軌道を同時に最適化する。 検出されたオブジェクトを地図に三角測量し、マップの意味情報を豊かにする。 3つの密結合されたタスクを並列に処理する効率の問題に対処する。 実験は、KITTI、Waymo、エミュレートされたトラフィック混雑データセットで行われ、困難なシナリオを強調している。 GSLAMOTは、挑戦的なシナリオでSLAMを正確に実行しながら、正確な混雑したオブジェクト追跡を可能にし、最先端の手法よりも優れたパフォーマンスを示す。 コードとデータセットはhttps://gslamot.github.io.orgにある。

For interacting with mobile objects in unfamiliar environments, simultaneously locating, mapping, and tracking the 3D poses of multiple objects are crucially required. This paper proposes a Tracklet Graph and Query Graph-based framework, i.e., GSLAMOT, to address this challenge. GSLAMOT utilizes camera and LiDAR multimodal information as inputs and divides the representation of the dynamic scene into a semantic map for representing the static environment, a trajectory of the ego-agent, and an online maintained Tracklet Graph (TG) for tracking and predicting the 3D poses of the detected mobile objects. A Query Graph (QG) is constructed in each frame by object detection to query and update TG. For accurate object association, a Multi-criteria Star Graph Association (MSGA) method is proposed to find matched objects between the detections in QG and the predicted tracklets in TG. Then, an Object-centric Graph Optimization (OGO) method is proposed to simultaneously optimize the TG, the semantic map, and the agent trajectory. It triangulates the detected objects into the map to enrich the map's semantic information. We address the efficiency issues to handle the three tightly coupled tasks in parallel. Experiments are conducted on KITTI, Waymo, and an emulated Traffic Congestion dataset that highlights challenging scenarios. Experiments show that GSLAMOT enables accurate crowded object tracking while conducting SLAM accurately in challenging scenarios, demonstrating more excellent performances than the state-of-the-art methods. The code and dataset are at https://gslamot.github.io.
翻訳日:2024-08-20 21:50:21 公開日:2024-08-17
# 事前訓練モデルによるAI管理型緊急文書作成

AI Managed Emergency Documentation with a Pretrained Model ( http://arxiv.org/abs/2408.09193v1 )

ライセンス: Link先を確認
David Menzies, Sean Kirwan, Ahmad Albarqawi, (参考訳) 本研究では,救急部(ED)退院書状作成の効率化と品質向上を目的とした大規模言語モデルシステムについて検討した。 時間的制約とインフラ的欠陥は、現在の排出手紙の目標に準拠することを困難にしている。 我々は,ED放電文字の生成における人工知能ソフトウェアの有用性と,この技術に対する医師の態度について検討した。 評価システムは、音声、テキスト、電子健康記録データなど、手短な入力から放電サマリーを生成するために、高度な技術を活用してモデルを微調整する。 救急医療経験のある19名の医師が手動タイピングに対するシステムテキストと音声-テキストインターフェースを評価した。 その結果,MedWrite LLMインタフェースでは手作業に比べてかなりの時間節約が可能であった。

This study investigates the use of a large language model system to improve efficiency and quality in emergency department (ED) discharge letter writing. Time constraints and infrastructural deficits make compliance with current discharge letter targets difficult. We explored potential efficiencies from an artificial intelligence software in the generation of ED discharge letters and the attitudes of doctors toward this technology. The evaluated system leverages advanced techniques to fine-tune a model to generate discharge summaries from short-hand inputs, including voice, text, and electronic health record data. Nineteen physicians with emergency medicine experience evaluated the system text and voice-to-text interfaces against manual typing. The results showed significant time savings with MedWrite LLM interfaces compared to manual methods.
翻訳日:2024-08-20 21:50:21 公開日:2024-08-17
# IoVにおける運動ブラア抵抗フェデレーション自己監督学習のためのDRLに基づく資源配分

DRL-Based Resource Allocation for Motion Blur Resistant Federated Self-Supervised Learning in IoV ( http://arxiv.org/abs/2408.09194v1 )

ライセンス: Link先を確認
Xueying Gu, Qiong Wu, Pingyi Fan, Qiang Fan, Nan Cheng, Wen Chen, Khaled B. Letaief, (参考訳) Internet of Vehicles (IoV)では、フェデレートラーニング(FL)が、データを共有せずにローカルモデルを集約することで、プライバシ保護ソリューションを提供する。 従来の教師付き学習はラベル付きイメージデータを必要とするが、データラベリングにはかなりの手作業が必要となる。 FSSL(Federated Self-Supervised Learning)は、FLのローカルトレーニングにSSL(Self-Supervised Learning)を使用している。 他のSSLメソッドと比較して、MoCo(Momentum Contrast)は、辞書を作成することで、コンピューティングリソースとストレージスペースの需要を減らす。 しかし、FSSLでMoCoを使用するには、車両からBS(Base Station)にローカル辞書をアップロードする必要がある。 SimCo(Simplified Contrast)は、MoCoベースのFSSLのプライバシー漏洩問題に、辞書の代わりに二重温度を用いて対処し、サンプル分布を制御する。 また,モデルアグリゲーションに対する動きのぼかしの負の影響を考慮し,SimCoをベースとして,BFSSLと呼ばれる動きのぼかし耐性FSSL法を提案する。 さらに, DRL-BFSSL(Deep Reinforcement Learning, 深層強化学習)に基づく資源割り当て方式を提案することにより, BFSSLプロセスのエネルギー消費と遅延に対処する。 この方式では、BSは車両のCPU(Central Processing Unit)周波数と送信電力を割り当て、エネルギー消費と遅延を最小限に抑え、一方、受信したモデルはモーションボケレベルに基づいて集約する。 シミュレーションの結果,提案手法の有効性を検証した。

In the Internet of Vehicles (IoV), Federated Learning (FL) provides a privacy-preserving solution by aggregating local models without sharing data. Traditional supervised learning requires image data with labels, but data labeling involves significant manual effort. Federated Self-Supervised Learning (FSSL) utilizes Self-Supervised Learning (SSL) for local training in FL, eliminating the need for labels while protecting privacy. Compared to other SSL methods, Momentum Contrast (MoCo) reduces the demand for computing resources and storage space by creating a dictionary. However, using MoCo in FSSL requires uploading the local dictionary from vehicles to Base Station (BS), which poses a risk of privacy leakage. Simplified Contrast (SimCo) addresses the privacy leakage issue in MoCo-based FSSL by using dual temperature instead of a dictionary to control sample distribution. Additionally, considering the negative impact of motion blur on model aggregation, and based on SimCo, we propose a motion blur-resistant FSSL method, referred to as BFSSL. Furthermore, we address energy consumption and delay in the BFSSL process by proposing a Deep Reinforcement Learning (DRL)-based resource allocation scheme, called DRL-BFSSL. In this scheme, BS allocates the Central Processing Unit (CPU) frequency and transmission power of vehicles to minimize energy consumption and latency, while aggregating received models based on the motion blur level. Simulation results validate the effectiveness of our proposed aggregation and resource allocation methods.
翻訳日:2024-08-20 21:50:21 公開日:2024-08-17
# MLにおける保守可能性の課題: 体系的な文献レビュー

Maintainability Challenges in ML: A Systematic Literature Review ( http://arxiv.org/abs/2408.09196v1 )

ライセンス: Link先を確認
Karthik Shivashankar, Antonio Martini, (参考訳) 背景: 機械学習(ML)は多くの分野で急速に進歩しているため、学術やビジネスでも採用されている。 しかしながら、MLには、従来のソフトウェアプロジェクトにはない保守の観点から、さまざまな課題があります。 こうした保守性の課題の原因を特定することは、MLのパフォーマンスを低下させることなく、早期に改善し、長期的に価値を提供し続ける上で有効です。 Aim: この研究は、MLワークフローのさまざまな段階における保守性課題を特定し、合成し、これらの段階が相互依存し、相互の保守性に影響を与えるかを理解することを目的としています。 方法: 系統的な文献レビューを用いて13,000件以上の論文をスクリーニングし, 56件を質的に分析した。 結果 (i)データエンジニアリング、モデルエンジニアリングワークフローの各段階における保守性課題のカタログ及びMLシステム構築時の現在の課題について論じる。 (ii)ワークフロー全体に影響を与えるMLの異なる相互依存ステージに対する13の保守性課題のマップ。 (iii)MLツールや研究者の開発者に洞察を提供する。 結論: この研究では、実践者や組織が、保守性の課題と、MLワークフローのさまざまな段階における影響について学びます。 これにより、落とし穴を回避し、メンテナンス可能なMLシステムの構築を支援することができる。 この意味と課題は、MLシステムの保守性に対する理解を深めるための将来の研究の基盤となる。

Background: As Machine Learning (ML) advances rapidly in many fields, it is being adopted by academics and businesses alike. However, ML has a number of different challenges in terms of maintenance not found in traditional software projects. Identifying what causes these maintainability challenges can help mitigate them early and continue delivering value in the long run without degrading ML performance. Aim: This study aims to identify and synthesise the maintainability challenges in different stages of the ML workflow and understand how these stages are interdependent and impact each other's maintainability. Method: Using a systematic literature review, we screened more than 13000 papers, then selected and qualitatively analysed 56 of them. Results: (i) a catalogue of maintainability challenges in different stages of Data Engineering, Model Engineering workflows and the current challenges when building ML systems are discussed; (ii) a map of 13 maintainability challenges to different interdependent stages of ML that impact the overall workflow; (iii) Provided insights to developers of ML tools and researchers. Conclusions: In this study, practitioners and organisations will learn about maintainability challenges and their impact at different stages of ML workflow. This will enable them to avoid pitfalls and help to build a maintainable ML system. The implications and challenges will also serve as a basis for future research to strengthen our understanding of the ML system's maintainability.
翻訳日:2024-08-20 21:50:21 公開日:2024-08-17
# NDDE:遅延微分方程式における前方および逆問題の解法のためのディープニューラルネットワークフレームワーク

NDDEs: A Deep Neural Network Framework for Solving Forward and Inverse Problems in Delay Differential Equations ( http://arxiv.org/abs/2408.09202v1 )

ライセンス: Link先を確認
Housen Wang, Yuxing Chen, Sirong Cao, Xiaoli Wang, Qiang Liu, (参考訳) 本稿では、ディープニューラルネットワーク(DNN)に基づく遅延微分方程式(DDE)の解法として、遅延微分方程式の前方および逆問題を解くことを目的としたニューラルネットワーク(NDDE)を提案する。 このフレームワークは、遅延微分方程式をニューラルネットワークに組み込み、初期条件、制御方程式、既知のデータの観点からDDEの多様な要件を満たす。 NDDEは、損失関数を最小化するために、自動微分および最適化アルゴリズムによりネットワークパラメータを調整し、従来の数値法に典型的な格子依存や離散化誤差を伴わずに遅延微分方程式の数値解を得る。 逆問題に対処する際、NDDEフレームワークは観測データを利用して単一の遅延パラメータや複数の遅延パラメータを正確に推定することができる。 複数の数値実験の結果、NDDEは前方および逆問題の両方において高い精度を示し、その有効性と、遅れた微分方程式問題に対処する有望な可能性を証明している。

This article proposes a solution framework for delay differential equations (DDEs) based on deep neural networks (DNNs) - the neural delay differential equations (NDDEs), aimed at solving the forward and inverse problems of delay differential equations. This framework embeds the delay differential equations into the neural networks to accommodate the diverse requirements of DDEs in terms of initial conditions, control equations, and known data. NDDEs adjust the network parameters through automatic differentiation and optimization algorithms to minimize the loss function, thereby obtaining numerical solutions to the delay differential equations without the grid dependence and discretization errors typical of traditional numerical methods. In addressing inverse problems, the NDDE framework can utilize observational data to perform precise estimation of single or multiple delay parameters. The results of multiple numerical experiments have shown that NDDEs demonstrate high precision in both forward and inverse problems, proving their effectiveness and promising potential in dealing with delayed differential equation issues.
翻訳日:2024-08-20 21:50:21 公開日:2024-08-17
# 大規模言語モデル基盤のアーキテクチャ基盤と戦略的考察

Architectural Foundations and Strategic Considerations for the Large Language Model Infrastructures ( http://arxiv.org/abs/2408.09205v1 )

ライセンス: Link先を確認
Hongyin Zhu, (参考訳) 大規模言語モデル(LLM)インフラストラクチャの開発は、人工知能における重要な取り組みである。 本稿では,LLMのインフラ,ソフトウェア,データ管理の複雑な状況について考察する。 これらの中核成分を解析することにより、LLM開発の成功に不可欠である重要な考慮事項と安全性を強調した。 この研究は、ロバストで効果的なLLMインフラの構築に固有の課題と戦略を簡潔に合成し、研究者や実践者にも貴重な洞察を提供する。

The development of a large language model (LLM) infrastructure is a pivotal undertaking in artificial intelligence. This paper explores the intricate landscape of LLM infrastructure, software, and data management. By analyzing these core components, we emphasize the pivotal considerations and safeguards crucial for successful LLM development. This work presents a concise synthesis of the challenges and strategies inherent in constructing a robust and effective LLM infrastructure, offering valuable insights for researchers and practitioners alike.
翻訳日:2024-08-20 21:50:21 公開日:2024-08-17
# H2PIPE:高帯域メモリを持つFPGA上での高スループットCNN推論

H2PIPE: High throughput CNN Inference on FPGAs with High-Bandwidth Memory ( http://arxiv.org/abs/2408.09209v1 )

ライセンス: Link先を確認
Mario Doumet, Marius Stan, Mathew Hall, Vaughn Betz, (参考訳) 畳み込みニューラルネットワーク(CNN)は、大量の並列化可能な計算と頻繁なメモリアクセスを組み合わせる。 Field Programmable Gate Array(FPGA)は、ネットワーク全体を実装するために層固有のハードウェアをパイプラインするデータフローアクセラレータを実装することで、低レイテンシと高スループットのCNN推論を実現する。 各CNN層に対して異なる処理要素を実装することで、これらの層をピペリン化したアクセラレータは高い計算密度を達成することができるが、全ての層を並列に処理するには高いメモリ帯域を必要とする。 伝統的に、これはチップに全ての重みを格納することで満足されてきたが、最大のCNNでは実現不可能である。 本研究では,HBM(High-Bandwidth Memory)とオンチップストレージの両方を活用するために,最先端データフローアクセラレータ(HPIPE)を拡張した。 HBMのレイテンシとスループットを予測したアドレスパターンに対するプロファイリング結果に基づいて、チップからどの重みバッファを移動すべきか、HBMへのオンチップFIFOの深さが計算ユニットの停止を最小限に抑えるかを選択するアルゴリズムを開発した。 我々はHPIPEドメイン固有のCNNコンパイラに新しいハードウェア生成を統合し、理論上の限界に対して優れた帯域幅効率を示す。 最高の先行研究と比較して、ResNet-18、ResNet-50、VGG-16で、少なくとも19.4x、5.1x、10.5xのスピードアップが得られる。

Convolutional Neural Networks (CNNs) combine large amounts of parallelizable computation with frequent memory access. Field Programmable Gate Arrays (FPGAs) can achieve low latency and high throughput CNN inference by implementing dataflow accelerators that pipeline layer-specific hardware to implement an entire network. By implementing a different processing element for each CNN layer, these layer-pipelined accelerators can achieve high compute density, but having all layers processing in parallel requires high memory bandwidth. Traditionally this has been satisfied by storing all weights on chip, but this is infeasible for the largest CNNs, which are often those most in need of acceleration. In this work we augment a state-of-the-art dataflow accelerator (HPIPE) to leverage both High-Bandwidth Memory (HBM) and on-chip storage, enabling high performance layer-pipelined dataflow acceleration of large CNNs. Based on profiling results of HBM's latency and throughput against expected address patterns, we develop an algorithm to choose which weight buffers should be moved off chip and how deep the on-chip FIFOs to HBM should be to minimize compute unit stalling. We integrate the new hardware generation within the HPIPE domain-specific CNN compiler and demonstrate good bandwidth efficiency against theoretical limits. Compared to the best prior work we obtain speed-ups of at least 19.4x, 5.1x and 10.5x on ResNet-18, ResNet-50 and VGG-16 respectively.
翻訳日:2024-08-20 21:50:21 公開日:2024-08-17
# ニューラルポーラライゼーションによるフォワードオンリー学習の一般化と安定性向上について

On the Improvement of Generalization and Stability of Forward-Only Learning via Neural Polarization ( http://arxiv.org/abs/2408.09210v1 )

ライセンス: Link先を確認
Erik B. Terres-Escudero, Javier Del Ser, Pablo Garcia-Bringas, (参考訳) フォワードのみの学習アルゴリズムは、最近、勾配のバックプロパゲーションの代替として注目され、後者のソルバの後方ステップを、さらにコントラストのあるフォワードパスに置き換えた。 これらの手法のうち、いわゆるフォワード・フォワード・アルゴリズム(FFA)は、一般化と複雑性の観点から、競争性能のレベルを達成することが示されている。 FFAを用いてトレーニングされたネットワークは、実データ(正のサンプルとして記述された)で提示されたとき、層単位で定義された良性スコアを対照的に最大化し、合成データ(負のサンプル)を処理するとき、それを最小化する。 しかし、このアルゴリズムは、主に正と負のサンプルの勾配不均衡のため、モデルの精度と訓練安定性に悪影響を及ぼす弱点に直面している。 この問題を克服するために、我々は、正と負のインスタンスにニューラル分割(\emph{polarization})を導入することにより、元の定式化を拡張した、Polar-FFAと呼ばれるFFAアルゴリズムの新たな実装を提案する。 これらのグループのニューロンは、それぞれのデータ型を提示するときの良さを最大化することを目的としており、それによって対称的な勾配挙動を生み出す。 提案するPolar-FFAの学習能力向上を実証的に評価するために,画像分類データセット上で異なるアクティベーションと良性関数を用いて,いくつかの系統的な実験を行った。 以上の結果から,Polar-FFAはFFAよりも精度と収束速度が優れていることが示された。 さらに、ハイパーパラメータへの依存度が低いため、最適な一般化機能を保証するためにハイパーパラメータチューニングの必要性が軽減され、より広い範囲のニューラルネットワーク構成が可能になる。

Forward-only learning algorithms have recently gained attention as alternatives to gradient backpropagation, replacing the backward step of this latter solver with an additional contrastive forward pass. Among these approaches, the so-called Forward-Forward Algorithm (FFA) has been shown to achieve competitive levels of performance in terms of generalization and complexity. Networks trained using FFA learn to contrastively maximize a layer-wise defined goodness score when presented with real data (denoted as positive samples) and to minimize it when processing synthetic data (corr. negative samples). However, this algorithm still faces weaknesses that negatively affect the model accuracy and training stability, primarily due to a gradient imbalance between positive and negative samples. To overcome this issue, in this work we propose a novel implementation of the FFA algorithm, denoted as Polar-FFA, which extends the original formulation by introducing a neural division (\emph{polarization}) between positive and negative instances. Neurons in each of these groups aim to maximize their goodness when presented with their respective data type, thereby creating a symmetric gradient behavior. To empirically gauge the improved learning capabilities of our proposed Polar-FFA, we perform several systematic experiments using different activation and goodness functions over image classification datasets. Our results demonstrate that Polar-FFA outperforms FFA in terms of accuracy and convergence speed. Furthermore, its lower reliance on hyperparameters reduces the need for hyperparameter tuning to guarantee optimal generalization capabilities, thereby allowing for a broader range of neural network configurations.
翻訳日:2024-08-20 21:50:21 公開日:2024-08-17
# Lazy Local Propagationによるスケーラブルで認証可能なグラフアンラーニング

Scalable and Certifiable Graph Unlearning via Lazy Local Propagation ( http://arxiv.org/abs/2408.09212v1 )

ライセンス: Link先を確認
Lu Yi, Zhewei Wei, (参考訳) グラフ構造化データのモデリングにグラフニューラルネットワークが広く使用されるようになったことで、グラフアンラーニングは重要な研究分野となった。 最近の研究は、モデルパラメータの効率的な更新に焦点を当てている。 しかし、各削除に要するグラフの伝播の計算に要する時間がかかり、大きなグラフのスケーラビリティが著しく制限されるのをしばしば見落としている。 本稿では,10億のエッジグラフにスケールする最初の認証済みグラフアンラーニング機構であるScaleGUNを提案する。 ScaleGUNは遅延局所伝搬法を用いて,データ削除時の埋め込み行列の効率的な更新を容易にする。 このような遅延ローカルな伝搬は、ノード機能、エッジ、ノードアンラーニングを含む3つのグラフアンラーニングシナリオのすべてにおいて、認証されたアンラーニングを保証するために証明できる。 実世界のデータセットに関する大規模な実験は、ScaleGUNの効率性と有効性を示している。 注目すべきは、ScaleGUNが$(\epsilon,\delta)=(1,10^{-4})の認定アンラーニングを達成したことだ。 私たちのコードはオンラインで利用可能です。

With the recent adoption of laws supporting the ``right to be forgotten'' and the widespread use of Graph Neural Networks for modeling graph-structured data, graph unlearning has emerged as a crucial research area. Current studies focus on the efficient update of model parameters. However, they often overlook the time-consuming re-computation of graph propagation required for each removal, significantly limiting their scalability on large graphs. In this paper, we present ScaleGUN, the first certifiable graph unlearning mechanism that scales to billion-edge graphs. ScaleGUN employs a lazy local propagation method to facilitate efficient updates of the embedding matrix during data removal. Such lazy local propagation can be proven to ensure certified unlearning under all three graph unlearning scenarios, including node feature, edge, and node unlearning. Extensive experiments on real-world datasets demonstrate the efficiency and efficacy of ScaleGUN. Remarkably, ScaleGUN accomplishes $(\epsilon,\delta)=(1,10^{-4})$ certified unlearning on the billion-edge graph ogbn-papers100M in 20 seconds for a $5K$-random-edge removal request -- of which only 5 seconds are required for updating the embedding matrix -- compared to 1.91 hours for retraining and 1.89 hours for re-propagation. Our code is available online.
翻訳日:2024-08-20 21:50:21 公開日:2024-08-17
# 会話音声認識のためのテキスト音声と大言語モデルによるデータ生成

Generating Data with Text-to-Speech and Large-Language Models for Conversational Speech Recognition ( http://arxiv.org/abs/2408.09215v1 )

ライセンス: Link先を確認
Samuele Cornell, Jordan Darefsky, Zhiyao Duan, Shinji Watanabe, (参考訳) 現在、多くの音声処理タスクにおいて一般的なアプローチは、特定のアプリケーションのためのドメイン内のデータにそれらを微調整することで、大規模な事前訓練モデルを活用することである。 しかし、プライバシの問題とアノテーションのコストの両方のために、特にセンシティブなドメインや会話型の音声シナリオにおいて、そのようなデータを少量取得することさえ問題になる可能性がある。 これを解決するために、単一話者データセットを用いた合成データ生成が導入された。 しかし、マルチスピーカーの場合、このようなアプローチは多くの場合、広範囲な手作業を必要とし、ドメインミスマッチを起こしやすい。 本研究では,多話者対話型ASRのための合成データ生成パイプラインを提案し,コンテンツ生成のための大言語モデル(LLM)と音声合成のための多話者テキスト音声合成(TTS)モデルを提案する。 我々は、ドメイン内データと生成された合成データの両方を用いて、電話および遠隔会話音声設定のためのWhisper ASRモデルを微調整して評価を行う。 提案手法は,外部の非会話型音声データセットを用いた古典的マルチ話者生成手法よりも大幅に優れていることを示す。

Currently, a common approach in many speech processing tasks is to leverage large scale pre-trained models by fine-tuning them on in-domain data for a particular application. Yet obtaining even a small amount of such data can be problematic, especially for sensitive domains and conversational speech scenarios, due to both privacy issues and annotation costs. To address this, synthetic data generation using single speaker datasets has been employed. Yet, for multi-speaker cases, such an approach often requires extensive manual effort and is prone to domain mismatches. In this work, we propose a synthetic data generation pipeline for multi-speaker conversational ASR, leveraging a large language model (LLM) for content creation and a conversational multi-speaker text-to-speech (TTS) model for speech synthesis. We conduct evaluation by fine-tuning the Whisper ASR model for telephone and distant conversational speech settings, using both in-domain data and generated synthetic data. Our results show that the proposed method is able to significantly outperform classical multi-speaker generation approaches that use external, non-conversational speech datasets.
翻訳日:2024-08-20 21:50:21 公開日:2024-08-17
# EagleEye: 悪質なイベントシーケンスを前兆グラフから明らかにする意図

EagleEye: Attention to Unveil Malicious Event Sequences from Provenance Graphs ( http://arxiv.org/abs/2408.09217v1 )

ライセンス: Link先を確認
Philipp Gysel, Candid Wüest, Kenneth Nwafor, Otakar Jašek, Andrey Ustyuzhanin, Dinil Mon Divakaran, (参考訳) エンドポイントのセキュリティは、脅威とアタックの進化の性質のため、難しい。 エンドポイントロギングシステムが成熟するにつれて、プロファイランスグラフ表現は洗練された振る舞いルールの作成を可能にします。 しかし、出現する攻撃のペースに適応することは、ルールによってはスケーラブルではない。 これにより、エンドポイントログから学習できるMLモデルの開発につながった。 しかし、まだオープンな課題があります。 一 悪意あるマルウェアのパターンが長い一連の出来事に散らばり、 二 ML分類結果が解釈できないこと。 これらの問題に対処するため,我々は新しいシステムであるEagleEyeを開発し,提示する。 i) 動作イベントの表現には,コマンド行の埋め込みなど,プロファイランスグラフの豊富な機能を使用する。 二 イベントの長いシーケンスを抽出し、イベント埋め込みを学習し、 三 行動シーケンスを悪意の有無を分類するために、軽量トランスフォーマーモデルを訓練する。 我々はEagleEyeを、2つのデータセット、すなわち企業環境からの新しい実世界のデータセットと、公開DARPAデータセットの最先端のベースラインと比較し比較する。 DARPAのデータセットでは、偽陽性率1%で、EagleEyeは悪意のあるすべての行動の89%の$\approxを検知し、2つの最先端ソリューションを38.5%で上回っている。 さらに、トランスフォーマーの注意機構を利用して、長いシーケンスで最も疑わしい事象をハイライトし、マルウェアの警告を解釈できることが示される。

Securing endpoints is challenging due to the evolving nature of threats and attacks. With endpoint logging systems becoming mature, provenance-graph representations enable the creation of sophisticated behavior rules. However, adapting to the pace of emerging attacks is not scalable with rules. This led to the development of ML models capable of learning from endpoint logs. However, there are still open challenges: i) malicious patterns of malware are spread across long sequences of events, and ii) ML classification results are not interpretable. To address these issues, we develop and present EagleEye, a novel system that i) uses rich features from provenance graphs for behavior event representation, including command-line embeddings, ii) extracts long sequences of events and learns event embeddings, and iii) trains a lightweight Transformer model to classify behavior sequences as malicious or not. We evaluate and compare EagleEye against state-of-the-art baselines on two datasets, namely a new real-world dataset from a corporate environment, and the public DARPA dataset. On the DARPA dataset, at a false-positive rate of 1%, EagleEye detects $\approx$89% of all malicious behavior, outperforming two state-of-the-art solutions by an absolute margin of 38.5%. Furthermore, we show that the Transformer's attention mechanism can be leveraged to highlight the most suspicious events in a long sequence, thereby providing interpretation of malware alerts.
翻訳日:2024-08-20 21:50:21 公開日:2024-08-17
# 3次元ボリューム患者の画像翻訳のための高速で計算上不便な方法

A Fast and Computationally Inexpensive Method For Image Translation of 3D Volume Patient Data ( http://arxiv.org/abs/2408.09218v1 )

ライセンス: Link先を確認
Cho Yang, (参考訳) 今回提案したSynthRAD Grand Challenge Datasetでは,CycleGAN-single (CycleGAN-single) と呼ばれるシングルエポック修正(SEM)法を用いて,約200エポック(CycleGAN-multi)でのCycleGAN訓練法と比較した。 モデル性能は,PSNR,SSIM,MAE,MSEなどの定量的性能指標を用いて質的,定量的に評価した。 本論文では, モデル評価における定量的および定性的性能の両面について, 医用画像などの画像翻訳作業に特有な考察を述べる。 また,良質な量的性能は必ずしも良質な量的性能を示唆するものではなく,逆は常に真であるとは限らない(つまり,良質な量的性能は必ずしも良質な量的性能を示唆するものではない)。 本稿では,FQGA(Fast Paired Image-to- Image Translation Quarter-Generator Adversary)モデルを提案する。 FQGAは、20エポックのトレーニング後にのみ、CycleGANを質的に、定量的に上回る。 最後に、FQGA上でSEM法を用いることで、CycleGANを定量的にも質的にも再び上回ることができる。 本論文で論じる医療画像翻訳タスクとは別として, モデルパラメータの削減とエポックの削減による時間節約が, 機械学習における他の画像・画像翻訳タスクにも応用できる可能性がある。

CycleGAN was trained on SynthRAD Grand Challenge Dataset using the single-epoch modification (SEM) method proposed in this paper which is referred to as (CycleGAN-single) compared to the usual method of training CycleGAN on around 200 epochs (CycleGAN-multi). Model performance were evaluated qualitatively and quantitatively with quantitative performance metrics like PSNR, SSIM, MAE and MSE. The consideration of both quantitative and qualitative performance when evaluating a model is unique to certain image-translation tasks like medical imaging as detailed in this paper. Also, this paper shows that good quantitative performance does not always imply good qualitative performance and the converse is also not always True (i.e. good qualitative performance does not always imply good quantitative performance). This paper also proposes FQGA (Fast Paired Image-to-Image Translation Quarter-Generator Adversary) Model which has 1/4 the number of parameters compared to CycleGAN (when comparing their Generator Models). FQGA outperforms CycleGAN qualitatively and quantitatively even only after training on 20 epochs. Finally, using SEM method on FQGA allowed it to again outperform CycleGAN both quantitatively and qualitatively. These performance gains with fewer model parameters and time savings from running fewer epochs may also be applicable to other image-to-image translation tasks in Machine Learning apart from the Medical image-translation task discussed in this paper between Cone Beam Computed Tomography (CBCT) and Computed Tomography (CT) images.
翻訳日:2024-08-20 21:39:37 公開日:2024-08-17
# Flatten: ビデオアクション認識は画像分類タスク

Flatten: Video Action Recognition is an Image Classification task ( http://arxiv.org/abs/2408.09220v1 )

ライセンス: Link先を確認
Junlin Chen, Chengcheng Xu, Yangfan Xu, Jian Yang, Jun Li, Zhiping Shi, (参考訳) 近年,映像理解の分野における基本的な課題である映像行動認識は,多くの研究者によって深く研究されており,従来の映像行動認識手法では,映像を空間的・時間的両方の情報をカプセル化した3次元データに変換し,それらのデータをモデル化・解析するために一般的な画像理解モデルを活用するのが一般的である。 しかし、これらの手法には大きな欠点がある。 まず、映像行動認識タスクを探索する際には、これらの時空間的タスクに対して、モデルアーキテクチャや前処理の観点から、画像理解モデルを適用する必要がある。第2に、高次元データを扱うと、より大きな課題が発生し、より低次元のタスクよりも高い時間コストが生じることが多い。映像理解の複雑さを簡素化しながら、画像理解と映像理解の間のギャップを埋めるために、ビデオ認識を効果的かつ効率的な3次元時間的データモデリングのために、任意の画像理解ネットワークにシームレスに統合可能なプラグイン・アンド・プレイ・モジュールとして機能するFlattenを導入する。 一般的に使われているデータセット(Kinetics-400、Something v2、HMDB-51)と3つの古典的な画像分類モデル(Uniformer、SwinV2、ResNet)に関する大規模な実験により、Flattenの埋め込みはオリジナルのモデルよりも大幅に性能が向上することを示した。

In recent years, video action recognition, as a fundamental task in the field of video understanding, has been deeply explored by numerous researchers.Most traditional video action recognition methods typically involve converting videos into three-dimensional data that encapsulates both spatial and temporal information, subsequently leveraging prevalent image understanding models to model and analyze these data. However,these methods have significant drawbacks. Firstly, when delving into video action recognition tasks, image understanding models often need to be adapted accordingly in terms of model architecture and preprocessing for these spatiotemporal tasks; Secondly, dealing with high-dimensional data often poses greater challenges and incurs higher time costs compared to its lower-dimensional counterparts.To bridge the gap between image-understanding and video-understanding tasks while simplifying the complexity of video comprehension, we introduce a novel video representation architecture, Flatten, which serves as a plug-and-play module that can be seamlessly integrated into any image-understanding network for efficient and effective 3D temporal data modeling.Specifically, by applying specific flattening operations (e.g., row-major transform), 3D spatiotemporal data is transformed into 2D spatial information, and then ordinary image understanding models are used to capture temporal dynamic and spatial semantic information, which in turn accomplishes effective and efficient video action recognition. Extensive experiments on commonly used datasets (Kinetics-400, Something-Something v2, and HMDB-51) and three classical image classification models (Uniformer, SwinV2, and ResNet), have demonstrated that embedding Flatten provides a significant performance improvements over original model.
翻訳日:2024-08-20 21:39:37 公開日:2024-08-17
# 有機電気化学トランジスタのネットワークにおける貯水池計算の理論的枠組み

A theoretical framework for reservoir computing on networks of organic electrochemical transistors ( http://arxiv.org/abs/2408.09223v1 )

ライセンス: Link先を確認
Nicholas W. Landry, Beckett R. Hyde, Jake C. Perez, Sean E. Shaheen, Juan G. Restrepo, (参考訳) 物理系の規則が容易に学べない場合でも、物理的システムの効率的かつ正確な予測が重要である。 固定された非線形ユニットを持つリカレントニューラルネットワークの一種であるReservoir Computingは、そのような予測方法のひとつであり、トレーニングの容易さで評価されている。 有機電気化学トランジスタ (OECTs) は、貯水池コンピュータの非線形ユニットとして使用できる非線形過渡特性を持つ物理デバイスである。 我々は,OECTを非線形ユニットとして使用した貯水池コンピュータをシミュレーションするための理論的枠組みを,物理貯水池コンピュータを設計するためのテストベッドとして提案する。 本稿では,そのような実装が標準的な貯水池コンピュータ実装に匹敵する性能で,ロレンツ誘引器を正確に予測できることを実証する概念実証を示す。 動作パラメータの影響を調べた結果,予測性能はOECTのピンチオフ電圧に強く依存していることが判明した。

Efficient and accurate prediction of physical systems is important even when the rules of those systems cannot be easily learned. Reservoir computing, a type of recurrent neural network with fixed nonlinear units, is one such prediction method and is valued for its ease of training. Organic electrochemical transistors (OECTs) are physical devices with nonlinear transient properties that can be used as the nonlinear units of a reservoir computer. We present a theoretical framework for simulating reservoir computers using OECTs as the non-linear units as a test bed for designing physical reservoir computers. We present a proof of concept demonstrating that such an implementation can accurately predict the Lorenz attractor with comparable performance to standard reservoir computer implementations. We explore the effect of operating parameters and find that the prediction performance strongly depends on the pinch-off voltage of the OECTs.
翻訳日:2024-08-20 21:39:37 公開日:2024-08-17
# 軍事用ニューロシンボリックAI

Neuro-Symbolic AI for Military Applications ( http://arxiv.org/abs/2408.09224v1 )

ライセンス: Link先を確認
Desta Haileselassie Hagos, Danda B. Rawat, (参考訳) 人工知能(AI)は防衛システムの能力向上、戦略的意思決定の革新、将来の軍事作戦の展望形成に重要な役割を果たしている。 Neuro-Symbolic AIは、ニューラルネットワークとシンボリック推論の強みを活用して強化する、新たなアプローチである。 これらのシステムは、従来のAIシステムよりも影響があり、柔軟である可能性があり、軍事用途に適している。 本稿では、軍事的文脈におけるその潜在的応用に光を当てることを目的として、ニューロ・シンボリックAIの多様な次元と能力について包括的に検討する。 意思決定の改善、複雑なインテリジェンス分析の自動化、自律システム強化の能力について検討する。 さらに、軍事的文脈での応用に加えて、様々な領域における複雑なタスクを解く可能性についても検討する。 この調査を通じて、軍事および民間の応用において、ニューロ・シンボリックAIの開発と展開に不可欠な倫理的、戦略的、技術的考慮事項に対処する。 この研究は、ニューロ・シンボリックAIがもたらす幅広い可能性の包括的調査である。

Artificial Intelligence (AI) plays a significant role in enhancing the capabilities of defense systems, revolutionizing strategic decision-making, and shaping the future landscape of military operations. Neuro-Symbolic AI is an emerging approach that leverages and augments the strengths of neural networks and symbolic reasoning. These systems have the potential to be more impactful and flexible than traditional AI systems, making them well-suited for military applications. This paper comprehensively explores the diverse dimensions and capabilities of Neuro-Symbolic AI, aiming to shed light on its potential applications in military contexts. We investigate its capacity to improve decision-making, automate complex intelligence analysis, and strengthen autonomous systems. We further explore its potential to solve complex tasks in various domains, in addition to its applications in military contexts. Through this exploration, we address ethical, strategic, and technical considerations crucial to the development and deployment of Neuro-Symbolic AI in military and civilian applications. Contributing to the growing body of research, this study represents a comprehensive exploration of the extensive possibilities offered by Neuro-Symbolic AI.
翻訳日:2024-08-20 21:39:37 公開日:2024-08-17
# FEDMEKI:フェデレーション・ナレッジ・インジェクションによる医療基礎モデルのスケーリングベンチマーク

FEDMEKI: A Benchmark for Scaling Medical Foundation Models via Federated Knowledge Injection ( http://arxiv.org/abs/2408.09227v1 )

ライセンス: Link先を確認
Jiaqi Wang, Xiaochen Wang, Lingjuan Lyu, Jinghui Chen, Fenglong Ma, (参考訳) 本研究は,プライバシ制約下の基礎モデルに医療知識を統合するという,ユニークな課題に対処するための,新たなベンチマークであるFedMEKI(Federated Medical Knowledge Injection)プラットフォームを紹介する。 クロスサイロ・フェデレート・ラーニング・アプローチを活用することで、FEDMEKIは、米国の健康保険可搬性会計法(HIPAA)のような健康規制でしばしば禁止される集中型データ収集に関連する問題を回避している。 このプラットフォームは、画像、信号、テキスト、実験結果、バイタルサイン、入力変数、出力変数を含む7つの医療モダリティを含むマルチサイト、マルチモーダル、マルチタスクの医療データを扱うように設計されている。 FEDMEKIを検証するための訓練されたデータセットは、6つの分類タスク(肺不透明度検出、COVID-19検出、心電図(ECG)異常検出、死亡予測、敗血症予測、拡張心中隔検出)と2つの世代タスク(医療視覚質問応答(MedVQA)とECGノイズの明確化)を含む8つの医療タスクをカバーしている。 この包括的なデータセットは、16のベンチマークアプローチの下で分散トレーニングプロセスを容易にするために、複数のクライアントに分割される。 FEDMEKIは、データプライバシを保存するだけでなく、医療基盤モデルの能力を高めるために、直接的なデータ露出なしに幅広い医療知識から学べるようにし、医療分野における基礎モデルの適用に新たなベンチマークを設定できる。

This study introduces the Federated Medical Knowledge Injection (FEDMEKI) platform, a new benchmark designed to address the unique challenges of integrating medical knowledge into foundation models under privacy constraints. By leveraging a cross-silo federated learning approach, FEDMEKI circumvents the issues associated with centralized data collection, which is often prohibited under health regulations like the Health Insurance Portability and Accountability Act (HIPAA) in the USA. The platform is meticulously designed to handle multi-site, multi-modal, and multi-task medical data, which includes 7 medical modalities, including images, signals, texts, laboratory test results, vital signs, input variables, and output variables. The curated dataset to validate FEDMEKI covers 8 medical tasks, including 6 classification tasks (lung opacity detection, COVID-19 detection, electrocardiogram (ECG) abnormal detection, mortality prediction, sepsis prediction, and enlarged cardiomediastinum detection) and 2 generation tasks (medical visual question answering (MedVQA) and ECG noise clarification). This comprehensive dataset is partitioned across several clients to facilitate the decentralized training process under 16 benchmark approaches. FEDMEKI not only preserves data privacy but also enhances the capability of medical foundation models by allowing them to learn from a broader spectrum of medical knowledge without direct data exposure, thereby setting a new benchmark in the application of foundation models within the healthcare sector.
翻訳日:2024-08-20 21:39:37 公開日:2024-08-17
# 人体信号識別のためのシームズ多重注意時間畳み込みネットワーク

Siamese Multiple Attention Temporal Convolution Networks for Human Mobility Signature Identification ( http://arxiv.org/abs/2408.09230v1 )

ライセンス: Link先を確認
Zhipeng Zheng, Yuchen Jiang, Shiyao Zhang, Xuetao Wei, (参考訳) HuMID(Human Mobility Signature Identification)問題(HuMID)は運転スタイル表現の領域における基本的な課題であり、運転者識別のための様々な運転軌跡からの潜伏運転行動や嗜好を識別することを目的としている。 そのソリューションは、さまざまなドメイン(例えば、配車サービス、保険)に重大な影響を与える。 現在のHumIDソリューションは、長い軌跡に直面した場合、適応性の限界をしばしば示し、結果としてかなりの計算オーバーヘッドが生じる。 さらに、重要なローカル情報を効果的に抽出できないことは、そのパフォーマンスをさらに阻害する。 そこで本研究では,TNアーキテクチャとマルチヘッド自己意識の両長所を生かし,局所的および長期的依存関係の高度抽出を可能にするため,シームズ多重注意時間畳み込みネットワーク(Siamese Multiple Attention Temporal Convolutional Network, MA-TCN)を提案する。 さらに,本モデルから導出したマルチスケール表現の効率的な集約に適した新しいアテンション機構を考案する。 2つの実世界のタクシー軌道データを用いて実験を行った結果,提案手法は局所的な鍵情報と長期的依存関係の両方を効果的に抽出することがわかった。 これらの知見は、モデルの卓越した一般化能力を強調し、さまざまなサイズのデータセット間の堅牢性と適応性を実証した。

The Human Mobility Signature Identification (HuMID) problem stands as a fundamental task within the realm of driving style representation, dedicated to discerning latent driving behaviors and preferences from diverse driver trajectories for driver identification. Its solutions hold significant implications across various domains (e.g., ride-hailing, insurance), wherein their application serves to safeguard users and mitigate potential fraudulent activities. Present HuMID solutions often exhibit limitations in adaptability when confronted with lengthy trajectories, consequently incurring substantial computational overhead. Furthermore, their inability to effectively extract crucial local information further impedes their performance. To address this problem, we propose a Siamese Multiple Attention Temporal Convolutional Network (Siamese MA-TCN) to capitalize on the strengths of both TCN architecture and multi-head self-attention, enabling the proficient extraction of both local and long-term dependencies. Additionally, we devise a novel attention mechanism tailored for the efficient aggregation of multi-scale representations derived from our model. Experimental evaluations conducted on two real-world taxi trajectory datasets reveal that our proposed model effectively extracts both local key information and long-term dependencies. These findings highlight the model's outstanding generalization capabilities, demonstrating its robustness and adaptability across datasets of varying sizes.
翻訳日:2024-08-20 21:39:37 公開日:2024-08-17
# 基準誘導検証:自由形テキストの自動評価におけるLCMs-as-Judges

Reference-Guided Verdict: LLMs-as-Judges in Automatic Evaluation of Free-Form Text ( http://arxiv.org/abs/2408.09235v1 )

ライセンス: Link先を確認
Sher Badshah, Hassan Sajjad, (参考訳) LLM(Large Language Models)の急速な進歩は、特に自由形式のタスクにおいて、生成したテキストの品質を正確に評価できる堅牢な評価手法の必要性を強調している。 BLEU や ROUGE のような伝統的なメトリクスは有用であるが、しばしば参照回答と比較して、自由形式のテキストの意味的豊かさと文脈的関連性を捉えることに失敗する。 本研究では,複数のLPMをアズ・ジャッジとして活用し,より信頼性が高く正確なLCM世代評価を行うための基準誘導検証手法を提案する。 多様なLCMを統合することで、従来のメトリクスや単一モデル評価が不足する課題において、個々のモデルのバイアスを軽減し、人間の判断との整合性を大幅に改善する。 複数の質問応答タスクを対象とした実験により,提案手法は人間の評価と密接に一致し,人間の評価に対するスケーラブルで再現性があり,効果的な代替手段として確立されていることを示す。 我々のアプローチは、評価信頼性を高めるだけでなく、生成AIにおける自動評価を洗練するための新たな道を開く。

The rapid advancements in Large Language Models (LLMs) have highlighted the critical need for robust evaluation methods that can accurately assess the quality of generated text, particularly in free-form tasks. Traditional metrics like BLEU and ROUGE, while useful, often fail to capture the semantic richness and contextual relevance of free-form text compared to reference answers. In this study, we introduce a reference-guided verdict method that leverages multiple LLMs-as-judges to provide a more reliable and accurate evaluation of open-ended LLM generations. By integrating diverse LLMs, our approach mitigates individual model biases and significantly improves alignment with human judgments, especially in challenging tasks where traditional metrics and single-model evaluations fall short. Through experiments across multiple question-answering tasks, we show that our method closely aligns with human evaluations, establishing it as a scalable, reproducible, and effective alternative to human evaluation. Our approach not only enhances evaluation reliability but also opens new avenues for refining automated assessment in generative AI.
翻訳日:2024-08-20 21:39:37 公開日:2024-08-17
# ハイブリッドセマンティック検索:キーワード以外のユーザーインテントを公開

Hybrid Semantic Search: Unveiling User Intent Beyond Keywords ( http://arxiv.org/abs/2408.09236v1 )

ライセンス: Link先を確認
Aman Ahluwalia, Bishwajit Sutradhar, Karishma Ghosh, (参考訳) 本稿では,ユーザ意図を理解する上で,従来のキーワードベース検索の限界に対処し,非意味的検索エンジン,LLM(Large Language Models),埋め込みモデルなどの長所を生かした,新しいハイブリッド検索手法を提案する。 提案システムは,キーワードマッチング,意味的ベクトル埋め込み,LLM生成した構造化クエリを統合し,関連性が高く,文脈的に適切な検索結果を提供する。 本稿では,これらの補完手法を組み合わせることで,明示的かつ暗黙的なユーザ意図を効果的に捉え,より高速な応答時間にクエリ実行を最適化する手法について検討し,包括的かつ正確な検索結果を生成する上で,このハイブリッド検索モデルの有効性を実証する。

This paper addresses the limitations of traditional keyword-based search in understanding user intent and introduces a novel hybrid search approach that leverages the strengths of non-semantic search engines, Large Language Models (LLMs), and embedding models. The proposed system integrates keyword matching, semantic vector embeddings, and LLM-generated structured queries to deliver highly relevant and contextually appropriate search results. By combining these complementary methods, the hybrid approach effectively captures both explicit and implicit user intent.The paper further explores techniques to optimize query execution for faster response times and demonstrates the effectiveness of this hybrid search model in producing comprehensive and accurate search outcomes.
翻訳日:2024-08-20 21:39:37 公開日:2024-08-17
# QEDCartographer: Reward-free Reinforcement Learning を用いた形式検証の自動化

QEDCartographer: Automating Formal Verification Using Reward-Free Reinforcement Learning ( http://arxiv.org/abs/2408.09237v1 )

ライセンス: Link先を確認
Alex Sanchez-Stern, Abhishek Varghese, Zhanna Kaufman, Dylan Zhang, Talia Ringer, Yuriy Brun, (参考訳) 形式的検証は信頼性の高いソフトウェアを作成するための有望な方法であるが,手作業による検証証明の難しさにより,実用性は著しく制限されている。 近年の手法では、定理証明器を用いて証明空間を探索し、いくつかの証明合成を自動化している。 残念なことに、定理証明器は最も粗末な進捗推定のみを提供し、事実上無向探索をもたらす。 この問題に対処するために、教師付きと強化学習を組み合わせた自動証明合成ツールであるQEDCartographerを作成し、より効果的に証明空間を探索する。 QEDCartographerは証明の分岐構造を取り入れ、報酬のない探索を可能にし、形式検証に固有のスパース報酬問題を克服する。 オープンソースCoqプロジェクトの68.5K定理のCoqGymベンチマークを用いて,QEDCartographerを評価した。 QEDCartographerはテストセット定理の21.4%を自動的に証明している。 従来の検索ベースの証明合成ツールであるTok、Tac、ASTactic、Passport、Proverbot9001は、教師あり学習のみに依存しており、それぞれ9.6%、9.8%、10.9%、12.5%、19.8%を証明している。 62のツールを組み合わせたDidiaは19.2%を証明している。 最も効果的な先行ツールであるProverbot9001と比較して、QEDCartographerは26%の短い証明を27%高速化する。 QEDCartographerと非学習ベースのCoqHammerは31.8%、CoqHammerは26.6%である。 本研究は,強化学習が証明合成ツールの探索機構を改善するための実りある研究方向であることを実証する。

Formal verification is a promising method for producing reliable software, but the difficulty of manually writing verification proofs severely limits its utility in practice. Recent methods have automated some proof synthesis by guiding a search through the proof space using a theorem prover. Unfortunately, the theorem prover provides only the crudest estimate of progress, resulting in effectively undirected search. To address this problem, we create QEDCartographer, an automated proof-synthesis tool that combines supervised and reinforcement learning to more effectively explore the proof space. QEDCartographer incorporates the proofs' branching structure, enabling reward-free search and overcoming the sparse reward problem inherent to formal verification. We evaluate QEDCartographer using the CoqGym benchmark of 68.5K theorems from 124 open-source Coq projects. QEDCartographer fully automatically proves 21.4% of the test-set theorems. Previous search-based proof-synthesis tools Tok, Tac, ASTactic, Passport, and Proverbot9001, which rely only on supervised learning, prove 9.6%, 9.8%, 10.9%, 12.5%, and 19.8%, respectively. Diva, which combines 62 tools, proves 19.2%. Comparing to the most effective prior tool, Proverbot9001, QEDCartographer produces 26% shorter proofs 27% faster, on average over the theorems both tools prove. Together, QEDCartographer and non-learning-based CoqHammer prove 31.8% of the theorems, while CoqHammer alone proves 26.6%. Our work demonstrates that reinforcement learning is a fruitful research direction for improving proof-synthesis tools' search mechanisms.
翻訳日:2024-08-20 21:39:37 公開日:2024-08-17
# Bipartite Graph Contrastive HashingによるTop-Nハミング検索の実現に向けて

Towards Effective Top-N Hamming Search via Bipartite Graph Contrastive Hashing ( http://arxiv.org/abs/2408.09239v1 )

ライセンス: Link先を確認
Yankai Chen, Yixiang Fang, Yifei Zhang, Chenhao Ma, Yang Hong, Irwin King, (参考訳) バイパーティイトグラフの検索は、レコメンデーションシステム、データベース検索、ドキュメントクエリなど、様々な現実世界のアプリケーションの基本的なタスクとして機能する。 従来のアプローチは、ベクトル化ノード埋め込みの連続ユークリッド空間における類似性マッチングに依存する。 グラフ構造データのハッシュ技術は, 高精度な類似性計算を効率的に行うために, 顕著な研究方向として現れた。 しかし、ハミング空間の回収効率にもかかわらず、過去の研究は破滅的な性能劣化に遭遇した。 この課題に対処するために,グラフ畳み込みネットワークを用いた効率的なTop-N検索問題について検討する。 本研究は,ハッシングをポストプロセッシングとして扱うのではなく,バイパートイトグラフ受信フィールドの探索にハッシュ手法を取り入れることの学習効果を示すものである。 モデル性能をさらに向上するため,これらの知見を前進させ,BGCH+ (Bipartite Graph Contrastive Hashing) を提案する。 BGCH+は、中間情報とハッシュ符号の出力の両方に対して、より表現力が高く堅牢なハッシュ符号を2つの自己教師付き学習パラダイム内で生成する新しい二重拡張アプローチを導入している。 6つの実世界のベンチマークに関する総合的な実証分析は、既存の手法と比較してBGCH+の性能を高めるために、我々の二重特徴比較学習の有効性を検証する。

Searching on bipartite graphs serves as a fundamental task for various real-world applications, such as recommendation systems, database retrieval, and document querying. Conventional approaches rely on similarity matching in continuous Euclidean space of vectorized node embeddings. To handle intensive similarity computation efficiently, hashing techniques for graph-structured data have emerged as a prominent research direction. However, despite the retrieval efficiency in Hamming space, previous studies have encountered catastrophic performance decay. To address this challenge, we investigate the problem of hashing with Graph Convolutional Network for effective Top-N search. Our findings indicate the learning effectiveness of incorporating hashing techniques within the exploration of bipartite graph reception fields, as opposed to simply treating hashing as post-processing to output embeddings. To further enhance the model performance, we advance upon these findings and propose Bipartite Graph Contrastive Hashing (BGCH+). BGCH+ introduces a novel dual augmentation approach to both intermediate information and hash code outputs in the latent feature spaces, thereby producing more expressive and robust hash codes within a dual self-supervised learning paradigm. Comprehensive empirical analyses on six real-world benchmarks validate the effectiveness of our dual feature contrastive learning in boosting the performance of BGCH+ compared to existing approaches.
翻訳日:2024-08-20 21:39:37 公開日:2024-08-17
# RepControlNet: ControlNet Reparameterization

RepControlNet: ControlNet Reparameterization ( http://arxiv.org/abs/2408.09240v1 )

ライセンス: Link先を確認
Zhaoli Deng, Kaibin Zhou, Fanyi Wang, Zhenpeng Mi, (参考訳) 拡散モデルの広範な応用により、推論資源の高コスト化は、その普遍的な応用において重要なボトルネックとなっている。 ControlNetのような制御可能な生成は拡散モデルの鍵となる研究方向の1つであり、推論加速度とモデル圧縮に関する研究がより重要である。 この問題を解決するために,計算量を増やすことなく拡散モデルの制御可能な生成を実現するためのモーダルリパラメータ化手法RepControlNetを提案する。 トレーニングプロセスでは、RepControlNetは、このアダプタを使用して、モーダル情報を特徴空間に変調し、元の拡散モデルのCNNおよびMLP学習可能な層をモダルネットワークとしてコピーし、元の重みと係数に基づいてこれらの重みを初期化する。 トレーニングプロセスは、モーダルネットワークのパラメータのみを最適化する。 推論過程において、モダルネットワークにおける中和原拡散モデルの重み付けは再パラメータ化され、パラメータ数を増やすことなく追加パラメータと計算量を使用するControlNetなどの手法と比較または超えることができる。 SD1.5とSDXLの両方で多数の実験を行い,提案したRepControlNetの有効性と有効性を示した。

With the wide application of diffusion model, the high cost of inference resources has became an important bottleneck for its universal application. Controllable generation, such as ControlNet, is one of the key research directions of diffusion model, and the research related to inference acceleration and model compression is more important. In order to solve this problem, this paper proposes a modal reparameterization method, RepControlNet, to realize the controllable generation of diffusion models without increasing computation. In the training process, RepControlNet uses the adapter to modulate the modal information into the feature space, copy the CNN and MLP learnable layers of the original diffusion model as the modal network, and initialize these weights based on the original weights and coefficients. The training process only optimizes the parameters of the modal network. In the inference process, the weights of the neutralization original diffusion model in the modal network are reparameterized, which can be compared with or even surpass the methods such as ControlNet, which use additional parameters and computational quantities, without increasing the number of parameters. We have carried out a large number of experiments on both SD1.5 and SDXL, and the experimental results show the effectiveness and efficiency of the proposed RepControlNet.
翻訳日:2024-08-20 21:39:37 公開日:2024-08-17
# 教師なし画像復元のための自己協調型並列プロンプトGAN

Re-boosting Self-Collaboration Parallel Prompt GAN for Unsupervised Image Restoration ( http://arxiv.org/abs/2408.09241v1 )

ライセンス: Link先を確認
Xin Lin, Yuyan Zhou, Jingtong Yue, Chao Ren, Kelvin C. K. Chan, Lu Qi, Ming-Hsuan Yang, (参考訳) GAN(Generative Adversarial Network)に基づく教師なし復元アプローチは、ペアデータセットを必要としない、有望なソリューションを提供する。 しかし、これらの GAN ベースのアプローチは、モデル構造を著しく変更したり、計算複雑性を増大させることなく、従来の教師なし GAN ベースのフレームワークの性能を超えるのに苦労する。 これらの課題に対処するため,既存の修復モデルに対する自己協力戦略を提案する。 この戦略は、フレームワークの推論複雑性を増大させることなく、後続のステージをガイドするフィードバックとして、前のステージの情報を活用する。 SC戦略は、プロンプトラーニング(PL)モジュールとリストラ($Res$)から構成される。 PLモジュールの以前のより強力な固定リストアである$\overline{Res}$を、より強力な$Res$で繰り返し置き換える。 拡張されたPLモジュールは、より優れた擬似劣化/クリーンなイメージペアを生成し、次のイテレーションでより強力な$Res$をもたらす。 我々のSCは推論中に余分なパラメータや計算複雑性を加えることなく、$Res$のパフォーマンスを1.5dB以上向上させることができる。 一方、既存のセルフアンサンブル(SE)とSC戦略は、異なる視点から事前学習したリストラの性能を向上させる。 推論中にSEが計算複雑性を増大させるにつれて、推論時間を増やすことなくSEをSCに組み込むことでSC戦略をさらに改善するため、SC(Reb-SC)の再起動モジュールを提案する。 このアプローチにより、復元器の性能はおよそ0.3dB向上する。 復元作業に関する大規模な実験結果から,提案手法は既存の非教師なし修復法に対して良好に機能することが示された。 ソースコードとトレーニングされたモデルは、以下で公開されている。

Unsupervised restoration approaches based on generative adversarial networks (GANs) offer a promising solution without requiring paired datasets. Yet, these GAN-based approaches struggle to surpass the performance of conventional unsupervised GAN-based frameworks without significantly modifying model structures or increasing the computational complexity. To address these issues, we propose a self-collaboration (SC) strategy for existing restoration models. This strategy utilizes information from the previous stage as feedback to guide subsequent stages, achieving significant performance improvement without increasing the framework's inference complexity. The SC strategy comprises a prompt learning (PL) module and a restorer ($Res$). It iteratively replaces the previous less powerful fixed restorer $\overline{Res}$ in the PL module with a more powerful $Res$. The enhanced PL module generates better pseudo-degraded/clean image pairs, leading to a more powerful $Res$ for the next iteration. Our SC can significantly improve the $Res$'s performance by over 1.5 dB without adding extra parameters or computational complexity during inference. Meanwhile, existing self-ensemble (SE) and our SC strategies enhance the performance of pre-trained restorers from different perspectives. As SE increases computational complexity during inference, we propose a re-boosting module to the SC (Reb-SC) to improve the SC strategy further by incorporating SE into SC without increasing inference time. This approach further enhances the restorer's performance by approximately 0.3 dB. Extensive experimental results on restoration tasks demonstrate that the proposed model performs favorably against existing state-of-the-art unsupervised restoration methods. Source code and trained models are publicly available at: \url{https://github.com/linxin0/RSCP2GAN}.
翻訳日:2024-08-20 21:39:37 公開日:2024-08-17
# MagicID:フレキシブルIDフィデリティ生成システム

MagicID: Flexible ID Fidelity Generation System ( http://arxiv.org/abs/2408.09248v1 )

ライセンス: Link先を確認
Zhaoli Deng, Wen Liu, Fanyi Wang, Junkang Zhang, Fan Chen, Wendong Zhang, Zhenpeng Mi, (参考訳) ポートレート・フィデリティ・ジェネレーションは、生成モデルにおいて顕著な研究領域であり、制御可能性とフィデリティの両方を強化することに重点を置いている。 近年の手法では,画像のごく一部を低解像度で占める場合,特にマルチパーソナライズされたグループ写真の設定において,高忠実度像の生成に課題がある。 これらの課題に対処するため、IDZoomという自己構築された100万単位のマルチモーダルデータセットに基づくMagicIDと呼ばれる体系的ソリューションを提案する。 MagicID は Multi-Mode Fusion Training Strategy (MMF) と DDIM Inversion based ID Restoration Inference framework (DIIR) から構成されている。 トレーニング中、MMFは条件付きガイダンスとしてIDZoomのスケルトンとランドマークのモダリティを反復的に使用した。 トレーニング段階におけるクローンフェイスチューニングと、推論段階におけるマスクガイドマルチIDクロスアテンション(MGMICA)の導入により、マルチIDグループ写真生成における顔位置特徴の明示的な制約が達成される。 DIIRは、アーティファクトの問題に対処することを目指している。 DDIMインバージョンは、顔のランドマーク、グローバルおよびローカルな顔の特徴と組み合わせて、背景を変更せずに顔の復元を実現するために使用される。 さらに、DIIRはプラグアンドプレイであり、拡散ベースのポートレート生成方法にも適用することができる。 MagicIDの有効性を検証するため,広範囲な比較・アブレーション実験を行った。 実験の結果,MagicIDは主観的,客観的両方の指標において大きな優位性を示し,多人数シナリオにおいて制御可能な生成を実現する。

Portrait Fidelity Generation is a prominent research area in generative models, with a primary focus on enhancing both controllability and fidelity. Current methods face challenges in generating high-fidelity portrait results when faces occupy a small portion of the image with a low resolution, especially in multi-person group photo settings. To tackle these issues, we propose a systematic solution called MagicID, based on a self-constructed million-level multi-modal dataset named IDZoom. MagicID consists of Multi-Mode Fusion training strategy (MMF) and DDIM Inversion based ID Restoration inference framework (DIIR). During training, MMF iteratively uses the skeleton and landmark modalities from IDZoom as conditional guidance. By introducing the Clone Face Tuning in training stage and Mask Guided Multi-ID Cross Attention (MGMICA) in inference stage, explicit constraints on face positional features are achieved for multi-ID group photo generation. The DIIR aims to address the issue of artifacts. The DDIM Inversion is used in conjunction with face landmarks, global and local face features to achieve face restoration while keeping the background unchanged. Additionally, DIIR is plug-and-play and can be applied to any diffusion-based portrait generation method. To validate the effectiveness of MagicID, we conducted extensive comparative and ablation experiments. The experimental results demonstrate that MagicID has significant advantages in both subjective and objective metrics, and achieves controllable generation in multi-person scenarios.
翻訳日:2024-08-20 21:39:37 公開日:2024-08-17
# V2X-VLM:大規模視覚言語モデルによるエンドツーエンドV2X協調自動運転

V2X-VLM: End-to-End V2X Cooperative Autonomous Driving Through Large Vision-Language Models ( http://arxiv.org/abs/2408.09251v1 )

ライセンス: Link先を確認
Junwei You, Haotian Shi, Zhuoyu Jiang, Zilin Huang, Rui Gan, Keshu Wu, Xi Cheng, Xiaopeng Li, Bin Ran, (参考訳) 自動運転の進歩は、環境認識から車両のナビゲーションや制御に至るまで、運転タスクの全範囲を管理するエンドツーエンド(E2E)システムにますます焦点を絞っている。 本稿では,V2X-VLMについて紹介する。V2X-VLMは,大規模な視覚言語モデル(VLM)を備えた,革新的なE2E自動車・インフラ協調自動運転(VICAD)フレームワークである。 V2X-VLMは、車両に搭載されたカメラ、インフラセンサー、およびテキスト情報からのデータを統合することで、状況認識、意思決定、究極の軌道計画を強化するように設計されている。 VLMの総合的多モデルデータ融合の強みは、複雑でダイナミックな運転シナリオにおける正確かつ安全なE2E軌道計画を可能にする。 DAIR-V2Xデータセットの検証は、V2X-VLMが協調自動運転における既存の最先端手法よりも優れていることを示す。

Advancements in autonomous driving have increasingly focused on end-to-end (E2E) systems that manage the full spectrum of driving tasks, from environmental perception to vehicle navigation and control. This paper introduces V2X-VLM, an innovative E2E vehicle-infrastructure cooperative autonomous driving (VICAD) framework with large vision-language models (VLMs). V2X-VLM is designed to enhance situational awareness, decision-making, and ultimate trajectory planning by integrating data from vehicle-mounted cameras, infrastructure sensors, and textual information. The strength of the comprehensive multimodel data fusion of the VLM enables precise and safe E2E trajectory planning in complex and dynamic driving scenarios. Validation on the DAIR-V2X dataset demonstrates that V2X-VLM outperforms existing state-of-the-art methods in cooperative autonomous driving.
翻訳日:2024-08-20 21:39:37 公開日:2024-08-17
# 非クリフォードゲートを持つ漸近的に良い量子符号

Asymptotically Good Quantum Codes with Transversal Non-Clifford Gates ( http://arxiv.org/abs/2408.09254v1 )

ライセンス: Link先を確認
Louis Golowich, Venkatesan Guruswami, (参考訳) 任意の素電力次元$q$ ($q=2$を含む) の量子符号を、ブロック長で符号次元と距離が直線的に増加するように構成する。 そのような線形次元と距離を持つ唯一の構造は、成長するアルファベットサイズ$q$を必要とした(Krishna & Tillich, 2019)。 私たちのコードは、ブロック長$n\rightarrow\infty$として、オーバーヘッド指数$\gamma=\log(n/k)/\log(d)\rightarrow 0$でマジック状態蒸留のためのプロトコルを示します。 それまでは、このプロトコルをコンタントアルファベットサイズ$q$で取得することは、オープンな問題であった。 私たちは2つのモジュールコンポーネント、すなわち2つのコンポーネントを組み合わせることでコードを構築します。 (i)ある性質を満たす古典符号から超越的な$CCZ$ゲートをサポートする量子符号への変換 (ii)transversal $CCZ$ gatesをサポートする符号のアルファベットサイズを縮小する結合方式。 このスキームでは、部分体の観点から、体上の乗法を表現する方法を提供する乗法フレンドリな符号の量子アナログを導入する。 我々はインスタンス化によって漸近的に良い構成を得る (i)代数幾何学符号を用い、一定数の反復を施す (II)。 また、ほぼ漸近的に良いパラメータ(k,d=n/2^{O(\log^*n)}$)をインスタンス化して別の構成を与える。 (i)リード・ソロモン符号を用いて超一貫した回数の反復を行う (II)。

We construct quantum codes that support transversal $CCZ$ gates over qudits of arbitrary prime power dimension $q$ (including $q=2$) such that the code dimension and distance grow linearly in the block length. The only previously known construction with such linear dimension and distance required a growing alphabet size $q$ (Krishna & Tillich, 2019). Our codes imply protocols for magic state distillation with overhead exponent $\gamma=\log(n/k)/\log(d)\rightarrow 0$ as the block length $n\rightarrow\infty$, where $k$ and $d$ denote the code dimension and distance respectively. It was previously an open question to obtain such a protocol with a contant alphabet size $q$. We construct our codes by combining two modular components, namely, (i) a transformation from classical codes satisfying certain properties to quantum codes supporting transversal $CCZ$ gates, and (ii) a concatenation scheme for reducing the alphabet size of codes supporting transversal $CCZ$ gates. For this scheme we introduce a quantum analogue of multiplication-friendly codes, which provide a way to express multiplication over a field in terms of a subfield. We obtain our asymptotically good construction by instantiating (i) with algebraic-geometric codes, and applying a constant number of iterations of (ii). We also give an alternative construction with nearly asymptotically good parameters ($k,d=n/2^{O(\log^*n)}$) by instantiating (i) with Reed-Solomon codes and then performing a superconstant number of iterations of (ii).
翻訳日:2024-08-20 21:39:37 公開日:2024-08-17
# Adaptify: 萎縮性胃炎ビデオにおけるフレーム分類のための修正適応方式

Adaptify: A Refined Adaptation Scheme for Frame Classification in Atrophic Gastritis Videos ( http://arxiv.org/abs/2408.09261v1 )

ライセンス: Link先を確認
Zinan Xiong, Shuijiao Chen, Yizhe Zhang, Yu Cao, Benyuan Liu, Xiaowei Liu, (参考訳) 萎縮性胃炎は胃癌の発症に重要な危険因子である。 機械学習アルゴリズムの導入は、萎縮性胃炎を正確に検出する可能性を高めることができる。 それでも、実生活環境で訓練されたモデルを適用する場合、その出力は一貫して信頼性がないことが多い。 本稿では,モデルが独自の分類決定から知識を同化する適応方式であるAdaptifyを提案する。 提案手法は,補助モデルの実行と更新を同時に行いながら,一次モデルを一定に保つことを含む。 補助モデルによって学習された知識を一次モデルに統合し、それらの出力をマージすることにより、主モデルと補助モデルの両方にのみ依存するのではなく、出力安定性と一貫性の顕著な改善が観察された。

Atrophic gastritis is a significant risk factor for developing gastric cancer. The incorporation of machine learning algorithms can efficiently elevate the possibility of accurately detecting atrophic gastritis. Nevertheless, when the trained model is applied in real-life circumstances, its output is often not consistently reliable. In this paper, we propose Adaptify, an adaptation scheme in which the model assimilates knowledge from its own classification decisions. Our proposed approach includes keeping the primary model constant, while simultaneously running and updating the auxiliary model. By integrating the knowledge gleaned by the auxiliary model into the primary model and merging their outputs, we have observed a notable improvement in output stability and consistency compared to relying solely on either the main model or the auxiliary model.
翻訳日:2024-08-20 21:29:47 公開日:2024-08-17
# PreMAP: ニューラルネットワークのための統合事前近似フレームワーク

PREMAP: A Unifying PREiMage APproximation Framework for Neural Networks ( http://arxiv.org/abs/2408.09262v1 )

ライセンス: Link先を確認
Xiyue Zhang, Benjie Wang, Marta Kwiatkowska, Huan Zhang, (参考訳) ニューラルネットワーク検証のほとんどの方法は、画像のバウンディング、すなわち与えられた入力セットの出力セットに焦点を当てている。 これは例えば、入力の有界摂動に対するニューラルネットワーク予測の堅牢性をチェックするために使用できる。 しかし、プリメージに関する特性の検証、すなわち出力特性を満たす入力の集合は、入力空間の抽象化を必要とする。 本稿では,任意の多面体出力集合のアンダー・アンド・オーバー近似を生成する事前抽象化のための一般的なフレームワークを提案する。 本フレームワークでは、ニューラルネットワークのパラメータ化線形緩和と、入力特徴とニューロンを分割して入力領域を反復的に分割する拡張手順を併用する。 提案手法の有効性は,近似ボリュームの急速な改善を実現するために,慎重に設計されたヒューリスティックスと最適化の目的に依存している。 提案手法は,高入力次元画像分類タスクに対して,最先端技術と比較して,効率とスケーラビリティの大幅な向上を示すとともに,様々なタスクに対して評価を行う。 さらに, 定量的検証とロバスト性解析への応用について紹介し, 前者に対して健全かつ完全なアルゴリズムを提示し, 後者に対して定量的な結果を提供する。

Most methods for neural network verification focus on bounding the image, i.e., set of outputs for a given input set. This can be used to, for example, check the robustness of neural network predictions to bounded perturbations of an input. However, verifying properties concerning the preimage, i.e., the set of inputs satisfying an output property, requires abstractions in the input space. We present a general framework for preimage abstraction that produces under- and over-approximations of any polyhedral output set. Our framework employs cheap parameterised linear relaxations of the neural network, together with an anytime refinement procedure that iteratively partitions the input region by splitting on input features and neurons. The effectiveness of our approach relies on carefully designed heuristics and optimization objectives to achieve rapid improvements in the approximation volume. We evaluate our method on a range of tasks, demonstrating significant improvement in efficiency and scalability to high-input-dimensional image classification tasks compared to state-of-the-art techniques. Further, we showcase the application to quantitative verification and robustness analysis, presenting a sound and complete algorithm for the former and providing sound quantitative results for the latter.
翻訳日:2024-08-20 21:29:47 公開日:2024-08-17
# フェイクニュース検出のためのブロックチェーンアーキテクチャの構築

Establishment of a Blockchain-based Architecture for Fake News Detection ( http://arxiv.org/abs/2408.09264v1 )

ライセンス: Link先を確認
Valdemar Vicente Graciano-Neto, Jacson Rodrigues Barbosa, Eliomar Araújo de Lima, Luiza Cintra, Rafael Medrado, Samuel Venzi, Mohamad Kassab, (参考訳) フェイクニュース(英: Fake News)は、破壊的な影響のある現代現象である。 調査や監査の目的のためには、一度偽と分類されたニュースを不変の方法で永続化し、関係者が問い合わせることが不可欠である。 Blockchainは明らかにFake News Management Software Systemsの主要な要件を満たしているが、Blockchainと他のテクノロジをひとつの提案で共有する、そのドメインの規範的なアーキテクチャソリューションは、まだ利用可能である必要がある。 本論文の主な貢献は,ブロックチェーンベースの偽ニュース管理ソフトウェアシステムに対する規範的アーキテクチャソリューションの提供である。 ソフトウェアアーキテクチャ設計のためのHoffmeisterプロセスは、体系的に従って、そのドメインのためのソフトウェアソリューションが完成する。 2つの候補アーキテクチャの実装と、簡単なシミュレーションに基づく評価は、機能的および品質要件を満たすためのソリューションの実現可能性を示している。

Fake News are a contemporary phenomenon with potential devastating effects. For inquiry and auditability purposes, it is essential that the news, once classified as false, can be persisted in an immutable means so that interested parties can query it. Although Blockchain clearly satisfies the main requirements for Fake News Management Software Systems, the prescriptive architectural solutions for that domain that cohabit Blockchain with other technologies in a single proposal still need to be made available. This paper's main contribution is presenting a prescriptive architectural solution for blockchain-based fake news management software systems. The Hoffmeister process for software architecture design is systematically followed to culminate in a software solution for that domain. The implementation of two candidate architectures and a brief simulation-based evaluation show the feasibility of the solution to satisfy the functional and quality requirements.
翻訳日:2024-08-20 21:29:47 公開日:2024-08-17
# ByCAN: リバースエンジニアリングコントローラエリアネットワーク(CAN)メッセージのビットレベルからバイトレベルへの変換

ByCAN: Reverse Engineering Controller Area Network (CAN) Messages from Bit to Byte Level ( http://arxiv.org/abs/2408.09265v1 )

ライセンス: Link先を確認
Xiaojie Lin, Baihe Ma, Xu Wang, Guangsheng Yu, Ying He, Ren Ping Liu, Wei Ni, (参考訳) 現代の自動車の主要な標準プロトコルとして、制御エリアネットワーク(CAN)は、自動車のサイバーセキュリティ脅威と自律的アプリケーションにとって重要な研究ターゲットである。 CANの復号化仕様は、OEM(Original Equipment Manufacturers)が管理する独自のブラックボックスであるため、CANメッセージの意味を包括的に理解することなく、関連研究や産業開発を行うことは困難である。 本稿では,完全に自動化されたリバースエンジニアリングシステムであるByCANを提案し,CANメッセージをリバースエンジニアリングする。 ByCANは、バイトレベルのクラスタを導入し、バイトレベルとビットレベルの両方で複数の機能を統合することで、既存の研究より優れています。 ByCANはクラスタリングとテンプレートマッチングアルゴリズムを使用して、事前知識を必要とせずにCANフレームの仕様を自動的にデコードする。 実験結果から,ByCANはスライスおよびラベリング性能,すなわちCAN信号境界とラベルの識別において高い精度を達成することが示された。 実験では、ByCANのスライシング精度は80.21%、スライシングカバレッジは95.21%、ラベル付け精度は68.72%である。

As the primary standard protocol for modern cars, the Controller Area Network (CAN) is a critical research target for automotive cybersecurity threats and autonomous applications. As the decoding specification of CAN is a proprietary black-box maintained by Original Equipment Manufacturers (OEMs), conducting related research and industry developments can be challenging without a comprehensive understanding of the meaning of CAN messages. In this paper, we propose a fully automated reverse-engineering system, named ByCAN, to reverse engineer CAN messages. ByCAN outperforms existing research by introducing byte-level clusters and integrating multiple features at both byte and bit levels. ByCAN employs the clustering and template matching algorithms to automatically decode the specifications of CAN frames without the need for prior knowledge. Experimental results demonstrate that ByCAN achieves high accuracy in slicing and labeling performance, i.e., the identification of CAN signal boundaries and labels. In the experiments, ByCAN achieves slicing accuracy of 80.21%, slicing coverage of 95.21%, and labeling accuracy of 68.72% for general labels when analyzing the real-world CAN frames.
翻訳日:2024-08-20 21:29:47 公開日:2024-08-17
# GNNを用いたグラフ分類:最適化,表現,誘導バイアス

Graph Classification with GNNs: Optimisation, Representation and Inductive Bias ( http://arxiv.org/abs/2408.09266v1 )

ライセンス: Link先を確認
P. Krishna Kumar a, Harish G. Ramaswamy, (参考訳) GNNの表現力に関する理論的研究は、グラフ同型を検出するためにWL-Testsを用いて、GNNの同値性を理解することに集中している。 本稿では、そのような等価性は、付随する最適化問題を無視するものであり、GNN学習プロセスの全体像を提供するものではないと論じる。 本稿では、これらの表現と最適化のギャップを例と実験で説明する。 また、グラフ分類タスクの文脈において、GNNにおける暗黙的帰納バイアス(例えば、完全連結ネットワークは入力空間で低周波関数を学習することを好む)の存在についても検討する。 さらに、グラフ内のメッセージパッシング層は、使用する異なるグローバルプーリング層に依存して、識別サブグラフまたはグラフ全体に分散する識別ノードの集合を探索する傾向にあることを理論的に証明する。 実世界および合成データセット上での実験を通して、このバイアスを実証的に検証する。 最後に、我々の研究は、注目に基づくアーキテクチャを通してドメイン知識を取り入れ、コヒーレントなサブグラフを識別する能力を高めるのにどのように役立つかを示す。

Theoretical studies on the representation power of GNNs have been centered around understanding the equivalence of GNNs, using WL-Tests for detecting graph isomorphism. In this paper, we argue that such equivalence ignores the accompanying optimization issues and does not provide a holistic view of the GNN learning process. We illustrate these gaps between representation and optimization with examples and experiments. We also explore the existence of an implicit inductive bias (e.g. fully connected networks prefer to learn low frequency functions in their input space) in GNNs, in the context of graph classification tasks. We further prove theoretically that the message-passing layers in the graph, have a tendency to search for either discriminative subgraphs, or a collection of discriminative nodes dispersed across the graph, depending on the different global pooling layers used. We empirically verify this bias through experiments over real-world and synthetic datasets. Finally, we show how our work can help in incorporating domain knowledge via attention based architectures, and can evince their capability to discriminate coherent subgraphs.
翻訳日:2024-08-20 21:29:47 公開日:2024-08-17
# テキスト・オーディオ・ペアを用いたセルフ・スーパービジョン・ポスト・トレーニングによる音声言語モデルの強化

Enhancing Audio-Language Models through Self-Supervised Post-Training with Text-Audio Pairs ( http://arxiv.org/abs/2408.09269v1 )

ライセンス: Link先を確認
Anshuman Sinha, Camille Migozzi, Aubin Rey, Chao Zhang, (参考訳) 音声とテキストのマルチモーダルコントラスト学習戦略の研究が急速に注目されている。 CLAP(英語版)のような対照的に訓練された音声言語モデル(ALM)は、良質なテキスト・アライン・オーディオ・エンコーダを提供することにより、様々なタスクにおいて有効性を高めた。 これらの改善は、ゼロショットオーディオ分類やオーディオ検索などの分野で明らかである。 しかし、これらのモデルが自然言語や時間的関係を理解する能力は、いまだ研究のほとんど未調査かつオープンな分野である。 本稿では,時間的挿入法であるTeminalを用いて,時間的理解を伴うマルチモーダルALMを提案する。 2段階のトレーニングスキームであるTeminal A $\&$Bを実装し、まずはテミナルAにおける複数の音の区別を学習し、次にテミナルBにおける時間感覚を具現化し、テミナルBにおける時間的理解を高める。このアプローチにより、ESC-50データセットにおける時間的理解の平均的パフォーマンスは5.28セントとなり、AudioCap/Clothoデータセットにおけるゼロショット検索と分類タスクに競争力がある。 また、コントラストのあるALMの適切な評価手法が欠如していることに留意し、ゼロショット設定でALMを評価するための戦略を提案する。 汎用ゼロショットモデル評価戦略ZSTEは、様々な先行モデルを評価するために使用される。 ZSTEは、すべてのZSコントラストモデルを評価する一般的な戦略を示す。 Teminalでトレーニングされたモデルは、ほとんどの下流タスクにおいて、現在のモデルを上回るパフォーマンスを実現している。

Research on multi-modal contrastive learning strategies for audio and text has rapidly gained interest. Contrastively trained Audio-Language Models (ALMs), such as CLAP, which establish a unified representation across audio and language modalities, have enhanced the efficacy in various subsequent tasks by providing good text aligned audio encoders and vice versa. These improvements are evident in areas like zero-shot audio classification and audio retrieval, among others. However, the ability of these models to understand natural language and temporal relations is still a largely unexplored and open field for research. In this paper, we propose to equip the multi-modal ALMs with temporal understanding without loosing their inherent prior capabilities of audio-language tasks with a temporal instillation method TeminAL. We implement a two-stage training scheme TeminAL A $\&$ B, where the model first learns to differentiate between multiple sounds in TeminAL A, followed by a phase that instills a sense of time, thereby enhancing its temporal understanding in TeminAL B. This approach results in an average performance gain of $5.28\%$ in temporal understanding on the ESC-50 dataset, while the model remains competitive in zero-shot retrieval and classification tasks on the AudioCap/Clotho datasets. We also note the lack of proper evaluation techniques for contrastive ALMs and propose a strategy for evaluating ALMs in zero-shot settings. The general-purpose zero-shot model evaluation strategy ZSTE, is used to evaluate various prior models. ZSTE demonstrates a general strategy to evaluate all ZS contrastive models. The model trained with TeminAL successfully outperforms current models on most downstream tasks.
翻訳日:2024-08-20 21:29:47 公開日:2024-08-17
# ConVerSum: 直接等価性を超えた言語間要約のデータスカースソリューションのためのコントラスト学習ベースのアプローチ

ConVerSum: A Contrastive Learning based Approach for Data-Scarce Solution of Cross-Lingual Summarization Beyond Direct Equivalents ( http://arxiv.org/abs/2408.09273v1 )

ライセンス: Link先を確認
Sanzana Karim Lora, Rifat Shahriyar, (参考訳) 言語間要約(CLS)は自然言語処理の洗練された分野であり、異なるソース言語からの記事を正確に翻訳し要約することをモデルに要求する。 その後の研究は改善されたものの、この領域には効果的なトレーニング手法とともに、データ効率のよいソリューションがまだ必要である。 我々の知る限りでは、高品質なCLSデータがない場合には、CLSに実現可能な解決策は存在しない。 本稿では,コントラスト学習の力を活用した新たなデータ効率向上手法であるConVerSumを提案する。 その後、比較的なランキング損失でモデルをトレーニングします。 そこで我々は,提案手法に対する提案手法を厳格に評価し,ジェミニ,GPT 3.5,GPT 4 といった強力な大規模言語モデルと比較し,低リソース言語 CLS に優れた性能を示す。 これらの知見は、より効率的で正確な言語間要約技術への扉を開くことで、領域の大幅な改善を示している。

Cross-Lingual summarization (CLS) is a sophisticated branch in Natural Language Processing that demands models to accurately translate and summarize articles from different source languages. Despite the improvement of the subsequent studies, This area still needs data-efficient solutions along with effective training methodologies. To the best of our knowledge, there is no feasible solution for CLS when there is no available high-quality CLS data. In this paper, we propose a novel data-efficient approach, ConVerSum, for CLS leveraging the power of contrastive learning, generating versatile candidate summaries in different languages based on the given source document and contrasting these summaries with reference summaries concerning the given documents. After that, we train the model with a contrastive ranking loss. Then, we rigorously evaluate the proposed approach against current methodologies and compare it to powerful Large Language Models (LLMs)- Gemini, GPT 3.5, and GPT 4 proving our model performs better for low-resource languages' CLS. These findings represent a substantial improvement in the area, opening the door to more efficient and accurate cross-lingual summarizing techniques.
翻訳日:2024-08-20 21:29:47 公開日:2024-08-17
# Llama-based Chatbot for CI/CD Question Answering の開発: Ericsson のケーススタディ

Developing a Llama-Based Chatbot for CI/CD Question Answering: A Case Study at Ericsson ( http://arxiv.org/abs/2408.09277v1 )

ライセンス: Link先を確認
Daksh Chaudhary, Sri Lakshmi Vadlamani, Dimple Thomas, Shiva Nejati, Mehrdad Sabetzadeh, (参考訳) 本稿では,多国籍通信企業エリクソンにおいて,継続的インテグレーションと継続的デリバリ(CI/CD)に関する質問応答を行うLlamaベースのチャットボットを開発した経験について述べる。 我々のチャットボットは、エリクソンにおけるCI/CD文書の特異性を扱うように設計されており、精度と妥当性を高めるために、検索強化生成(RAG)モデルを採用している。 産業用CI/CD関連質問に対するチャットボットの実証評価により,BM25と組込みレトリバーを組み合わせたアンサンブルレトリバーが最高の性能を示した。 エリクソンにおける72のCI/CD質問と回答の基底的真実に対して評価すると、我々の最も正確なチャットボット構成は、61.11%の質問に対して完全な正解を提供し、26.39%の回答を部分的に正解し、12.50%の誤解を提供する。 部分的正解と誤解の誤り解析を通じて、不正確な原因を議論し、さらなる改善のための洞察を与える。 また、チャットボットの精度をさらに向上させるために、学習した教訓を反映し、今後の方向性を提案する。

This paper presents our experience developing a Llama-based chatbot for question answering about continuous integration and continuous delivery (CI/CD) at Ericsson, a multinational telecommunications company. Our chatbot is designed to handle the specificities of CI/CD documents at Ericsson, employing a retrieval-augmented generation (RAG) model to enhance accuracy and relevance. Our empirical evaluation of the chatbot on industrial CI/CD-related questions indicates that an ensemble retriever, combining BM25 and embedding retrievers, yields the best performance. When evaluated against a ground truth of 72 CI/CD questions and answers at Ericsson, our most accurate chatbot configuration provides fully correct answers for 61.11% of the questions, partially correct answers for 26.39%, and incorrect answers for 12.50%. Through an error analysis of the partially correct and incorrect answers, we discuss the underlying causes of inaccuracies and provide insights for further refinement. We also reflect on lessons learned and suggest future directions for further improving our chatbot's accuracy.
翻訳日:2024-08-20 21:29:47 公開日:2024-08-17
# 腎疾患における拡張層セグメンテーションのためのクロススペックデータ統合

Cross-Species Data Integration for Enhanced Layer Segmentation in Kidney Pathology ( http://arxiv.org/abs/2408.09278v1 )

ライセンス: Link先を確認
Junchao Zhu, Mengmeng Yin, Ruining Deng, Yitian Long, Yu Wang, Yaohong Wang, Shilin Zhao, Haichun Yang, Yuankai Huo, (参考訳) 腎皮質と髄膜の境界線は, その後の機能的構造解析と疾患診断において極めて重要である。 レイヤセグメンテーションのための高品質なディープラーニングモデルのトレーニングは、大量の注釈付きデータの可用性に依存している。 しかし、患者の医療データのプライバシーや臨床症例が少ないため、臨床資料から病理データセットを構築することは比較的困難で費用がかかる。 さらに、外部の自然画像データセットを使用することで、領域一般化プロセス中にノイズが発生する。 マウス腎臓データのような種間の相同性データは、ヒトの腎臓と高い構造を持ち、特徴的類似性を示すが、ヒトのデータセット上でのモデル性能を向上させる可能性がある。 そこで本研究では,ヒト腎データセットにPASステンディングマウス腎データセットを組み込んだ。 その結果,CNNおよびTransformerアーキテクチャに基づくセマンティックセグメンテーションモデルでは,mIoUでは平均1.77%,mIoUでは1.24%,Diceスコアでは1.76%,Medullaデータセットでは0.89%のセマンティックセグメンテーションが得られた。 このアプローチはまた、モデルの一般化能力を高めることができる。 このことは、低ノイズトレーニング可能なデータソースであるクロス種同種データが、限られた臨床サンプルの条件下でのモデル性能の向上に役立つことを示唆している。 コードはhttps://github.com/hrlblab/layer_segmentation.comで入手できる。

Accurate delineation of the boundaries between the renal cortex and medulla is crucial for subsequent functional structural analysis and disease diagnosis. Training high-quality deep-learning models for layer segmentation relies on the availability of large amounts of annotated data. However, due to the patient's privacy of medical data and scarce clinical cases, constructing pathological datasets from clinical sources is relatively difficult and expensive. Moreover, using external natural image datasets introduces noise during the domain generalization process. Cross-species homologous data, such as mouse kidney data, which exhibits high structural and feature similarity to human kidneys, has the potential to enhance model performance on human datasets. In this study, we incorporated the collected private Periodic Acid-Schiff (PAS) stained mouse kidney dataset into the human kidney dataset for joint training. The results showed that after introducing cross-species homologous data, the semantic segmentation models based on CNN and Transformer architectures achieved an average increase of 1.77% and 1.24% in mIoU, and 1.76% and 0.89% in Dice score for the human renal cortex and medulla datasets, respectively. This approach is also capable of enhancing the model's generalization ability. This indicates that cross-species homologous data, as a low-noise trainable data source, can help improve model performance under conditions of limited clinical samples. Code is available at https://github.com/hrlblab/layer_segmentation.
翻訳日:2024-08-20 21:29:47 公開日:2024-08-17
# スコットランドの伝統カーリングにおけるバーチャルリアリティにおける大規模言語モデルの有用性と拡張性の評価

Evaluating Usability and Engagement of Large Language Models in Virtual Reality for Traditional Scottish Curling ( http://arxiv.org/abs/2408.09285v1 )

ライセンス: Link先を確認
Ka Hei Carrie Lau, Efe Bozkir, Hong Gao, Enkelejda Kasneci, (参考訳) 本稿では,バーチャルリアリティ(VR)環境におけるLarge Language Models (LLMs) の革新的応用を考察し,<Scottish Bonspiel VR' ゲームにおける伝統的なスコットランドのカーリングに着目した。 本研究では, LLMベースのチャットボットと事前に定義されたスクリプトチャットボットの有効性を比較し, ユーザビリティ, ユーザエンゲージメント, 学習結果などの重要な基準を評価する。 その結果,LLMベースのチャットボットは対話性やエンゲージメントを著しく向上させ,よりダイナミックで没入的な学習環境を実現することがわかった。 この統合は、環境の変化の中で無形文化財(ICH)の保護に不可欠である文化遺産の文書化と保存を支援し、普及プロセスを強化する。 さらに,文化遺産のより深い評価を促進する没入的な体験を提供する教育における新しい技術の可能性を強調した。 これらの知見は、グローバルな課題に対処し、文化遺産の保存と強化のための持続可能な実践を促進するために、文化教育におけるLLMとVRの幅広い応用を支援する。

This paper explores the innovative application of Large Language Models (LLMs) in Virtual Reality (VR) environments to promote heritage education, focusing on traditional Scottish curling presented in the game ``Scottish Bonspiel VR''. Our study compares the effectiveness of LLM-based chatbots with pre-defined scripted chatbots, evaluating key criteria such as usability, user engagement, and learning outcomes. The results show that LLM-based chatbots significantly improve interactivity and engagement, creating a more dynamic and immersive learning environment. This integration helps document and preserve cultural heritage and enhances dissemination processes, which are crucial for safeguarding intangible cultural heritage (ICH) amid environmental changes. Furthermore, the study highlights the potential of novel technologies in education to provide immersive experiences that foster a deeper appreciation of cultural heritage. These findings support the wider application of LLMs and VR in cultural education to address global challenges and promote sustainable practices to preserve and enhance cultural heritage.
翻訳日:2024-08-20 21:29:47 公開日:2024-08-17
# 変圧器を用いた高密度画素対応推定と検出に基づくマスキングを用いたマルチカメラ・マルチパーソンアソシエーション

Multi-Camera Multi-Person Association using Transformer-Based Dense Pixel Correspondence Estimation and Detection-Based Masking ( http://arxiv.org/abs/2408.09295v1 )

ライセンス: Link先を確認
Daniel Kathein, Byron Hernandez, Henry Medeiros, (参考訳) マルチカメラアソシエーション(Multi-camera Association、MCA)は、カメラビュー全体にわたってオブジェクトや個人を識別するタスクであり、ロボット工学、監視、農業にまたがる多くの応用を考えると、活発な研究トピックである。 トランスフォーマーに基づくアーキテクチャと基礎となる検出に基づくマスキングを用いた高密度画素対応推定に基づく,新しいマルチカメラマルチターゲットアソシエーションアルゴリズムについて検討する。 アルゴリズムが対応するキーポイントのセットを生成し、カメラビュー内の各ペア検出間の各信頼度を算出すると、各ペア間のマッチングの確率を含む親和性行列が決定される。 最後に、ハンガリーのアルゴリズムを適用して、カメラビュー間の予測されたすべての関連性を持つ最適な代入行列を生成する。 本手法は,歩行歩行者の映像と正確なアノテーションとカメラキャリブレーションを含む高解像度データセットであるWILDTRACK Seven-Camera HD Datasetを用いて評価を行った。 以上の結果から,このアルゴリズムは,互いに近距離に位置するカメラペアの歩行者と,類似した視点でシーンを観察する上で,極めて良好な関連性を示すことが示唆された。 距離や角度が大幅に異なるカメラペアでは、改善の余地は依然として大きい。

Multi-camera Association (MCA) is the task of identifying objects and individuals across camera views and is an active research topic, given its numerous applications across robotics, surveillance, and agriculture. We investigate a novel multi-camera multi-target association algorithm based on dense pixel correspondence estimation with a Transformer-based architecture and underlying detection-based masking. After the algorithm generates a set of corresponding keypoints and their respective confidence levels between every pair of detections in the camera views are computed, an affinity matrix is determined containing the probabilities of matches between each pair. Finally, the Hungarian algorithm is applied to generate an optimal assignment matrix with all the predicted associations between the camera views. Our method is evaluated on the WILDTRACK Seven-Camera HD Dataset, a high-resolution dataset containing footage of walking pedestrians as well as precise annotations and camera calibrations. Our results conclude that the algorithm performs exceptionally well associating pedestrians on camera pairs that are positioned close to each other and observe the scene from similar perspectives. On camera pairs with orientations that are drastically different in distance or angle, there is still significant room for improvement.
翻訳日:2024-08-20 21:29:47 公開日:2024-08-17
# 逆学習に基づく微調整による配電材料特性の予測

Out-of-distribution materials property prediction using adversarial learning based fine-tuning ( http://arxiv.org/abs/2408.09297v1 )

ライセンス: Link先を確認
Qinyang Li, Nicholas Miklaucic, Jianjun Hu, (参考訳) 材料特性の正確な予測は、幅広い科学・工学分野において重要である。 機械学習(ML)はこの分野で最先端のテクノロジーを進歩させ、科学者は特定の望ましい特性を持つ新しい材料やデザイン材料を発見できる。 しかし、物質的特性予測に残る大きな課題の1つは、モデルからアウト・オブ・ディストリビューション(OOD)サンプル、すなわちトレーニング中に遭遇したサンプルと大きく異なるサンプルへの一般化である。 本稿では,材料特性予測モデルの堅牢性と信頼性を高めるため,OOD学習手法の進歩について検討する。 我々は,OOD材料特性予測のためのCaltal Adversarial Learning (CAL)アルゴリズムを提案し,そのアルゴリズムを適用した。 さらに,従来の微調整の代替として,特定のOODデータセットに適応させるための微調整アプローチをターゲットとした逆学習を提案する。 本実験は,材料科学において一般的に発生する限られたサンプルを持つMLにおいて,CALアルゴリズムの有効性を実証するものである。 我々の研究は、OOD学習と材料資産予測の改善に向けた有望な方向性を示している。

The accurate prediction of material properties is crucial in a wide range of scientific and engineering disciplines. Machine learning (ML) has advanced the state of the art in this field, enabling scientists to discover novel materials and design materials with specific desired properties. However, one major challenge that persists in material property prediction is the generalization of models to out-of-distribution (OOD) samples,i.e., samples that differ significantly from those encountered during training. In this paper, we explore the application of advancements in OOD learning approaches to enhance the robustness and reliability of material property prediction models. We propose and apply the Crystal Adversarial Learning (CAL) algorithm for OOD materials property prediction,which generates synthetic data during training to bias the training towards those samples with high prediction uncertainty. We further propose an adversarial learning based targeting finetuning approach to make the model adapted to a particular OOD dataset, as an alternative to traditional fine-tuning. Our experiments demonstrate the success of our CAL algorithm with its high effectiveness in ML with limited samples which commonly occurs in materials science. Our work represents a promising direction toward better OOD learning and materials property prediction.
翻訳日:2024-08-20 21:29:47 公開日:2024-08-17
# ニューラルベース一般化ハマースタインモデルを用いた対向型自動話者検証攻撃

Malacopula: adversarial automatic speaker verification attacks using a neural-based generalised Hammerstein model ( http://arxiv.org/abs/2408.09300v1 )

ライセンス: Link先を確認
Massimiliano Todisco, Michele Panariello, Xin Wang, Héctor Delgado, Kong Aik Lee, Nicholas Evans, (参考訳) 本稿では,ニューラルネットワークを用いた一般化HammersteinモデルであるMalacopulaを提案する。 非線形プロセスを用いて音声の発話を変更することで、マラコプラはスプーフィング攻撃の有効性を高める。 このモデルは多項式関数の並列分岐と線形時間不変フィルタからなる。 対向最適化処理は、スプーフドから抽出された話者埋め込みとボナファイド発話との間の余弦距離を最小化する。 最近の3つのASVシステムとASVspoof 2019データセットを使用して実施された実験は、マラコプラが脆弱性を実質的なマージンで増加させることを示している。 しかし、音声品質は低下し、制御条件下で攻撃を効果的に検出することができる。 この発見は、ASVシステムを保護するために新たな脆弱性と設計防御を野生における敵の攻撃から識別する必要性を強調した。

We present Malacopula, a neural-based generalised Hammerstein model designed to introduce adversarial perturbations to spoofed speech utterances so that they better deceive automatic speaker verification (ASV) systems. Using non-linear processes to modify speech utterances, Malacopula enhances the effectiveness of spoofing attacks. The model comprises parallel branches of polynomial functions followed by linear time-invariant filters. The adversarial optimisation procedure acts to minimise the cosine distance between speaker embeddings extracted from spoofed and bona fide utterances. Experiments, performed using three recent ASV systems and the ASVspoof 2019 dataset, show that Malacopula increases vulnerabilities by a substantial margin. However, speech quality is reduced and attacks can be detected effectively under controlled conditions. The findings emphasise the need to identify new vulnerabilities and design defences to protect ASV systems from adversarial attacks in the wild.
翻訳日:2024-08-20 21:29:47 公開日:2024-08-17
# 境界駆動可積分スピン鎖の定常状態のBethe-Ansatz対角化

Bethe-ansatz diagonalization of steady state of boundary driven integrable spin chains ( http://arxiv.org/abs/2408.09302v1 )

ライセンス: Link先を確認
Vladislav Popkov, Xin Zhang, Carlo Presilla, Tomaz Prosen, (参考訳) 境界散逸中の可積分スピン鎖の非平衡定常状態 (NESS) は準粒子の項で説明できる。 NESSのスペクトルは、元の系の散逸投影ハミルトニアンによって記述された、関連するコヒーレント系に対するベーテ・アンザッツ方程式によって完全に説明される。 実効性のある$XXX$ および $XXZ$ の着飾ったエネルギー、すなわち U(1) 不変な対角境界場、および有効非対角境界場を持つ XXZ および XYZ モデルに対する明示的な解析式を求める。 いずれの場合も、散逸性ドレッシングは分散関係における余分な特異点を生成し、対応するコヒーレントモデルのスペクトルに対する非平衡定常スペクトルを強く修正する。 これは特に、ベーテ境界に局在したベーテ状態を支持するため、ベーテ状態のNESSスペクトルの抑制により、散逸支援エントロピーの減少につながる。

We find that the non-equilibrium steady state (NESS) of integrable spin chains undergoing boundary dissipation, can be described in terms of quasiparticles, with renormalized -- dissipatively dressed -- dispersion relation. The spectrum of the NESS is then fully accounted for by Bethe ansatz equations for a related coherent system, described by a dissipation-projected Hamiltonian of the original system. We find explicit analytic expressions for the dressed energies of $XXX$ and $XXZ$ models with effective, i.e., induced by the dissipation, diagonal boundary fields, which are U(1) invariant, as well as XXZ and XYZ models with effective non-diagonal boundary fields. In all cases, the dissipative dressing generates an extra singularity in the dispersion relation, which strongly modifies the nonequilibrium steady state spectrum with respect to the spectrum of the corresponding coherent model. This leads, in particular, to a dissipation-assisted entropy reduction, due to the suppression in the NESS spectrum of plain wave-type Bethe states in favor of Bethe states localized at the boundaries.
翻訳日:2024-08-20 21:29:47 公開日:2024-08-17
# CyberPal.AI: エキスパート駆動型サイバーセキュリティ命令によるLLMの強化

CyberPal.AI: Empowering LLMs with Expert-Driven Cybersecurity Instructions ( http://arxiv.org/abs/2408.09304v1 )

ライセンス: Link先を確認
Matan Levi, Yair Alluouche, Daniel Ohayon, Anton Puzanov, (参考訳) 大規模言語モデル(LLM)は、非常に高度な自然言語処理(NLP)を持ち、様々なアプリケーションに汎用性を提供する。 しかし、サイバーセキュリティのような複雑なドメイン固有のタスクへの応用は、しばしば重大な課題に直面している。 本研究では,SecKnowledgeとCyberPal.AIを紹介し,これらの課題に対処し,セキュリティ専門家のLSMを訓練する。 SecKnowledgeはドメイン知識駆動のサイバーセキュリティインストラクションデータセットで、多フェーズ生成プロセスを通じて、ドメインに蓄積された専門家の知識を巧みに設計する。 CyberPal.AIはSecKnowledgeを使用して微調整されたLLMのファミリーで、複雑なセキュリティ関連命令に応答し、従うことができるセキュリティ特化LLMの構築を目的としている。 さらに、SecKnowledge-Evalという、包括的で多様なサイバーセキュリティ評価ベンチマークを紹介します。 その結果,ベースラインモデルに対して最大24%の大幅な平均改善が達成され,専門家主導の命令データセット生成プロセスのメリットが強調された。 これらの発見は、AIベースのサイバーセキュリティアプリケーションの進歩に寄与し、脅威追跡と調査プロセスを強化するセキュリティ専門家のLLMへの道を開いた。

Large Language Models (LLMs) have significantly advanced natural language processing (NLP), providing versatile capabilities across various applications. However, their application to complex, domain-specific tasks, such as cyber-security, often faces substantial challenges. In this study, we introduce SecKnowledge and CyberPal.AI to address these challenges and train security-expert LLMs. SecKnowledge is a domain-knowledge-driven cyber-security instruction dataset, meticulously designed using years of accumulated expert knowledge in the domain through a multi-phase generation process. CyberPal.AI refers to a family of LLMs fine-tuned using SecKnowledge, aimed at building security-specialized LLMs capable of answering and following complex security-related instructions. Additionally, we introduce SecKnowledge-Eval, a comprehensive and diverse cyber-security evaluation benchmark, composed of an extensive set of cyber-security tasks we specifically developed to assess LLMs in the field of cyber-security, along with other publicly available security benchmarks. Our results show a significant average improvement of up to 24% over the baseline models, underscoring the benefits of our expert-driven instruction dataset generation process. These findings contribute to the advancement of AI-based cyber-security applications, paving the way for security-expert LLMs that can enhance threat-hunting and investigation processes.
翻訳日:2024-08-20 21:29:47 公開日:2024-08-17
# コンポーネントベース離散イベントシミュレーションモデルを用いた半導体製造のためのベンチマーク時系列データセット

A Benchmark Time Series Dataset for Semiconductor Fabrication Manufacturing Constructed using Component-based Discrete-Event Simulation Models ( http://arxiv.org/abs/2408.09307v1 )

ライセンス: Link先を確認
Vamsi Krishna Pendyala, Hessam S. Sarjoughian, Bala Potineni, Edward J. Yellig, (参考訳) 高計算装置の進歩は、スマート製造工場の改善と新しい理解と開発の必要性を高めている。 半導体チップの製造を設計し、設計し、製造し、運用するためには、シミュレーター付き離散イベントモデルが重要であることが示されている。 拡散、注入、リソグラフィー装置は、フィードフォワードとフィードバック接続のために複雑なプロセスを持つ。 工場モデルのシミュレーションから収集されたデータセットは、貴重な機械学習モデルを生成するという約束を持っている。 データベースのモデルを代理するので、それらの実行は物理ベースのモデルと比較して非常に効率的である。 代理モデルの開発には, 精密な構造と正確な挙動を持つ工場モデルに基礎を置く, 公開されているベンチマークシミュレーションモデルが有用である。 そこで本研究では,Intel半導体製造工場のベンチマークモデルに基づいて,データセットを考案し,構築する。 このモデルはParallel Discrete-Event System Specificationを用いて形式化され、DEVS-Suiteシミュレータを使って実行される。 時系列データセットは離散時間軌道を用いて構築される。 このデータセットはさらに分析され、ベースラインの単変量および多変量機械学習モデルの開発に使用される。 このデータセットは、フォーマルでスケーラブルなコンポーネントベースの離散イベントモデルとシミュレーションに基づいた行動分析のために、機械学習コミュニティでも利用することができる。

Advancements in high-computing devices increase the necessity for improved and new understanding and development of smart manufacturing factories. Discrete-event models with simulators have been shown to be critical to architect, designing, building, and operating the manufacturing of semiconductor chips. The diffusion, implantation, and lithography machines have intricate processes due to their feedforward and feedback connectivity. The dataset collected from simulations of the factory models holds the promise of generating valuable machine-learning models. As surrogate data-based models, their executions are highly efficient compared to the physics-based counterpart models. For the development of surrogate models, it is beneficial to have publicly available benchmark simulation models that are grounded in factory models that have concise structures and accurate behaviors. Hence, in this research, a dataset is devised and constructed based on a benchmark model of an Intel semiconductor fabrication factory. The model is formalized using the Parallel Discrete-Event System Specification and executed using the DEVS-Suite simulator. The time series dataset is constructed using discrete-event time trajectories. This dataset is further analyzed and used to develop baseline univariate and multivariate machine learning models. The dataset can also be utilized in the machine learning community for behavioral analysis based on formalized and scalable component-based discrete-event models and simulations.
翻訳日:2024-08-20 21:19:42 公開日:2024-08-17
# 量子コンピュータにおける分光特性に対する分子量子線形応答の理解と緩和

Understanding and mitigating noise in molecular quantum linear response for spectroscopic properties on quantum computers ( http://arxiv.org/abs/2408.09308v1 )

ライセンス: Link先を確認
Karl Michael Ziems, Erik Rosendahl Kjellgren, Stephan P. A. Sauer, Jacob Kongsted, Sonia Coriani, (参考訳) 量子化学の指数的スケーリングを回避するための量子コンピューティングの約束は、量子アーキテクチャのための化学アルゴリズムの開発競争を引き起こした。 しかし、ほとんどの研究は、現在のノイズの多いデバイスの影響を言うまでもなく、量子独立ショットノイズを無視している。 本稿では、シミュレーションされたフォールトトレラント量子コンピュータと現在の量子ハードウェアの分光特性を求める量子線形応答(qLR)理論の包括的な研究について述べる。 この研究は、量子アルゴリズムにおけるノイズの起源を分析し予測するための新しいメトリクスを導入し、アンザッツに基づく誤差軽減手法を提案し、測定コストとノイズの低減におけるパウリ貯蓄の影響を強調した。 最大cc-pVTZ基底集合を用いたハードウェアの結果は,古典的マルチコンフィグレーション手法の精度を指標として,量子ハードウェア上での吸収スペクトルを得るための原理実証として機能する。 ハードウェアエラー率と測定速度の大幅な改善は、量子化学を概念実証から現場における実際の影響まで引き上げるために必要であることを示す。

The promise of quantum computing to circumvent the exponential scaling of quantum chemistry has sparked a race to develop chemistry algorithms for quantum architecture. However, most works neglect the quantum-inherent shot noise, let alone the effect of current noisy devices. Here, we present a comprehensive study of quantum linear response (qLR) theory obtaining spectroscopic properties on simulated fault-tolerant quantum computers and present-day near-term quantum hardware. This work introduces novel metrics to analyze and predict the origins of noise in the quantum algorithm, proposes an Ansatz-based error mitigation technique, and highlights the significant impact of Pauli saving in reducing measurement costs and noise. Our hardware results using up to cc-pVTZ basis set serve as proof-of-principle for obtaining absorption spectra on quantum hardware in a general approach with the accuracy of classical multi-configurational methods. Importantly, our results exemplify that substantial improvements in hardware error rates and measurement speed are necessary to lift quantum computational chemistry from proof-of-concept to an actual impact in the field.
翻訳日:2024-08-20 21:19:42 公開日:2024-08-17
# 焦点を絞る:事前学習モデルのための学習最適化

Narrowing the Focus: Learned Optimizers for Pretrained Models ( http://arxiv.org/abs/2408.09310v1 )

ライセンス: Link先を確認
Gus Kristiansen, Mark Sandler, Andrey Zhmoginov, Nolan Miller, Anirudh Goyal, Jihwan Lee, Max Vladymyrov, (参考訳) 現代のディープラーニングでは、モデルはオプティマイザを使用して勾配更新を適用することで学習され、様々な統計に基づいて更新を変換する。 最適化者は手作業で設計されることが多く、ハイパーパラメータをチューニングすることがトレーニングプロセスの重要な部分です。 学習されたオプティマイザはいくつかの最初の約束を示してきたが、一般にあらゆる問題に適用可能な一般的な最適化メカニズムとして失敗している。 一般的なオプティマイザを学ぶ代わりに、特定のトレーニング環境に専門化します。 ベースオプティマイザの集合によって提供される更新方向の層特異的な線形結合を学習し,その戦略を特定のモデルとデータセットに効果的に適応させる,新しいオプティマイザ手法を提案する。 画像分類タスクで評価すると、この特殊オプティマイザはAdamのような従来のオフ・ザ・シェルフ手法と既存の一般的な学習オプティマイザの両方よりも大幅に優れている。 さらに、モデル初期化に関する堅牢な一般化、目に見えないデータセットの評価、メタトレーニングの地平線を超えたトレーニング期間を示す。

In modern deep learning, the models are learned by applying gradient updates using an optimizer, which transforms the updates based on various statistics. Optimizers are often hand-designed and tuning their hyperparameters is a big part of the training process. Learned optimizers have shown some initial promise, but are generally unsuccessful as a general optimization mechanism applicable to every problem. In this work we explore a different direction: instead of learning general optimizers, we instead specialize them to a specific training environment. We propose a novel optimizer technique that learns a layer-specific linear combination of update directions provided by a set of base optimizers, effectively adapting its strategy to the specific model and dataset. When evaluated on image classification tasks, this specialized optimizer significantly outperforms both traditional off-the-shelf methods such as Adam, as well as existing general learned optimizers. Moreover, it demonstrates robust generalization with respect to model initialization, evaluating on unseen datasets, and training durations beyond its meta-training horizon.
翻訳日:2024-08-20 21:19:42 公開日:2024-08-17
# オープンソースのアメリカ手話フィンガーペル認識とセマンティック詩検索インタフェース

An Open-Source American Sign Language Fingerspell Recognition and Semantic Pose Retrieval Interface ( http://arxiv.org/abs/2408.09311v1 )

ライセンス: Link先を確認
Kevin Jose Thomas, (参考訳) 本稿では,より先進的な手話翻訳システムへのステップストーンとして機能することを目的とした,アメリカ手話指先認識とセマンティックポーズ検索のためのオープンソースインタフェースを提案する。 畳み込みニューラルネットワークとポーズ推定モデルを組み合わせることで、このインタフェースは2つのモジュラーコンポーネントを提供する。 システムはアクセシビリティが高く、ユーザフレンドリで、背景、照明、肌のトーン、手の大きさなど様々な環境条件下でリアルタイムで機能するように設計されている。 我々は、モデルアーキテクチャの技術的な詳細、ワイルドなアプリケーション、および現実世界の消費者アプリケーションの将来的な拡張について論じる。

This paper introduces an open-source interface for American Sign Language fingerspell recognition and semantic pose retrieval, aimed to serve as a stepping stone towards more advanced sign language translation systems. Utilizing a combination of convolutional neural networks and pose estimation models, the interface provides two modular components: a recognition module for translating ASL fingerspelling into spoken English and a production module for converting spoken English into ASL pose sequences. The system is designed to be highly accessible, user-friendly, and capable of functioning in real-time under varying environmental conditions like backgrounds, lighting, skin tones, and hand sizes. We discuss the technical details of the model architecture, application in the wild, as well as potential future enhancements for real-world consumer applications.
翻訳日:2024-08-20 21:19:42 公開日:2024-08-17
# DyFFPAD:指先提示検出のための畳み込み・手技的特徴の動的融合

DyFFPAD: Dynamic Fusion of Convolutional and Handcrafted Features for Fingerprint Presentation Attack Detection ( http://arxiv.org/abs/2308.10015v4 )

ライセンス: Link先を確認
Anuj Rai, Parsheel Kumar Tiwari, Jyotishna Baishya, Ram Prakash Sharma, Somnath Dey, (参考訳) 自動指紋認識システムは、国境や商業用途を含む幅広い地域への展開により、プレゼンテーション攻撃の脅威に悩まされている。 ユーザの指紋を同意の有無にかかわらず偽造することにより、提示攻撃を行うことができる。 本稿では,CNNと手工芸品の動的アンサンブルを用いて,実生検出コンペティションの既知および未知の物質プロトコルにおける提示攻撃を検出する。 提案したプレゼンテーション攻撃検出モデルは,深層CNNと手作り特徴技術の両方の機能を活用し,個々の性能よりも優れた性能を示す。 我々は、2015年、2017年、2019年のLiveness Detection Competitionで提案したベンチマークデータベースの手法を検証し、それぞれ96.10\%、96.49\%、94.99\%の精度を得た。 提案手法は,分類精度の点で最先端の手法より優れている。

Automatic fingerprint recognition systems suffer from the threat of presentation attacks due to their wide range of deployment in areas including national borders and commercial applications. A presentation attack can be performed by creating a spoof of a user's fingerprint with or without their consent. This paper presents a dynamic ensemble of deep CNN and handcrafted features to detect presentation attacks in known-material and unknown-material protocols of the liveness detection competition. The proposed presentation attack detection model, in this way, utilizes the capabilities of both deep CNN and handcrafted features techniques and exhibits better performance than their individual performances. We have validated our proposed method on benchmark databases from the Liveness Detection Competition in 2015, 2017, and 2019, yielding overall accuracy of 96.10\%, 96.49\%, and 94.99\% on them, respectively. The proposed method outperforms state-of-the-art methods in terms of classification accuracy.
翻訳日:2024-08-20 13:17:05 公開日:2024-08-17
# Kraken: 効率的なマルチデバイス推論のための並列トランスフォーマー

Kraken: Inherently Parallel Transformers For Efficient Multi-Device Inference ( http://arxiv.org/abs/2408.07802v2 )

ライセンス: Link先を確認
Rohan Baskar Prabhakar, Hengrui Zhang, David Wentzlaff, (参考訳) 大規模なTransformerネットワークは、低推論レイテンシがエンドユーザエクスペリエンスを改善し、新しいアプリケーションを可能にするような設定で、ますます利用されている。 しかし、自己回帰推論は資源集約的であり、効率のために並列性を必要とする。 並列通信は高価であり、ハードウェアリソースが未使用のフェーズを表す。 これを軽減するため、クラケンはマルチデバイスシステムにおける効率的な推論のために既存のテンソル並列化スキームを補完するために設計された標準トランスフォーマーアーキテクチャの進化である。 一定の層内モデル並列性を導入することで、計算処理と重なり合うようにし、レイテンシを低減し、ハードウェア利用を増大させることができる。 OpenWebTextでトレーニングすると、Krakenモデルは標準のTransformerと同じような難易度に達し、SuperGLUEベンチマークで評価すると言語モデリング能力も維持される。 重要なのは、TensorRT-LLMエンジンを使用したマルチGPUシステムでのテストにおいて、Krakenはモデルサイズ、コンテキスト長、テンソル並列性の度合いを平均35.6%高速化する。

Large Transformer networks are increasingly used in settings where low inference latency can improve the end-user experience and enable new applications. However, autoregressive inference is resource intensive and requires parallelism for efficiency. Parallelism introduces collective communication that is both expensive and represents a phase when hardware resources are underutilized. Towards mitigating this, Kraken is an evolution of the standard Transformer architecture that is designed to complement existing tensor parallelism schemes for efficient inference on multi-device systems. By introducing a fixed degree of intra-layer model parallelism, the architecture allows collective operations to be overlapped with compute, decreasing latency and increasing hardware utilization. When trained on OpenWebText, Kraken models reach a similar perplexity as standard Transformers while also preserving their language modeling capabilities when evaluated on the SuperGLUE benchmark. Importantly, when tested on multi-GPU systems using TensorRT-LLM engines, Kraken speeds up Time To First Token by a mean of 35.6% across a range of model sizes, context lengths, and degrees of tensor parallelism.
翻訳日:2024-08-20 11:11:17 公開日:2024-08-17
# RAGChecker:Retrieval-Augmented Generationを診断するためのきめ細かいフレームワーク

RAGChecker: A Fine-grained Framework for Diagnosing Retrieval-Augmented Generation ( http://arxiv.org/abs/2408.08067v2 )

ライセンス: Link先を確認
Dongyu Ru, Lin Qiu, Xiangkun Hu, Tianhang Zhang, Peng Shi, Shuaichen Chang, Cheng Jiayang, Cunxiang Wang, Shichao Sun, Huanyu Li, Zizhao Zhang, Binjie Wang, Jiarong Jiang, Tong He, Zhiguo Wang, Pengfei Liu, Yue Zhang, Zheng Zhang, (参考訳) 検索型拡張生成(RAG)は,外部知識を活用する上で有望な能力を示すが,RAGのモジュール性,長期応答の評価,測定の信頼性などにより,RAGシステムの総合的な評価はいまだに困難である。 本稿では,検索モジュールと生成モジュールの両方に対して,一連の診断指標を組み込んだ詳細な評価フレームワークであるRAGCheckerを提案する。 メタ評価は、RAGCheckerが他の評価指標よりも人間の判断との相関が著しく優れていることを検証している。 RAGCheckerを用いて、8つのRAGシステムを評価し、その性能を詳細に分析し、RAGアーキテクチャの設計選択における洞察に富んだパターンとトレードオフを明らかにする。 RAGCheckerのメトリクスは、より効果的なRAGシステムの開発において研究者や実践者を導くことができる。 この研究はhttps://github.com/amazon-science/RAGChecker.comで公開されている。

Despite Retrieval-Augmented Generation (RAG) showing promising capability in leveraging external knowledge, a comprehensive evaluation of RAG systems is still challenging due to the modular nature of RAG, evaluation of long-form responses and reliability of measurements. In this paper, we propose a fine-grained evaluation framework, RAGChecker, that incorporates a suite of diagnostic metrics for both the retrieval and generation modules. Meta evaluation verifies that RAGChecker has significantly better correlations with human judgments than other evaluation metrics. Using RAGChecker, we evaluate 8 RAG systems and conduct an in-depth analysis of their performance, revealing insightful patterns and trade-offs in the design choices of RAG architectures. The metrics of RAGChecker can guide researchers and practitioners in developing more effective RAG systems. This work has been open sourced at https://github.com/amazon-science/RAGChecker.
翻訳日:2024-08-20 11:11:17 公開日:2024-08-17
# BAM! まさにそのように - 専門家の混ざり合わせのためのシンプルで効率的なパラメータアップサイクル

BAM! Just Like That: Simple and Efficient Parameter Upcycling for Mixture of Experts ( http://arxiv.org/abs/2408.08274v2 )

ライセンス: Link先を確認
Qizhen Zhang, Nikolas Gritsch, Dwaraknath Gnaneshwar, Simon Guo, David Cairuz, Bharat Venkitesh, Jakob Foerster, Phil Blunsom, Sebastian Ruder, Ahmet Ustun, Acyr Locatelli, (参考訳) Mixture of Experts (MoE)フレームワークは、高密度モデルよりも優れたパフォーマンスのため、大規模言語モデルの一般的なアーキテクチャとなっている。 しかし、大規模な体制でゼロからMoEを訓練することは違法に高価である。 既存の方法は、複数の密集したエキスパートモデルを個別にトレーニングし、それらをMoEを初期化することで、これを緩和する。 これは専門家のフィードフォワードネットワーク(FFN)を使用して、他のパラメータをマージしながらMoEの専門家を初期化する。 しかし、この手法は高密度モデルパラメータの再利用をFFN層のみに制限し、それによってこれらのモデルをMoEに"アップサイクル"する場合の利点を制約する。 本稿では,BAM(Branch-Attend-Mix)を提案する。 BAMは、FFNを使ってMoE層を初期化するだけでなく、専門家の注意パラメータをソフトなMixture of Attention (MoA)層に初期化する。 注意パラメータを上昇させる2つの方法を探る。 1) 最高のモデル性能のためのすべての注意パラメータを含む密集モデルから注意専門家を分離する。 2) 推論効率を向上させるために、すべての専門家間でキーとバリューパラメータを共有する。 効率をさらに向上するため、我々はMoEsに並列アテンショントランスフォーマーアーキテクチャを導入し、アテンションの専門家とFFNの専門家を並列に計算できるようにした。 5億9000万から20億のパラメータのシードモデルに対する実験により、BAMは同じ計算とデータ制約の中で、複雑度と下流のタスクパフォーマンスの両方においてベースラインを超えていることが示された。

The Mixture of Experts (MoE) framework has become a popular architecture for large language models due to its superior performance over dense models. However, training MoEs from scratch in a large-scale regime is prohibitively expensive. Existing methods mitigate this by pre-training multiple dense expert models independently and using them to initialize an MoE. This is done by using experts' feed-forward network (FFN) to initialize the MoE's experts while merging other parameters. However, this method limits the reuse of dense model parameters to only the FFN layers, thereby constraining the advantages when "upcycling" these models into MoEs. We propose BAM (Branch-Attend-Mix), a simple yet effective method that addresses this shortcoming. BAM makes full use of specialized dense models by not only using their FFN to initialize the MoE layers but also leveraging experts' attention parameters fully by initializing them into a soft-variant of Mixture of Attention (MoA) layers. We explore two methods for upcycling attention parameters: 1) initializing separate attention experts from dense models including all attention parameters for the best model performance; and 2) sharing key and value parameters across all experts to facilitate for better inference efficiency. To further improve efficiency, we adopt a parallel attention transformer architecture to MoEs, which allows the attention experts and FFN experts to be computed concurrently. Our experiments on seed models ranging from 590 million to 2 billion parameters demonstrate that BAM surpasses baselines in both perplexity and downstream task performance, within the same computational and data constraints.
翻訳日:2024-08-20 11:11:17 公開日:2024-08-17